Sélection de variables et Feature engineering

Par Blaise Ngonmang, AXA/Anorak

Les variables sont les ingrédients de base des modèles de Machine Learning. Leur choix est souvent crucial au bon fonctionnement des algorithmes. Les deux situations Suivantes sont généralement rencontrées en pratique : on a de nombreux attributs et on doit en choisir uniquement les plus significatifs (sélection de variables) ou bien, on a des données qui ne sont pas directement utilisables par les modèles (par exemple, des textes, des images ou des sons) et on doit donc construire des variables à partir de ses données sources (Feature Engineering).

Nous présenterons les méthodes de sélection de variables classiques, les techniques régularisation. Nous aborderons ensuite les méthodes dédiées à la sélection de variables. Les méthodes manuelles de Feature Engineering et leur limites seront ensuite étudiées, puis les méthodes modernes d’apprentissage de features basées sur les approches de l’apprentissage profond (Deep Learning).

Les travaux pratiques de cette partie se ferons grâce à Tensorflow (https://www.tensorflow.org), un système Open Source très utilisé dans l’industrie et les laboratoires de recherche.

Blaise NGONMANG est Docteur en Informatique des universités de Paris 13 et de Yaoundé I. Sa thèse a porté sur l’analyse de communautés dans les grands réseaux en utilisant des approches de Machine Learning. Après plusieurs années comme Data Scientist Senior au sein du Groupe AXA, Il occupe aujourd’hui il occupe aujourd’hui le poste de Chief Data Officer au sein d’Anorak Technologies, crée par Kamet, la Startup Studio du Groupe AXA.