Descriptions des cours

Algorithme EM (Expectation – Maximization)

Partie 1 : Pré-requis pour l’EM

  • Maximum de vraisemblance
  • Espérance conditionnelle
  • Simulation de v. a. : A quoi cela sert ? les approches classiques de simulation (inverse, aceptation rejet,…), les algorithme de type MCMC

Partie 2 : EM

  • Contexte de l’algorithme EM
  • Principe de l’algorithme EM
  • Propriétés mathématiques de l’algorithme EM
  • Quelques variantes de l’algorithme EM
  • Quelques Applications de l’algorithme EM (Données censurées,…)
  • Extension de l’algorithme EM


Par
Patrice Takam Soh, Université de Yaoundé I

Patrice Takam Soh est enseignant au département de Mathématique de l’Université de Yaoundé I où il enseigne majoritairement les cours de Probabilités et de Statistiques. Il a commencé ses premier pas dans la recherche en Statistique Appliquée, principalement sur les modèles statistiques appliquées en épidémiologie végétales. Mais très intéressé par les aspects théoriques de la Statistiques, il s’est beaucoup investi sur l’Analyse Stochastique et il travaille actuellement sur l’analyse statistique et numérique des modèles stochastiques issus de la Biologie ou de la Finance.

Classification des trajectoires et applications en santé

Par Jules Brice Tchatchueng-Mbougua, Centre Pasteur du Cameroun

L’identification des trajectoires typiques de réponse des individus à un traitement ou médicament est une information capitale, qui permet aux décideurs de santé publique de
choisir des stratégies thérapeutiques pour faire face à une maladie. Nous introduirons dans ce cours, la notion de trajectoire latente comme outils d’identification des trajectoires
typiques d’évolution sur des données longitudinales. Le cours s‘articulera de la façon suivante :

  1. Approche de modélisation classique des données longitudinales ;
  2. Formalisation du modèle à trajectoire latente, estimation des paramètres et algorithmes ;
  3. Application à l’identification des trajectoires typiques d’évolution microfilarienne des personnes infectées par la loase traitées par l’Ivermectin.

Jules Brice Tchatchueng-Mbougua est un biostatisticien Camerounais, actuellement chercheur au Centre Pasteur du Cameroun. Il obtient sa thèse de Doctorat/PhD en 2012, en cotutelle internationale à L’Université de Yaoundé I et l’Université de Montpellier 1. Il intervient dans les enseignements de la Biostatistique à l’Université de Yaoundé 1 depuis près de 10 ans. Ses principaux travaux de recherche portent sur : la modélisation des données longitudinales ; les méthodes d’imputation des données manquantes ; Les tests de non-
infériorité avec marge de non-infériorité variable. Ses travaux de recherche trouvent leurs applications dans le domaine de la santé publique, notamment l’évaluation de la réponse au traitement des personnes atteintes de pathologie chroniques (VIH/SIDA, Loase).

Introduction à l’apprentissage artificiel en santé

Par Jean-Daniel Zucker, IRD – UMMISCO

  • Introduction
  • Les types de problèmes d’apprentissage en santé et bio-informatique
  • Préparation des données : sélection de variables, imputation et outliers
  • Les tâches de classification
  • Les tâches de stratification (clustering)
  • Les méthodes de validations
  • Applications dans le domaine des maladies cardiométaboliques

Prof. Jean-Daniel Zucker got his PhD. in 1996 in Machine Learning from Paris 6 University where he became an associate professor. In 2002, he became Full Professor of Computer Science at Paris 13 University where he started a laboratory on Medical Informatics and Bioinformatics (LIM&BIO) in which he was heading a team on Prediction Analysis for Transcriptomics Data. In 2008 he became a Senior Researcher at the National institute of Research for development (IRD) on the themes of Data Mining and Decentralized AI for Complex Systems modeling. He is now the director of the Mathematical and Computer Modeling of Complex Systems Laboratory UMMISCO (IRD & University Paris 6) that counts 60 permanent staff in France, Vietnam, Morocco, Senegal and Cameroun. He is also heading the Bioinformatics team Karine Clément’s team (NutriOmics Nutrition and obesity systemic approaches) which has been involved in genetic and functional genomics aspects of human obesity. His research is focused on AI in finding approaches for the automatic
construction of predictive models (supervised learning) or characteristic model (unsupervised learning or “clustering”). His main field of application is today Metagenomics of the gut microbiota and contributed to several European Networks in genetics and functional genomics (Diogenes, METAHIT, METACARDIS, …). His research is developed through International collaboration with Vietnam, China, Taiwan, USA, Italy. He has been posted in Vietnam for five years. Total publications > 240.

Modèles neuronaux et bayésiens pour le traitement du langage naturel

Par Laurent Besacier, IMAG

Téléchargements et installations nécessaires pour le TP

L’énoncé du TP est accessible sur ce lien 

Nous utiliserons une boîte à outils nommée OpenNMT pour cela.

Vous devez effectuer les opérations suivantes avant le TP:

  1. créer un répertoire pour votre TP mkdir TP-NMT
  2. cloner le projet OpenNMT dans ce répertoire git clone https://github.com/OpenNMT/OpenNMT-py.git
  3. installer quelques packages pip3 install –user -r requirements.txt ou pip install –user -r requirements.txt
  4. récupérer les données nécessaires pour le TP ici et les copier dans votre répertoire TP-NMT(nous allons construire un système de traduction du français vers l’anglais)

Ce cours abordera la conception et l’apprentissage de modèles pour traitement des données textuelles. Il comportera un exposé théorique et des activités pratiques (labs).

Prof. Laurent Besacier defended his PhD thesis (Univ. Avignon, France) in Computer Science in 1998 on “A parallel model for automatic speaker recognition”. Since 1999 he is an associate professor (full professor since 2009) in Computer Science at Univ. Grenoble Alpes (he was formerly at U. Joseph Fourier). From September 2005 to October 2006, he was an invited scientist at IBM Watson Research Center (NY, USA) working on Speech to Speech Translation. His research interests are mainly related to multilingual speech recognition and machine translation. Laurent Besacier has published >150 papers in conferences and journals related to speech and language processing. He supervised or co-supervised 20 PhDs and 30 Masters. He has been involved in several national and international projects as well as several evaluation campaigns. Since October 2012, Laurent Besacier is a junior member of the
“Institut Universitaire de France” with a project entitled “From under-resourced languages processing to machine translation: an ecological approach”.

Analyse de réseaux et de flots de liens

Par Matthieu Latapy, CNRS

Pré-requis : Familiarité avec les notations mathématiques élémentaires (notamment ensemblistes), une expérience en programmation (idéalement en Python ou en C), une initiation à l’algorithmique de base (structure de données, algorithmes, complexité simples) et idéalement quelques notions sur les graphes (mais elles seront ré-introduites). Le cours reposera notamment sur l’article https://arxiv.org/abs/1710.04073

Les données relationnelles, comme par exemple les liens d’amitié entre individus, les citations entre documents ou les contrats entre entreprises, sont omniprésentes et jouent un rôle crucial dans de nombreux contextes. Décrire de telles données soulève des questions spécifiques, pour lesquelles un formalisme dédié, appelé théorie des graphes ou science des réseaux suivant les contextes, a été développé. Un premier objectif de ce cours sera de poser les bases de ces approches afin de fournir aux participants les outils théoriques et pratiques pour l’analyse de réseaux. Mais en pratique les données relationnelles ont souvent une nature profondément temporelle. C’est le cas par exemple des interactions entre individus (rencontres, échanges de messages, appels téléphoniques), des transactions financières (entre entreprises, achats en ligne), de la mobilité (contacts entre individus, déplacement entre lieux), et de nombreux autres. Nous verrons comment la théorie des graphes a été étendue en une théorie des flots de liens pour intégrer les composantes structurelles et temporelles de telles données.

Matthieu Latapy est Directeur de Recherche au CNRS, responsable du département Systèmes Complexes du LIP6 – CNRS et Sorbonne Université. Il a travaillé sur les questions soulevées par toutes sortes de réseaux complexes comme l’internet, le web, les échanges pair-à-pair ou les réseaux sociaux. Il a introduit récemment le concept de flot de liens, qui capture la nature à la fois structurelle et temporelle des interactions, et désormais il travaille essentiellement sur ce sujet. Ses objets d’étude sont typiquement le trafic réseau, les transactions financières, la mobilité des individus, les interactions sociales, et les phénomènes de diffusion. Il est membre des comités directeurs du LIP6 et de l’ISC-PIF, et a publié de nombreux articles dans des journaux et conférences internationaux de premier rang en informatique, physique, mathématiques et sociologie.

Représentation des graphes et réseau de neurones profonds

Par Norbert Tsopze, Université de Yaoundé I

L’objectif est l’application du deep learning au traitement des graphes plus précisément à la la représentation vectorielle des noeuds ou des sous graphes. Les réseaux de neurones comme d’autres approches prennent en entrée les vecteurs de données. Un graphe ne se présente pas comme un ensemble de vecteurs mais comme les sommets liés entre eux. Les techniques utilisées actuellement consistent à utiliser les heuristiques pour représenter les noeuds en faisant une extraction manuelle des caractéristiques permettant de représenter chaque noeuds. Dans ce cours, il sera question d’utiliser les techniques proposées par le pré apprentissage des réseaux de neurones profonds pour fabriquer des représentations des noeuds et utiliser ces représentation dans le processus de classification. Parmi ces techniques, nous nous intéresserons aux auto encodeurs simples et les auto encodeurs empilés. Ces techniques prennent en entrée la structure du graphe et en sortie, fournissent une représentation vectorielle.

Norbert Tsopze est Docteur en Informatique, enseignant-chercheur au département d’informatique de l’Université de Yaoundé I où il dispense des enseignements en intelligence artificielle et fouille de données.

Outils informatiques pour la science des données : Python

Par Ivan Keller, AXA

Afin de pouvoir tirer le meilleur parti du cours Outils informatiques pour la science des données : Python, il vous est recommandé de connaître les bases du langage Python même si celle-ci seront rappelées rapidement en première partie du cours.

Il est vivement recommandé d’assister au cours muni d’un ordinateur portable sur lequel Python (version 3) est installé.

Au besoin, vous pouvez suivre les instructions ici : https://github.com/ivankeller/ema dans la partie Installation de Python.

Toutefois, si vous rencontrez des difficultés nous tenterons de vous aider en début de cours afin que vous puissiez participer pleinement aux sessions pratiques.

Si vous n’avez pas d’expérience nous vous demandons de vous former par vous-mêmes. Pour ce faire nous vous recommandons les références suivantes :

Vous trouverez de nombreuses autres références en français ici : https://wiki.python.org/moin/FrenchLanguag et en anglais ici : https://wiki.python.org/moin/BeginnersGuide/Programmers

Ce cours, basé sur des exposés associés à des démonstrations et travaux pratiques, permettra aux étudiants d’apprendre à utiliser les outils Open Source de la science des données, et notamment l’éco-système autour du langage Python.

  • Rappels sur les bases de Python
  • Numpy et SciPy
  • Utilisation des notebooks Jupyter
  • Visualisations avec Matplotlib
  • Apprentissage et Machine Learning avec scikit-learn (http://scikit-learn.org )

Ivan Keller a un master de Probabilités et Statistiques de l’Université Pierre et Marie Curie et un master d’Intelligence Artificielle de l’Université Catholique de Louvain (KU Leuven. Il a travaillé sur l’analyse des réseaux sociaux ainsi que sur les systèmes de recommandation dans le cadre de collaborations avec le L2TI de l’Université Paris Nord. Depuis deux ans, il est data-scientist chez Axa Belgium où il contribue à développer les techniques d’apprentissage statistique dans l’assurance : modèles de risque, optimisation pour l’aide à la décision, classification automatique des courriels. Dans le cadre de ses recherches et du développement de projets de l’entreprise il utilise et maîtrise les outils état de l’art et open source du domaine.

Outils pour le traitement des données massives

Par Blaise Ngonmang, AXA/Anorak

  • Algorithmique dans le paradigme Map Reduce et application avec Apache
  • Hadoop ;
  • Construction de requêtes de type SQL avec Hive ;
  • Création de script distribué avec Pig ;
  • Création de modèles de machine learning distribués avec Spark ;
  • Algorithmique de graphes distribués avec Spark.

Blaise NGONMANG est Docteur en Informatique des universités de Paris 13 et de Yaoundé I. Sa thèse a porté sur l’analyse de communautés dans les grands réseaux en utilisant des approches de Machine Learning. Après plusieurs années comme Data Scientist Senior au sein du Groupe AXA, Il occupe aujourd’hui il occupe aujourd’hui le poste de Chief Data Officer au sein d’Anorak Technologies, crée par Kamet, la Startup Studio du Groupe AXA.

Apprentissage par modèles de Markov cachés et applications

Par Sylvain Iloga, Université de Maroua – UMMISCO

Afin de suivre aisément ce cours, il est conseillé de se documenter préalablement sur:

     – Les éléments de base sur les processus stochastiques.

– La notion de chaîne (séquence) de Markov et de MMC

     – Les 3 principaux algorithmes relatifs aux MMC (Forward-Backward, Viterbi, Baum-Welch)

     – Les techniques de comparaison de deux MMC

 Ci-dessous quelques références intéressantes

    – RABINER, Lawrence R. “A tutorial on hidden Markov models and selected applications in speech recognition”. Proceedings of the IEEE, 1989, vol. 77, no 2, p. 257-286.

    – http://www2.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-ISI/ISI-10/livre2-v3(ac)-ch-12.pdf

    – http://webfractales.free.fr/site_fractale/fichier/Rapport_MMC_BaumWelch.pdf
    – SAHRAEIAN, Sayed Mohammad Ebrahim et YOON, Byung-Jun. “A novel low-complexity HMM similarity measure”.  IEEE Signal Processing Letters, 2011, vol. 18, no 2, p. 87-90.

Bases théoriques

  • Définition d’un modèle de Markov caché (MMC).
  • Probabilité d’observation d’une séquence sachant un MMC: Algorithme Forward- backward.
  • Entrainement d’un MMC pour l’apprentissage d’une ou de plusieurs séquences: Algorithme de Baum-Welch.
  • Similarité entre deux MMC.

Pratique et applications

  • Comparaison d’ensembles finis d’histogrammes et applications.
  • Comparaison d’ensembles finis d’arbres et de graphes et applications.

Sylvain Iloga a obtenu son Diplôme d’Etudes Approfondies en Informatique en 2008 à l’Université de Yaoundé 1 (UY1). Depuis Janvier 2010, il exerce comme enseignant au département d’Informatique de l’école normale supérieure de Maroua. En Janvier 2018, il a soutenu sa thèse de doctorat PhD, sous la codirection des professeurs Maurice Tchuenté de l’UY1 et Olivier Romain de l’Université de Cergy-Pontoise (UCP). Par ailleurs, il effectue actuellement sa deuxième année de stage de recherche et d’enseignement au département de Génie Electronique et Informatique Industrielle de l’IUT de Cergy-Pontoise. Ses recherches portent principalement sur la conception des taxonomies en vue d’une classification hiérarchique, sur la fouille de données séquentielles, sur l’apprentissage à l’aide des modèles de Markov cachés, et sur l’implémentation d’architectures reconfigurables basées sur la technologie FPGA.

Motifs fréquents, arbres, bagging, boosting

Par Maurice Tchuente, Université de Yaoundé I -UMMISCO

Afin de pouvoir tirer le meilleur parti du cours Motifs fréquents, Arbres de décision , bagging, boosting il vous est recommandé de consulter les chapitres 3, 4 et 5 du livre disponible sur le lien suivant :

Introduction to Data Mining – users.cs.umn.edu

Les deux références suivantes vous seront aussi utiles :

1) Pour l’algorithme de calcul des itemsets fréquents : An Efficient Algorithm for Enumerating Closed Patterns in Transaction Databases,Takeaki Uno, Tatsuya Asai, +1 author Hiroki Arimura Published in Discovery Science 2004, DOI:10.1007/978-3-540-30214-8_2

2) Pour une application du calcul des sous-suites fréquentes à la reconnaissance des genres musicaux : Iloga, S., Romain, O., & Tchuenté, M. (2018). A sequential pattern mining approach to design taxonomies for hierarchical music genre recognition. Pattern Analysis and Applications, 21(2), 363-380,. https://link.springer.com/article/10.1007/s10044-016-0582-7

Les motifs fréquents contenus dans les grandes bases de données sont très utiles dans la pratique. Par exemple ils permettent d’analyser les comportements d’achat des clients. Par ailleurs les arbres de décision constituent des méthodes de base en classification. Le cours s’attachera à présenter ces méthodes en insistant sur les modèles mathématiques sous-jacents non seulement à leur conception, mais aussi à leur évaluation.

  1. Itemsets fréquents
    • Calcul des itemsets fréquents par Apriori
    • Génération des règles d’association
    • Calcul des itemsets fréquents fermés
  2. Sous-suites fréquentes
    • Calcul des sous-suites fréquentes
    • Application à la reconnaissance des genres musicaux
  3. Arbres de décision
  4. Bagging
  5. Boosting

Maurice Tchuente est Professeur à l’Université de Yaoundé I. Il a travaillé avec E . Viennet et B. Kaledje sur la recherche des communautés dans les réseaux sociaux et avec O. Romain et S. Iloga sur l’application des motifs fréquents à la reconnaissance des genres musicaux. Il collabore actuellement avec M. Latapy et A. Nzekon sur les systèmes de recommandation à partir de flots de liens en tenant compte des informations secondaires liées notamment au contexte.