Jean-Patrick Baudry - Laboratoire de Statistique Théorique et
Transcription
Jean-Patrick Baudry - Laboratoire de Statistique Théorique et
Jean-Patrick Baudry 54, rue de Ménilmontant 75020 Paris ∼ [email protected] www.lsta.upmc.fr/Baudry.html Laboratoire de Statistique Théorique et Appliquée Université Pierre et Marie Curie 4 place Jussieu BC 158 75252 Paris Cedex 5 ∼ Barre 15-25, 2ème étage, Bureau 18 ∼ 01.44.27.33.53 Postes antérieurs 2009–2010 ATER (service complet). Département STID, IUT Paris Descartes. Accueilli pour la recherche par l’équipe du MAP5, Université Paris Descartes. 2006–2009 Allocataire-Moniteur Normalien. Université Paris-Sud. Recherche au sein de l’équipe Probabilités et Statistiques du LMO, Université Paris-Sud et de l’équipe SELECT, INRIA Saclay Île-de-France. Cursus universitaire 2006–2009 Doctorat de Mathématiques à l’Université Paris-Sud, sous la direction de G. Celeux : Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. Thèse soutenue le 3 décembre 2009. 2001–2006 École Normale Supérieure de Paris Licence, Maîtrise et Magistère de Mathématiques (ENS Paris) Mémoire de maîtrise (avec S. Arlot) sous la direction de Y. Baraud : Sélection de modèles. DEA « Modélisation stochastique et statistique » (Université Paris-Sud) Mémoire de DEA sous la direction de Y. Baraud : Classification adaptative. Agrégation de Mathématiques. 1998–2001 Classes Préparatoires MPSI et MP* au lycée Louis-Le-Grand, Paris. Thèmes de recherche Minimisation de contraste, Estimation Résultats théoriques, Notion de classe M LE Concentration Critères pénalisés : BIC, ICL, Lcc-ICL... 1 classe = 1 composante gaussienne Choix du nombre de classes Classification non supervisée par modèles de mélange Heuris tiqu de pen e te ne ’u e e d tern rag ex lai on Ec rtiti pa 1 classe = 1 mélange gaussien Calibration « data-driven » de critères pénalisés Mise en œuvre pratique, Package « CAPUSHE » SICL Comb i hiéra naison r ch i q ue Mélanges de mélanges Outils graphiques Choix du nombre de classes Compétences diverses Informatique Windows, Linux ; Bureautique courante, notamment LATEX. Matlab, R, Scilab familiers ; spss, Excel enseignés ; Maple étudié. Langues Robustesse Sta asy tistiq mp ue tot no iq u n e S asy tatist mp iqu tot e iqu e M Lc cE Consistance Anglais courant ; Allemand scolaire. Thèse de doctorat Thèse de doctorat, spécialité Mathématiques, préparée à l’Université Paris-Sud, sous la direction de Gilles Celeux : Sélection de modèle pour la classification non supervisée. Choix du nombre de classes. Soutenue le 3 décembre 2009 devant le jury : Gérard Biau (Rapporteur) Gilles Celeux (Directeur de thèse) Gérard Govaert (Examinateur) Christian Hennig (Rapporteur) Jean-Michel Marin (Examinateur) Pascal Massart (Président du jury) Résumé Le cadre principal de ma thèse est la classification non supervisée, traitée par une approche statistique dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude théorique consiste à considérer un contraste, à minimiser, adapté à la classification non supervisée : ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés et étudiés. Des solutions pratiques pour leur calcul s’accompagnent de retombées positives pour le calcul du maximum de vraisemblance standard dans les modèles de mélange, par l’algorithme EM. La méthode de l’heuristique de pente est appliquée pour la calibration des critères pénalisés considérés. Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application sont étudiées. Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question du choix des composantes à regrouper. Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu’il est identifié au nombre de classes, à une éventuelle classification externe connue a priori. Communications écrites Article publié dans une revue à comité de lecture [1] J.-P. Baudry , A.E. Raftery, G. Celeux, K. Lo, R. Gottardo (2010). Combining mixture components for clustering. Journal of Computational and Graphical Statistics. June 1, 2010, 19(2) : 332-353. Article paru dans des proceedings de conférence avec comité de lecture [2] J.-P. Baudry, G. Celeux et J.-M. Marin (2008). Selecting models focussing on the modeler’s purpose. COMPSTAT 2008: Proceedings in Computational Statistics, pages 337–348, Heidelberg. Physica-Verlag. Article en cours révision pour une revue à comité de lecture [3] J.-P. Baudry, C. Maugis et B. Michel. Slope Heuristics : Overview and Implementation. Soumis. Un rapport de recherche INRIA rend compte de ce travail : RR-7223, disponible depuis ma page web. Articles en préparation [4] J.-P. Baudry, G. Celeux, A. Sousa Ferreira. Selecting a clustering model in view of an external classification. Cet article correspondra au chapitre 8 de ma thèse. [5] J.-P. Baudry. Estimation and model selection for model-based clustering with the conditional classification likelihood. Cet article reprendra en bonne partie le chapitre 4 de ma thèse. [6] J.-P. Baudry. Note on the breakdown point properties of Lcc -ICL. Cet article reprendra le chapitre 5 de ma thèse. Autres travaux en cours • A. Bar-Hen (MAP5), J.-P. Baudry. Nous nous intéressons à des méthodes de prévision d’ensemble, appliquées à des situations impliquant des lois d’extrêmes. • J.-P. Baudry, A. Samson (MAP5). Nous avons pour projet de travailler sur des critères pénalisés pour de la sélection de modèles à effets mixtes impliquant des mélanges. Communications orales Communications orales lors de conférences • • • • • • Session "Apprentissage statistique" des journées mas à Bordeaux (2010). Session "Sélection de modèles" des journées mas à Bordeaux (2010). Statistique Mathématique et Applications, Fréjus (2008). Working Group on Applied, Bayesian and Computational Statistics, Seattle, USA (2008). Congrès conjoint de la SSC et de la SFdS, Ottawa, Canada (2008). Deuxièmes Rencontres des Jeunes Statisticiens, Aussois (2007). Présentations de posters lors de conférences • Working Group on Model-Based Clustering, Paris (2009). • One-Day Statistical Workshop, Lisieux (2007). Exposés dans des séminaires et des groupes de travail • • • • • • • • • Groupe de travail Paris-Sud / Ecole Polytechnique autour de la classification (2010). Séminaire de l’équipe Probabilités et Statistiques, Université Paris-Sud Orsay (2010). Séminaire de Probabilités et Statistique, Montpellier II (2010). Séminaire MODAL’X, Paris X (2010). Groupe de travail ECAIS du département STID de l’IUT de Paris (2010). Groupe de travail en Statistiques du MAP5, Paris V (2009). Séminaire du SAMOS, Paris I (2009). Séminaire des doctorants, Université Paris-Sud, Orsay (2008). Groupe de travail INA P-G/SELECT, Paris (2008). Évaluation d’équipe • Exposé à l’occasion de l’évaluation INRIA de l’équipe SELECT (2010). Participation à des congrès sans communication • Statistique Mathématique et Applications, Luminy (2006). • Journées MAS de la SMAI, Lille (2006). Participation régulière à des groupes de travail et séminaires J’ai suivi régulièrement : • Groupe de travail Apprentissage (Ulm, Paris), devenu SMILE (IHP, Paris). • Groupe de travail AgroParisTech-SELECT (INA P-G, Paris). • Séminaire du groupe SELECT • Groupe de travail NeuroSpin-SELECT (NeuroSpin, CEA, Saclay) (2007–2008). Et de façon moins systématique, selon les années : • Séminaire Parisien de Statistiques. • Séminaire de Statistiques d’Orsay. • Groupe de travail en Statistiques du MAP5. • Séminaire des doctorants d’Orsay. • Séminaire des doctorants du MAP5. • Groupe de travail ECAIS au département STID de l’IUT Paris Descartes. Visite scientifique • University of British Columbia, Vancouver, Canada (2008). Rapports pour des revues • Un article soumis à IEEE Transactions on Neural Networks (2008). • Cinq articles soumis pour les proceedings de 19th International Conference on Computational Statistics (Compstat) (2010). Co-organisation d’un groupe de travail J’ai modestement contribué à l’organisation matérielle du groupe de travail international Modelbased clustering, qui s’est tenu à Paris en juillet 2009 (le pot d’accueil, la traditionnelle randonnée...). Activités d’enseignement Enseignement universitaire 2009–2010 ATER au département STID de l’IUT Paris Descartes : Première Année Première Année Année Spéciale Deuxième année : Statistique Desctiptive (48h de TP SPSS, 27h de TD). : Probabilités (42h de cours). : Estimation (40h de cours/TD intégrés). : Encadrement d’un Travail de Fin d’Études sur la classification supervisée, notamment avec cart. 2006–2009 Monitorat à l’Université Paris-Sud : Filière Bioinformatique et Biostatistiques : Inférence Statistique et Mise à Niveau en Mathématiques en L3 et M1 (160h de TD avec utilisation du logiciel R). Filière Ingénierie Mathématique : Modélisation Statistique en M1 (16h de TD avec utilisation du logiciel R). Filières diverses : Projet Professionnel, aide à l’orientation des étudiants de L1 (16h). Vulgarisation scientifique 2008–2009 À l’occasion de l’installation d’un pendule de Foucault à la bibliothèque des sciences de Paris XI, j’ai été chargé de quelques unes des démonstrations, avec explications, devant des étudiants de l’Université et des groupes scolaires (collèges) venus pour cette occasion. Divers Aide ponctuelle en mathématiques dans mon milieu personnel : niveaux variés.