Jean-Patrick Baudry - Laboratoire de Statistique Théorique et

Transcription

Jean-Patrick Baudry - Laboratoire de Statistique Théorique et
Jean-Patrick Baudry
54, rue de Ménilmontant
75020 Paris
∼
[email protected]
www.lsta.upmc.fr/Baudry.html
Laboratoire de Statistique Théorique et
Appliquée
Université Pierre et Marie Curie
4 place Jussieu
BC 158
75252 Paris Cedex 5
∼
Barre 15-25, 2ème étage, Bureau 18
∼
01.44.27.33.53
Postes antérieurs
2009–2010 ATER (service complet). Département STID, IUT Paris Descartes.
Accueilli pour la recherche par l’équipe du MAP5, Université Paris Descartes.
2006–2009 Allocataire-Moniteur Normalien. Université Paris-Sud.
Recherche au sein de l’équipe Probabilités et Statistiques du LMO, Université Paris-Sud
et de l’équipe SELECT, INRIA Saclay Île-de-France.
Cursus universitaire
2006–2009 Doctorat de Mathématiques à l’Université Paris-Sud, sous la direction de G. Celeux :
Sélection de modèle pour la classification non supervisée. Choix du nombre de classes.
Thèse soutenue le 3 décembre 2009.
2001–2006 École Normale Supérieure de Paris
Licence, Maîtrise et Magistère de Mathématiques (ENS Paris)
Mémoire de maîtrise (avec S. Arlot) sous la direction de Y. Baraud : Sélection de modèles.
DEA « Modélisation stochastique et statistique » (Université Paris-Sud)
Mémoire de DEA sous la direction de Y. Baraud : Classification adaptative.
Agrégation de Mathématiques.
1998–2001 Classes Préparatoires MPSI et MP* au lycée Louis-Le-Grand, Paris.
Thèmes de recherche
Minimisation de contraste,
Estimation
Résultats théoriques,
Notion de classe
M
LE
Concentration
Critères pénalisés :
BIC, ICL, Lcc-ICL...
1 classe
=
1 composante
gaussienne
Choix du nombre
de classes
Classification non supervisée
par modèles de mélange
Heuris
tiqu
de pen e
te
ne
’u e
e d tern
rag ex
lai on
Ec rtiti
pa
1 classe
=
1 mélange
gaussien
Calibration
« data-driven »
de critères pénalisés
Mise en œuvre pratique,
Package « CAPUSHE »
SICL
Comb
i
hiéra naison
r ch i q
ue
Mélanges de
mélanges
Outils graphiques
Choix du nombre de
classes
Compétences diverses
Informatique
Windows, Linux ; Bureautique courante, notamment LATEX.
Matlab, R, Scilab familiers ; spss, Excel enseignés ; Maple étudié.
Langues
Robustesse
Sta
asy tistiq
mp ue
tot no
iq u n
e
S
asy tatist
mp iqu
tot e
iqu
e
M
Lc
cE
Consistance
Anglais courant ; Allemand scolaire.
Thèse de doctorat
Thèse de doctorat, spécialité Mathématiques, préparée à l’Université Paris-Sud, sous la direction de
Gilles Celeux :
Sélection de modèle pour la classification non supervisée.
Choix du nombre de classes.
Soutenue le 3 décembre 2009 devant le jury :
Gérard Biau
(Rapporteur)
Gilles Celeux
(Directeur de thèse)
Gérard Govaert
(Examinateur)
Christian Hennig
(Rapporteur)
Jean-Michel Marin (Examinateur)
Pascal Massart
(Président du jury)
Résumé
Le cadre principal de ma thèse est la classification non supervisée, traitée par une approche statistique
dans le cadre des modèles de mélange. Plus particulièrement, nous nous intéressons au choix du
nombre de classes et au critère de sélection de modèle ICL. Une approche fructueuse de son étude
théorique consiste à considérer un contraste, à minimiser, adapté à la classification non supervisée :
ce faisant, un nouvel estimateur ainsi que de nouveaux critères de sélection de modèle sont proposés
et étudiés. Des solutions pratiques pour leur calcul s’accompagnent de retombées positives pour le
calcul du maximum de vraisemblance standard dans les modèles de mélange, par l’algorithme EM. La
méthode de l’heuristique de pente est appliquée pour la calibration des critères pénalisés considérés.
Aussi les bases théoriques en sont-elles rappelées en détails, et deux approches pour son application
sont étudiées.
Une autre approche de la classification non supervisée est considérée : chaque classe peut être modélisée elle-même par un mélange. Une méthode est proposée pour répondre notamment à la question
du choix des composantes à regrouper.
Enfin, un critère est proposé pour permettre de lier le choix du nombre de composantes, lorsqu’il est
identifié au nombre de classes, à une éventuelle classification externe connue a priori.
Communications écrites
Article publié dans une revue à comité de lecture
[1]
J.-P. Baudry , A.E. Raftery, G. Celeux, K. Lo, R. Gottardo (2010). Combining mixture components for clustering. Journal of Computational and Graphical Statistics. June 1, 2010, 19(2) :
332-353.
Article paru dans des proceedings de conférence avec comité de lecture
[2]
J.-P. Baudry, G. Celeux et J.-M. Marin (2008). Selecting models focussing on the modeler’s purpose. COMPSTAT 2008: Proceedings in Computational Statistics, pages 337–348, Heidelberg.
Physica-Verlag.
Article en cours révision pour une revue à comité de lecture
[3]
J.-P. Baudry, C. Maugis et B. Michel. Slope Heuristics : Overview and Implementation. Soumis.
Un rapport de recherche INRIA rend compte de ce travail : RR-7223, disponible depuis ma page
web.
Articles en préparation
[4]
J.-P. Baudry, G. Celeux, A. Sousa Ferreira. Selecting a clustering model in view of an external
classification. Cet article correspondra au chapitre 8 de ma thèse.
[5]
J.-P. Baudry. Estimation and model selection for model-based clustering with the conditional
classification likelihood. Cet article reprendra en bonne partie le chapitre 4 de ma thèse.
[6]
J.-P. Baudry. Note on the breakdown point properties of Lcc -ICL. Cet article reprendra le chapitre
5 de ma thèse.
Autres travaux en cours
•
A. Bar-Hen (MAP5), J.-P. Baudry. Nous nous intéressons à des méthodes de prévision d’ensemble, appliquées à des situations impliquant des lois d’extrêmes.
•
J.-P. Baudry, A. Samson (MAP5). Nous avons pour projet de travailler sur des critères pénalisés
pour de la sélection de modèles à effets mixtes impliquant des mélanges.
Communications orales
Communications orales lors de conférences
•
•
•
•
•
•
Session "Apprentissage statistique" des journées mas à Bordeaux (2010).
Session "Sélection de modèles" des journées mas à Bordeaux (2010).
Statistique Mathématique et Applications, Fréjus (2008).
Working Group on Applied, Bayesian and Computational Statistics, Seattle, USA (2008).
Congrès conjoint de la SSC et de la SFdS, Ottawa, Canada (2008).
Deuxièmes Rencontres des Jeunes Statisticiens, Aussois (2007).
Présentations de posters lors de conférences
• Working Group on Model-Based Clustering, Paris (2009).
• One-Day Statistical Workshop, Lisieux (2007).
Exposés dans des séminaires et des groupes de travail
•
•
•
•
•
•
•
•
•
Groupe de travail Paris-Sud / Ecole Polytechnique autour de la classification (2010).
Séminaire de l’équipe Probabilités et Statistiques, Université Paris-Sud Orsay (2010).
Séminaire de Probabilités et Statistique, Montpellier II (2010).
Séminaire MODAL’X, Paris X (2010).
Groupe de travail ECAIS du département STID de l’IUT de Paris (2010).
Groupe de travail en Statistiques du MAP5, Paris V (2009).
Séminaire du SAMOS, Paris I (2009).
Séminaire des doctorants, Université Paris-Sud, Orsay (2008).
Groupe de travail INA P-G/SELECT, Paris (2008).
Évaluation d’équipe
• Exposé à l’occasion de l’évaluation INRIA de l’équipe SELECT (2010).
Participation à des congrès sans communication
• Statistique Mathématique et Applications, Luminy (2006).
• Journées MAS de la SMAI, Lille (2006).
Participation régulière à des groupes de travail et séminaires
J’ai suivi régulièrement :
• Groupe de travail Apprentissage (Ulm, Paris), devenu SMILE (IHP, Paris).
• Groupe de travail AgroParisTech-SELECT (INA P-G, Paris).
• Séminaire du groupe SELECT
• Groupe de travail NeuroSpin-SELECT (NeuroSpin, CEA, Saclay) (2007–2008).
Et de façon moins systématique, selon les années :
• Séminaire Parisien de Statistiques.
• Séminaire de Statistiques d’Orsay.
• Groupe de travail en Statistiques du MAP5.
• Séminaire des doctorants d’Orsay.
• Séminaire des doctorants du MAP5.
• Groupe de travail ECAIS au département STID de l’IUT Paris Descartes.
Visite scientifique
• University of British Columbia, Vancouver, Canada (2008).
Rapports pour des revues
• Un article soumis à IEEE Transactions on Neural Networks (2008).
• Cinq articles soumis pour les proceedings de 19th International Conference on Computational Statistics (Compstat) (2010).
Co-organisation d’un groupe de travail
J’ai modestement contribué à l’organisation matérielle du groupe de travail international Modelbased clustering, qui s’est tenu à Paris en juillet 2009 (le pot d’accueil, la traditionnelle randonnée...).
Activités d’enseignement
Enseignement universitaire
2009–2010 ATER au département STID de l’IUT Paris Descartes :
Première Année
Première Année
Année Spéciale
Deuxième année
: Statistique Desctiptive (48h de TP SPSS, 27h de TD).
: Probabilités (42h de cours).
: Estimation (40h de cours/TD intégrés).
: Encadrement d’un Travail de Fin d’Études sur la classification
supervisée, notamment avec cart.
2006–2009 Monitorat à l’Université Paris-Sud :
Filière Bioinformatique et Biostatistiques :
Inférence Statistique et Mise à Niveau en Mathématiques en L3 et M1 (160h de TD
avec utilisation du logiciel R).
Filière Ingénierie Mathématique :
Modélisation Statistique en M1 (16h de TD avec utilisation du logiciel R).
Filières diverses :
Projet Professionnel, aide à l’orientation des étudiants de L1 (16h).
Vulgarisation scientifique
2008–2009
À l’occasion de l’installation d’un pendule de Foucault à la bibliothèque des sciences
de Paris XI, j’ai été chargé de quelques unes des démonstrations, avec explications,
devant des étudiants de l’Université et des groupes scolaires (collèges) venus pour cette
occasion.
Divers
Aide ponctuelle en mathématiques dans mon milieu personnel : niveaux variés.