20160613_2578_Appel d Offre thèse financée AGIR Data
Transcription
20160613_2578_Appel d Offre thèse financée AGIR Data
Appel à candidature sur projet de thèse financé (début : 1/10/2016) Call for application on funded PhD project (start: 1/10/2016) Spécialité MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement Specialty - Models, methods and algorithms in biology, health and environment Ecole Doctorale / Doctoral School : EDISCE Grenoble, France Laboratoire / Research Lab : TIMC-IMAG (UMR UGA/CNRS 5525), Grenoble, France Titre Exploration de l’intérêt et du potentiel des big data de source assurantielle de la Mutualité Sociale Agricole (MSA), à des fins de génération d’hypothèses pour la vigilance des risques professionnels des travailleurs agricoles Title Exploring the interest and potential of health insurances Big Data for the occupational health surveillance of agricultural workers (data mining for hypothesis generation) Lien vers le sujet et la page pour candidater / Hyperlink to apply http://www.adum.fr/as/ed/voirproposition.pl?site=edisce&langue=fr&matricule_prop=12725 Deadline : 1/10/2016 Ecole Doctorale / Ingénierie pour la santé la Cognition et l'Environnement Doctoral School Titre Exploration de l’intérêt et du potentiel des big data de source assurantielle de la Mutualité Sociale Agricole (MSA), à des fins de génération d’hypothèses pour la vigilance des risques professionnels des travailleurs agricoles Titre Exploring the interest and potential of health insurances Big Data for the occupational health surveillance of agricultural workers (data mining for hypothesis generation) Directeur M. Vincent BONNETERRE (EDISCE) – [email hyperlink] ; Tel : 04 76 76 58 51 de thèse Codirecteur de M. Olivier FRANCOIS (EDISCE) - [email hyperlink] ; Tel : 04 76 63 74 65 thèse Encadreme V BONNETERRE : coordination et liens avec les différents partenaires + volets nt médical, risques professionnels, hypothèses et interprétation de signaux, lien avec la littérature sur le sujet O FRANCOIS : statistiques et fouille de données, développement des packages sur les modèles mixtes à facteurs latents, volet informatique http http://www.adum.fr/as/ed/voirproposition.pl?site=edisce&langue=fr&matricule_prop =12725 (N° de référence : 12725). Unité de TIMC-IMAG : Techniques de L'Ingénierie Médicale et de la Complexité UMR 5525 recherche Tel : 04 56 52 01 08 Mots clés Big Data; Données massives; Data Mining; Fouille de données; Modèles mixtes à facteurs latents; Assurances maladies; Santé Publique; Santé Travail; risques professionnels; Expositions professionnelles; Travailleurs agricoles; Mutualité Sociale Agricole Key words Big Data; Data Mining; latent factor mixed models; Health Insurances; Public Health; Occupational Health; Occupational Exposures; agricultural workers Profil Nous recherchons en priorité un candidat ayant validé un master d’épidémiologie, un candidat médecin à orientation santé publique ou santé travail, formé à l’analyse des données, intéressé par la statistique et la programme sous R, la jonction de bases de données multiples (data linkage), et l’utilisation de méthodes innovantes pour tenter de faire émerger des signaux d’intérêt pour la veille sanitaire, à partir de bases assurantielles. A l’inverse, des étudiants issus du monde de la statistique et des big data intéressés par le milieu de la santé en termes de profil de carrière peuvent tout à fait répondre au profil, et leur candidature est bienvenue. Candidate We are looking primarily for a candidate having completed a master of Epidemiology, a Profile physician specializing in public health or occupational health, trained in data analysis, interested in statistics and R programmation, data linkage, and the use of innovative methods to try to bring out signals of interest for health monitoring, out of health insurance dabases. Conversely, students from the Statistics and Big Data domains, interested in the field of Health for their career plan, may well respond to the profile; their application is welcome. Présentatio Résumé du Projet doctoral n détaillée CONTEXTE La problématique sanitaire générale est celle de la veille sanitaire et des déterminants de la santé des travailleurs agricoles (tous affiliés à la Mutualité Sociale Agricole MSA), et plus particulièrement, l’existence ou non d’un effet « type activité professionnelle » et « type de culture » sur des évènements de santé. L’une des questions sous-jacentes ayant trait aux effets sanitaires des différents pesticides (produits phytopharmaceutiques). Les évènements de santé sont soit des pathologies chroniques identifiées (codées CIM-10) car faisant l’objet d’une prise en charge spécifique ( « affections longue durée » ALD), soit des évènements qui peuvent être déduits des comportements de soins donnant lieu à des remboursements (consommation médicamenteuse par exemple). La MSA et l’agence nationale de sécurité sanitaire de l’alimentation de l’environnement et du travail (ANSES) sont partenaires de ce travail. METHODE Il s’agit donc de conduire une étude pilote proposant une approche par fouille de données des données médico-administratives de la MSA. Celle démarche vise à générer des hypothèses sur des effets indésirables à long terme des risques professionnels auxquels sont soumis les divers types de travailleurs agricoles à partir du croisement de données de santé d’une part et de proxy concernant les expositions des travailleurs agricoles (via leur activité professionnelle) d’autre part. Le type d’activité (précisant la culture majoritaire) constitue notamment proxy d’exposition aux produits phytopharmaceutiques ; cette information est disponible au sein des bases cotisants. Les méthodes utilisées sont des modèles mixtes à facteurs latents (analyses non supervisées). Ces modèles sont développés et utilisés au sein du laboratoire TIMCIMAG par le co-encadrant (équipe BCM) dans le cadre d’études d’association génomique (recherche d’association entre fréquence de mutation, maladie, facteurs environnementaux, tout en prenant en compte des facteurs tels la parenté). La problématique des tests multiples est identique. Il s’agit d’estimer un effet fixe, ici entre pathologie et type de culture ou secteur d’activité tout en modélisant les facteurs observés (ex: âge, sexe) et non observés (ou latents). ENVIRONNEMENT DE TRAVAIL Le projet global incluant ce projet de thèse inclut sur 5 ans de nombreux partenaires. L’intérêt de ce travail a été validé par le comité scientifique de la MSA (06/2015) puis par l’agence nationale de sécurité sanitaire de l’alimentation de l’environnement et du travail (ANSES) qui a financé le financement d’un post doc pour 18 mois (prise de fonction 01/02/2016) afin d’initier le travail. Un chevauchement de 6 mois est prévu entre post-doc et doctorant afin d’accompagner ce dernier dans les meilleures conditions pour démarrer sa thèse. Le travail déjà fait lors de l’arrivée du doctorant : compréhension des bases (via échantillons), sélection des variables d’intérêt, scripts pour la description des variables, le data-linkage, dossier CNIL (soumis 06/2016). Post doc et doc travailleront pour adapter les packages de modèles mixtes à facteurs latents aux bases MSA dans le cadre de notre problématique. Par ailleurs, un master de pharmaco-épidémiologie initie le travail sur la base de données médicaments, séniorisé par des pharmaciens issus du même laboratoire de recherche (TIMC-IMAG, équipe THEMAS). Enfin, un master Environnement-Santé, travaillera sur la mise en forme de données permettant de faire le lien entre les types de cultures et les phytosanitaires, afin d’inclure ces données dans les analyses. Ceci permettra au doctorant d’avoir un environnement optimal pour monter en puissance et répondre à ces questions techniques, et lui permettra de travailler en équipe. Enfin, ce travail se fera en lien avec la nouvelle unité mixte de service UGA-CNRS GRICAD (calcul intensif et analyses de données). INTERET ET RESULTATS ATTENDUS. Il s’agit d’une approche complémentaire aux études épidémiologiques intéressant des échantillons de la population MSA. En effet, l’approche fouille de données proposée est systématique (sans a priori), et sans coût associé d’acquisition des données brutes (le premier travail consiste à mettre en relation les différentes données et à les formater pour l’application des méthodes). L’approche proposée prend en compte toute la population MSA. Les associations entre pathologies et type d’activités devront ensuite être interprétées pour isoler les signaux qui semblent pertinents. Les hypothèses les plus fortes, qui ne seraient pas déjà identifiées, auront vocation à être étudiées de façon classique (épidémiologie, toxicologie). Ce type d’approche, si elle s’avère pertinente, pourrait à terme produire des informations au fil de l’eau si les analyses sont relancées sur des bases actualisées (intérêt pour la vigilance). La puissance de ce type d’étude est potentiellement élevée (toute la population agricole française, soit environ 3 millions de personnes). Les bases de données ne renseignant pas directement les expositions, la puissance de l’étude sera contrebalancée par le manque de sensibilité / spécificité à ce niveau (estimation via les types d’activité et de culture). OPPORTUNITES POUR LE DOCTORANT Outre l’environnement local particulièrement favorable, le lien avec les partenaires nationaux MSA et ANSES, il s’agit d’une opportunité de s’inscrire au sein d’une thématique porteuse (fouille des données de santé) fortement soutenue au niveau national et européen. Ceci peut favoriser tant un emploi qu’un post-doc à l’étranger. SUMMAR CONTEXT Y The general issue is that of health surveillance and health determinants of French agricultural workers (all affiliated to a single health insurance system named Mutualité Sociale Agricole MSA), in particular, the existence or not of an "occupational activity" or " culture" effect on health-related events. Health events are either identified as chronic diseases entitling a 10% reimbursment rate (ICD-10 coded), or as events deducted from medications reimbursement or others health expanses. The MSA and the National Agency of Health Safety for Food Environment and Work (ANSES) are partners in this work. METHOD To conduct a pilot study offering a data mining approach of medico-administrative data of the MSA. This approach aims to generate hypotheses on long-term adverse effects of agricultural workers’ occupational hazards, by linking health data on the one hand and a proxy for exposure (type of activity) on the other. The type of activity will also be used to estimate for exposure to plant protection products. The methods used are latent factors mixed models (unsupervised analyzes). These models are developed and used in the TIMC-IMAG laboratory by the co-supervisor (BCM team) for genome-wide association studies (research association between frequency of mutation, disease, environmental factors, while taking into account factors such kinship). The problem of multiple tests is identical. This is a fixed effect estimation, here between pathology and type of crop or activity while modeling the observed factors (eg age, gender) and unobserved (or latent) ones. WORKING ENVIRONMENT The overall project which includes this thesis extends over 5 years, and involves several partners at local and national level. The relevance of this work has been validated by the scientific committee of the MSA (06/2015) then by the national health safety agency Food Environment and Work (ANSES), which funded a post doc to initiate work (18 months, starting 01/02/2016). There will be 6 months overlap between postdoc and PhD student so as to accompany him in the best conditions to start its case. The work already done at the arrival of the doctoral student: understanding the databases (via data samples), selection of variables of interest, scripts for the description of variables, datalinkage, due authorisations of a national commission (sent 06/2016). Post doc and doc will together work and adapt the mixed models packages to fit with the objectives and data. Furthermore, a pharmacoepidemiology master will start to initiates= work on the drug reimbursment database. Senior researchers are pharmacists from the same research laboratory (TIMC-IMAG, Themas team). Finally, a master “Environment and Health”, will work on data formatting to make the link between the types of crops and plant protection products, in order to make them usable for data analysis. This will allow the PhD student to have an optimal environment for ramp up and meet these technical issues, and allow him to work in team. Finally, this work will be done in conjunction with the new mixed service unit UGA-CNRS GRICAD (Grenoble university Unit for intensive calculation and data analysis). INTEREST AND EXPECTED RESULTS. This is a complementary approach to epidemiological studies usually interesting samples of MSA population. Indeed, the proposed data mining approach is systematic and without cost associated with acquiring raw data (the first job is to relate the different data and format for application methods). The proposed approach takes into account the entire MSA population. The associations between diseases and type of activities will then be interpreted to isolate the signals that appear relevant. The most significant assumptions, which are not already identified, will aim to be studied conventionally (epidemiology, toxicology). This approach, if it is relevant, could in the future produce information continuously through updated databases (interest for vigilance). The power of this type of study is potentially high (all French agricultural population, which is about 3 millions individuals). OPPORTUNITIES FOR DOCTORANT In addition to particularly favorable local environment and the link with national partners, it is an opportunity to enroll in a reserach theme (health data mining) strongly supported at national and European level. Financemen Contrat Doctoral AGIR ; Durée: 36 mois; financement UGA ; t acquis Funding acquired (Grenoble Alpes University Grant). Duration 36 months