20160613_2578_Appel d Offre thèse financée AGIR Data

Transcription

20160613_2578_Appel d Offre thèse financée AGIR Data
Appel à candidature sur projet de thèse financé (début : 1/10/2016)
Call for application on funded PhD project (start: 1/10/2016)
Spécialité
MBS - Modèles, méthodes et algorithmes en biologie, santé et environnement
Specialty - Models, methods and algorithms in biology, health and environment
Ecole Doctorale / Doctoral School : EDISCE Grenoble, France
Laboratoire / Research Lab : TIMC-IMAG (UMR UGA/CNRS 5525), Grenoble, France
Titre
Exploration de l’intérêt et du potentiel des big data de source assurantielle de la Mutualité
Sociale Agricole (MSA), à des fins de génération d’hypothèses pour la vigilance des risques
professionnels des travailleurs agricoles
Title
Exploring the interest and potential of health insurances Big Data for the occupational health
surveillance of agricultural workers (data mining for hypothesis generation)
Lien vers le sujet et la page pour candidater / Hyperlink to apply
http://www.adum.fr/as/ed/voirproposition.pl?site=edisce&langue=fr&matricule_prop=12725
Deadline : 1/10/2016
Ecole
Doctorale /
Ingénierie pour la santé la Cognition et l'Environnement
Doctoral
School
Titre
Exploration de l’intérêt et du potentiel des big data de source assurantielle de la
Mutualité Sociale Agricole (MSA), à des fins de génération d’hypothèses pour la
vigilance des risques professionnels des travailleurs agricoles
Titre
Exploring the interest and potential of health insurances Big Data for the occupational
health surveillance of agricultural workers (data mining for hypothesis generation)
Directeur
M. Vincent BONNETERRE (EDISCE) – [email hyperlink] ; Tel : 04 76 76 58 51
de thèse
Codirecteur de M. Olivier FRANCOIS (EDISCE) - [email hyperlink] ; Tel : 04 76 63 74 65
thèse
Encadreme V BONNETERRE : coordination et liens avec les différents partenaires + volets
nt médical, risques professionnels, hypothèses et interprétation de signaux, lien avec la
littérature sur le sujet
O FRANCOIS : statistiques et fouille de données, développement des packages sur les
modèles mixtes à facteurs latents, volet informatique
http http://www.adum.fr/as/ed/voirproposition.pl?site=edisce&langue=fr&matricule_prop
=12725 (N° de référence : 12725).
Unité de TIMC-IMAG : Techniques de L'Ingénierie Médicale et de la Complexité UMR 5525 recherche Tel : 04 56 52 01 08
Mots clés Big Data; Données massives; Data Mining; Fouille de données; Modèles mixtes à
facteurs latents; Assurances maladies; Santé Publique; Santé Travail; risques
professionnels; Expositions professionnelles; Travailleurs agricoles; Mutualité Sociale
Agricole
Key words Big Data; Data Mining; latent factor mixed models; Health Insurances; Public Health;
Occupational Health; Occupational Exposures; agricultural workers
Profil Nous recherchons en priorité un candidat ayant validé un master d’épidémiologie, un
candidat médecin à orientation santé publique ou santé travail, formé à l’analyse des données,
intéressé par la statistique et la programme sous R, la jonction de bases de données
multiples (data linkage), et l’utilisation de méthodes innovantes pour tenter de faire
émerger des signaux d’intérêt pour la veille sanitaire, à partir de bases assurantielles. A
l’inverse, des étudiants issus du monde de la statistique et des big data intéressés par le
milieu de la santé en termes de profil de carrière peuvent tout à fait répondre au profil, et
leur candidature est bienvenue.
Candidate We are looking primarily for a candidate having completed a master of Epidemiology, a
Profile
physician specializing in public health or occupational health, trained in data analysis,
interested in statistics and R programmation, data linkage, and the use of innovative
methods to try to bring out signals of interest for health monitoring, out of health
insurance dabases. Conversely, students from the Statistics and Big Data domains,
interested in the field of Health for their career plan, may well respond to the profile;
their application is welcome.
Présentatio Résumé du Projet doctoral
n détaillée CONTEXTE
La problématique sanitaire générale est celle de la veille sanitaire et des déterminants de
la santé des travailleurs agricoles (tous affiliés à la Mutualité Sociale Agricole MSA), et
plus particulièrement, l’existence ou non d’un effet « type activité professionnelle » et «
type de culture » sur des évènements de santé. L’une des questions sous-jacentes ayant
trait aux effets sanitaires des différents pesticides (produits phytopharmaceutiques). Les
évènements de santé sont soit des pathologies chroniques identifiées (codées CIM-10)
car faisant l’objet d’une prise en charge spécifique ( « affections longue durée » ALD),
soit des évènements qui peuvent être déduits des comportements de soins donnant lieu à
des remboursements (consommation médicamenteuse par exemple). La MSA et
l’agence nationale de sécurité sanitaire de l’alimentation de l’environnement et du travail
(ANSES) sont partenaires de ce travail.
METHODE
Il s’agit donc de conduire une étude pilote proposant une approche par fouille de
données des données médico-administratives de la MSA. Celle démarche vise à générer
des hypothèses sur des effets indésirables à long terme des risques professionnels
auxquels sont soumis les divers types de travailleurs agricoles à partir du croisement de
données de santé d’une part et de proxy concernant les expositions des travailleurs
agricoles (via leur activité professionnelle) d’autre part. Le type d’activité (précisant la
culture majoritaire) constitue notamment proxy d’exposition aux produits
phytopharmaceutiques ; cette information est disponible au sein des bases cotisants.
Les méthodes utilisées sont des modèles mixtes à facteurs latents (analyses non
supervisées). Ces modèles sont développés et utilisés au sein du laboratoire TIMCIMAG par le co-encadrant (équipe BCM) dans le cadre d’études d’association
génomique (recherche d’association entre fréquence de mutation, maladie, facteurs
environnementaux, tout en prenant en compte des facteurs tels la parenté). La
problématique des tests multiples est identique. Il s’agit d’estimer un effet fixe, ici entre
pathologie et type de culture ou secteur d’activité tout en modélisant les facteurs
observés (ex: âge, sexe) et non observés (ou latents).
ENVIRONNEMENT DE TRAVAIL
Le projet global incluant ce projet de thèse inclut sur 5 ans de nombreux partenaires.
L’intérêt de ce travail a été validé par le comité scientifique de la MSA (06/2015) puis
par l’agence nationale de sécurité sanitaire de l’alimentation de l’environnement et du
travail (ANSES) qui a financé le financement d’un post doc pour 18 mois (prise de
fonction 01/02/2016) afin d’initier le travail. Un chevauchement de 6 mois est prévu
entre post-doc et doctorant afin d’accompagner ce dernier dans les meilleures conditions
pour démarrer sa thèse. Le travail déjà fait lors de l’arrivée du doctorant :
compréhension des bases (via échantillons), sélection des variables d’intérêt, scripts
pour la description des variables, le data-linkage, dossier CNIL (soumis 06/2016). Post
doc et doc travailleront pour adapter les packages de modèles mixtes à facteurs latents
aux bases MSA dans le cadre de notre problématique. Par ailleurs, un master de
pharmaco-épidémiologie initie le travail sur la base de données médicaments, séniorisé
par des pharmaciens issus du même laboratoire de recherche (TIMC-IMAG, équipe
THEMAS). Enfin, un master Environnement-Santé, travaillera sur la mise en forme de
données permettant de faire le lien entre les types de cultures et les phytosanitaires, afin
d’inclure ces données dans les analyses. Ceci permettra au doctorant d’avoir un
environnement optimal pour monter en puissance et répondre à ces questions techniques,
et lui permettra de travailler en équipe. Enfin, ce travail se fera en lien avec la nouvelle
unité mixte de service UGA-CNRS GRICAD (calcul intensif et analyses de données).
INTERET ET RESULTATS ATTENDUS.
Il s’agit d’une approche complémentaire aux études épidémiologiques intéressant des
échantillons de la population MSA. En effet, l’approche fouille de données proposée est
systématique (sans a priori), et sans coût associé d’acquisition des données brutes (le
premier travail consiste à mettre en relation les différentes données et à les formater pour
l’application des méthodes). L’approche proposée prend en compte toute la population
MSA. Les associations entre pathologies et type d’activités devront ensuite être
interprétées pour isoler les signaux qui semblent pertinents. Les hypothèses les plus
fortes, qui ne seraient pas déjà identifiées, auront vocation à être étudiées de façon
classique (épidémiologie, toxicologie). Ce type d’approche, si elle s’avère pertinente,
pourrait à terme produire des informations au fil de l’eau si les analyses sont relancées
sur des bases actualisées (intérêt pour la vigilance). La puissance de ce type d’étude est
potentiellement élevée (toute la population agricole française, soit environ 3 millions de
personnes). Les bases de données ne renseignant pas directement les expositions, la
puissance de l’étude sera contrebalancée par le manque de sensibilité / spécificité à ce
niveau (estimation via les types d’activité et de culture).
OPPORTUNITES POUR LE DOCTORANT
Outre l’environnement local particulièrement favorable, le lien avec les partenaires
nationaux MSA et ANSES, il s’agit d’une opportunité de s’inscrire au sein d’une
thématique porteuse (fouille des données de santé) fortement soutenue au niveau
national et européen. Ceci peut favoriser tant un emploi qu’un post-doc à l’étranger.
SUMMAR CONTEXT
Y
The general issue is that of health surveillance and health determinants of French
agricultural workers (all affiliated to a single health insurance system named Mutualité
Sociale Agricole MSA), in particular, the existence or not of an "occupational activity"
or " culture" effect on health-related events. Health events are either identified as chronic
diseases entitling a 10% reimbursment rate (ICD-10 coded), or as events deducted from
medications reimbursement or others health expanses. The MSA and the National
Agency of Health Safety for Food Environment and Work (ANSES) are partners in this
work.
METHOD
To conduct a pilot study offering a data mining approach of medico-administrative data
of the MSA. This approach aims to generate hypotheses on long-term adverse effects of
agricultural workers’ occupational hazards, by linking health data on the one hand and a
proxy for exposure (type of activity) on the other. The type of activity will also be used
to estimate for exposure to plant protection products. The methods used are latent factors
mixed models (unsupervised analyzes). These models are developed and used in the
TIMC-IMAG laboratory by the co-supervisor (BCM team) for genome-wide association
studies (research association between frequency of mutation, disease, environmental
factors, while taking into account factors such kinship). The problem of multiple tests is
identical. This is a fixed effect estimation, here between pathology and type of crop or
activity while modeling the observed factors (eg age, gender) and unobserved (or latent)
ones.
WORKING ENVIRONMENT
The overall project which includes this thesis extends over 5 years, and involves several
partners at local and national level. The relevance of this work has been validated by the
scientific committee of the MSA (06/2015) then by the national health safety agency
Food Environment and Work (ANSES), which funded a post doc to initiate work (18
months, starting 01/02/2016). There will be 6 months overlap between postdoc and PhD
student so as to accompany him in the best conditions to start its case. The work already
done at the arrival of the doctoral student: understanding the databases (via data
samples), selection of variables of interest, scripts for the description of variables, datalinkage, due authorisations of a national commission (sent 06/2016). Post doc and doc
will together work and adapt the mixed models packages to fit with the objectives and
data. Furthermore, a pharmacoepidemiology master will start to initiates= work on the
drug reimbursment database. Senior researchers are pharmacists from the same research
laboratory (TIMC-IMAG, Themas team). Finally, a master “Environment and Health”,
will work on data formatting to make the link between the types of crops and plant
protection products, in order to make them usable for data analysis. This will allow the
PhD student to have an optimal environment for ramp up and meet these technical
issues, and allow him to work in team. Finally, this work will be done in conjunction
with the new mixed service unit UGA-CNRS GRICAD (Grenoble university Unit for
intensive calculation and data analysis).
INTEREST AND EXPECTED RESULTS.
This is a complementary approach to epidemiological studies usually interesting samples
of MSA population. Indeed, the proposed data mining approach is systematic and
without cost associated with acquiring raw data (the first job is to relate the different
data and format for application methods). The proposed approach takes into account the
entire MSA population. The associations between diseases and type of activities will
then be interpreted to isolate the signals that appear relevant. The most significant
assumptions, which are not already identified, will aim to be studied conventionally
(epidemiology, toxicology). This approach, if it is relevant, could in the future produce
information continuously through updated databases (interest for vigilance). The power
of this type of study is potentially high (all French agricultural population, which is
about 3 millions individuals).
OPPORTUNITIES FOR DOCTORANT
In addition to particularly favorable local environment and the link with national
partners, it is an opportunity to enroll in a reserach theme (health data mining) strongly
supported at national and European level.
Financemen
Contrat Doctoral AGIR ; Durée: 36 mois; financement UGA ;
t acquis
Funding acquired (Grenoble Alpes University Grant). Duration 36 months