Proposition de stage niveau Master (lab. ERIC – Université de Lyon

Transcription

Proposition de stage niveau Master (lab. ERIC – Université de Lyon
Proposition de stage niveau Master (lab. ERIC – Université de Lyon)
Intitulé : Mise en place d’une plate-forme d’extraction et d’analyse des
forums de discussion sur le Web.
Supervision : J. Velcin, J. H. Chauchat
Contact : [email protected]
Localisation : laboratoire ERIC (Université de Lyon)
Durée : 6 mois (début dès que possible)
Profil recherché : Unix/Linux, programmation Web, text mining
Financement : projet CRTT-ERIC (BQR Lyon 2) ∼436 euros par mois
Sujet:
Le laboratoire ERIC travaille depuis quelques années
sur l’analyse automatique des données textuelles (text
mining). Plusieurs travaux de recherche ont ainsi concerné l’analyse des forums de discussion sur des sites internet traitant de sujets variés : actualité (http://www.
huffingtonpost.fr, http://www.rue89.com/), films et
séries télévisées (http://www.televisionwithoutpity.
com/), santé (http://www.doctissimo.fr/).
Récemment, le Centre de Recherche en Terminologie
et Traduction (CRTT) et le laboratoire ERIC ont obtenu
de la part de l’université un financement conjoint pour
travailler sur les discussions en ligne traitant du domaine
de la santé. L’objectif du projet consiste à constituer un
corpus textuel numérique sur le domaine de la médecine
nucléaire (et des accidents nucléaires), puis à exploiter ce corpus afin d’étudier les formes et usages de
la langue médicale (mais aussi scientifique et technique). Il s’agira de prendre en compte les différentes
populations concernées : médecins, étudiants en médecine, journalistes, grand public. . . .
Dans ce cadre, le laboratoire ERIC propose un stage afin de mettre en place une plate-forme
d’extraction et d’analyse des données issues de forums en ligne. Il est envisagé que cette plate-forme
soit, dans le futur, mise à la disposition de la communauté scientifique. Ce stage se déroulera en
trois phases : i) prise en main du prototype existant au laboratoire, ii) portage (et extension) du
prototype sur une nouvelle machine dédiée, iii) premières analyses des données textuelles issues des
forums médicaux. Le détail est donné ci-dessous.
Prise en main Un premier prototype, déjà bien abouti, a été réalisé lors de projets précédents. Il
permet de créer facilement des analyseurs (parsers) dédiés au site internet en cours d’étude, par le
biais d’un méta-langage. Les données textuelles sont rapatriées et indexées dans une base de données
relationnelle. Plusieurs techniques de fouille de textes peuvent ensuite être appliquées à ces données,
entre autres pour permettre une visualisation de l’évolution temporelle des thématiques. La première
partie du stage consistera donc à comprendre la logique d’ensemble du système, c’est-à-dire comment
les différents modules précédemment développés interropèrent, et à effectuer des premiers tests.
Portage Une fois le prototype pris en main, la deuxième partie du stage consistera à porter le
système dans son ensemble (moteur de recherche, base de données, algorithmes de fouille de textes)
sur une nouvelle machine. En effet, l’achat d’un serveur suffisamment puissant a été prévu dans le
cadre du projet ERIC-CRTT. L’étudiant devra veiller à réaliser suffisamment de test pour garantir le
bon fonctionnement de l’ensemble. Il est prévu d’utiliser le système d’exploitation Linux.
Analyse des forums médicaux en ligne Pour terminer, l’étudiant devra produire une première
analyse des données textuelles issues de forums médicaux identifiés pour le projet. Il pourra utiliser les
algorithmes déjà implémentés dans le système, notamment ceux permettant d’extraire des thématiques
et de les suivre temporellement, mais il est également possible d’utiliser toutes autres techniques que
l’étudiant pourrait avoir apprises lors de son Master. Cela peut être par exemple des techniques issues
de l’analyse des données (décomposition factorielle) ou de l’apprentissage automatique.
2