Proposition de post-doc au LORIA (Nancy, France)

Transcription

Proposition de post-doc au LORIA (Nancy, France)
[English version below]
Proposition de post-doc au LORIA (Nancy, France)
Cadre du projet ANR ContNomina
Les technologies impliquées dans la recherche d’informations dans de grandes bases de données
audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques
d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de
ces approches est maintenant unanimement reconnue mais elles présentent néanmoins des défauts
majeurs, en particulier pour la prise en charge des noms propres, qui sont cruciales pour
l'interprétation des contenus.
Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres
apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de
langage utilisés par le système de reconnaissance de la parole.
En conséquence, le projet ANR ContNomina (2013-2017) se concentre sur le problème des noms
propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le
contexte des documents traités. Pour ce faire, le sujet de ce postdoc se focalisera sur la
contextualisation de la reconnaissance à travers l’ajustement dynamique du modèle de langage de
manière à le rendre plus précis.
Sujet du post-doc
On dispose du modèle de langage du système reconnaissance (n gram appris d’un grand corpus de
texte). Le problème est d’estimer la probabilité d’un mot ajouté en fonction de son contexte.
Plusieurs pistes pourront être explorées: adapter le modèle de langage, utiliser un modèle de classe
ou étudier la notion d’analogie.
Notre équipe a développé un système complet de reconnaissance automatique de la parole
permettant de transcrire une émission de radio à partir du fichier audio correspondant. Le post
doctorant devra développer un nouveau module dont la fonction est d’intégrer de nouveaux noms
propres dans le modèle de langage.
Compétences demandées
Avoir obtenu une thèse en TAL (Traitement Automatique des Langues), être familier avec les outils
de reconnaissance automatique de la parole, avoir de bonnes bases en statistiques et maîtriser les
langages de programmation C et Perl.
Durée
Environ 12 mois à partir de juin 2014 (la date de début est flexible)
Localisation
Laboratoire Loria, équipe Parole, Nancy, France
Contacts [email protected] [email protected]
Envoyer par mail un CV détaillé avec une liste de publications, diplômes et une lettre de motivations
Post-doc position at LORIA (Nancy, France)
Framework of ANR project ContNomina
The technologies involved in information retrieval in large audio/video databases are often based on
the analysis of large, but closed, corpora, and on machine learning techniques and statistical
modeling of the written and spoken language. The effectiveness of these approaches is now widely
acknowledged, but they nevertheless have major flaws, particularly for what concern proper names,
that are crucial for the interpretation of the content.
In the context of diachronic data (data which change over time) new proper names appear constantly
requiring dynamic updates of the lexicons and language models used by the speech recognition
system.
As a result, the ANR project ContNomina (2013-2017) focuses on the problem of proper names in
automatic audio processing systems by exploiting in the most efficient way the context of the
processed documents. To do this, the postdoc student will address the contextualization of the
recognition module through the dynamic adjustment of the language model in order to make it more
accurate.
Post-doc subject
The language model of the recognition system (n gram learned from a large corpus of text) is
available. The problem is to estimate the probability of a new proper name depending on its context.
Several tracks will be explored: adapting the language model, using a class model or studying the
notion of analogy.
Our team has developed a fully automatic system for speech recognition to transcribe a radio
broadcast from the corresponding audio file. The postdoc will develop a new module whose function
is to integrate new proper names in the language model.
Required skills
A PhD in NLP (Natural Language Processing), be familiar with the tools for automatic speech
recognition, background in statistics and computer program skills (C and Perl).
Post-doc duration
12 months from June 2014 (these is some flexibility)
Localization
Loria laboratory, Speech team, Nancy, France
Contacts
[email protected] [email protected]
Candidates should email a letter of application, a detailed CV with a list of publications and diploma