Version pdf - KIWI

Transcription

Version pdf - KIWI
Projet d'équipe KIWI
(Knowledge, Information and Web Intelligence)
Membres
Anne Boyer, professeur en informatique, Université Nancy 2
Armelle Brun, maître de conférences en informatique, Université Nancy 2
Azim Roussanaly, maître de conférences en informatique, Université Nancy 2
Alain Lelu, professeur en informatique, Université de Franche-Comté (membre associé)
Geoffray Bonnin, doctorant (1ère année), Université Nancy 2
Sylvain Castagnos, doctorant (3ème année), Université Nancy 2
Ilham Esslimani, doctorant (1ère année), Université Nancy 2
Le Phuong, doctorant (2ème année, co-encadrement : L. Romary), Université Nancy 2
Cédric Bernier, doctorant (inscription en cours, bourse Cifre Alcatel)
XX, ingénieur (recrutement en cours pour 7 mois, financement Céres, INPL)
Synoptique des activités de l'équipe
Objectifs
concevoir des méthodes d'aide à la décision dans l'incertain par analyse des usages
o environnement dynamique ;
o données manquantes, hétérogènes, incertaines et bruitées ;
créer une plateforme logicielle de recherche documentaire collaborative et sociale.
Thèmes
Problématique générale : modélisation du comportement utilisateur en interaction avec un service
o Construction de profils utilisateurs
o Construction et identification de communautés virtuelles
Application cible : accès personnalisé à l'information multimédia dans des bases hétérogènes
o Assistance à la formulation de requêtes
o Filtrage de ressources
Evaluation : détermination de la satisfaction de l'utilisateur
o Génération de corpus
o Estimation et prise en compte de la satisfaction utilisateur
o Ergonomie de l'interaction
Approche
Analyse des usages
Approche statistique
Outils
Modèles statistiques (n-grammes, triggers)
Modèles stochastiques (MDP)
Modèles graphiques (réseaux bayésiens)
Modèles à base de grammaires (grammaires d’arbres)
1
Problématique générale
Notre objectif est d'améliorer la qualité du service rendu par un système informatique (comme par exemple
un intranet d'entreprise, une bibliothèque numérique en ligne, un portail d'informations, le web, …) à un
utilisateur identifié ou non.
Notre démarche générale peut ainsi être schématisée de la façon suivante :
• apprentissage de modèles de comportement des utilisateurs, à partir de l’observation des interactions
qu'ils ont avec le système ;
• reconnaissance du comportement spécifique de l'utilisateur courant à partir des observations
effectuées en situation d'interaction ;
• planification, à partir du comportement observé, des actions que le système doit effectuer de manière
à fournir un service adapté aux attentes de l'utilisateur.
Elle s'inscrit donc dans une approche par analyse des usages et nécessite de disposer de corpus de traces
conséquents pour construire des modèles efficaces. Il n’est évidemment pas envisageable d’attendre un
recueil suffisant d’observations sur un utilisateur donné pour commencer à mettre en œuvre l’adaptation.
Nous proposons de tirer profit des informations recueillies sur d’autres utilisateurs. L’apprentissage sera
alors collectif (l’expérience des uns profitant aux autres).
Le renforcement est une technique pertinente d’apprentissage dans ce contexte. Il permet notamment au
système d’apprendre incrémentalement l'utilisateur en se fondant sur le principe des "punitions
récompenses". A la différence des approches classiques, le signal de renforcement provient également des
autres utilisateurs.
La quantité d’informations à traiter devient vite trop importante au regard des capacités calculatoires et des
contraintes de temps éventuelles, une approche décentralisée du problème permet de casser la complexité des
traitements.
Le projet concerne donc la modélisation de comportement par apprentissage par renforcement
collectif et décentralisé.
2
Motivations applicatives
Les nouvelles technologies de la communication ont envahi notre vie professionnelle et personnelle,
permettant une diffusion généralisée, instantanée et ubiquitaire de l’information. Le développement
d'Internet amène tous les jours plus d'utilisateurs, plus de services en ligne, plus de contenus.
L'exploitation des capacités d'Internet par des utilisateurs de moins en moins formés et de plus en plus
exigeants est un problème émergent qu'il convient d’aborder. La satisfaction de l'utilisateur dépend en effet
de ses attentes, connaissances, compétences ou centres d’intérêt, ainsi que du contexte local dans lequel il est
immergé. Ainsi, un service ne peut plus être conçu selon des scénarios ou un modèle du monde a priori, car
"les interactions non prévues deviennent la norme et non plus l’exception"[JEN 00]1.
Majoritairement, les documents accessibles sur Internet ont une organisation, un contenu, un mode
d’interaction et une présentation identiques pour tous les utilisateurs. De nouvelles ressources, par essence
hétérogènes (textes, images, sons, vidéos, pages web, …) et multilingues, sont massivement produites. Cette
profusion de ressources accessibles par tous en tout lieu et tout temps révèle une problématique majeure :
quel est le sous-ensemble de documents réellement pertinents pour l’utilisateur. La personnalisation de
l’accès aux ressources dans des contextes variés par des utilisateurs très différents et des aspects émergents
comme la mobilité et l'activité en communauté (blogs, wiki, …) sont des enjeux stratégiques. La pertinence
de l’information fournie, son intelligibilité, son adaptation aux préférences, aux goûts et aux usages de
l’utilisateur sont donc des facteurs clés du succès des applications comme le commerce électronique, la
publicité ciblée, la télévision à la demande, la presse en ligne, l'e-administration, les bibliothèques
numériques ou la recherche d’informations sur le web. C'est ce domaine que nous avons choisi comme
1
N. R. Jennings "On Agent-Based Software Engineering", Artificial Intelligence, 117 (2) 277-296, 2000.
application cible car il permet d'appliquer nos contributions plus fondamentales sur l'apprentissage
collaboratif décentralisé par renforcement dans un contexte applicatif motivant.
3
Objectif
Notre objectif est triple :
concevoir des méthodes d'assistance à l'utilisateur par modélisation de son comportement en
interaction avec un système. Nos travaux peuvent s'appliquer à de nombreux domaines (par exemple
la télémédecine ou la télévision interactive), nous avons choisi dans un premier temps la recherche
d'informations comme plateforme applicative. La recherche dans des environnements comme le web
ou des intranets documentaires se caractérise notamment par la dynamicité, l'évolutivité et l'absence
de structure de l'environnement, et par l'insuffisance des observations recueillies.
réaliser une plate-forme logicielle intégrant un ensemble d'outils de navigation sociale permettant le
partage cohérent, la diffusion ciblée et la recherche d'informations dans des environnements
dynamiques, distribués, hétérogènes et déstructurés comme Internet. Il s'agit de trouver en temps réel
les ressources (documents multimédia, services en ligne, portails informationnels, …) qui satisfont à
l’attente spécifique d’un utilisateur donné. En particulier, les outils développés devront soit
déterminer quelle ressource est pertinente pour un utilisateur à un moment donné, soit construire des
communautés virtuelles d'utilisateurs partageant les mêmes centres d'intérêt, soit déterminer à quel
ensemble d'utilisateurs il est intéressant de délivrer une information spécifique, soit construire une
organisation des ressources ne reposant plus exclusivement sur des thèmes ou des mots-clés mais sur
leur pertinence pour une communauté d'utilisateurs.
formaliser des méthodes d'évaluation de la pertinence des recommandations. Le critère de succès est
la qualité du service offert, évaluée d'abord via la satisfaction de l'utilisateur qu'il conviendra
d'estimer mais aussi par la performance de la tâche mesurée classiquement par des indicateurs
comme le temps de calcul ou la précision des résultats fournis.
Pour atteindre l'objectif de personnalisation visé, différents points sont à considérer, comme notamment :
• le profil de l'utilisateur qui intègre ses goûts, préférences, habitudes, centres d'intérêts ;
• la notion de contexte qui décrit l'environnement dans lequel l'utilisateur est immergé ;
• la mobilité pour prendre en compte par exemple l'utilisation de terminaux variés ;
• la possibilité pour un groupe de naviguer ensemble ;
• l'accès rapide et aisé à une information fiable et pertinente.
4
Objets d'étude
Le problème à résoudre peut s’exprimer ainsi : à tout moment, dans tout contexte et en tout lieu, déterminer
la ou les ressources les plus pertinentes à présenter à l’utilisateur de manière à maximiser sa satisfaction.
Une ressource constitue l’unité élémentaire manipulée dans l’application envisagée. Elle est considérée
comme une entité insécable. Une ressource est repérée par un identifiant unique qui sert également à la
localiser et à la distinguer des autres. Aucune autre information descriptive n’est supposée connue a priori.
Un utilisateur est connu au travers des données potentiellement disponibles, par exemple :
Les observations d'usage, comme l'historique de recherche (suite des ressources précédemment
consultées) et pour chaque ressource consultée : la date de consultation, le temps de consultation
(donnée incertaine puisque rien ne garantit que l’utilisateur n’était pas effectivement occupé à
une autre tâche), les différentes actions effectuées si il y a lieu (téléchargement, sauvegarde,
impression,…) et éventuellement les votes ou appréciations attribuées par l’utilisateur. Ces
données sont recueillies notamment au travers des fichiers log et du clickstream.
Les observations sur l'utilisateur obtenues par une webcam, un micro, un eye tracker par
exemple.
Les informations fournies par l'utilisateur sur ses préférences ou ses centres d'intérêt (remplis par
exemple via un formulaire d'abonnement).
Les requêtes exprimées, associées aux ressources sélectionnées.
Les connaissances a priori, comme les données démographiques, le rôle de l'utilisateur (dans un
intranet d'entreprise par exemple, le rôle définit la politique des droits associés).
Il convient de recenser pour chaque application quelles données sont effectivement collectables.
Un contexte regroupe des informations sur le dispositif d'accès (terminal, réseau, coût éventuel de connexion
ou de transfert, qualité de la communication), la localisation géographique, le moment (date ou période de la
journée ou de la semaine), la disponibilité (des ressources, du réseau, des serveurs), le coût (par exemple de
l'accès à une ressource), les modalités possibles ou souhaitables en fonction de l’environnement, …
Un service est un intermédiaire qui établit un lien entre utilisateurs et ressources. Le service peut soit
préexister, soit être construit dynamiquement à partir des interactions avec l'utilisateur et les ressources. Dans
chacun des deux cas, le service pourra s'adapter automatiquement au comportement utilisateur et/ou à la
nature des ressources.
5
"Discours sur la méthode"
La méthodologie adoptée peut se définir en trois étapes principales :
• développer des concepts, des méthodes et des outils ;
• valider leurs apports scientifiques en les comparant relativement aux autres approches du domaine et
aux algorithmes développés par d'autres équipes de recherche à l'aide des mesures usuelles
(complexité algorithmique, rappel, précision, …) sur des corpus communs ;
• les déployer dans des projets pilotes et évaluer les apports sur des applications réelles.
La collaboration avec d'autres équipes de recherche permet de combiner des points de vue différents et ainsi
de renforcer les apports de chacune, dans une complémentarité des approches abordées et des outils utilisés.
Travailler en partenariat avec les entreprises permet de plus d'offrir un cadre réel d'évaluation en situation
des outils développés et de les confronter aux contraintes industrielles.
Par ailleurs, nous nous appuyons sur l'expérience déjà acquise notamment au travers des projets européens
IST ELIN et ESA Sat'nSurf sur la diffusion ciblée d'informations. Une autre richesse consiste en la
complémentarité des compétences des différents membres, de parcours scientifiques multiples, qui se
complètent et donnent de la cohérence à nos activités.
5.1
Approche scientifique
Lors de recherches sur Internet à l’aide de moteurs, l’utilisateur exprime des requêtes plus ou moins
complexes à l’aide de mots-clés et de connecteurs logiques, ce qui constitue une difficulté certaine pour le
"grand public".
Traditionnellement, les requêtes sont évaluées indépendamment de l’utilisateur et du contexte. Les seuls
critères de sélection des ressources sont leur contenu, leur popularité et leur disponibilité. La seule façon de
voir pris en compte ses centres d’intérêts ou ses préférences pour un utilisateur est de les formuler
explicitement dans la requête, ce qui est irréaliste.
Par ailleurs, cette approche nécessite de disposer d’un "étiquetage" des ressources permettant d’établir un
lien entre la requête de l’utilisateur et la ressource. Or produire automatiquement un étiquetage en mots clés
pertinents et contextualisés est une problématique complexe qui ne possède pas de solution générique pour
l'instant. De plus, l'étiquetage peut évoluer au cours du temps et dépend des "points de vue" des utilisateurs
ou des contextes.
De plus, la recherche par mots-clés et opérateurs logiques ne garantit plus d’identifier les ressources les plus
pertinentes dans un temps raisonnable dans la mesure où le nombre de résultats retournés est colossal. Par
exemple, début 2007, Google proposait plus de 5 milliards de liens pour la requête "news" et environ 400
millions de sites à consulter pour les "news" relatives à "New-York".
Par ailleurs, des mots-clés identiques peuvent révéler des attentes différentes des utilisateurs, alors qu'à
l'inverse des requêtes différentes peuvent exprimer une même recherche.
Enfin, la recherche classique par mots-clés n’est pas efficace : les critères de rappel et de précision (souvent
inférieure à 1%) ne sont pas satisfaisants.
Une autre approche consiste à établir une relation d’apprentissage, c’est-à-dire une relation privilégiée, entre
un service et son utilisateur. Elle se nourrit d’une remontée régulière d’informations de manière à satisfaire
de mieux en mieux les besoins individuels de l'usager. Cette relation correspond à un investissement plus ou
moins progressif et plus ou moins conscient de l’usager dans sa relation avec le service. Cette implication
peut être déclarative (un formulaire à remplir) ou apprise à partir de l'observation des actions de l’utilisateur
par exemple.
Notre expérience antérieure, notamment au travers des travaux menés dans le contexte du projet ESA
Sat@Surf, nous a permis de constater que la combinaison de plusieurs méthodes permet d'envisager une
qualité de service améliorée et par conséquent une satisfaction de l'utilisateur plus grande. Notre approche est
donc hybride. C'est pourquoi nous étudions comment combiner deux approches :
l'approche par analyse des usages ;
l'approche par analyse de contenus.
Analyse des usages. Elle ignore le contenu d'une ressource pour se focaliser uniquement sur son intérêt
pour l’utilisateur, mesure certes plus subjective mais en lien direct avec la satisfaction. L'approche par
analyse des usages consiste à exploiter les traces innombrables laissées volontairement ou non par les
utilisateurs lors de leurs interactions avec un service, qu'elles soient explicites (votes, tags, annotations) ou
implicites (clickstream, logs, historique de consultations).
Aucun modèle a priori de l'utilisateur, de la ressource, de l'interaction entre l'utilisateur et la ressource
n'existe et ne peut exister. Ce manque est dû en grande partie à la dimension subjective du problème traité
(intérêt d'un document pour un utilisateur, satisfaction de l'utilisateur, polysémie des actions, …). De plus,
l'ensemble des utilisateurs et l'ensemble des ressources sont par essence dynamiques.
La quantité des données disponibles permet d'envisager leur exploitation par des méthodes statistiques, afin
de construire par apprentissage automatique la fonction de pertinence d'une ressource pour un utilisateur, en
fonction du contexte dans lequel il est immergé. Pour pallier le manque éventuel d'informations disponibles
sur un utilisateur à un instant donné, nous avons adopté une approche collaborative qui consiste à exploiter
les données disponibles sur d'autres utilisateurs ayant un comportement observé "similaire" à celui que nous
cherchons à modéliser. C'est en ce sens que nos travaux s'inscrivent dans le WEB2 (social) et le WEB3
(intelligent).
Analyse de contenus. Les ressources Web, ou documentaires en général, sont classiquement ramenées à des
formes plus simples, comme des vecteurs ou des listes d’index. Ces représentations constituent encore des
espaces de description très difficiles à traiter par les méthodes d’analyses de contenus et de recherche
d’information traditionnelles.
Pour pallier cette complexité, notre approche repose également sur la notion de classification, et plus
particulièrement sur une collaboration entre classification supervisée et non supervisée de ressources. Elle
peut permettre l’identification d'informations pertinentes comme l'identification automatique du thème ou
encore la découverte de paramètres implicites. Ces nouvelles données seront ensuite intégrées dans le
processus de recherche d'informations.
Le contexte dans lequel nous nous plaçons étant particulièrement évolutif, nous sommes également amenés à
nous intéresser au problème de la classification incrémentale, car de nouvelles ressources émergent en
continu.
5.2
Démarche
Dans le contexte d'une approche par analyse des usages, une interaction personnalisée entre un utilisateur et
un service nécessite plusieurs étapes parmi lesquelles :
l’acquisition des données utilisateurs ;
la définition du modèle utilisateur ;
la définition du modèle de contexte ;
la définition d'un modèle de ressource ;
la définition du modèle de service ;
le raisonnement ;
l'évaluation de la satisfaction utilisateur
la génération de services personnalisés.
L’acquisition des données utilisateurs. Les données qui nous permettront de valider nos propositions sont
soit (1) générées automatiquement à partir d'un logiciel que nous avons conçu afin de permettre la
constitution automatique et rapide de corpus exhibant des caractéristiques spécifiques (nous envisageons
d'améliorer encore la vraisemblance des données en testant avec des modèles permettant une plus grande
expressivité des contraintes comme les grammaires d’arbres) soit (2) issues de benchmarks usuels dans la
communauté scientifique comme MovieLens2 par exemple, soit (3) collectées à partir de systèmes existants
(elles sont notamment fournies par nos partenaires industriels : Crédit Agricole S.A., Technoscope, INIST).
A partir des données disponibles, il est nécessaire de déterminer celles qui sont pertinentes, fiables, bruitées,
redondantes, …. Une première étape est donc de qualifier les données éventuelles avant de les exploiter.
La définition du modèle utilisateur. Un système capable de fournir une interaction personnalisée requiert
un modèle utilisateur qui contient des informations sur les intérêts, les habitudes, les besoins, les préférences,
les droits, les compétences, les connaissances ou les intentions des utilisateurs. Les modèles utilisateur plus
avancés peuvent contenir des informations liées à l’état psychique, émotionnel ou physique dans lequel se
trouve l’utilisateur etc. Connaissant les données réellement disponibles sur le comportement de l'utilisateur, il
faut apprendre automatiquement son profil. Comme l'approche choisie repose sur une analyse des usages, il
est illusoire d'imaginer disposer de toute l'information nécessaire pour construire le profil. C'est pourquoi les
méthodes utilisées doivent prendre en compte outre l'insuffisance et le manque des données qui sont le plus
souvent des observations de l'information que l'on cherche à déterminer, à savoir la satisfaction utilisateur.
De plus, ces observations sont le plus souvent incertaines, évolutives et bruitées.
La définition du modèle de contexte. Le contexte synthétise toute l'information disponible et pertinente sur
l'environnement dans lequel l'utilisateur est immergé. Il s'agit aussi bien de l'environnement technologique
qu'il faut prendre en compte que du lieu où il se trouve, du moment de la journée ou de la semaine, … Par
essence, l'environnement est dynamique, infini et non structuré. Le contexte permet également de déterminer
si l'utilisateur est dans le cadre d'un usage privé ou professionnel, si il est accessible selon plusieurs
modalités, … Modéliser le contexte est une tâche complexe, qui doit être automatique. Les méthodes
d'apprentissage utilisées doivent tenir compte du fait que le contexte n'est appréhendable généralement que
par des observations incomplètes, incertaines, bruitées, redondantes voire contradictoires.
La définition du modèle de ressources. Une ressource n'est supposée connue a priori que par un identifiant
qui indique à la fois son nom et sa localisation. Les ressources sont par essence hétérogènes, multi-formats,
multimédias, multilingues, volatiles, évolutives, obsolètes ou d’actualité, indexées (thématiquement, par
mots-clés) ou non, avec un contenu structuré ou non, organisées dans une hiérarchie ou non, publiques ou
privées, créées dans un cadre professionnel ou personnel, …
Lorsque certaines de ces informations sont disponibles, elles peuvent être utilisées et sont stockées dans le
profil de la ressource. Par ailleurs, comme l'approche repose sur une analyse des usages, il est possible de
construire automatiquement par apprentissage un profil d'usage des ressources qui intègre sa pertinence pour
un utilisateur ou une communauté d'utilisateurs, sa corrélation relativement à d'autres ressources évaluée
relativement aux usages observés. De plus, cette évaluation évolue au cours du temps et des consultations.
Cette évolution du profil d'usage des ressources est un atout important de notre approche. Le modèle de
ressources permet une classification des ressources par les usages voire une ontologie d'usage.
La définition du modèle de service. La personnalisation du service nécessite en outre un modèle du service
(ses objectifs, les ressources nécessaires, …). Il faut connaître la liste des actions possibles et apprendre par
renforcement par exemple comment les composer, en fonction de l'utilisateur, pour obtenir la meilleure
qualité de service. Le service que nous considérons concerne la recherche d'informations d'une manière
générale.
Le raisonnement. Les systèmes de recommandations préconisent à l'utilisateur de consulter des ressources,
en adéquation avec ses attentes, ses préférences, ses goûts, ses habitudes et le contexte dans lequel il est
immergé. [BRE 98]3 définit le filtrage collaboratif comme "la tâche de prédire l’utilité d’une ressource à un
utilisateur particulier en se fondant sur une base de données de votes issues d’un échantillon ou d’une
population d’autres utilisateurs". C'est une méthode de recommandation dans laquelle la décision appartient
au système. L'idée principale des systèmes de filtrage collaboratif est qu'un utilisateur préférera ce que les
personnes semblables préfèrent. Il s'agit en quelque sorte d'automatiser le processus du bouche-à-oreille.
Schématiquement, le filtrage collaboratif consiste à enregistrer les comportements des visiteurs afin d’opérer
des regroupements entre des profils similaires et de produire dynamiquement des recommandations
2
http:// movielens.umn.edu
J.S. Breese, D. Heckerman and C. Kadie “Empirical Analysis of Predictive Algorithms for Collaborative Filtering “,
Proceedings 14th Conference on Uncertainty in Artificial Intelligence, Madison WI: Morgan Kauffman, 1998.
3
personnalisées aux membres de chaque communauté ainsi constituée. L'approche collaborative permet de
passer d'un problème individuel à une méthode collective de recommandations.
Pour pallier les difficultés inhérentes à une approche par analyse des usages (manque d'informations
disponibles pour de nouvelles ressources par exemple), nous explorons des approches hybrides notamment
en combinant automatiquement filtrage collaboratif et analyse de contenu4.
L'évaluation de la satisfaction utilisateur. Il s'agit de déterminer une mesure pertinente de la satisfaction
de l'utilisateur fondée sur des critères objectifs, de manière à valider la qualité des recommandations. Pour
l'instant, cette évaluation est réalisée au travers des actions que l'utilisateur effectue ou n'effectue pas sur la
ressource recommandée. La satisfaction pourra être utilisée en "boucle de retour" comme une donnée
supplémentaire.
La génération de services personnalisés. Un système adaptatif observe le comportement de l'utilisateur lors
des interactions qu'ils entretiennent et utilise ces observations pour réaliser l'adaptation. Dans le cas de la
recherche documentaire, le service va rendre un ensemble de ressources pertinentes relativement au contexte
et au profil de l'usager. Il est important d'ordonner cette liste de réponses de manière à guider l'utilisateur
dans sa sélection. Il faut apprendre une fonction de tri fiable qui ne soit pas fondée uniquement sur la
popularité d'un site mais soit une véritable évaluation de la pertinence prédite d'une ressource pour un
utilisateur donné dans un contexte spécifique.
5.3
Outils
Les outils exploités, pour leur intérêt par rapport aux caractéristiques du problème traité, sont essentiellement
:
• les modèles de décision stochastiques (réseaux bayésiens, processus de décision markovien),
• les modèles statistiques exploitant la distance (modèles n-grammes, triggers) qui sont notamment
utilisés en modélisation de la langue,
• les réseaux sociaux qui permettent de formaliser les interactions à l'aide de graphes,
• les modèles bio-inspirés (par exemple avec Nazim Fatès5 de l'équipe-projet MAIA dans le cadre
d'une collaboration naissante).
6
6.1
Verrous et défi
Verrous
Même si il a déjà fait ses preuves dans des contextes spécifiques comme la vente en ligne, force est de
constater que les algorithmes actuels de filtrage collaboratif sont encore notablement insuffisants, que ce soit
parce que de nombreux aspects inhérents à la recherche d'informations ne sont pas pris en considération ou
parce qu'ils ne sont pas capables de répondre aux contraintes et aux exigences d'applications réelles. Parmi
les nombreux verrous6 qui existent encore, citons la qualité de service (qualité des prédictions, confiance7,
sécurité, contexte, fiabilité, prédiction, sclérose), la capacité à modéliser l'utilisateur (manque de données sur
un utilisateur, évolution de l'utilisateur, mobilité, respect de la vie privée, navigation de groupe), la capacité à
modéliser les ressources (dynamicité, évolutivité, distribution, séquentialité, traitement des annotations), les
contraintes industrielles (initialisation du système, passage à l'échelle).
Un autre verrou est l’apprentissage automatique de la combinaison des deux approches (usage, contenu) :
comment prendre une décision la meilleure possible à partir des résultats renvoyés par chacune des
4
Castagnos S. and Boyer A., "A client/server user-based collaborative algorithm: model and implementation", 17th
european conference on artificial intelligence (ECAI 2006), in the 4th prestigious applications of intelligent systems
special section (PAIS), August 2006, Riva del Garda, Italy.
5
Fatès N. , "Directed percolation phenomena in asynchronous elementary cellular automata", LNCS 4173, pp. 667-675,
2006.
6
Bouzid M. and Millerat J., "Mobile and User Modelling Business Issues", International Workshop on Ubiquitous and
Decentralized User Modelling (UbiDeUM’2007), Corfu, Greece, June 2007.
7 O’Donovan J. And Smyth B., "Trust in Recommender Systems", IUI’05, San Diego, California, USA, January 9–12
2005.
méthodes ? Cette combinaison est dépendante à la fois des ressources, de l’utilisateur, du contexte mais aussi
de la qualité des résultats obtenus (ainsi le filtrage collaboratif s’améliore au cours du temps et n’est pas
pertinent lors de l’apparition d’un nouvel utilisateur ou d’une nouvelle ressource).
En résumé, le système doit être générique, distribué aussi bien en calculs qu'en ressources, centré sur
l’utilisateur, techniquement capable de gérer des centaines de milliers d’utilisateurs en temps réel et
garantir la protection de la vie privée, tout cela avec une qualité de prédiction au moins équivalente
aux algorithmes connus du domaine.
6.2
Défi
Le challenge est de concevoir un système temps réel d'accès personnalisé et de filtrage dynamique de
l’information multimédia, capable de considérer rapidement les changements dans les domaines d’intérêts de
l’utilisateur tout en prenant en compte la dynamicité et l'hétérogénéité de l'environnement.
Le problème est d'associer à chaque triplet (utilisateur, ressource, contexte) une valeur qui mesure la
pertinence de la ressource pour l'utilisateur courant immergé dans un contexte spécifique. Comme cette
fonction de pertinence n'est pas connue a priori, il faut l'apprendre automatiquement à partir des données
disponibles.
Le défi scientifique est donc de concevoir une méthode robuste d'apprentissage avec peu de données sachant
qu'elles sont hétérogènes, parfois redondantes voire contradictoires, incertaines et bruitées, sachant que
l'environnement est partiellement observable, dynamique, évolutif et non structuré.
6.3
Contributions envisagées
Les contributions possibles sont les suivantes :
Apprentissage par renforcement hiérarchique : parmi les outils que nous envisageons de
considérer figurent les modèles hiérarchiques qui permettent de traiter des comportements
complexes par une décomposition hiérarchique.
Construction de la fonction d’utilité : l’utilité peut être vue comme une expression des préférences.
Or il a été prouvé [RUS 03] qu’il est très difficile de décomposer les préférences des utilisateurs sur
des états de la même façon que les réseaux bayésiens décomposent les croyances. Une des raisons
peut être que les préférences sont réellement calculées à partir des préférences sur des historiques
d’état qui sont décrites par la fonction de récompense. Même si la fonction de récompense peut être
simple, la fonction d’utilité peu être très complexe. Cela conforte l’intérêt de travailler à la définition
de fonctions de récompense pertinentes.
Filtrage des ressources pertinentes : un point clé en recherche collaborative est de garantir la
fiabilité des résultats proposés, en particulier qu'il n'y aura pas de manipulation de tendance par des
utilisateurs "malicieux". Un utilisateur malicieux "clone" des profils réels d'utilisateurs (en les
perturbant à la marge éventuellement) et ajoute une recommandation qu'il veut diffuser aux autres. Il
faut donc concevoir un modèle résistant aux attaques de ce type et attacher dans le modèle qu'un
utilisateur a des autres un indice traduisant la confiance qu'il lui accorde.
Conception d'une grammaire statistique des usages : les algorithmes de filtrage collaboratif se
concentrent généralement sur une vision ensembliste des observations, négligeant la notion d’ordre
implicitement contenue dans les historiques de consultation. Pourtant, cet aspect est très largement
pris en compte en modélisation statistique du langage et nous avons décidé de regarder quels
pourraient être les apports de ce domaine du traitement automatique des langues à la recherche
documentaire fondée sur une recommandation collaborative.
Traitement de la multi-navigation : Une mono-navigation est la suite chronologique des ressources
visitées lors d'une recherche unique et cohérente et reflète le parcours d’un internaute dans un espace
documentaire. La multi-navigation est l'imbrication de plusieurs navigations simultanées. La multinavigation est naturelle pour nombre d'utilisateurs, nous nous intéressons donc au développement
d'un service permettant sa prise en compte.
Détection de nouveauté : L'objectif principal de la détection de nouveauté est de souligner la
nouveauté apparaissant dans des documents encore inconnus, en exploitant la connaissance extraite
d’un corpus de documents de référence. Dans le contexte de filtrage, le principe de détection de
nouveauté permet de sélectionner les documents qui sont semblables à un modèle appris par
l’intermédiaire d’exemples positifs du besoin de l'utilisateur.
Exploitation de méthodes bio-inspirées : Des méthodes d’inspiration biologiques comme
l’algorithme des couvains qui a été utilisé avec succès en classification permet au travers d’une
connaissance centralisée de distribuer les traitements à des agents fourmis autonomes. Il serait
intéressant d'étudier leur apport à la construction de communautés.
Combinaison automatique de filtres : le projet ESA Sat@Surf a permis de vérifier que la seule
utilisation du filtrage collaboratif n'est pas suffisante. Nous travaillons à la combinaison automatique
de filtres, par exemple avec des filtres démographiques ou issus de politiques de rôle, avec une
analyse des contenus.
Combinaison de différents types de modèles utilisateur : le modèle individuel et le modèle de
groupe. Le modèle individuel regroupe les caractéristiques propres à un individu. Il s’agit
d’informations pouvant être soit renseignées par l’utilisateur, soit déduites par le système, soit
acquises lors de l’utilisation de l’application. Le modèle de groupe correspond aux caractéristiques
les plus représentatives d’une classe d’individus.
Navigation sociale : la navigation sociale permet la navigation de groupe mais aussi le partage ou
l'exploitation de données non numériques. il s'agit d'un aspect complémentaire au filtrage
collaboratif que nous souhaitons prendre en considération.
Construction d'un modèle partagé : modèle réutilisable dans plusieurs applications. En effet, de
nombreuses caractéristiques d’un utilisateur sont utilisées systématiquement par toutes les
applications adaptatives. L’idée du modèle partagé est de disposer d’une partie commune et de
parties spécifiques à chacune des applications ou tâches à réaliser.
Evaluation de la satisfaction de l'utilisateur : en collaboration avec l'équipe de Psychologie sociale
de l'Université Nancy 2, il s'agit de déterminer des indicateurs de satisfaction et comment les utiliser
pour fournir une mesure de satisfaction, d'automatiser le processus de recueil des données
nécessaires et de modélisation de la satisfaction. Cette mesure pourra être utilisée ensuite comme une
donnée supplémentaire du système, sous forme de "boucle de retour".
Assistance à la formulation de requêtes : il s'agit de proposer des termes adéquats au contexte, de
réécrire sa demande en termes pertinents ou de fournir à l’utilisateur un lien activant une requête
adaptée à ses besoins. Ce travail est mené en collaboration avec Olivier Pietquin (équipe IMS de
Supelec Metz).
7
Application
L'application cible choisie est un intranet d'entreprise, solution de partage de centaines de milliers de
ressources hétérogènes par des centaines de milliers d'utilisateurs : les intranautes.
De nombreux intranets d'entreprise sont sous utilisés, au moins relativement à la richesse des informations
qu'ils proposent. Une des causes identifiées est la difficulté pour un intranaute de découvrir les ressources
pertinentes pour lui. Le moteur de recherche intégré ou la classification thématique se révèlent souvent
insuffisants.
Une solution technique émergente de construction d'un intranet d'entreprise consiste à laisser sur le poste de
chaque employé les ressources qu’il souhaite partager avec les autres (la dernière version d’un document
étant dès lors toujours disponible) et de concevoir l’intranet avec une vision P2P.
Le défi applicatif est de permettre un partage efficace des données dans une solution décentralisée de
type P2P tout en minimisant les communications entre machines.
Deux scénarios d'utilisation possibles sont les suivants :
partage d'un ensemble de ressources via l'Intranet d'entreprise ;
Scénario 1 :
o formulation d'une requête par un utilisateur qui fixe des contraintes (données non
persistantes) ;
o sélection d'un sous-ensemble de ressources sachant la requête, le profil (données rémanentes
sur l'utilisateur) et le contexte (données non persistantes sur l'environnement) ;
o tri personnalisé de ces ressources ;
o visualisation des ressources ;
o évaluation de la satisfaction de l'utilisateur.
Scénario 2 :
o dépôt d'une ressource par un utilisateur pour diffusion à un ensemble pertinent d'utilisateurs ;
o détermination de la communauté cible d'utilisateurs à partir de leur profil et du contexte ;
o
o
8
proposition de cette ressource aux utilisateurs retenus ;
évaluation de la pertinence de la diffusion.
Positionnement national et international
Actuellement, de nombreux groupes de recherche s'intéressent à la recherche documentaire sur Internet. Les
approches sont multiples (analyse par le contenu, ontologie, web sémantique) et concerne des équipes aussi
bien françaises (Grenoble, Paris, Sophia) qu'européennes (équipe du Pr. Ricci en Italie, de Hanovre en
Allemagne par exemple) ou américaines (Pr. Riedl ou Konstan à l'Université du Minnesota par exemple).
Notre démarche générale se distingue des approches classiques (sémantiques comme chez Edelweiss à
l'INRIA Sophia, à base d'ontologies comme chez Orpailleur du LORIA, par description du contenu de
documents (termes, graphes, séquences de termes) dans l'équipe MRIM de Grenoble qui s'intéresse à la
définition de systèmes personnalisés de filtrage ou de recherche collaborative), car elle consiste à construire
des modèles de comportement qui permettent d’expliquer les observations recueillies (analyse des usages).
Elle s’inscrit dans le domaine de l’apprentissage par renforcement. L’approche choisie consiste à développer
des modèles essentiellement numériques, au rang desquels figurent en bonne place les modèles stochastiques
et graphiques. Cette orientation vers les probabilités nous semble essentielle pour aborder la complexité des
problèmes réels qui servent de cadre applicatif à notre travail, comme les travaux que nous avons entrepris
ces dernières années le montrent.
L'analyse statistique des usages est une approche émergente d'autant plus motivante et prometteuse qu'elle
construit les modèles d'interaction automatiquement à partir des observations disponibles. Elle s'adapte ainsi
à de nombreux contextes applicatifs, sans recueil d'expertise préalable ou modélisation de concepts
spécifiques. Le défi scientifique est la conception d'algorithmes d'apprentissage collectif (l’expérience des
uns profitant aux autres) et décentralisé (pour casser la complexité des traitements). Le signal de
renforcement provient alors des autres utilisateurs et non pas de l’environnement à la différence des
approches classiques.
Il n'est qu'à voir les projets européens qui, comme Chorus par exemple, démarrent pour se convaincre de
l'enjeu stratégique de ce thème. De même, l'intérêt exprimé par les collaborations industrielles en cours
(presse, banque par exemple) est une preuve supplémentaire de l'importance économique des méthodes de
recommandation collaborative.
Le projet AXIS (INRIA Sophia) travaille à la conception, l'analyse et l'amélioration des systèmes
d'information dirigés par les usages. Il s'intéresse dans le contexte des systèmes d'informations à la
conception de systèmes de recommandation basés sur des méthodes d'analyse et de réutilisation en ligne de
l'usage (notamment capacité d'apprentissage de l'utilisateur) notamment à partir de raisonnement à partir de
cas. Notre approche est donc similaire, mais la problématique se distingue à la fois par les méthodes utilisées
mais plus encore par la nature de l'application visée : Internet est un espace dynamique où les échanges ne
sont pas structurés, les actions des utilisateurs libres, les ressources hétérogènes, les données manquantes et
les observations recueillies incomplètes.
L’équipe Décision du LIP6 travaille au développement de systèmes d’aide à la décision. Leurs recherches
portent notamment sur l'élaboration de modèles permettant de rendre compte de comportements décisionnels
complexes. Les applications potentielles concernent entre autres les systèmes de recommandation sur le web.
L'approche choisie consiste à modéliser les préférences par agrégation des préférences pour la décision
collective ou à exploiter essentiellement des modèles algébriques pour l’aide à la décision. Son orientation
concerne ainsi le développement de modèles formels de décision, ce qui lui donne un positionnement
différent de celle que nous avons choisie par analyse statistique et collaborative des usages.
Nos travaux, du fait des approches qu’ils utilisent et combinent, mais aussi des problématiques abordées,
concernent aussi bien la recherche d'information que l’Intelligence Artificielle, et l’équipe publiera dans les
deux communautés.
9
Quelques jalons
Une plateforme de simulation d'un intranet d'entreprise doit être opérationnelle début 2008. Elle permettra de
valider les approches par analyse des usages sur des logs anonymisés récupérés d'une entreprise partenaire.
Un premier système combinant analyse des usages et analyse par contenu devrait être opérationnel début
2009, sur ce démonstrateur. Il s'agit de recommander à un utilisateur abonné au service les ressources qui
l'intéressent en fonction de ses goûts et de ses habitudes observées, en lien avec les thèmes détectés
automatiquement.
A une échéance de trois ans, nous prévoyons d'intégrer dans la plateforme de simulation des méthodes de
recommandations de ressources exploitant les notions de séquentialité et de temporalité.
Dans quatre à cinq ans, la multinavigation sera prise en compte. Par ailleurs, les aspects liés à une navigation
visuelle et intuitive seront développés, de même que des outils de conceptualisation des actions pour la rétroconception de services.
10
10.1
Projets, contrats et collaborations
Collaborations industrielles et scientifiques nationales
Collaborations INIST
Une collaboration avec l'INIST a démarré début 2007 pour la recherche d'informations personnalisée.
L'objectif est d'améliorer la pertinence des suggestions faites aux utilisateurs sur le portail. Actuellement,
nous avons récupéré un jeu de données d’usages de manière à étudier si une modélisation de l’utilisateur est
possible à partir des observations collectées.
Collaboration avec le Crédit agricole SA – Projet PERCAL.
Nous collaborons depuis début 2006 avec le service veille et stratégie du Crédit Agricole SA (St Quentin en
Yvelines) sur la délivrance personnalisée d’informations dans le contexte d’un intranet d’entreprise. Une
convention de recherche d’une durée de 3 ans pour financer une thèse a été signée en octobre 2006. D’autres
contacts sont en cours autour de la prise en compte du handicap ou du marketing.
Convention avec Technoscope – Projet PIGIST.
Une collaboration est entreprise depuis 2006 avec l’agence de presse spécialisée Technoscope (Paris) dans le
but d’étudier les nouveaux modes de diffusion de la presse en ligne. Une convention a été signée en 2007
pour une durée d’un an avec pour objectif la prise en compte des aspects temporels. Des contacts sont en
cours via leur syndicat de presse pour lancer un projet du « journaliste au lecteur »
10.2
Collaborations internationales
Collaborations scientifiques. Des collaborations scientifiques avec Supelec Metz, une équipe de
psychologie du travail de l'Université Nancy 2, l'université de Besançon, l'Université de Ahmerst, de
Linkoping (Suède) et l'EPFL sont en cours. Des représentants de ces équipes de recherche sont venus
récemment pour des réunions de travail. Par exemple, V. Schickel de l'EPFL utilise des corpus que nous
avons construits pour évaluer ses travaux et a intégré notre algorithme de création de communautés dans son
système.
Contacts industriels. Une collaboration démarre avec Alcatel (recrutement d'un thésard Cifre) ou naissants
avec EADS et Motorola Labs avec qui nous organisons un séminaire de travail sur l'accès personnalisé aux
ressources. .
Annexe
CV des membres permanents
Anne Boyer
tel : 03 54 95 85 02
e-mail : [email protected]
1. Situation
depuis septembre 2007: professeur à l'UFR Mathématiques et Informatique (Université Nancy2, équipeprojet MAIA)
détachement à l’INRIA Lorraine (septembre 2001 à septembre 2003)
2. Activités de Recherche
Depuis 2000, mon activité de recherche concerne la modélisation stochastique de comportement par analyse
des usages. Je m'intéresse notamment au filtrage collaboratif, à la navigation sociale et à la conception d'une
grammaire statistique des usages. Les applications sont soit la télémédecine soit la recherche documentaire
personnalisée.
3. Publications
Revues (avec Comité de lecture)
1. [BOY 90] A. Boyer, P. Divoux, J.-P. Haton, J.-F. Mari, J. di Martino and K. Smaili "Statistical methods
in multi-speakers automatic speech recognition", in Applied Stochastic Models and Data Analysis, John
Wiley and Sons, Ltd, pp 143-155, 1990.
2. [BOY 02-1] A. Boyer and B. Nominé, "Impact of new educative technologies in a medium size
university", in "The changing Universities – the role of technology, special issue of the 7th international
conference of European University Information systems", in Lecture Notes in Informatics (LNI), volume
13, isbn 3-88579-339-3, Jan von Knop, Peter schirmbacher and Viljan Mahnic editors, pp 39-45, 2002.
3. [BOY 02-2] J.P. Thomesse et al. (dont A. Boyer) "TIISSAD Technologies de l'Information Intégrées aux
Services des Soins à Domicile", ouvrage n°13 de la collection "Informatique et Santé", dirigée par P.
Degoulet et M. Fieschi, Paris, Springer Verlag, France 2002.
4. [ELIN 05-1] G. Dummer, M. Kuhl, J. Casademont,M. Einhoff and A. Boyer, "ELIN: a MPEG based
news delivery framework", in "Innovation and knowledge economy: Issues, applications, case studies",
P. and M. Cunningham editors, IOS Press, ISBN 1-58603-563-0, Amsterdam, 2005.
5. [HEW 07] D. J Hewson, J. Duchène, F. Charpillet, J. Saboune, V. Michel-Pelligrino, H. Amoud, M.
Doussot, J. Paysant, A. Boyer and JY Hogrel,"The PARAChute Project: Remote Monitoring of Posture
and Gait for Fall Prevention", EURASIP Journal on Advances in Signal Processing, in special issue
"Signal Processing Technologies for Ambient Intelligence in Home-Care Applications", to appear in
2007.
6. [CAS 07] S. Castagnos and A. Boyer, "Privacy Concerns when Modeling Users in Collaborative
Filtering Recommender Systems", book chapter in Social and Human Elements in Information Security:
emerging Trends and Countermeasures. Manish Gupta and Raj Sharman Editors, to appear in 2007.
Colloques internationaux (avec Comité de lecture)
7. [BOY 07-3]A. Boyer and A. Brun, "Towards a statistical grammar of usage for document etrieval in
digital libraries", International Symposium on Signal Processing and Applications (ISSPA 2007),
February 2007, Sharjah, United Arab Emirates.
8. [BOY 07-2]A. Boyer and A. Brun, "Natural language Processing for usage-based indexing of web
resources", 29th European Conference on Information Retrieval (ECIR 2007), April 2007, Roma, Italy
(papier court, taux d'acceptation des papiers longs et courts : 28 %).
9. [BRU 07]A. Brun and A. Boyer, "usage-based indexing of web resources with natural language
processing", International Conference on Web Information systems and technologies, WEBIST 2007,
March 2007, Barcelona, Spain.
10. [CAS 07-2]S. Castagnos and A. Boyer, "Modeling prefernces in a distributed recommender system",
11th International Conference on User Modeling (UM 2007), June 2007, Corfu, Greece.
11. [CAS 07-1]S. Castagnos and A. Boyer, "Personalized communities in a distributed recommender
system", 29th European Conference on Information Retrieval (ECIR 2007), April 207, Roma, Italy
(papier long, taux d'acceptation des papiers longs 19 %).
12. [BOY 07-1]A. Boyer and S. Castagnos, "Adaptative predictions in a user-centered recommender
system", International Conference on Web Information systems and technologies, WEBIST 2007, March
2007, Barcelona, Spain.
13. [CAS 06-2]S. Castagnos and A. Boyer, "A client/server user-based collaborative algorithm: model and
implementation", 17th european conference on artificial intelligence (ECAI 2006), in the 4th prestigious
applications od intelligent systems special section (PAIS), August 2006, Riva del Garda, Italy.
14. [CAS 06-1]S. Castagnos, A. Boyer. "FRAC+: A Distributed Collaborative Filtering Model for
Client/Server Architectures". Web Information Systems and Technologies (Webist 2006). Setùbal,
Portugal, Avril 2006.
15. [ELIN 05-3]J. Casademont, F. Perdrix, M. Einhooff, J. Paradells, G. Dummer and A. Boyer, "ELIN: a
framework to deliver media content in an efficient way based on MPEG standards", 2005 IEEE
International Conference on web services (ICWS 2005), 11-15 July, Orlando (USA), ISBN 0-76952409-5.
16. [ELIN 05-2]J. Casademont, F. Perdrix, M. Einhooff, J. Paradells, G. Dummer and A. Boyer, "ELIN: a
web newspaper using the universal multimedia access concepts based on MPEG standards",
Visualization, imaging and image processing (VIIP 2005), sepember 7-9 2005, Benidorm, Spain, ISBN
0-88989-530-2, pp 27-32.
17. [CAS 05] S. Castagnos, A. Boyer, F. Charpillet, "A distributed information filtering: stakes and solution
for satellite broadcasting", International Conference on Web Information systems and technologies,
WEBIST 2005, May 2005, Miami, USA.
18. [PEL 04] L. Pélissier, A. Boyer and F. Charpillet "Toward gait modeling for fall prevention", in
Proceedings of ICEIS, Porto, Portugal, 2004.
19. [CHT 03-1] R. Charton, A. Boyer and F. Charpillet “Learning of mediation strategies for heterogeneous
agents collaboration”, in Proceedings of the 15th IEEE International Conference on Tools with Artificial
Intelligence (ICTAI’O3),Sacramento, USA, July 2003.
20. [BEL 02-1] D. Bellot, A. Boyer and F. Charpillet "A new definition of qualified gain in a data fusion
process", in the fifth international conference on information fusion-FUSION’2002, Annapolis,
Maryland, USA, July 2002.
21. [CHT 02-2] R. Charton, A. Boyer and F. Charpillet "Providing users with adapted services: Dynamic
building of dialogues to make heterogeneous agents cooperate", in Proceedings of ISSPIT 2002,
Marrakech, Marocco, 2002.
22. [CHT 02-1] R. Charton, A. Boyer and F. Charpillet "Towards bringing heterogeneous agents to
cooperation : an architecture for multimedia services", in Proceedings of AAMAS 2002, Bologne, Italy,
July 2002.
23. [CHT 01] R. Charton, A. Boyer and F. Charpillet "Reinforcing interaction between teachers and students
in distance learning systems", in Proceedings of 20th ICDE World Conference on Open Learning and
Distance Education, Düsseldorf, Germany, April 2001.
24. [BOY 01-1] A. Boyer and B. Nominé "Managing new educative technology in a medium size
university", in Proceedings of 20th ICDE World Conference on Open Learning and Distance Education,
Düsseldorf, Germany, April 2001.
25. [BOY 01-2] A. Boyer and B. Nominé "Impact of new educative technologies in a medium size
university", in Proceedings of 6th Eunis Conference, Berlin, 2001.
26. [BOY 98] A. Boyer and B. Nominé "Implementing internet access in a medium size university in social
sciences and humanities", in Proceedings of the 4th Eunis Conference, Pragues, Tchéquie, 1998.
27. [CHA 97-1] F. Charpillet and A. Boyer "Progress: an Approach for Defining and Monitoring Nondeterministic Design to Time methods", in proceedings of the ninth IEEE International Conference
(ICTAI'97), Newport Beach, California, November 4 - 7, 1997.
28. [CHA 96] F. Charpillet and A. Boyer "Composing and Monitoring Non Deterministic Design-to-time
Methods", in Proceedings of AAAI Fall Symposium on Flexible computation in Intelligent Systems,
Boston, November 1996.
29. [GON 92] Y. Gong and A. Boyer "Hand-written text recognition based on a new formulation", in
Proceedings of the 11th IEEE Conference on Pattern Recognition IAPR, IEEE Computer Society, pp
112-115, La Haye, Netherlands, 1992.
30. [BOU 91-2] C. Bourjot, A. Boyer and D. Fohr "A tool for assessment of acoustic phonetic lattices", in
Proceedings of the European Conférence on Speech Technology, Genova, pp 525-528, 1991
31. [GON 89]Y. Gong, A. Boyer and J.P. Haton "Parallel construction of syntactic structure for continuous
speech recognition", in Proceedings of the European Conference on Speech Technology, Paris, pp 4750, 1989.
32. [BOU 89-2] C. Bourjot, A. Boyer and D. Fohr "Phonetic decoder assessment", in Proceedings of the
European Conference on Speech Technology, Paris, pp 457-460, 1989.
33. [BOU 88-2] C. Bourjot, A. Boyer and J.F. Mari "Methodology about assessment of large vocabulary
systems", in Proceedings of the 7th FASE symposium, pp 161-169, août 1988.
34. [BOY 88] A. Boyer, P. Divoux, J.-P. Haton, J.-F. Mari, J. di Martino and K. Smaili "Statistical methods
in multi-speakers automatic speech recognition", in Proceedings of the 4th International Symposium on
Applied Stochastic Models and Data Analysis, Nancy, 1988.
35. [BOY 87-2] A. Boyer, J.-P. Haton and J. Di Martino "Dynamic time warping and vector quantization in
isolated and connected word recognition", in Proceedings of the European Conference on Speech
Technology, Edinburgh, UK, pp 436-439, 1987.
Workshops internationaux avec comité de lecture
36. [CAS 06-2] S. Castagnos, A. Boyer, "From implicit to explicit data: a way to enhance privacy",
Workshop on Privacy-Enhanced Personalization in the conference for Human-Computer Interaction
(CHI 2006). Montréal, Canada, Avril 2006.
37. [BEL 03-1] D. Bellot, A. Boyer and F. Charpillet "Design and Analysis of Data Fusion Process for
Making Probabilistic Models", in Proceedings of the 5th IFAC International Symposium on Intelligent
Components and Instruments for Control Applications (SICICA 2003), Aveiro, Portugal, July 2003.
38. [BEL 02-2]
39. D. Bellot, A. Boyer and F. Charpillet "Designing smart agent based telemedecine systems using dynamic
bayesian networks ; an application to kidney disease people", in Proceedings of the forth International
Workshop on Enterprise Networking and Computing in Health Care Industry, Technically Co-sponsored
by IEEE, Nancy, France, June 2002.
40. [THO 01] JP. Thomesse, D. Bellot, A. Boyer, E. Campo, M. Chan, F. Charpillet, J. Fayn, C. Leschi, N.
Noury, V. Rialle, L. Romary, P. Rubel, F. Steenkeste and N. Selmaoui "Integrated Information
Technologies for Patients Remote Follow-up and Homecare", in Proceedings of the 3th International
Workshop on Enterprise Networking and Computing in Health Care Industry, Technically Co-sponsored
by IEEE, 29 June - 01 July 2001 , L'Aquila, Italie.
41. [RAY 98-1] N. Ray, A. Boyer and F. Charpillet "New Results about Anytime Heuristic Search", in
Proceedings of the Workshop on Monitoring and control of real-time intelligent systems - ECAI'98,
Brighton, UK, 1998.
42. [CHA 94-1] F. Charpillet, A. Boyer, A.I. Mouaddib and J.P. Haton "A Blackboard System for RealTime Progressive Reasoning", in Proceedings of the Workshop on Integration in Real-Time Intelligent
Control Systems, Madrid, Spain, October 1993.
43. [BOU 89-1] C. Bourjot, A. Boyer and D. Fohr "Tools for phonetic labelling and phonetic assessment", in
Proceedings of the Workshop on speech input/output assessment & speech databases, ESCA,
Netherlands, 1989.
Colloques nationaux avec comité de lecture
44. [CAS 05] S. Castagnos, A. Boyer, F. Charpillet, "Vers un filtrage collaboratif distribué : le modèle
RSB", MFI 2005, Mai 2005, Caen, France.
45. [BOY 04] Anne Boyer et F. Charpillet, "Vers une analyse de la marche écologique pour la prévention
des chutes chez la personne âgée", actes du congrès "Télémédecine et Seniors", Nancy, 2004.
46. [CHT 03-2]R. Charton, A. Boyer and F. Charpillet "Faire coopérer des agents hétérogènes avec des
stratégies de dialogue", in Proceedings of MFI’03 – Modèles Formels pour l’Interaction, France, Lille,
2003.
47. [THO 01] J.-P. Thomesse, D. Bellot, A. Boyer, E. Campo, M. Chan, F. Charpillet, J. Fayn, C. Leschi, N.
Noury, V. Rialle, L. Romary, P. Rubel, F. Steenkeste et N. Virone "TIISSAD : Technologies de
l'Information Intégrées aux Services des Soins à Domicile", Journées AIM 2001, Télémédecine et santé,
Paris, juin 2001.
48. [CHT 00] R. Charton, A. Boyer et F. Charpillet "Utilisation des agents intelligents dans le commerce
électronique", in FORM-AMI 2000, «Information and Education, the cements of Nations, From
Info2000 to e-Europe, Marseille, France, octobre 2000.
49. [BOY 00] A. Boyer et B. Nominé "Enseignement et Nouvelles Technologies" in FORM-AMI 2000,
«Information and Education, the cements of Nations, From Info2000 to e-Europe, Marseille, France,
octobre 2000.
50. [CHA 97-2] F. Charpillet et A. Boyer "Progress : un modèle d'agent pour la conception de systèmes
multi-agents temps réel", dans les Actes des Journées Francophones IA distribuée et Systèmes Multiagents (JFIADSMA), ed. Hermes, 1997.
51. [CHA 94] F. Charpillet and A. Boyer "Incorporating AI Techniques into Predictable Real-Time Systems:
Reakt Outcome", in Proceedings of the 14th International Avignon Conference, vol. 1, pp 121-134,
Paris, 1994.
52. [BOU 92] C. Bourjot, A. Boyer et D. Fohr "Treillis acoustico-phonétique, une méthodologie
d’évaluation", dans les Actes des 19èmes Journées d’Etude sur la Parole, Bruxelles, pp 325-328, 1992.
53. [BOU 90] C. Bourjot, A. Boyer, D. Fohr et J.-P. Haton, "Méthodologies pour l’évaluation phonétique",
dans les Actes des 18èmes Journées d’Etude sur la Parole, Montréal, pp 201-206, 1990.
54. [BOU 88-1] C. Bourjot, A. Boyer, G. Pérennou, N. Vigouroux et J.-P. Tubach "Analyse de deux
enquêtes sur les systèmes de reconnaissance", dans les Actes des 17èmes Journées d’Etude sur la Parole,
Nancy, pp 30-35, 1988.
55. [BOY 87-1] A. Boyer, J.-P. Haton et J. di Martino "Application des techniques de programmation
dynamique et de quantification vectorielle à la reconnaissance de mots isolés et de mots enchaînés", dans
les Actes de l'AFCET 6ème congrès en Reconnaissance des Formes et Intelligence Artificielle, Antibes,
pp 37-52, 1987.
56. [BOY 86] A. Boyer, J.-P. Haton et J. di Martino "Reconnaissance de la parole multilocuteur par
programmation dynamique", dans les Actes des 15èmes Journées d’Etude sur la Parole, Aix en
Provence, pp 243-245, 1986.
57. [BOY 85] A. Boyer, J.-P. Haton et J. di Martino "Un algorithme de reconnaissance de mots enchaînés
avec contraintes syntaxiques", dans les Actes des 14èmes Journées d’Etude sur la Parole, Paris, pp 287289, 1985.
Rapports de projets
58. [CASA 06] A. Boyer, S. Castagnos, Y. Bertrand-Pierron, J. Anneheim, J-P. Blanchard, "Le filtrage
collaboratif : Pistes d’applications dans le domaine bancaire et présentation de la technologie", Dossiers
de la veille technologique du Crédit Agricole S.A., volume 27. Décembre 2006.
59. [CAST 05] S. Castagnos, A. Boyer, J-C. Lamirel. Proposal of valuation methods for the filtering
algorithms. Dossier technique pour ASTRA. Août 2005
60. [ELI O4-1] "D2: technical Spécification", rapport de fin de tâche, IST ELIN, May 2004, éditeur M.
Einhoff.
61. [ELI O4-2] "D3: technical Spécification", rapport de fin de tâche, IST ELIN, november 2004, éditeur M.
Kühl.
62. [ELI O4-3] "D4.1: methodology for assessment of collaborative filtering, IST ELIN, november 2004,
éditeur et auteur A. Boyer.
63. [ELI 02] "D1: Users needs and technical assessment", rapport de fin de tâche WP1, IST projet ELIN,
April 2002, éditeur A. Boyer.
64. [REA 93-4] "Progressive Reasoning in Reakt", F. Charpillet , A. Boyer, F. Warin, J.P. Haton, Final
Report of Task 3.2, Esprit Project Reakt II n° 7805. Report D3.2.8., October 1993.
65. [REA 93-3] Progressive reasoning in Reakt", Boyer A., Charpillet F., Progress report, Projet ESPRIT
Reakt n° 5146, March 1993.
66. [REA 93-2] "Multiple access and coherence management", Boyer A., Charpillet F., Progress report,
Projet ESPRIT Reakt n° 5146, February 1993.
67. [REA 93-1] "Progressive reasoning : quality and interaction issues", Boyer A., Charpillet F., Progress
report, Projet ESPRIT Reakt n° 5146, January 1993.
68. [ELS 91] "ELSA, ESPRIT Labelling System Assessment Software, the user's guide V2.4", Bourjot C.,
Boyer A., Fohr D., Projet ESPRIT II SAM n° 2589, April 1991.
69. [TII 02] "TIISSAD, Technologies de l’information intégrées aux Services des Soins à domicile",
compte-rendu de fin de projet RNTS, JP Thomesse, D. Bellot, E. Campo, M. Chan, F. Charpillet, D.
Estève, J. Fayn, C. Leschi, N. Noury, V. Rialle, L. Romary, P. Rubel, F. Steenkeste, January 2002.
70. [SAM 92] A. Fourcin and al. (dont A. Boyer), "ESRIT projetc 2589 (SAM) Multilingual speech
input/output assessment methodology and standardization" Technical report SAM-UCL-6004, June
1992.
4. Encadrements
5 thèses
o David Bellot, soutenance en 2003
o Romaric Charton, soutenance en 2004
o Sylvain Castagnos, 3ème année de thèse
o Ilham Esslimani, 1ère année de thèse
o Geoffray Bonnin, 1ère année de thèse
2 DRT soutenus en 2003 (R. Lhoste, L. Pélissier)
6 DEA Informatique (K. Smaili en 1987, C. Dingeon en 1988, P. Laroche en 1995, F. Lauri en 2000, R.
Lhoste en 2001, S. Castagnos en 2004)
1 Master 2 R Informatique (A. Villenave, soutenu)
1 Master 2 R Sciences Cognitives (K. Mounir, en cours)
1 Internship vietnanmien (Do Minh Chau, en cours)
de nombreux stages M2 Pro, Ecoles d'Ingénieur, Miage, …
5. Projets et collaborations
MIAMM : Multimedia Information Access using Multiple Modalities (projet européen IST, 20012004)
o Spécification et mise en oeuvre de systèmes de dialogue multimodaux comportant une
composante haptique.
o CANON, Canon Research Centre Europe Limited; (United Kingdom), SONY Europe;
(Allemagne), DFKI, German Research Center for Artificial Intelligence; Sarrebruck
(Allemagne), TNO Human Factors; (Netherlands)
Armelle BRUN
LORIA - Bureau C125
Tel : 03 83 59 30 64
E-mail : [email protected]
6. Situation
Depuis septembre 2003 :
Maître de conférences à l’Université Nancy 2 – UFR Mathématiques et Informatique
LORIA - Equipe Parole
7. Activités de Recherche
Depuis septembre 2003, mes activités de recherche portent sur les points suivants :
o Etude de la faisabilité de l’étiquetage humain dans une tâche de détection automatique de thèmes
(suite de mes travaux de thèse) (1)
o Intégration de la détection de thème dans un système de reconnaissance automatique de parole (2,3)
o Recherche automatique de la sous-partie d’historique adéquate pour la prédiction en modélisation du
langage (4,5)
Depuis plus d’une année je m’intéresse à l’exploitation des méthodes classiquement utilisées en modélisation
statistique du langage pour les systèmes de recommandation basés sur le filtrage collaboratif. Je présente ici
les points auxquels je me suis intéressée :
o Etude des similarités des domaines de la modélisation statistique du langage et du filtrage
collaboratif (6)
o Proposition d’une grammaire statistique des usages, inspirée des modèles statistiques du langage
(7,8)
Ces travaux ont montré de nombreuses pistes de recherche prometteuses.
8. Publications
1. A. Brun and K. Smaïli, « Fiabilité de la référence humaine dans la détection de thème », in Actes de
la 11ème conférence sur le Traitement Automatique des Langues Naturelles, 2005, pp. 91-100.
2. A. Brun, C. Cerisara, D. Fohr, I. Illina, D. Langlois, O. Mella, and K. Smaïli, « ANTS le système de
transcription automatique du LORIA », in Journées d’Etudes sur la Parole, 2004.
3. A. Brun, C. Cerisara, D. Fohr, I. Illina, D. Langlois, O. Mella, and K. Smaïli, « ANTS le système de
transcription automatique du LORIA », in Proceedings du Workshop ESTER, 2005.
4. A. Brun, D. Langlois, and K. Smaïli, « Exploration et utilisation d’informations distantes dans les
modèles de langage statistiques ». In Actes de la 13ème conférence sur le Traitement Automatique des
Langues Naturelles, 2006, pp. 425-434.
5. A. Brun, D. Langlois, and K. Smaïli, « Improving language models by using distant information », in
International Symposium on Signal Processing and its Applications, United Arab Emirates, February
2007.
6. A. Boyer and A. Brun, « Towards a statistical grammar of usage for document retrieval in digital
libraries », in International Symposium on Signal Processing and its Applications, United Arab
Emirates, February 2007.
7. A. Brun and A. Boyer, « Usage based indexing of web resources with natural language processing »,
in 3rd International Conference on Web Information Systems and Technology, Barcelona, March
2007.
8. A. Boyer and A. Brun, « Natural language processing for usage based indexing of web resources »,
in 29th European Conference on Information Retrieval, Roma, April 2007.
9. Encadrements
Depuis janvier 2007 je co-encadre, avec Anne Boyer, la thèse de Geoffray Bonnin.
Azim Roussanaly
tel : 03 83 59 20 46
e-mail : [email protected]
1. Situation
depuis septembre 1988: maître de conférences à l'UFR Mathématiques et Informatique (Université Nancy2,
équipe-projet TALARIS)
détachement à l’INRIA Lorraine (septembre 2001 à septembre 2003)
2. Activités de Recherche
Traitement automatique des langues naturelles
Formalismes syntaxiques
Analyseurs automatiques
Grammaires
3. Publications
Revues (avec Comité de lecture)
71. Crabbé, B, Gaiffe, B et Roussanaly A.. Représentation et gestion de grammaires TAG Revue TAL
(2004)
72. Roussanaly, A. et Pierrel, J.-M.. Dialogue oral homme-machine en langage naturel: le projet DIAL.
Techniques et Sciences Informatiques. Hermès, 1992. vol 11. n°2. pp.45-91.
Colloques (avec Comité de lecture)
73. Hong Phuong Le, Thi Minh Huyen Nguyen, L. Romary, A. Roussanaly A Lexicalized Tree Adjoining
Grammar for Vietnamese In Poster session, Fifth International Conference on
Language Resources and Evaluation (LREC 2006). (Genoa, Italy), Mai 2006
74. A. Roussanaly, B. Crabbé, J. Perrin.. Premier bilan de la participation du LORIA à la campagne
d'
évaluation EASY In Atelier Evaluation, 12ème Conférence sur le Traitement Automatique du Langage
Naturel (TALN'05). (Dourdan), juin 2005
75. Crabbé, B, Gaiffe, B et Roussanaly A.. Une plate-forme de conception et d’exploitation d’une
grammaire d’arbres adjoints lexicalisés In 10ème Conférence sur le Traitement Automatique du
Langage Naturel (TALN'03). (Batz/Mer), juin 2003
76. Lopez, P. et Fay-Varnier, C. et Roussanaly, A.. Lexicalized Grammar Specialization for Restricted
ApplicativeLanguages. In Workshop on Customizing Knowledge in NLP Applications LREC2002 –
May 2002 (Las Palmas – Espagne)
77. Crabbé, B, Gaiffe, B et Roussanaly A.. A New Metagrammar Compiler In TAG+6 (International
Workshop on Tree Adjoining Grammars and Related Frameworks) – May 2002 (Venise)
78. Lopez, P. et Fay-Varnier, C. et Roussanaly, A.. Sous-langage d'
application et LTAG : le système EGAL.
In 6ème Conférence sur le Traitement Automatique du Langage Naturel (TALN'99). 1999. 10 p.
79. Chapelier, L. and Fay-Varnier, C. and Roussanaly, A.. Modelling an Intelligent Help System from a
Wizard of Oz Experiment. In Proceedings ESCA Workshop on Spoken Dialogue Systems - Theories and
Applications. (Vigso (Denmark)). 1995.
80. Carbonell, N. et Chapelier, L. et Fay-Varnier, C. et Pierrel, J.-M. et Roussanaly, A. et Saint-Dizier, V..
Corpus d'
interactions multimodales homme-machine à partir du
logiciel GOCAD. Rapport interne.
Vandoeuvre-lès-Nancy: Centre de Recherche en Informatique de Nancy, 1994.
81. Carbonell, N. et Chapelier, L. et Fay-Varnier, C. et Pierrel, J.-M. et Roussanaly, A. et Saint-Dizier, V..
Recueil d'
un corpus d'
interactions multimodales homme/\-machine. Rapport interne. Vandoeuvre-lèsNancy: Centre de Recherche en Informatique de Nancy, 1994
82. Chapelier, L. et Fay-Varnier, C. et Roussanaly, A. et Saint-Dizier, V.. Recueil et analyse d'
un corpus
d'
interactions multimodales Homme-Machine. In Actes ERGO'IA94. (Biarritz). 1994
83. Mousel, P. and Pierrel, J.-M. and Roussanaly, A.. Heuristic Search Problems in a Natural Language
Task Oriented Spoken Man-Machine Dialogue System. In Proceedings ICSL'90 (International
Conference on Spoken Language Processing). (Kobe (Japan)). 1990
84. Mousel, P. and Pierrel, J.-M. and Roussanaly, A.. Parsing and Interpretation of Utterances in a Natural
Language Task Oriented Spoken Dialogue System. In Proceedings COGNITIVA'90. (Madrid (Spain)).
1990. 85. Mousel, P. et Pierrel, J.-M. et Roussanaly, A.. Analyse et interprétation d'
énoncés dans un système de
dialogue oral homme-machine finalisé en langage naturel. In Actes ERGO-IA'90. (Biarritz). 1990.
86. Roussanaly A. et Pierrel J-M. Le raisonneur dans un système de dialogue oral homme-machine in
Congrès AFCET-RFIA – Antibes 1987
87. Carbonell N., Mangeol B., Mousel P, Pierrel J-M et Roussanaly A. Les informations nécessaires dans un
système de dialogue oral homme-machine in Congrès AFCET RFIA, Grenoble, 1985
88. Carbonell N., Charpillet F., Haton J-P., Mangeol B., Mousel P et Roussanaly A.. Utilisation
d'
informations linguistiques dans un système de dialogue oral in actes des Jounées d'Etudes sur la
Parole – Paris, 1985
Colloques (sans comité de lecture), rapport et autres
89. Carbonell, N. et Chapelier, L. et Fay-Varnier , C. et Mignot, C. et Roussanaly, A.. Aspects ergonomiques
du dialogue multimodal homme-machine. Mise en œuvre d'une approche prédictive. In Actes Second
Séminaire IRMA. (Nancy). 1995. pp.37-44.
90. Roussanaly A. DIAL, la composante dialogue d'un système de communication orale homme-machine
finalisée en langage naturel – Thèse de l'université Nancy1 – 1er avril 1988
91. Mousel P. et Roussanaly A. LADI, Logiciel d'aide au dépouillement de corpus interactifs – rapport
CRIN - 1988
92. Carbonell N., Mangeol B., Mousel P et Roussanaly A. Réalisation d'un corpus de dialogues oraux.
Application aux renseignement administratifs. Rapport CRIN – 1986
93. Mousel P , Pierrel J-M et Roussanaly A. Logiciels d'aide à la création de base de connaissances
linguistiques. Rapport CRIN
94. Carbonell N., Haton J-P., Mangeol B., Mousel P. et Roussanaly A. Dialogue oral homme-machine :
bilan du projet MYRTILLE et perpectives in actes du séminaire GRECO-GALF Dialogue hommemachine – Nancy, 1984
4. Encadrements
Thèse de Le Hong Phuong (2006- en cours) Treebank pour le vietnamien [co-encadrement avec
L Romary]
Thèse de Benoît Crabbé (2001-2005) Contribution à la constitution semi-automatique de
lexiques syntaxiques [co-encadrement avec JM Pierrel]
Thèse de Patrice Lopez (1996 à 1999)Analyse d’énoncés oraux pour le dialogue hommemachine à l’aide de grammaires lexicalisés d’arbres [co-encadrement avec JM Pierrel]
Thèse de Laurent Chapelier (1992 à1996) Dialogue d’assistance dans une interface multimodale
[co-encadrement avec JM Pierrel]
Mémoire DES de Benoît Crabbé(1999-2000) Vers un système modulaire et paramétrable destiné
à décrire la grammaire TAG d'un sous-langage d'application [co-encadrement avec G. Deville
FUNDP – B-Namur]
DEA de Patrice Lopez (1995 à 1996)
DEA de Patrice Druart (1991 à1992)
5. Projets et collaborations
MIAMM : Multimedia Information Access using Multiple Modalities (projet européen IST, 20012004)
o Spécification et mise en oeuvre de systèmes de dialogue multimodaux comportant une
composante haptique.
CANON, Canon Research Centre Europe Limited; (United Kingdom), SONY Europe;
(Allemagne), DFKI, German Research Center for Artificial Intelligence; Sarrebruck
(Allemagne), TNO Human Factors; (Netherlands)
OZONE : Offering an Open and Optimal roadmap towards ambient intelligence (projet européen
IST, 2001-2004)
o Mise en place d'un système de dialogue homme-machine multimodal pour des applications
de type "intelligence ambiante".
o MAIA, INRIA Nancy; Nancy (France), PAROLE (INRIA Nancy); Nancy (France), Philips;
(Netherlands), Interuniversity Micro Electronics Center; (Belgique), Epictoïd; (Pays-Bas),
Technical University Eindhoven; (Pays-Bas),Thomson Multimedia (France)
XMINER : Plate-forme générique multi-composants pour la structuration dynamique de documents
texte libre par un balisage XML de Tags actifs (projet national Réseau National des Technologies
Logicielles (RNTL))
it; Nancy (France)
o Matra Systèmes et Information, GERDOSS, LIP6, Lucid'
EVALDA/EASY : Évaluation des Analyseurs Syntaxiques (projet national Technolangue, 20042005)
o ELRA/ELDA, Evaluations and Language resources Distribution Agency; Paris, LIMSI,
Laboratoire d'
Informatique pour la Mécanique et les Sciences de l'
Ingénieur; Orsay, ATILF,
Laboratoire Analyses et Traitement Informatiques du Lexique Français; Nancy (France),
ATOLL, (INRIA Rocquencourt), GREYC; Caen, LLF/Paris 7, Laboratoire de Linguistique
Formelle; Paris (France), ERSS/Toulouse, Equipe de Recherche en Syntaxe et Sémantique;
Toulouse, TAGMATICA; Paris (France) , DELIC, DEscription Linguistique Informatisée
sur Corpus; (Aix en Provence), LPL, Laboratoire Parole et Langage; Aix en Provence,
XRCE, Xerox Research Center Europe; Grenoble, DIAM/ Paris 6, DÉPARTEMENT
INTELLIGENCE ARTIFICIELLE ET MÉDECINE; Paris (France)
EVALDA/MEDIA : Évaluation du dialogue hors et en contexte (projet national Technolangue,
2004-2005)
o ELDA, Vecsys, FT R&D, IRIT, LIA, LIMSI- TLP, TELIP, VALORIA
RLT : Ressources linguistiques pour les TAG (Action de recherche concertée, INRIA, 2000-2002)
o ATOLL, (INRIA Rocquencourt), CALLIGRAMME, (INRIA Nancy), TALANA, (Paris 7)
CPER/ILDSTC : Contrat de plan Etat-Région/ Axe Ingénierie des langues et des documents
scientifiques (2000-2006)
o ATILF, Laboratoire Analyses et Traitement Informatiques du Lexique Français; Nancy
(France), INIST/CNRS, Institut de l'
Information Scientifique et technique; Nancy (France),
CALLIGRAMME, (INRIA Nancy), ORPAILLEUR (INRIA Nancy); Nancy (France),
READ/LORIA, Reconnaissance de l'
Ecriture et Analyse de Documents; Nancy (France)
LexSynt (Projet CNRS/ILF, 2005-2006)
o Lexiques syntaxiqes et interface lexique-grammaire
o ATILF-CNRS, ERSS-CNRS, IGM-CNRS, , LPL-CNRS, Lattice-CNRS, Modyco-CNRS,
ATOLL-INRIA, Calligramme-INRIA, Signes-INRIA, ATV-K. U. Leuven, OLST- Université
de Montréal
Mosaïque (Action de recherche concertée, INRIA, 2006-2007)
o Formalisme de haut niveau
o LPL-CNRS/Université de Provence, Lattice-CNRS/Paris7, Modyco-CNRS/Paris 10, LLFParis 7, ATOLL-INRIA, Calligramme-INRIA, Signes-INRIA
PASSAGE (ANR MDCA, 2007-2009)
o Produire des Annotations Syntaxiques à Grande Échelle
o ATOL/INRIA, LIR/LIMSI, LED/LORIA, LIC2M/CEA-LIST, ELDA, Tagmatica, ERSS,
LIRMM, LPL, SYNAPSE, XRCE
AUF/ Université Hanoï (IFI)
o Co-tutelle de thèse : Treebank pour le Vietnamien
o