Support de présentation

Transcription

TEI et analyse linguistique
Bertrand Gaiffe
9 juin 2010
Plan
I
“simple analytic mechanisms”
I
structures de traits
I
structures non hiérarchiques
I
NKJP (Corpus national polonais)
Quelques éléments dédiés en TEI
I
s (phrase)
I
cl (proposition)
I
ph (syntagme)
I
w (mot)
I
m (morphème)
I
c (caractère)
I
pc (symbole de ponctutation)
Annotation “linguistique” minimale
Au delà de la structure (div, head, p), l’annotation en phrase (s)
permet de :
I
localiser des recherches de concordances à l’intérieur des
phrases
I
désambiguı̈ser la ponctuation (. d’abbréviation vs fin de
phrase)
De plus,même si la notion de phrase peut s’avérer moins évidente
qu’il n’y paraı̂t, on considère en général que les phrases ne se
chevauchent pas. On reste donc dans de l’annotation “simple”.
Segmentation en mots
I
utilisation de w
I
probablement une bonne idée dans ce cas d’utiliser aussi pc.
Ca évite d’avoir du “mixed content”.
I
décision à prendre concernant les espaces... (ex : inclure les
éventuelles espaces dans les w)
Remarque : en général, la TEI n’impose pas une théorie
particulière. On peut donc par exemple avoir s dans s ou w dans
w.
En revanche, les contraintes “consensuelles” sont respectées : on
ne peut pas avoir p dans s ni s dans w...
Annotation en parties du discours et en lemmes
L’attribut “ana” permet de donner une analyse d’un élement
donné. Typiquement, c’est l’endroit rêvé pour attacher une partie
du discours à un mot.
Par ailleurs, w peut porter un attribut “lemma”.
L’annotation la plus simple pourrait alors ressembler à :
<s><w lemma=’’le’’ ana="ART’’>la</w> .... </s>
mais :
I
c’est interdit (ana est de type data.pointers)
I
ça veut dire quoi “ART” ?
Rq : si vraiment on voulait faire ça, on pourrait mettre la partie du
discours dans “type”, ou définir son propre attribut...
Ca veut dire quoi ART ?
La question peut paraı̂tre stupide... mais...
<w ana="#ART">le</w>
<interp xml:id="ART">Article à l’exception des articles
contractés</interp>
C’est quand même plus clair non ?
Sauf que :
I
Est-ce que c’est la même notion d’article que celle employée
par d’autres personnes/outils ?
Isocat
Le “DCR” isocat est une base terminologique. Le but est de
marquer explicitement qu’on utilise un même concept (ou pas).
I
dévelopé à l’origine pour les besoins propres de l’ISO
I
ouvert à tous
I
les concepts peuvent (devraient) être définis dans différentes
langues (mais une définition en anglais est exigée)
I
a chaque concept est associé un identifiant pérenne (PID).
Faire le lien entre TEI et Isocat
La TEI ne vit pas dans un monde isolé !
Une solution possible : utiliser l’attribut sameAs pour marquer
explicitement l’identité de concept.
<interp xml:id="ART"
sameAs="http://www.isocat.org/datcat/DC-1892">
... </interp>
Remarque pour les traitements
Au début, l’exigence que la valeur de l’attribut ana soit un
pointeur peut faire peur !
Mais :
I
Ca ne coûte pas plus cher en traitements (éventuellement,
supprimer le premier caractère c.a.d le dièse).
I
Ca documente le “tagset”.
I
Bien entendu, le “tagset” peut être défini à l’extérieur du
document.
Et si on a en plus les traits morphologiques
I
La même méthode est envisageable, mais le tagset devient
gros !
I
Une solution : employer des structures de traits.
I
la TEI, propose des structures de traits telles que (co)définies
par l’ISO (ISO-24610).
I
Même principe général : on peut faire des traitements “de
surface” i.e. basés sur les noms des structures de traits, ou se
doter d’outils dédiés (unification , subsomption).
I
Même remarque aussi en ce qui concerne la liaison au dcr
isocat.
Exemple
<f xml:id="Pl" sameAs="http://......" name="nombre">
<binary value="true"></f>
<f xml:id="m" name="genre">
<string>masculin</string></f>
<f xml:id="N" name="cat"
<string>Nom</string></f>
<fs xml:id="N:m:Pl"feats="#N #Pl #m"/>
....
<w ana="#N:m:Pl">chats</w>
Evidemment, ce qui est vrai pour w...
I
Est vrai tout aussi bien pour cl,ph,s. De la même façon, on
peut avoir envie de leur associer des “analyses” qui soient des
symboles atomiques ou des structures de traits.
I
Autre remarque : on dispose aussi d’un élément seg très
général au cas ou ceux prévus ne conviennent pas...
I
Les problèmes viennent en pratique plutôt des “structures non
hiérarchiques” (ex : grammaires de dépendances), soit parce
que deux niveaux d’annotation se croisent.
module nets (graphes, réseaux et arbres)
I
Il existe un module dédié aux graphes réseaux et arbres.
I
Je ne connais pas d’utilisation en pratique...
I
Probablement adapté au cas où un document “contient” des
arbres ex : bouquin sur l’analyse syntaxique. Convient aussi
(je pense) aux stemmas.
I
Redondant avec link et linkGrp... (fabrication de graphes)
Structures non hiérarchiques
I
@next, @prev (linking)
I
stand-off par pointeurs
I
stand-off par xinclude (cf corpus du polonais)
Xpointers schemes...
Une fois de plus, la TEI ne vit pas hors du monde ! Elle encourage
donc l’utilisation de Xpointers.
Mais elle propose des “schemes” Xpointer. . .
I
xpath1
I
left() right()
I
range()
I
string-range()
I
match()
Le corpus national du polonais utilise string-range.
NKJP
Gros corpus encodé en TEI et comprenant les niveaux
d’annotations suivants :
I
segmentation
I
morphosyntaxe
I
mots syntaxiques
I
syntaxe
I
désambiguı̈sation sémantique.
Réalisé en stand-off à l’aide de xinclude et utilisant le “scheme”
string-range() pour les Xpointers.
Quelques élements (clefs ?)
I
le texte “brut” est découpé en ab pour des raisons
techniques...
I
les niveaux linguistiques sont séparés des niveaux structurels
I
au niveau segmentation, des alternatives sont possibles (et
résolues au niveau suivant)
I
le “tagset” de l’annotation morphosyntaxique est présent dans
ISOCAT.
Affaire à suivre. . .

Support de présentation

Transcription

Documents pareils

PARIPARI FENUA No `oPOA/HOTOPU`U

Titre de la thèse / Title Résumé / Abstract Mots clés / Key Words

paris 3 - 1K Paris

LOTLIMIT SL550

lotlimit sl500 - Avenir Voirie

Houari Dauphin Je t`écris d`un cœur brisé Je t`écris d`un cœur brisé d

Text

Fiche 2

TPK Catalogue INTÉRIEUR

NUITS CÂLINES Un hôtel digne de Versailles à Paris et un havre de

Cria Cuervos - Les Yeux Verts

Institut de beauté