Support de présentation
Transcription
Support de présentation
TEI et analyse linguistique Bertrand Gaiffe 9 juin 2010 Plan I “simple analytic mechanisms” I structures de traits I structures non hiérarchiques I NKJP (Corpus national polonais) Quelques éléments dédiés en TEI I s (phrase) I cl (proposition) I ph (syntagme) I w (mot) I m (morphème) I c (caractère) I pc (symbole de ponctutation) Annotation “linguistique” minimale Au delà de la structure (div, head, p), l’annotation en phrase (s) permet de : I localiser des recherches de concordances à l’intérieur des phrases I désambiguı̈ser la ponctuation (. d’abbréviation vs fin de phrase) De plus,même si la notion de phrase peut s’avérer moins évidente qu’il n’y paraı̂t, on considère en général que les phrases ne se chevauchent pas. On reste donc dans de l’annotation “simple”. Segmentation en mots I utilisation de w I probablement une bonne idée dans ce cas d’utiliser aussi pc. Ca évite d’avoir du “mixed content”. I décision à prendre concernant les espaces... (ex : inclure les éventuelles espaces dans les w) Remarque : en général, la TEI n’impose pas une théorie particulière. On peut donc par exemple avoir s dans s ou w dans w. En revanche, les contraintes “consensuelles” sont respectées : on ne peut pas avoir p dans s ni s dans w... Annotation en parties du discours et en lemmes L’attribut “ana” permet de donner une analyse d’un élement donné. Typiquement, c’est l’endroit rêvé pour attacher une partie du discours à un mot. Par ailleurs, w peut porter un attribut “lemma”. L’annotation la plus simple pourrait alors ressembler à : <s><w lemma=’’le’’ ana="ART’’>la</w> .... </s> mais : I c’est interdit (ana est de type data.pointers) I ça veut dire quoi “ART” ? Rq : si vraiment on voulait faire ça, on pourrait mettre la partie du discours dans “type”, ou définir son propre attribut... Ca veut dire quoi ART ? La question peut paraı̂tre stupide... mais... <w ana="#ART">le</w> <interp xml:id="ART">Article à l’exception des articles contractés</interp> C’est quand même plus clair non ? Sauf que : I Est-ce que c’est la même notion d’article que celle employée par d’autres personnes/outils ? Isocat Le “DCR” isocat est une base terminologique. Le but est de marquer explicitement qu’on utilise un même concept (ou pas). I dévelopé à l’origine pour les besoins propres de l’ISO I ouvert à tous I les concepts peuvent (devraient) être définis dans différentes langues (mais une définition en anglais est exigée) I a chaque concept est associé un identifiant pérenne (PID). Faire le lien entre TEI et Isocat La TEI ne vit pas dans un monde isolé ! Une solution possible : utiliser l’attribut sameAs pour marquer explicitement l’identité de concept. <interp xml:id="ART" sameAs="http://www.isocat.org/datcat/DC-1892"> ... </interp> Remarque pour les traitements Au début, l’exigence que la valeur de l’attribut ana soit un pointeur peut faire peur ! Mais : I Ca ne coûte pas plus cher en traitements (éventuellement, supprimer le premier caractère c.a.d le dièse). I Ca documente le “tagset”. I Bien entendu, le “tagset” peut être défini à l’extérieur du document. Et si on a en plus les traits morphologiques I La même méthode est envisageable, mais le tagset devient gros ! I Une solution : employer des structures de traits. I la TEI, propose des structures de traits telles que (co)définies par l’ISO (ISO-24610). I Même principe général : on peut faire des traitements “de surface” i.e. basés sur les noms des structures de traits, ou se doter d’outils dédiés (unification , subsomption). I Même remarque aussi en ce qui concerne la liaison au dcr isocat. Exemple <f xml:id="Pl" sameAs="http://......" name="nombre"> <binary value="true"></f> <f xml:id="m" name="genre"> <string>masculin</string></f> <f xml:id="N" name="cat" <string>Nom</string></f> <fs xml:id="N:m:Pl"feats="#N #Pl #m"/> .... <w ana="#N:m:Pl">chats</w> Evidemment, ce qui est vrai pour w... I Est vrai tout aussi bien pour cl,ph,s. De la même façon, on peut avoir envie de leur associer des “analyses” qui soient des symboles atomiques ou des structures de traits. I Autre remarque : on dispose aussi d’un élément seg très général au cas ou ceux prévus ne conviennent pas... I Les problèmes viennent en pratique plutôt des “structures non hiérarchiques” (ex : grammaires de dépendances), soit parce que deux niveaux d’annotation se croisent. module nets (graphes, réseaux et arbres) I Il existe un module dédié aux graphes réseaux et arbres. I Je ne connais pas d’utilisation en pratique... I Probablement adapté au cas où un document “contient” des arbres ex : bouquin sur l’analyse syntaxique. Convient aussi (je pense) aux stemmas. I Redondant avec link et linkGrp... (fabrication de graphes) Structures non hiérarchiques I @next, @prev (linking) I stand-off par pointeurs I stand-off par xinclude (cf corpus du polonais) Xpointers schemes... Une fois de plus, la TEI ne vit pas hors du monde ! Elle encourage donc l’utilisation de Xpointers. Mais elle propose des “schemes” Xpointer. . . I xpath1 I left() right() I range() I string-range() I match() Le corpus national du polonais utilise string-range. NKJP Gros corpus encodé en TEI et comprenant les niveaux d’annotations suivants : I segmentation I morphosyntaxe I mots syntaxiques I syntaxe I désambiguı̈sation sémantique. Réalisé en stand-off à l’aide de xinclude et utilisant le “scheme” string-range() pour les Xpointers. Quelques élements (clefs ?) I le texte “brut” est découpé en ab pour des raisons techniques... I les niveaux linguistiques sont séparés des niveaux structurels I au niveau segmentation, des alternatives sont possibles (et résolues au niveau suivant) I le “tagset” de l’annotation morphosyntaxique est présent dans ISOCAT. Affaire à suivre. . .
Documents pareils
Logiciels d`analyse textuelle : vers un format XML
exemple le découpage en mots effectué
par un autre logiciel. Les logiciels
devront aussi pouvoir intégrer en tout
ou en partie au corpus originel les
résultats de leurs propres traitements,
résulta...