Aufbau Linguistischer Ressourcen für Hindi/Urdu
Transcription
Aufbau Linguistischer Ressourcen für Hindi/Urdu
Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Aufbau Linguistischer Ressourcen für Hindi/Urdu Sebastian Sulger Urdu-ParGram-Projekt 26. April, Zürich 1 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Hindi/Urdu Ressourcenarmut Hindi/Urdu ◮ Hindi/Urdu: strukturell sehr ähnlich, Unterschiede in Vokabular, Orthographie ◮ Hindi vor allem in Indien, Urdu vor allem in Pakistan (auch in Indien) ◮ unterschiedliche Schriftsysteme: arabische Schrift für Urdu, Devanagari-Schrift für Hindi ◮ oft als eine einzelne Sprache betrachtet (Hindustani) ◮ ∼240 Mio. Muttersprachler 2 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Hindi/Urdu Ressourcenarmut Ressourcenarmut ◮ Hindi/Urdu: leidet unter Ressourcenarmut ◮ nur ein paar lexikalische Ressourcen, keine offiziellen Corpora erhältlich, keine Parser mit größerer Abdeckung ◮ lange Zeit kein großes Interesse an Hindi/Urdu ◮ nur wenige Institute/Universitäten in Pakistan mit Interesse an NLP/CL ◮ Center for Language Engineering (CLE) (http://www.cle.org.pk/) 3 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Hindi/Urdu Ressourcenarmut Übersicht Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung 4 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Übersicht Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung 5 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Das Urdu-ParGram-Projekt in Konstanz I ◮ DFG-gefördertes Projekt (März 2009 – Februar 2013) ◮ Erstellung einer komputationellen Grammatik für Urdu/Hindi mit Flächenabdeckung ◮ zugrundeliegende Theorie: lexikalisch-funktionale Grammatik (LFG; Dalrymple (2001)) Kollaboration mit dem ParGram Projekt ◮ ◮ Entwicklung “paralleler” LFG-Grammatiken für verschiedene Sprachen (Englisch, Deutsch, Chinesisch, Japanisch, Türkisch, Ungarisch, Indonesisch, Norwegisch, Urdu...) ◮ Entwicklung eigener Ressourcen für Urdu/Hindi ◮ Butt and King (2007), Bögel et al. (2009) → http://ling.uni-konstanz.de/pages/home/pargram urdu 6 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Das Urdu-ParGram-Projekt in Konstanz II ◮ Anspruch: “tiefes Parsing” (linguistisch gehaltvolles Parsing), kein “shallow Parsing” (Chunking etc.) ◮ LFG-Syntax implementiert mittels XLE (Crouch et al. 2011) ◮ Morphologie implementiert mittels xfst (Beesley and Karttunen 2003) Abdeckung kontinuierlich verbessert: ◮ ◮ ◮ ◮ ◮ Relativsätze, Korrelativsätze Tempus/Aspekt Modalverben unterbrochene Nominalphrasen 7 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Kurzübersicht: LFG C-Struktur: The student wanted to drive the tractor. IP NP: (↑ SUBJ) = ↓ The student VP: ↑ = ↓ V: ↑ = ↓ wanted VPinf: (↑ XCOMP) = ↓ PARTinf: ↑ = ↓ to VP: ↑ = ↓ V: ↑ = ↓ NP: (↑ OBJ) = ↓ drive the tractor 8 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Kurzübersicht: LFG F-Struktur: The student wanted to drive the tractor. PRED ‘want<(↑ SUBJ)(↑ XCOMP)>’ PRED ‘student’ h i SPEC DET PRED ‘the’ SUBJ NUM sg, PERS 3 PRED ‘drive<(↑ SUBJ)(↑ OBJ)>’ PRED ‘student’ h i SUBJ PRED ‘the’ SPEC DET XCOMP NUM sg, PERS 3 PRED ‘tractor’ i h OBJ SPEC DET PRED ‘the’ NUM sg, PERS 3 TENSE past 9 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax 10 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax ◮ freie Wortstellung ◮ ◮ kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich 10 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax ◮ freie Wortstellung ◮ ◮ ◮ kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich Pro-Drop (Problem für Generierung) 10 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax ◮ freie Wortstellung ◮ ◮ kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich ◮ Pro-Drop (Problem für Generierung) ◮ umfangreiche Benutzung von komplexen Prädikaten (Butt 1995, Hautli et al. 2012) 10 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax ◮ freie Wortstellung ◮ ◮ kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich ◮ Pro-Drop (Problem für Generierung) ◮ umfangreiche Benutzung von komplexen Prädikaten (Butt 1995, Hautli et al. 2012) Komplexe Interaktion zwischen Morphologie, Syntax & Semantik ◮ ◮ ◮ ◮ ◮ Tempus/Aspekt Kasus-Markierung Reduplikation ... 10 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Freie Wortstellung nAdiyah nE yAsIn kO mArA – ‘Nadya schlug Yassin.’ (1) a. nAdiyah nE yAsIn kO mArA Nadya Erg Yassin Akk schlagen.Perf b. yAsIn kO nAdiyah nE mArA c. nAdiyah nE mArA yAsIn kO d. ... ◮ Argumente werden durch Kasus-Markierung angezeigt 11 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Urdu in Konstanz Urdu: Syntax Demo Demo Demo des aktuell implementierten Urdu-Parsers in XLE ◮ ◮ Parsing Generierung 12 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Übersicht Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung 13 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache ◮ Urdu: arabische Schrift, Hindi: Devanagari-Schrift 14 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache ◮ ◮ Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: 14 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache ◮ ◮ Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: Urdu vs. Hindi 14 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache ◮ ◮ Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: Urdu ◮ vs. Hindi gemeinsame Transliteration im lateinischen Alphabet: hAN bHalA kar tirA bHalA hOgA yes good.M.Sg do then good be.Fut.M.Sg Or darvES kI sadA kyA he and dervish Gen.F.Sg call.F.Sg what be.Pres.3.Sg ‘Yes, do good then good will happen, what else is the call of the dervish.’ 14 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ wir hatten also 2 Möglichkeiten: 15 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren 15 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren (2) versuchen, von den Schriften weg zu abstrahieren zu einer gemeinsamen Umschrift 15 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren (2) versuchen, von den Schriften weg zu abstrahieren zu einer gemeinsamen Umschrift ◮ eine Grammatik und ein Lexikon genügen für beiden Varietäten... 15 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration derzeitiger Ansatz: 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration derzeitiger Ansatz: ◮ von beiden Schriftsystemen wegabstrahieren 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration derzeitiger Ansatz: ◮ von beiden Schriftsystemen wegabstrahieren ◮ Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration derzeitiger Ansatz: ◮ von beiden Schriftsystemen wegabstrahieren ◮ Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) ◮ Kodierung einer einzigen Grammatik und Lexikon im lateinischen Alphabet 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? ◮ Entscheidung: Transliteration derzeitiger Ansatz: ◮ von beiden Schriftsystemen wegabstrahieren ◮ Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) ◮ Kodierung einer einzigen Grammatik und Lexikon im lateinischen Alphabet ◮ Effizienz, Größe der Grammatik 16 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik 17 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik → Größe des Lexikons bleibt minimal 17 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik → Größe des Lexikons bleibt minimal → Grammatik-Entwicklung wird nicht erschwert 17 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Implementation ◮ ◮ vorerst Konzentration auf Urdu-Schrift (Devanagari ist in Arbeit) Implementation mit Hilfe von endlichen Automaten (Interface: xfst; Beesley and Karttunen (2003)) in Form eines Transducers ◮ ◮ Transliterator ist für XLE eine “Black Box” eigenständige Ressource (für andere Zwecke nutzbar) ◮ Lower Side des Transducers: arabische Schrift; Upper Side des Transducers: lateinische Schrift ◮ Output des Transliterators ist Input für das restliche XLE-System (morphologische Analyse, Syntax-Parser) 18 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Demo Demo des aktuell implementierten Transliterators ◮ ◮ in xfst eingebettet in die XLE-Grammatik-Umgebung 19 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Übersicht Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung 20 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Baumbanken Baumbanken sind wichtige linguistische Ressourcen ◮ für die theoretische Sprachwissenschaft: ◮ ◮ ◮ erleichtern die Arbeit von Syntaktikern erlauben das Aufstellen und Überprüfen von linguistischen Hypothesen für die Computerlinguistik: ◮ ◮ ◮ ermöglichen das Trainieren von Parsern verbessern bereits trainierte Parser (statistische Auswertung) sind nützlich in der maschinellen Übersetzung (parallele Baumbanken) 21 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Die Hindi/Urdu-Baumbank (HUTB) ◮ neue Baumbank-Ressource für Hindi/Urdu ◮ kollaborative Forschung zwischen 5 Universitäten (University of Colorado at Boulder, Columbia University, University of Massachusetts at Amherst, University of Washington, International Institute of Information Technology in India) ◮ Projekt gestartet in 2008 (Arbeit läuft) ◮ Ziel: eine Baumbank, die “multi-representational, multi-layered” ist ◮ Palmer et al. (2007), Bhatt et al. (2009) 22 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität HUTB: multi-layered, multi-representational ◮ drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 23 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität HUTB: multi-layered, multi-representational ◮ ◮ drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur ◮ ◮ inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) 23 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität HUTB: multi-layered, multi-representational ◮ ◮ drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur ◮ ◮ ◮ inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) 2. syntaktische Ebene: Annotation von Dependenzen ◮ ◮ Computational Pān.inian Grammar (CPG) (Bharati et al. 1995) kar.aka-Beziehungen (vgl. thematische Rollen) modellieren Kopf-Argument-Abhängigkeiten 23 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität HUTB: multi-layered, multi-representational ◮ ◮ drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur ◮ ◮ ◮ 2. syntaktische Ebene: Annotation von Dependenzen ◮ ◮ ◮ inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) Computational Pān.inian Grammar (CPG) (Bharati et al. 1995) kar.aka-Beziehungen (vgl. thematische Rollen) modellieren Kopf-Argument-Abhängigkeiten lexikalisch-semantische Ebene: PropBank (Palmer et al. 2005) ◮ ◮ semantische Rollen (Arg0, Arg1 etc.) werden den Argumenten des Verbs zugeordnet Rollen werden außerdem auf die kar.aka-Beziehungen gemappt (“multi-layeredness”) 23 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Unser Ziel Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource 24 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Unser Ziel Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource anreichern mit?? Urdu-ParGram-Grammatik LFG-Grammatik für Hindi/Urdu 24 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Unser Ziel Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource anreichern mit?? Urdu-ParGram-Grammatik LFG-Grammatik für Hindi/Urdu verbesserte Hindi/Urdu-Baumbank Kann die HUTB von unserer Urdu-ParGram-Grammatik profitieren? Wenn ja, wie? 24 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Ein Beispiel aus der Baumbank dtAvAs e @кAEryo\ n us aQCF s h^t m \ pAyA dUtAvAs adHikAriyOn=nE usE accHI Botschaft.Masc.Sg Angestellter.Masc.Pl=Erg er.Acc gut.Fem.Sg sEhat=mEN pA-yA Gesundheit.Fem.Sg=Loc finden-Perf.Masc.Sg ‘Botschaftsangestellte fanden ihn bei guter Gesundheit vor.’ 25 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Syntaktische Annotation (( NP <fs drel=‘k1:VGF’ name=‘NP’> XC NN PSP dtAvAs e @кAEryo\ n PRP us JJ NN PSP aQCF s h^t m \ VM SYM pAyA . )) (( NP <fs drel=‘k2:VGF’ name=‘NP2’> )) (( NP <fs drel=‘k7:VGF’ name=‘NP3’> )) (( VGF )) Abbildung: Beispielsatz aus der HUTB 26 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Syntaktische Annotation (( NP <fs drel=‘k1:VGF’ name=‘NP’> XC NN PSP dtAvAs e @кAEryo\ n )) Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ 27 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Syntaktische Annotation (( NP <fs drel=‘k1:VGF’ name=‘NP’> XC NN PSP dtAvAs e @кAEryo\ n )) Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ ◮ preterminale Knoten: Part of Speech (XC, NN, etc.) 27 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Syntaktische Annotation (( NP <fs drel=‘k1:VGF’ name=‘NP’> XC NN PSP dtAvAs e @кAEryo\ n )) Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ ◮ preterminale Knoten: Part of Speech (XC, NN, etc.) ◮ Knoten gruppiert in Konstituenten (Klammern) 27 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Syntaktische Annotation (( NP <fs drel=‘k1:VGF’ name=‘NP’> XC NN PSP dtAvAs e @кAEryo\ n )) Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ ◮ preterminale Knoten: Part of Speech (XC, NN, etc.) ◮ Knoten gruppiert in Konstituenten (Klammern) ◮ Dependenzen werden an Konstituenten angefügt 27 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Lexikalisch-semantische Annotation pA pA ‘finden’ Arg0 Agens Arg1 ArgM-MNR Patiens (Theme) Modifier (Manner) dtAvAs e @кAEryo\ dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ us usE ‘ihn’ aQCF s h^t accHI sEhat ‘gute Gesundheit’ Tabelle: PropBank-Frame für pA pA ‘finden’ 28 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Lexikalisch-semantische Annotation pA pA ‘finden’ Arg0 Agens Arg1 ArgM-MNR Patiens (Theme) Modifier (Manner) dtAvAs e @кAEryo\ dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ us usE ‘ihn’ aQCF s h^t accHI sEhat ‘gute Gesundheit’ Tabelle: PropBank-Frame für pA pA ‘finden’ ◮ PropBank-Rollen werden gemappt auf kar.aka-Rollen 28 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Lexikalisch-semantische Annotation pA pA ‘finden’ Arg0 Agens Arg1 ArgM-MNR Patiens (Theme) Modifier (Manner) dtAvAs e @кAEryo\ dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’ us usE ‘ihn’ aQCF s h^t accHI sEhat ‘gute Gesundheit’ Tabelle: PropBank-Frame für pA pA ‘finden’ ◮ ◮ PropBank-Rollen werden gemappt auf kar.aka-Rollen e.g., Agens Arg0 mappt auf kar.aka-Rolle k1 (dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’) 28 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? ◮ F-Strukturen kodieren Dependenz-Information explizit ◮ aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können 29 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? ◮ F-Strukturen kodieren Dependenz-Information explizit ◮ aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können → F-Strukturen enthalten mehr und genauere Infos als HUTB 29 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? ◮ F-Strukturen kodieren Dependenz-Information explizit ◮ aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können → F-Strukturen enthalten mehr und genauere Infos als HUTB → detailliertere Annotation von Modalität, Tempus/Aspekt, komplexen Prädikaten, ... 29 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? ◮ F-Strukturen kodieren Dependenz-Information explizit ◮ aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können → F-Strukturen enthalten mehr und genauere Infos als HUTB → detailliertere Annotation von Modalität, Tempus/Aspekt, komplexen Prädikaten, ... ASPECT perf, TENSE pres, DEGREE positive, MODALITY can, ADDRESS rude, DEIXIS proximal, MOOD imperative, PROPER-TYPE location, ... 29 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples ◮ Information gesammelt durch Parses der Urdu-Grammatik 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples ◮ ◮ Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples ◮ ◮ ◮ Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples ◮ ◮ ◮ ◮ Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) erfolgreich angewandt für Teile der PennTreebank (PARC700, King et al. (2003)) 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Eine zusätzliche Annotationsebene für die HUTB ◮ Vorhaben: eine zusätzliche Ebene für die HUTB ◮ Format der Ebene: XLE-Triples ◮ ◮ ◮ ◮ ◮ Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) erfolgreich angewandt für Teile der PennTreebank (PARC700, King et al. (2003)) Parser, die auf dieser “angereicherten” HUTB trainiert werden, können in bestimmten Bereichen verbessert werden 30 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Das XLE-Triples-Format 31 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Das XLE-Triples-Format ↓ Einebnung des TNS-ASP-Features, entfernen des CLAUSE-TYPE-Features 31 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Das XLE-Triples-Format ↓ Einebnung des TNS-ASP-Features, entfernen des CLAUSE-TYPE-Features ↓ resultierende Triples-Auswahl: aspect(pA,perf) mood(pA,indicative) passive(pA,-) vtype(pA,main) 31 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in Hindi/Urdu ◮ zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’ (defektes Paradigma: nur cAhIyE) 32 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in Hindi/Urdu ◮ zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’ (defektes Paradigma: nur cAhIyE) ◮ restliche Modalität wird konstruktiv ausgedrückt: Kombinationen Hauptverb + pA ‘finden’, paR ‘fallen’, hO ‘sein’ (Bhatt et al. 2011) 32 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in Hindi/Urdu ◮ zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’ (defektes Paradigma: nur cAhIyE) ◮ restliche Modalität wird konstruktiv ausgedrückt: Kombinationen Hauptverb + pA ‘finden’, paR ‘fallen’, hO ‘sein’ (Bhatt et al. 2011) ◮ Beispiel: yAsIn vuh kar sak-A Yassin.Masc.Sg das.Sg.Nom tun können-Perf.Masc.Sg ‘Yassin konnte das tun.’ 32 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der HUTB ◮ Modalkonstruktionen werden auf der PropBank-Ebene annotiert ◮ PropBank-Label ARGM-Mod markiert Modalverben 33 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der HUTB ◮ Modalkonstruktionen werden auf der PropBank-Ebene annotiert ◮ PropBank-Label ARGM-Mod markiert Modalverben ◮ aber: die modale Bedeutung wird nicht weiter spezifiziert: Modal constructions in Hindi convey notions such as ability, desire, obligation, permission, etc. In P[rop]bank, we will annotate the following cases using the ARGM-Mod label. (PB guidelinesNov2010.pdf, p. 29) 33 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der Urdu-ParGram-Grammatik ◮ Hindi/Urdu-Modalverben wurden kürzlich in der Urdu-ParGram-Grammatik implementiert (Bhatt et al. 2011) ◮ Features kodieren nicht nur Modalität als solche ◮ detaillierte Feature/Value-Paare geben die exakte Natur der ausgedrückten Modalität an ◮ Modalität wird unter F-Struktur-Feature [MODALITY] subsumiert 34 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der Urdu-ParGram-Grammatik "yAsIn vuh kar sakA" PRED 'sak<[22:kar]>[1:yAsIn]' PRED 'yAsIn' SUBJ NTYPE NSEM PROPER PROPER-TYPE name NSYN proper 1 CASE nom, GEND masc, NUM sg, PERS 3 PRED SUBJ 'kar<[1:yAsIn], [19:vuh]>' [1:yAsIn] PRED 'vuh' XCOMP OBJ NTYPE NSYN pronoun 19 CASE nom, NUM sg, PERS 3, PRON-TYPE pers 22 PASSIVE TNS-ASP ASPECT perf, MOOD indicative 51 CLAUSE-TYPE decl, MODALITY CAN, VTYPE main Abbildung: F-struktur zu yAsIn vuh kar sakA ‘Yassin konnte das tun.’ 35 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der zusätzlichen Annotationsebene der HUTB pred(root,sak) subj(sak,yAsIn) xcomp(sak,kar) subj(kar,yAsIn) obj(kar,vuh) modality(sak,can) Abbildung: Set der Triples für Modalverben 36 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Die Hindi/Urdu-Baumbank Ein Beispiel Vorteile der Urdu-ParGram-Grammatik Eine zusätzliche Annotationsebene für die HUTB Annotation von Modalität Modalität in der zusätzlichen Annotationsebene der HUTB pred(root,sak) subj(sak,yAsIn) xcomp(sak,kar) subj(kar,yAsIn) obj(kar,vuh) modality(sak,can) Abbildung: Set der Triples für Modalverben → Feature-Wert-Paar [MODALITY can] wird in Triples beibehalten, um Modalität zu kodieren 36 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Ausblick Übersicht Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung 37 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Ausblick Zusammenfassung ◮ ◮ nach wie vor Ressourcenarmut für Urdu/Hindi aber: die Verhältnisse bessern sich ◮ ◮ ◮ ◮ was noch fehlt: ◮ ◮ ◮ neue Ressourcen werden entwickelt bestehende Ressourcen werden verbessert manche Ressourcen können miteinander verknüpft werden lexikalische Ressourcen verlässliche/balancierte Corpora wichtig für semantisch motivierte Aufgaben in NLP (Word Sense Disambiguation, Sentiment Analysis, etc.) 38 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Ausblick Lexikalische Ressourcen für Urdu ◮ ◮ neues, DAAD-gefördertes Projekt in Konstanz Erstellung lexikalischer Ressourcen für Urdu ◮ ◮ ◮ ◮ ◮ POS Tagset und manuelles Tagging Entwicklung eines Urdu-WordNet Entwicklung eines Urdu-VerbNet balancierte, standardisierte Corpora getaggt nach “Senses” Ziel: Word Sense Disambiguation → http://ling.uni-konstanz.de/pages/home/pargram urdu/DAADlex/ 39 / 40 Einführung Die Urdu-ParGram-Grammatik Transliteration von Hindi/Urdu Baumbanken für Hindi/Urdu Zusammenfassung Literatur Literatur Beesley, Kenneth R. and Lauri Karttunen. 2003. Finite State Morphology. CSLI Publications. Bharati, Akshar, Vineet Chaitanya, and Rajeev Sangal. 1995. Natural Language Processing — A Paninian Perspective. Prentice Hall of India. Bhatt, Rajesh, Tina Bögel, Miriam Butt, Annette Hautli, and Sebastian Sulger. 2011. Urdu/Hindi Modals. In M. Butt and T. H. King, eds., Proceedings of the LFG11 Conference. Hong Kong. Bhatt, Rajesh, Bhuvana Narasimhan, Martha Palmer, Owen Rambow, Dipti Sharma, and Fei Xia. 2009. A Multi-Representational and Multi-Layered Treebank for Hindi/Urdu. In Proceedings of the Third Linguistic Annotation Workshop, pages 186–189. Suntec, Singapore: Association for Computational Linguistics. Bögel, Tina, Miriam Butt, Annette Hautli, and Sebastian Sulger. 2009. Urdu and the Modular Architecture of ParGram. In Proceedings of the Conference on Language and Technology 2009 (CLT09). Butt, Miriam. 1995. The Structure of Complex Predicates in Urdu. Stanford: CSLI Publications. Butt, Miriam and Tracy Holloway King. 2007. Urdu in a Parallel Grammar Development Environment. Language Resources and Evaluation 41(2):191–207. Crouch, Dick, Mary Dalrymple, Ronald M. Kaplan, Tracy Holloway King, John T. Maxwell III, and Paula Newman. 2011. XLE Documentation. Palo Alto Research Center. Dalrymple, Mary. 2001. Lexical Functional Grammar, vol. 34 of Syntax and Semantics. Academic Press. Hautli, Annette, Sebastian Sulger, and Miriam Butt. 2012. Adding an Annotation Layer to the Hindi/Urdu Treebank. Linguistic Issues in Language Technology 7(3). King, Tracy Holloway, Richard Crouch, Stefan Riezler, Mary Dalrymple, and Ronald Kaplan. 2003. The PARC700 Dependency Bank. In Proceedings of the EACL03: 4th International Workshop on Linguistically Interpreted Corpora (LINC-03). Palmer, Martha, Rajesh Bhatt, Bhuvana Narasimhan, Owen Rambow, Dipti Misra Sharma, and Fei Xia. 2007. Hindi Syntax: Annotating Dependency, Lexical Predicate-Argument Structure, and Phrase Structure. In Proceedings of ICON‘07: 7th International Conference on Natural Language Processing, pages 259–268. Palmer, Martha, Daniel Gildea, and Paul Kingsbury. 2005. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics 31(1):71–106. 40 / 40