Aufbau Linguistischer Ressourcen für Hindi/Urdu

Transcription

Aufbau Linguistischer Ressourcen für Hindi/Urdu
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Aufbau Linguistischer Ressourcen für Hindi/Urdu
Sebastian Sulger
Urdu-ParGram-Projekt
26. April, Zürich
1 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Hindi/Urdu
Ressourcenarmut
Hindi/Urdu
◮
Hindi/Urdu: strukturell sehr ähnlich, Unterschiede in
Vokabular, Orthographie
◮
Hindi vor allem in Indien, Urdu vor allem in Pakistan (auch in
Indien)
◮
unterschiedliche Schriftsysteme: arabische Schrift für Urdu,
Devanagari-Schrift für Hindi
◮
oft als eine einzelne Sprache betrachtet (Hindustani)
◮
∼240 Mio. Muttersprachler
2 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Hindi/Urdu
Ressourcenarmut
Ressourcenarmut
◮
Hindi/Urdu: leidet unter Ressourcenarmut
◮
nur ein paar lexikalische Ressourcen, keine offiziellen Corpora
erhältlich, keine Parser mit größerer Abdeckung
◮
lange Zeit kein großes Interesse an Hindi/Urdu
◮
nur wenige Institute/Universitäten in Pakistan mit Interesse
an NLP/CL
◮
Center for Language Engineering (CLE)
(http://www.cle.org.pk/)
3 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Hindi/Urdu
Ressourcenarmut
Übersicht
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
4 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Übersicht
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
5 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Das Urdu-ParGram-Projekt in Konstanz I
◮
DFG-gefördertes Projekt (März 2009 – Februar 2013)
◮
Erstellung einer komputationellen Grammatik für Urdu/Hindi
mit Flächenabdeckung
◮
zugrundeliegende Theorie: lexikalisch-funktionale Grammatik
(LFG; Dalrymple (2001))
Kollaboration mit dem ParGram Projekt
◮
◮
Entwicklung “paralleler” LFG-Grammatiken für verschiedene
Sprachen (Englisch, Deutsch, Chinesisch, Japanisch, Türkisch,
Ungarisch, Indonesisch, Norwegisch, Urdu...)
◮
Entwicklung eigener Ressourcen für Urdu/Hindi
◮
Butt and King (2007), Bögel et al. (2009)
→ http://ling.uni-konstanz.de/pages/home/pargram urdu
6 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Das Urdu-ParGram-Projekt in Konstanz II
◮
Anspruch: “tiefes Parsing” (linguistisch gehaltvolles Parsing),
kein “shallow Parsing” (Chunking etc.)
◮
LFG-Syntax implementiert mittels XLE (Crouch et al. 2011)
◮
Morphologie implementiert mittels xfst (Beesley and
Karttunen 2003)
Abdeckung kontinuierlich verbessert:
◮
◮
◮
◮
◮
Relativsätze, Korrelativsätze
Tempus/Aspekt
Modalverben
unterbrochene Nominalphrasen
7 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Kurzübersicht: LFG
C-Struktur: The student wanted to drive the tractor.
IP
NP: (↑ SUBJ) = ↓
The student
VP: ↑ = ↓
V: ↑ = ↓
wanted
VPinf: (↑ XCOMP) = ↓
PARTinf: ↑ = ↓
to
VP: ↑ = ↓
V: ↑ = ↓
NP: (↑ OBJ) = ↓
drive
the tractor
8 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Kurzübersicht: LFG
F-Struktur: The student wanted to drive the tractor.


PRED ‘want<(↑ SUBJ)(↑ XCOMP)>’






PRED ‘student’





h
i




SPEC DET PRED ‘the’ 

 SUBJ








NUM
sg,
PERS
3







PRED ‘drive<(↑ SUBJ)(↑ OBJ)>’









PRED ‘student’




h
i







 SUBJ
PRED
‘the’
SPEC
DET













XCOMP 

NUM sg, PERS 3











PRED
‘tractor’




i
h






OBJ 
SPEC DET PRED ‘the’ 












NUM sg, PERS 3


TENSE past
9 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Urdu: Syntax
10 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Urdu: Syntax
◮
freie Wortstellung
◮
◮
kanonische Wortfolge: SOV
generell sind fast alle Abweichungen möglich
10 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Urdu: Syntax
◮
freie Wortstellung
◮
◮
◮
kanonische Wortfolge: SOV
generell sind fast alle Abweichungen möglich
Pro-Drop (Problem für Generierung)
10 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Urdu: Syntax
◮
freie Wortstellung
◮
◮
kanonische Wortfolge: SOV
generell sind fast alle Abweichungen möglich
◮
Pro-Drop (Problem für Generierung)
◮
umfangreiche Benutzung von komplexen Prädikaten (Butt
1995, Hautli et al. 2012)
10 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Urdu: Syntax
◮
freie Wortstellung
◮
◮
kanonische Wortfolge: SOV
generell sind fast alle Abweichungen möglich
◮
Pro-Drop (Problem für Generierung)
◮
umfangreiche Benutzung von komplexen Prädikaten (Butt
1995, Hautli et al. 2012)
Komplexe Interaktion zwischen Morphologie, Syntax &
Semantik
◮
◮
◮
◮
◮
Tempus/Aspekt
Kasus-Markierung
Reduplikation
...
10 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Freie Wortstellung
nAdiyah nE yAsIn kO mArA – ‘Nadya schlug Yassin.’
(1) a. nAdiyah nE yAsIn kO mArA
Nadya Erg Yassin Akk schlagen.Perf
b. yAsIn kO nAdiyah nE mArA
c. nAdiyah nE mArA yAsIn kO
d. ...
◮
Argumente werden durch Kasus-Markierung angezeigt
11 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Urdu in Konstanz
Urdu: Syntax
Demo
Demo
Demo des aktuell implementierten Urdu-Parsers in XLE
◮
◮
Parsing
Generierung
12 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Übersicht
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
13 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Zwei Schriftsysteme, eine Sprache
◮
Urdu: arabische Schrift, Hindi: Devanagari-Schrift
14 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Zwei Schriftsysteme, eine Sprache
◮
◮
Urdu: arabische Schrift, Hindi: Devanagari-Schrift
derselbe Zweizeiler des Dichters Mirza Ghalib in beiden
Schriften:
14 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Zwei Schriftsysteme, eine Sprache
◮
◮
Urdu: arabische Schrift, Hindi: Devanagari-Schrift
derselbe Zweizeiler des Dichters Mirza Ghalib in beiden
Schriften:
Urdu
vs.
Hindi
14 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Zwei Schriftsysteme, eine Sprache
◮
◮
Urdu: arabische Schrift, Hindi: Devanagari-Schrift
derselbe Zweizeiler des Dichters Mirza Ghalib in beiden
Schriften:
Urdu
◮
vs.
Hindi
gemeinsame Transliteration im lateinischen Alphabet:
hAN bHalA
kar tirA bHalA hOgA
yes good.M.Sg do then good be.Fut.M.Sg
Or darvES kI
sadA
kyA he
and dervish Gen.F.Sg call.F.Sg what be.Pres.3.Sg
‘Yes, do good then good will happen, what else is the call of the
dervish.’
14 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
wir hatten also 2 Möglichkeiten:
15 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
wir hatten also 2 Möglichkeiten:
(1) Grammatik und Lexikon in beiden Schriften kodieren
15 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
wir hatten also 2 Möglichkeiten:
(1) Grammatik und Lexikon in beiden Schriften kodieren
(2) versuchen, von den Schriften weg zu abstrahieren zu einer
gemeinsamen Umschrift
15 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
wir hatten also 2 Möglichkeiten:
(1) Grammatik und Lexikon in beiden Schriften kodieren
(2) versuchen, von den Schriften weg zu abstrahieren zu einer
gemeinsamen Umschrift
◮
eine Grammatik und ein Lexikon genügen für beiden
Varietäten...
15 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
derzeitiger Ansatz:
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
derzeitiger Ansatz:
◮
von beiden Schriftsystemen wegabstrahieren
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
derzeitiger Ansatz:
◮
von beiden Schriftsystemen wegabstrahieren
◮
Benutzung einer gemeinsamen Umschrift basierend auf
lateinischem Alphabet (A-Z, a-z, 0-9)
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
derzeitiger Ansatz:
◮
von beiden Schriftsystemen wegabstrahieren
◮
Benutzung einer gemeinsamen Umschrift basierend auf
lateinischem Alphabet (A-Z, a-z, 0-9)
◮
Kodierung einer einzigen Grammatik und Lexikon im
lateinischen Alphabet
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
◮
Entscheidung: Transliteration
derzeitiger Ansatz:
◮
von beiden Schriftsystemen wegabstrahieren
◮
Benutzung einer gemeinsamen Umschrift basierend auf
lateinischem Alphabet (A-Z, a-z, 0-9)
◮
Kodierung einer einzigen Grammatik und Lexikon im
lateinischen Alphabet
◮
Effizienz, Größe der Grammatik
16 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
Urdu-Schriftsystem
Hindi-Schriftsystem
Gemeinsame
Transliteration im
lateinischen Alphabet
LFG-Grammatik
17 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
Urdu-Schriftsystem
Hindi-Schriftsystem
Gemeinsame
Transliteration im
lateinischen Alphabet
LFG-Grammatik
→ Größe des Lexikons bleibt minimal
17 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Eine gemeinsame Umschrift?
Urdu-Schriftsystem
Hindi-Schriftsystem
Gemeinsame
Transliteration im
lateinischen Alphabet
LFG-Grammatik
→ Größe des Lexikons bleibt minimal
→ Grammatik-Entwicklung wird nicht erschwert
17 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Implementation
◮
◮
vorerst Konzentration auf Urdu-Schrift (Devanagari ist in
Arbeit)
Implementation mit Hilfe von endlichen Automaten (Interface:
xfst; Beesley and Karttunen (2003)) in Form eines
Transducers
◮
◮
Transliterator ist für XLE eine “Black Box”
eigenständige Ressource (für andere Zwecke nutzbar)
◮
Lower Side des Transducers: arabische Schrift; Upper Side des
Transducers: lateinische Schrift
◮
Output des Transliterators ist Input für das restliche
XLE-System (morphologische Analyse, Syntax-Parser)
18 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Zwei Schriftsysteme, eine Sprache
Unser Ansatz
Implementation
Demo
Demo
Demo des aktuell implementierten Transliterators
◮
◮
in xfst
eingebettet in die XLE-Grammatik-Umgebung
19 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Übersicht
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
20 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Baumbanken
Baumbanken sind wichtige linguistische Ressourcen
◮
für die theoretische Sprachwissenschaft:
◮
◮
◮
erleichtern die Arbeit von Syntaktikern
erlauben das Aufstellen und Überprüfen von linguistischen
Hypothesen
für die Computerlinguistik:
◮
◮
◮
ermöglichen das Trainieren von Parsern
verbessern bereits trainierte Parser (statistische Auswertung)
sind nützlich in der maschinellen Übersetzung (parallele
Baumbanken)
21 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Die Hindi/Urdu-Baumbank (HUTB)
◮
neue Baumbank-Ressource für Hindi/Urdu
◮
kollaborative Forschung zwischen 5 Universitäten (University
of Colorado at Boulder, Columbia University, University of
Massachusetts at Amherst, University of Washington,
International Institute of Information Technology in India)
◮
Projekt gestartet in 2008 (Arbeit läuft)
◮
Ziel: eine Baumbank, die “multi-representational,
multi-layered” ist
◮
Palmer et al. (2007), Bhatt et al. (2009)
22 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
HUTB: multi-layered, multi-representational
◮
drei Ebenen der Annotierung: zwei syntaktisch, eine
lexikalisch-semantisch
23 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
HUTB: multi-layered, multi-representational
◮
◮
drei Ebenen der Annotierung: zwei syntaktisch, eine
lexikalisch-semantisch
1. syntaktische Ebene: Annotation der Phrasenstruktur
◮
◮
inspiriert durch Chomsky-Syntax
binäre Bäume, Traces (Bewegung)
23 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
HUTB: multi-layered, multi-representational
◮
◮
drei Ebenen der Annotierung: zwei syntaktisch, eine
lexikalisch-semantisch
1. syntaktische Ebene: Annotation der Phrasenstruktur
◮
◮
◮
inspiriert durch Chomsky-Syntax
binäre Bäume, Traces (Bewegung)
2. syntaktische Ebene: Annotation von Dependenzen
◮
◮
Computational Pān.inian Grammar (CPG) (Bharati et al. 1995)
kar.aka-Beziehungen (vgl. thematische Rollen) modellieren
Kopf-Argument-Abhängigkeiten
23 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
HUTB: multi-layered, multi-representational
◮
◮
drei Ebenen der Annotierung: zwei syntaktisch, eine
lexikalisch-semantisch
1. syntaktische Ebene: Annotation der Phrasenstruktur
◮
◮
◮
2. syntaktische Ebene: Annotation von Dependenzen
◮
◮
◮
inspiriert durch Chomsky-Syntax
binäre Bäume, Traces (Bewegung)
Computational Pān.inian Grammar (CPG) (Bharati et al. 1995)
kar.aka-Beziehungen (vgl. thematische Rollen) modellieren
Kopf-Argument-Abhängigkeiten
lexikalisch-semantische Ebene: PropBank (Palmer et al. 2005)
◮
◮
semantische Rollen (Arg0, Arg1 etc.) werden den Argumenten
des Verbs zugeordnet
Rollen werden außerdem auf die kar.aka-Beziehungen gemappt
(“multi-layeredness”)
23 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Unser Ziel
Hindi/Urdu-Baumbank (HUTB)
neue Baumbank-Ressource
24 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Unser Ziel
Hindi/Urdu-Baumbank (HUTB)
neue Baumbank-Ressource
anreichern mit??
Urdu-ParGram-Grammatik
LFG-Grammatik für Hindi/Urdu
24 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Unser Ziel
Hindi/Urdu-Baumbank (HUTB)
neue Baumbank-Ressource
anreichern mit??
Urdu-ParGram-Grammatik
LFG-Grammatik für Hindi/Urdu
verbesserte Hindi/Urdu-Baumbank
Kann die HUTB von unserer
Urdu-ParGram-Grammatik profitieren?
Wenn ja, wie?
24 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Ein Beispiel aus der Baumbank
dtAvAs e
@кAEryo\ n
us
aQCF s
h^t m
\ pAyA
dUtAvAs
adHikAriyOn=nE
usE accHI
Botschaft.Masc.Sg Angestellter.Masc.Pl=Erg er.Acc gut.Fem.Sg
sEhat=mEN
pA-yA
Gesundheit.Fem.Sg=Loc finden-Perf.Masc.Sg
‘Botschaftsangestellte fanden ihn bei guter Gesundheit vor.’
25 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Syntaktische Annotation
(( NP
<fs drel=‘k1:VGF’ name=‘NP’>
XC
NN
PSP
dtAvAs
e
@кAEryo\
n
PRP
us
JJ
NN
PSP
aQCF
s
h^t
m
\
VM
SYM
pAyA
.
))
(( NP
<fs drel=‘k2:VGF’ name=‘NP2’>
))
(( NP
<fs drel=‘k7:VGF’ name=‘NP3’>
))
(( VGF
))
Abbildung: Beispielsatz aus der HUTB
26 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Syntaktische Annotation
(( NP
<fs drel=‘k1:VGF’ name=‘NP’>
XC
NN
PSP
dtAvAs
e
@кAEryo\
n
))
Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’
27 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Syntaktische Annotation
(( NP
<fs drel=‘k1:VGF’ name=‘NP’>
XC
NN
PSP
dtAvAs
e
@кAEryo\
n
))
Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’
◮
preterminale Knoten: Part of Speech (XC, NN, etc.)
27 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Syntaktische Annotation
(( NP
<fs drel=‘k1:VGF’ name=‘NP’>
XC
NN
PSP
dtAvAs
e
@кAEryo\
n
))
Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’
◮
preterminale Knoten: Part of Speech (XC, NN, etc.)
◮
Knoten gruppiert in Konstituenten (Klammern)
27 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Syntaktische Annotation
(( NP
<fs drel=‘k1:VGF’ name=‘NP’>
XC
NN
PSP
dtAvAs
e
@кAEryo\
n
))
Abbildung: NP dUtAvAs adHikAriyOn=nE ‘Botschaftsangestellte’
◮
preterminale Knoten: Part of Speech (XC, NN, etc.)
◮
Knoten gruppiert in Konstituenten (Klammern)
◮
Dependenzen werden an Konstituenten angefügt
27 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Lexikalisch-semantische Annotation
pA pA ‘finden’
Arg0
Agens
Arg1
ArgM-MNR
Patiens (Theme)
Modifier (Manner)
dtAvAs e
@кAEryo\
dUtAvAs adHikAriyOn=nE
‘Botschaftsangestellte’
us
usE ‘ihn’
aQCF s
h^t accHI sEhat
‘gute Gesundheit’
Tabelle: PropBank-Frame für pA pA ‘finden’
28 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Lexikalisch-semantische Annotation
pA pA ‘finden’
Arg0
Agens
Arg1
ArgM-MNR
Patiens (Theme)
Modifier (Manner)
dtAvAs e
@кAEryo\
dUtAvAs adHikAriyOn=nE
‘Botschaftsangestellte’
us
usE ‘ihn’
aQCF s
h^t accHI sEhat
‘gute Gesundheit’
Tabelle: PropBank-Frame für pA pA ‘finden’
◮
PropBank-Rollen werden gemappt auf kar.aka-Rollen
28 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Lexikalisch-semantische Annotation
pA pA ‘finden’
Arg0
Agens
Arg1
ArgM-MNR
Patiens (Theme)
Modifier (Manner)
dtAvAs e
@кAEryo\
dUtAvAs adHikAriyOn=nE
‘Botschaftsangestellte’
us
usE ‘ihn’
aQCF s
h^t accHI sEhat
‘gute Gesundheit’
Tabelle: PropBank-Frame für pA pA ‘finden’
◮
◮
PropBank-Rollen werden gemappt auf kar.aka-Rollen
e.g., Agens Arg0 mappt auf kar.aka-Rolle k1 (dUtAvAs
adHikAriyOn=nE ‘Botschaftsangestellte’)
28 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Welche Information kann die Urdu-ParGram-Grammatik
zur HUTB beitragen?
◮
F-Strukturen kodieren Dependenz-Information explizit
◮
aber: nicht nur Kopf-Argument-Dependenzen, sondern
detaillierte Feature/Value-Kombinationen, die als Input zu
komputationeller Semantik dienen können
29 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Welche Information kann die Urdu-ParGram-Grammatik
zur HUTB beitragen?
◮
F-Strukturen kodieren Dependenz-Information explizit
◮
aber: nicht nur Kopf-Argument-Dependenzen, sondern
detaillierte Feature/Value-Kombinationen, die als Input zu
komputationeller Semantik dienen können
→ F-Strukturen enthalten mehr und genauere Infos als HUTB
29 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Welche Information kann die Urdu-ParGram-Grammatik
zur HUTB beitragen?
◮
F-Strukturen kodieren Dependenz-Information explizit
◮
aber: nicht nur Kopf-Argument-Dependenzen, sondern
detaillierte Feature/Value-Kombinationen, die als Input zu
komputationeller Semantik dienen können
→ F-Strukturen enthalten mehr und genauere Infos als HUTB
→ detailliertere Annotation von Modalität, Tempus/Aspekt,
komplexen Prädikaten, ...
29 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Welche Information kann die Urdu-ParGram-Grammatik
zur HUTB beitragen?
◮
F-Strukturen kodieren Dependenz-Information explizit
◮
aber: nicht nur Kopf-Argument-Dependenzen, sondern
detaillierte Feature/Value-Kombinationen, die als Input zu
komputationeller Semantik dienen können
→ F-Strukturen enthalten mehr und genauere Infos als HUTB
→ detailliertere Annotation von Modalität, Tempus/Aspekt,
komplexen Prädikaten, ...
ASPECT perf, TENSE pres, DEGREE positive,
MODALITY can, ADDRESS rude, DEIXIS proximal,
MOOD imperative, PROPER-TYPE location, ...
29 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
◮
Information gesammelt durch Parses der Urdu-Grammatik
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
◮
◮
Information gesammelt durch Parses der Urdu-Grammatik
Feature/Value-Informationen aus F-Strukturen extrahiert, in
der Form von Triples
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
◮
◮
◮
Information gesammelt durch Parses der Urdu-Grammatik
Feature/Value-Informationen aus F-Strukturen extrahiert, in
der Form von Triples
flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen
in das Triples-Format (Merkmale können gelöscht und
eingeebnet werden)
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
◮
◮
◮
◮
Information gesammelt durch Parses der Urdu-Grammatik
Feature/Value-Informationen aus F-Strukturen extrahiert, in
der Form von Triples
flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen
in das Triples-Format (Merkmale können gelöscht und
eingeebnet werden)
erfolgreich angewandt für Teile der PennTreebank (PARC700,
King et al. (2003))
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Eine zusätzliche Annotationsebene für die HUTB
◮
Vorhaben: eine zusätzliche Ebene für die HUTB
◮
Format der Ebene: XLE-Triples
◮
◮
◮
◮
◮
Information gesammelt durch Parses der Urdu-Grammatik
Feature/Value-Informationen aus F-Strukturen extrahiert, in
der Form von Triples
flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen
in das Triples-Format (Merkmale können gelöscht und
eingeebnet werden)
erfolgreich angewandt für Teile der PennTreebank (PARC700,
King et al. (2003))
Parser, die auf dieser “angereicherten” HUTB trainiert
werden, können in bestimmten Bereichen verbessert werden
30 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Das XLE-Triples-Format
31 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Das XLE-Triples-Format
↓
Einebnung des TNS-ASP-Features,
entfernen des CLAUSE-TYPE-Features
31 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Das XLE-Triples-Format
↓
Einebnung des TNS-ASP-Features,
entfernen des CLAUSE-TYPE-Features
↓
resultierende Triples-Auswahl:
aspect(pA,perf)
mood(pA,indicative)
passive(pA,-)
vtype(pA,main)
31 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in Hindi/Urdu
◮
zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’
(defektes Paradigma: nur cAhIyE)
32 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in Hindi/Urdu
◮
zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’
(defektes Paradigma: nur cAhIyE)
◮
restliche Modalität wird konstruktiv ausgedrückt:
Kombinationen Hauptverb + pA ‘finden’, paR ‘fallen’, hO
‘sein’ (Bhatt et al. 2011)
32 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in Hindi/Urdu
◮
zwei dedizierte Modalverben: sak ‘können’, cAhIyE ‘brauchen’
(defektes Paradigma: nur cAhIyE)
◮
restliche Modalität wird konstruktiv ausgedrückt:
Kombinationen Hauptverb + pA ‘finden’, paR ‘fallen’, hO
‘sein’ (Bhatt et al. 2011)
◮
Beispiel:
yAsIn
vuh
kar sak-A
Yassin.Masc.Sg das.Sg.Nom tun können-Perf.Masc.Sg
‘Yassin konnte das tun.’
32 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der HUTB
◮
Modalkonstruktionen werden auf der PropBank-Ebene
annotiert
◮
PropBank-Label ARGM-Mod markiert Modalverben
33 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der HUTB
◮
Modalkonstruktionen werden auf der PropBank-Ebene
annotiert
◮
PropBank-Label ARGM-Mod markiert Modalverben
◮
aber: die modale Bedeutung wird nicht weiter spezifiziert:
Modal constructions in Hindi convey notions such as
ability, desire, obligation, permission, etc. In
P[rop]bank, we will annotate the following cases
using the ARGM-Mod label.
(PB guidelinesNov2010.pdf, p. 29)
33 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der Urdu-ParGram-Grammatik
◮
Hindi/Urdu-Modalverben wurden kürzlich in der
Urdu-ParGram-Grammatik implementiert (Bhatt et al. 2011)
◮
Features kodieren nicht nur Modalität als solche
◮
detaillierte Feature/Value-Paare geben die exakte Natur der
ausgedrückten Modalität an
◮
Modalität wird unter F-Struktur-Feature [MODALITY]
subsumiert
34 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der Urdu-ParGram-Grammatik
"yAsIn vuh kar sakA"
PRED
'sak<[22:kar]>[1:yAsIn]'
PRED 'yAsIn'
SUBJ
NTYPE
NSEM PROPER PROPER-TYPE name
NSYN proper
1 CASE nom, GEND masc, NUM sg, PERS 3
PRED
SUBJ
'kar<[1:yAsIn], [19:vuh]>'
[1:yAsIn]
PRED 'vuh'
XCOMP
OBJ
NTYPE NSYN pronoun
19 CASE nom, NUM sg, PERS 3, PRON-TYPE pers
22 PASSIVE TNS-ASP ASPECT perf, MOOD indicative
51 CLAUSE-TYPE decl, MODALITY CAN, VTYPE main
Abbildung: F-struktur zu yAsIn vuh kar sakA ‘Yassin konnte das tun.’
35 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der zusätzlichen Annotationsebene der HUTB
pred(root,sak)
subj(sak,yAsIn)
xcomp(sak,kar)
subj(kar,yAsIn)
obj(kar,vuh)
modality(sak,can)
Abbildung: Set der Triples für Modalverben
36 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Die Hindi/Urdu-Baumbank
Ein Beispiel
Vorteile der Urdu-ParGram-Grammatik
Eine zusätzliche Annotationsebene für die HUTB
Annotation von Modalität
Modalität in der zusätzlichen Annotationsebene der HUTB
pred(root,sak)
subj(sak,yAsIn)
xcomp(sak,kar)
subj(kar,yAsIn)
obj(kar,vuh)
modality(sak,can)
Abbildung: Set der Triples für Modalverben
→ Feature-Wert-Paar [MODALITY can] wird in Triples
beibehalten, um Modalität zu kodieren
36 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Ausblick
Übersicht
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
37 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Ausblick
Zusammenfassung
◮
◮
nach wie vor Ressourcenarmut für Urdu/Hindi
aber: die Verhältnisse bessern sich
◮
◮
◮
◮
was noch fehlt:
◮
◮
◮
neue Ressourcen werden entwickelt
bestehende Ressourcen werden verbessert
manche Ressourcen können miteinander verknüpft werden
lexikalische Ressourcen
verlässliche/balancierte Corpora
wichtig für semantisch motivierte Aufgaben in NLP (Word
Sense Disambiguation, Sentiment Analysis, etc.)
38 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Ausblick
Lexikalische Ressourcen für Urdu
◮
◮
neues, DAAD-gefördertes Projekt in Konstanz
Erstellung lexikalischer Ressourcen für Urdu
◮
◮
◮
◮
◮
POS Tagset und manuelles Tagging
Entwicklung eines Urdu-WordNet
Entwicklung eines Urdu-VerbNet
balancierte, standardisierte Corpora getaggt nach “Senses”
Ziel: Word Sense Disambiguation
→ http://ling.uni-konstanz.de/pages/home/pargram urdu/DAADlex/
39 / 40
Einführung
Die Urdu-ParGram-Grammatik
Transliteration von Hindi/Urdu
Baumbanken für Hindi/Urdu
Zusammenfassung
Literatur
Literatur
Beesley, Kenneth R. and Lauri Karttunen. 2003. Finite State Morphology. CSLI Publications.
Bharati, Akshar, Vineet Chaitanya, and Rajeev Sangal. 1995. Natural Language Processing — A Paninian
Perspective. Prentice Hall of India.
Bhatt, Rajesh, Tina Bögel, Miriam Butt, Annette Hautli, and Sebastian Sulger. 2011. Urdu/Hindi Modals. In
M. Butt and T. H. King, eds., Proceedings of the LFG11 Conference. Hong Kong.
Bhatt, Rajesh, Bhuvana Narasimhan, Martha Palmer, Owen Rambow, Dipti Sharma, and Fei Xia. 2009. A
Multi-Representational and Multi-Layered Treebank for Hindi/Urdu. In Proceedings of the Third Linguistic
Annotation Workshop, pages 186–189. Suntec, Singapore: Association for Computational Linguistics.
Bögel, Tina, Miriam Butt, Annette Hautli, and Sebastian Sulger. 2009. Urdu and the Modular Architecture of
ParGram. In Proceedings of the Conference on Language and Technology 2009 (CLT09).
Butt, Miriam. 1995. The Structure of Complex Predicates in Urdu. Stanford: CSLI Publications.
Butt, Miriam and Tracy Holloway King. 2007. Urdu in a Parallel Grammar Development Environment. Language
Resources and Evaluation 41(2):191–207.
Crouch, Dick, Mary Dalrymple, Ronald M. Kaplan, Tracy Holloway King, John T. Maxwell III, and Paula Newman.
2011. XLE Documentation. Palo Alto Research Center.
Dalrymple, Mary. 2001. Lexical Functional Grammar, vol. 34 of Syntax and Semantics. Academic Press.
Hautli, Annette, Sebastian Sulger, and Miriam Butt. 2012. Adding an Annotation Layer to the Hindi/Urdu
Treebank. Linguistic Issues in Language Technology 7(3).
King, Tracy Holloway, Richard Crouch, Stefan Riezler, Mary Dalrymple, and Ronald Kaplan. 2003. The PARC700
Dependency Bank. In Proceedings of the EACL03: 4th International Workshop on Linguistically Interpreted
Corpora (LINC-03).
Palmer, Martha, Rajesh Bhatt, Bhuvana Narasimhan, Owen Rambow, Dipti Misra Sharma, and Fei Xia. 2007.
Hindi Syntax: Annotating Dependency, Lexical Predicate-Argument Structure, and Phrase Structure. In
Proceedings of ICON‘07: 7th International Conference on Natural Language Processing, pages 259–268.
Palmer, Martha, Daniel Gildea, and Paul Kingsbury. 2005. The Proposition Bank: An Annotated Corpus of
Semantic Roles. Computational Linguistics 31(1):71–106.
40 / 40