Aufbau Linguistischer Ressourcen für Hindi/Urdu

Größe: px
Ab Seite anzeigen:

Download "Aufbau Linguistischer Ressourcen für Hindi/Urdu"

Transkript

1 Aufbau Linguistischer Ressourcen für Hindi/Urdu Sebastian Sulger Urdu-ParGram-Projekt 26. April, Zürich 1/40

2 Hindi/Urdu Ressourcenarmut Hindi/Urdu Hindi/Urdu: strukturell sehr ähnlich, Unterschiede in Vokabular, Orthographie Hindi vor allem in Indien, Urdu vor allem in Pakistan (auch in Indien) unterschiedliche Schriftsysteme: arabische Schrift für Urdu, Devanagari-Schrift für Hindi oft als eine einzelne Sprache betrachtet (Hindustani) 240 Mio. Muttersprachler 2/40

3 Hindi/Urdu Ressourcenarmut Ressourcenarmut Hindi/Urdu: leidet unter Ressourcenarmut nur ein paar lexikalische Ressourcen, keine offiziellen Corpora erhältlich, keine Parser mit größerer Abdeckung lange Zeit kein großes Interesse an Hindi/Urdu nur wenige Institute/Universitäten in Pakistan mit Interesse an NLP/CL Center for Language Engineering (CLE) ( 3/40

4 Hindi/Urdu Ressourcenarmut Übersicht 4/40

5 Urdu in Konstanz Urdu: Syntax Demo Übersicht 5/40

6 Urdu in Konstanz Urdu: Syntax Demo Das Urdu-ParGram-Projekt in Konstanz I DFG-gefördertes Projekt (März 2009 Februar 2013) Erstellung einer komputationellen Grammatik für Urdu/Hindi mit Flächenabdeckung zugrundeliegende Theorie: lexikalisch-funktionale Grammatik (LFG; Dalrymple (2001)) Kollaboration mit dem ParGram Projekt Entwicklung paralleler LFG-Grammatiken für verschiedene Sprachen (Englisch, Deutsch, Chinesisch, Japanisch, Türkisch, Ungarisch, Indonesisch, Norwegisch, Urdu...) Entwicklung eigener Ressourcen für Urdu/Hindi Butt and King (2007), Bögel et al. (2009) urdu 6/40

7 Urdu in Konstanz Urdu: Syntax Demo Das Urdu-ParGram-Projekt in Konstanz II Anspruch: tiefes Parsing (linguistisch gehaltvolles Parsing), kein shallow Parsing (Chunking etc.) LFG-Syntax implementiert mittels XLE (Crouch et al. 2011) Morphologie implementiert mittels xfst (Beesley and Karttunen 2003) Abdeckung kontinuierlich verbessert: Relativsätze, Korrelativsätze Tempus/Aspekt Modalverben unterbrochene Nominalphrasen 7/40

8 Urdu in Konstanz Urdu: Syntax Demo Kurzübersicht: LFG C-Struktur: The student wanted to drive the tractor. IP NP: ( SUBJ) = VP: = The student V: = VPinf: ( XCOMP) = wanted PARTinf: = VP: = to V: = NP: ( OBJ) = drive the tractor 8/40

9 Urdu in Konstanz Urdu: Syntax Demo Kurzübersicht: LFG F-Struktur: The student wanted to drive the tractor. PRED want<( SUBJ)( XCOMP)> PRED student [ [ ] SUBJ SPEC DET PRED the NUM sg, PERS 3 PRED drive<( SUBJ)( OBJ)> PRED student [ SUBJ SPEC DET XCOMP NUM sg, PERS 3 PRED tractor [ [ ] OBJ SPEC DET PRED the NUM sg, PERS 3 TENSE past [ PRED the ] 9/40

10 Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax 10/40

11 Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax freie Wortstellung kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich 10/40

12 Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax freie Wortstellung kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich Pro-Drop (Problem für Generierung) 10/40

13 Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax freie Wortstellung kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich Pro-Drop (Problem für Generierung) umfangreiche Benutzung von komplexen Prädikaten (Butt 1995, Hautli et al. 2012) 10/40

14 Urdu in Konstanz Urdu: Syntax Demo Urdu: Syntax freie Wortstellung kanonische Wortfolge: SOV generell sind fast alle Abweichungen möglich Pro-Drop (Problem für Generierung) umfangreiche Benutzung von komplexen Prädikaten (Butt 1995, Hautli et al. 2012) Komplexe Interaktion zwischen Morphologie, Syntax & Semantik Tempus/Aspekt Kasus-Markierung Reduplikation... 10/40

15 Urdu in Konstanz Urdu: Syntax Demo Freie Wortstellung nadiyah ne yasin ko mara Nadya schlug Yassin. (1) a. nadiyah ne yasin ko mara Nadya Erg Yassin Akk schlagen.perf b. yasin ko nadiyah ne mara c. nadiyah ne mara yasin ko d.... Argumente werden durch Kasus-Markierung angezeigt 11/40

16 Urdu in Konstanz Urdu: Syntax Demo Demo Demo des aktuell implementierten Urdu-Parsers in XLE Parsing Generierung 12/40

17 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Übersicht 13/40

18 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache Urdu: arabische Schrift, Hindi: Devanagari-Schrift 14/40

19 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: 14/40

20 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: Urdu vs. Hindi 14/40

21 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Zwei Schriftsysteme, eine Sprache Urdu: arabische Schrift, Hindi: Devanagari-Schrift derselbe Zweizeiler des Dichters Mirza Ghalib in beiden Schriften: Urdu vs. Hindi gemeinsame Transliteration im lateinischen Alphabet: han bhala kar tira bhala hoga yes good.m.sg do then good be.fut.m.sg Or darves ki sada kya he and dervish Gen.F.Sg call.f.sg what be.pres.3.sg Yes, do good then good will happen, what else is the call of the dervish. 14/40

22 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? wir hatten also 2 Möglichkeiten: 15/40

23 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren 15/40

24 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren (2) versuchen, von den Schriften weg zu abstrahieren zu einer gemeinsamen Umschrift 15/40

25 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? wir hatten also 2 Möglichkeiten: (1) Grammatik und Lexikon in beiden Schriften kodieren (2) versuchen, von den Schriften weg zu abstrahieren zu einer gemeinsamen Umschrift eine Grammatik und ein Lexikon genügen für beiden Varietäten... 15/40

26 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration 16/40

27 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration derzeitiger Ansatz: 16/40

28 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration derzeitiger Ansatz: von beiden Schriftsystemen wegabstrahieren 16/40

29 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration derzeitiger Ansatz: von beiden Schriftsystemen wegabstrahieren Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) 16/40

30 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration derzeitiger Ansatz: von beiden Schriftsystemen wegabstrahieren Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) Kodierung einer einzigen Grammatik und Lexikon im lateinischen Alphabet 16/40

31 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Entscheidung: Transliteration derzeitiger Ansatz: von beiden Schriftsystemen wegabstrahieren Benutzung einer gemeinsamen Umschrift basierend auf lateinischem Alphabet (A-Z, a-z, 0-9) Kodierung einer einzigen Grammatik und Lexikon im lateinischen Alphabet Effizienz, Größe der Grammatik 16/40

32 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik 17/40

33 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik Größe des Lexikons bleibt minimal 17/40

34 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Eine gemeinsame Umschrift? Urdu-Schriftsystem Hindi-Schriftsystem Gemeinsame Transliteration im lateinischen Alphabet LFG-Grammatik Größe des Lexikons bleibt minimal Grammatik-Entwicklung wird nicht erschwert 17/40

35 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Implementation vorerst Konzentration auf Urdu-Schrift (Devanagari ist in Arbeit) Implementation mit Hilfe von endlichen Automaten (Interface: xfst; Beesley and Karttunen (2003)) in Form eines Transducers Transliterator ist für XLE eine Black Box eigenständige Ressource (für andere Zwecke nutzbar) Lower Side des Transducers: arabische Schrift; Upper Side des Transducers: lateinische Schrift Output des Transliterators ist Input für das restliche XLE-System (morphologische Analyse, Syntax-Parser) 18/40

36 Zwei Schriftsysteme, eine Sprache Unser Ansatz Implementation Demo Demo Demo des aktuell implementierten Transliterators in xfst eingebettet in die XLE-Grammatik-Umgebung 19/40

37 Übersicht 20/40

38 Baumbanken Baumbanken sind wichtige linguistische Ressourcen für die theoretische Sprachwissenschaft: erleichtern die Arbeit von Syntaktikern erlauben das Aufstellen und Überprüfen von linguistischen Hypothesen für die Computerlinguistik: ermöglichen das Trainieren von Parsern verbessern bereits trainierte Parser (statistische Auswertung) sind nützlich in der maschinellen Übersetzung (parallele Baumbanken) 21/40

39 (HUTB) neue Baumbank-Ressource für Hindi/Urdu kollaborative Forschung zwischen 5 Universitäten (University of Colorado at Boulder, Columbia University, University of Massachusetts at Amherst, University of Washington, International Institute of Information Technology in India) Projekt gestartet in 2008 (Arbeit läuft) Ziel: eine Baumbank, die multi-representational, multi-layered ist Palmer et al. (2007), Bhatt et al. (2009) 22/40

40 HUTB: multi-layered, multi-representational drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 23/40

41 HUTB: multi-layered, multi-representational drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) 23/40

42 HUTB: multi-layered, multi-representational drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) 2. syntaktische Ebene: Annotation von Dependenzen Computational Pāṇinian Grammar (CPG) (Bharati et al. 1995) kaṛaka-beziehungen (vgl. thematische Rollen) modellieren Kopf-Argument-Abhängigkeiten 23/40

43 HUTB: multi-layered, multi-representational drei Ebenen der Annotierung: zwei syntaktisch, eine lexikalisch-semantisch 1. syntaktische Ebene: Annotation der Phrasenstruktur inspiriert durch Chomsky-Syntax binäre Bäume, Traces (Bewegung) 2. syntaktische Ebene: Annotation von Dependenzen Computational Pāṇinian Grammar (CPG) (Bharati et al. 1995) kaṛaka-beziehungen (vgl. thematische Rollen) modellieren Kopf-Argument-Abhängigkeiten lexikalisch-semantische Ebene: PropBank (Palmer et al. 2005) semantische Rollen (Arg0, Arg1 etc.) werden den Argumenten des Verbs zugeordnet Rollen werden außerdem auf die kaṛaka-beziehungen gemappt ( multi-layeredness ) 23/40

44 Unser Ziel Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource 24/40

45 Unser Ziel Einführung Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource anreichern mit?? Urdu-ParGram-Grammatik LFG-Grammatik für Hindi/Urdu 24/40

46 Unser Ziel Einführung Hindi/Urdu-Baumbank (HUTB) neue Baumbank-Ressource anreichern mit?? Urdu-ParGram-Grammatik LFG-Grammatik für Hindi/Urdu verbesserte Hindi/Urdu-Baumbank Kann die HUTB von unserer Urdu-ParGram-Grammatik profitieren? Wenn ja, wie? 24/40

47 aus der Baumbank e к u a dutavas adhikariyon=ne use acchi Botschaft.Masc.Sg Angestellter.Masc.Pl=Erg er.acc gut.fem.sg sehat=men pa-ya Gesundheit.Fem.Sg=Loc finden-perf.masc.sg Botschaftsangestellte fanden ihn bei guter Gesundheit vor. 25/40

48 Syntaktische Annotation (( NP <fs drel= k1:vgf name= NP > XC NN e к PSP )) (( NP <fs drel= k2:vgf name= NP2 > PRP u )) (( NP <fs drel= k7:vgf name= NP3 > JJ a NN PSP )) (( VGF VM SYM. )) Abbildung: Beispielsatz aus der HUTB 26/40

49 Syntaktische Annotation (( NP <fs drel= k1:vgf name= NP > XC NN e к PSP )) Abbildung: NP dutavas adhikariyon=ne Botschaftsangestellte 27/40

50 Syntaktische Annotation (( NP <fs drel= k1:vgf name= NP > XC NN e к PSP )) Abbildung: NP dutavas adhikariyon=ne Botschaftsangestellte preterminale Knoten: Part of Speech (XC, NN, etc.) 27/40

51 Syntaktische Annotation (( NP <fs drel= k1:vgf name= NP > XC NN e к PSP )) Abbildung: NP dutavas adhikariyon=ne Botschaftsangestellte preterminale Knoten: Part of Speech (XC, NN, etc.) Knoten gruppiert in Konstituenten (Klammern) 27/40

52 Syntaktische Annotation (( NP <fs drel= k1:vgf name= NP > XC NN e к PSP )) Abbildung: NP dutavas adhikariyon=ne Botschaftsangestellte preterminale Knoten: Part of Speech (XC, NN, etc.) Knoten gruppiert in Konstituenten (Klammern) Dependenzen werden an Konstituenten angefügt 27/40

53 Lexikalisch-semantische Annotation pa finden Arg0 Agens e к dutavas adhikariyon=ne Botschaftsangestellte Arg1 Patiens (Theme) u use ihn ArgM-MNR Modifier (Manner) a acchi sehat gute Gesundheit Tabelle: PropBank-Frame für pa finden 28/40

54 Lexikalisch-semantische Annotation pa finden Arg0 Agens e к dutavas adhikariyon=ne Botschaftsangestellte Arg1 Patiens (Theme) u use ihn ArgM-MNR Modifier (Manner) a acchi sehat gute Gesundheit Tabelle: PropBank-Frame für pa finden PropBank-Rollen werden gemappt auf kaṛaka-rollen 28/40

55 Lexikalisch-semantische Annotation pa finden Arg0 Agens e к dutavas adhikariyon=ne Botschaftsangestellte Arg1 Patiens (Theme) u use ihn ArgM-MNR Modifier (Manner) a acchi sehat gute Gesundheit Tabelle: PropBank-Frame für pa finden PropBank-Rollen werden gemappt auf kaṛaka-rollen e.g., Agens Arg0 mappt auf kaṛaka-rolle k1 (dutavas adhikariyon=ne Botschaftsangestellte ) 28/40

56 Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? F-Strukturen kodieren Dependenz-Information explizit aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können 29/40

57 Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? F-Strukturen kodieren Dependenz-Information explizit aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können F-Strukturen enthalten mehr und genauere Infos als HUTB 29/40

58 Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? F-Strukturen kodieren Dependenz-Information explizit aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können F-Strukturen enthalten mehr und genauere Infos als HUTB detailliertere, Tempus/Aspekt, komplexen Prädikaten,... 29/40

59 Welche Information kann die Urdu-ParGram-Grammatik zur HUTB beitragen? F-Strukturen kodieren Dependenz-Information explizit aber: nicht nur Kopf-Argument-Dependenzen, sondern detaillierte Feature/Value-Kombinationen, die als Input zu komputationeller Semantik dienen können F-Strukturen enthalten mehr und genauere Infos als HUTB detailliertere, Tempus/Aspekt, komplexen Prädikaten,... ASPECT perf, TENSE pres, DEGREE positive, MODALITY can, ADDRESS rude, DEIXIS proximal, MOOD imperative, PROPER-TYPE location,... 29/40

60 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples 30/40

61 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples Information gesammelt durch Parses der Urdu-Grammatik 30/40

62 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples 30/40

63 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) 30/40

64 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) erfolgreich angewandt für Teile der PennTreebank (PARC700, King et al. (2003)) 30/40

65 Vorhaben: eine zusätzliche Ebene für die HUTB Format der Ebene: XLE-Triples Information gesammelt durch Parses der Urdu-Grammatik Feature/Value-Informationen aus F-Strukturen extrahiert, in der Form von Triples flexibler, XLE-interner Prozess; Übersetzung von F-Strukturen in das Triples-Format (Merkmale können gelöscht und eingeebnet werden) erfolgreich angewandt für Teile der PennTreebank (PARC700, King et al. (2003)) Parser, die auf dieser angereicherten HUTB trainiert werden, können in bestimmten Bereichen verbessert werden 30/40

66 Das XLE-Triples-Format 31/40

67 Das XLE-Triples-Format Einebnung des TNS-ASP-Features, entfernen des CLAUSE-TYPE-Features 31/40

68 Das XLE-Triples-Format Einebnung des TNS-ASP-Features, entfernen des CLAUSE-TYPE-Features resultierende Triples-Auswahl: aspect(pa,perf) mood(pa,indicative) passive(pa,-) vtype(pa,main) 31/40

69 Modalität in Hindi/Urdu zwei dedizierte Modalverben: sak können, cahiye brauchen (defektes Paradigma: nur cahiye) 32/40

70 Modalität in Hindi/Urdu zwei dedizierte Modalverben: sak können, cahiye brauchen (defektes Paradigma: nur cahiye) restliche Modalität wird konstruktiv ausgedrückt: Kombinationen Hauptverb + pa finden, par fallen, ho sein (Bhatt et al. 2011) 32/40

71 Modalität in Hindi/Urdu zwei dedizierte Modalverben: sak können, cahiye brauchen (defektes Paradigma: nur cahiye) restliche Modalität wird konstruktiv ausgedrückt: Kombinationen Hauptverb + pa finden, par fallen, ho sein (Bhatt et al. 2011) Beispiel: yasin vuh kar sak-a Yassin.Masc.Sg das.sg.nom tun können-perf.masc.sg Yassin konnte das tun. 32/40

72 Modalität in der HUTB Modalkonstruktionen werden auf der PropBank-Ebene annotiert PropBank-Label ARGM-Mod markiert Modalverben 33/40

73 Modalität in der HUTB Modalkonstruktionen werden auf der PropBank-Ebene annotiert PropBank-Label ARGM-Mod markiert Modalverben aber: die modale Bedeutung wird nicht weiter spezifiziert: Modal constructions in Hindi convey notions such as ability, desire, obligation, permission, etc. In P[rop]bank, we will annotate the following cases using the ARGM-Mod label. (PB guidelinesnov2010.pdf, p. 29) 33/40

74 Modalität in der Urdu-ParGram-Grammatik Hindi/Urdu-Modalverben wurden kürzlich in der Urdu-ParGram-Grammatik implementiert (Bhatt et al. 2011) Features kodieren nicht nur Modalität als solche detaillierte Feature/Value-Paare geben die exakte Natur der ausgedrückten Modalität an Modalität wird unter F-Struktur-Feature [MODALITY] subsumiert 34/40

75 Modalität in der Urdu-ParGram-Grammatik "yasin vuh kar saka" PRED 'sak<[22:kar]>[1:yasin]' PRED 'yasin' SUBJ NTYPE NSEM PROPER PROPER-TYPE name NSYN proper 1 CASE nom, GEND masc, NUM sg, PERS 3 PRED 'kar<[1:yasin], [19:vuh]>' SUBJ [1:yAsIn] XCOMP PRED 'vuh' OBJ NTYPE NSYN pronoun 19 CASE nom, NUM sg, PERS 3, PRON-TYPE pers 22 PASSIVE - TNS-ASP ASPECT perf, MOOD indicative 51 CLAUSE-TYPE decl, MODALITY CAN, VTYPE main Abbildung: F-struktur zu yasin vuh kar saka Yassin konnte das tun. 35/40

76 Modalität in der zusätzlichen Annotationsebene der HUTB pred(root,sak) subj(sak,yasin) xcomp(sak,kar) subj(kar,yasin) obj(kar,vuh) modality(sak,can) Abbildung: Set der Triples für Modalverben 36/40

77 Modalität in der zusätzlichen Annotationsebene der HUTB pred(root,sak) subj(sak,yasin) xcomp(sak,kar) subj(kar,yasin) obj(kar,vuh) modality(sak,can) Abbildung: Set der Triples für Modalverben Feature-Wert-Paar [MODALITY can] wird in Triples beibehalten, um Modalität zu kodieren 36/40

78 Ausblick Übersicht 37/40

79 Ausblick nach wie vor Ressourcenarmut für Urdu/Hindi aber: die Verhältnisse bessern sich neue Ressourcen werden entwickelt bestehende Ressourcen werden verbessert manche Ressourcen können miteinander verknüpft werden was noch fehlt: lexikalische Ressourcen verlässliche/balancierte Corpora wichtig für semantisch motivierte Aufgaben in NLP (Word Sense Disambiguation, Sentiment Analysis, etc.) 38/40

80 Ausblick Lexikalische Ressourcen für Urdu neues, DAAD-gefördertes Projekt in Konstanz Erstellung lexikalischer Ressourcen für Urdu POS Tagset und manuelles Tagging Entwicklung eines Urdu-WordNet Entwicklung eines Urdu-VerbNet balancierte, standardisierte Corpora getaggt nach Senses Ziel: Word Sense Disambiguation urdu/daadlex/ 39/40

81 Beesley, Kenneth R. and Lauri Karttunen Finite State Morphology. CSLI Publications. Bharati, Akshar, Vineet Chaitanya, and Rajeev Sangal Natural Language Processing A Paninian Perspective. Prentice Hall of India. Bhatt, Rajesh, Tina Bögel, Miriam Butt, Annette Hautli, and Sebastian Sulger Urdu/Hindi Modals. In M. Butt and T. H. King, eds., Proceedings of the LFG11 Conference. Hong Kong. Bhatt, Rajesh, Bhuvana Narasimhan, Martha Palmer, Owen Rambow, Dipti Sharma, and Fei Xia A Multi-Representational and Multi-Layered Treebank for Hindi/Urdu. In Proceedings of the Third Linguistic Annotation Workshop, pages Suntec, Singapore: Association for Computational Linguistics. Bögel, Tina, Miriam Butt, Annette Hautli, and Sebastian Sulger Urdu and the Modular Architecture of ParGram. In Proceedings of the Conference on Language and Technology 2009 (CLT09). Butt, Miriam The Structure of Complex Predicates in Urdu. Stanford: CSLI Publications. Butt, Miriam and Tracy Holloway King Urdu in a Parallel Grammar Development Environment. Language Resources and Evaluation 41(2): Crouch, Dick, Mary Dalrymple, Ronald M. Kaplan, Tracy Holloway King, John T. Maxwell III, and Paula Newman XLE Documentation. Palo Alto Research Center. Dalrymple, Mary Lexical Functional Grammar, vol. 34 of Syntax and Semantics. Academic Press. Hautli, Annette, Sebastian Sulger, and Miriam Butt Adding an Annotation Layer to the Hindi/Urdu Treebank. Linguistic Issues in Language Technology 7(3). King, Tracy Holloway, Richard Crouch, Stefan Riezler, Mary Dalrymple, and Ronald Kaplan The PARC700 Dependency Bank. In Proceedings of the EACL03: 4th International Workshop on Linguistically Interpreted Corpora (LINC-03). Palmer, Martha, Rajesh Bhatt, Bhuvana Narasimhan, Owen Rambow, Dipti Misra Sharma, and Fei Xia Hindi Syntax: Annotating Dependency, Lexical Predicate-Argument Structure, and Phrase Structure. In Proceedings of ICON 07: 7th International Conference on Natural Language Processing, pages Palmer, Martha, Daniel Gildea, and Paul Kingsbury The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics 31(1): /40

Das Xerox Linguistics Environment (XLE) Ling 232 Maschinelle Übersetzung Dr. Heike Zinsmeister SS 2011

Das Xerox Linguistics Environment (XLE) Ling 232 Maschinelle Übersetzung Dr. Heike Zinsmeister SS 2011 Das Xerox Linguistics Environment (XLE) Ling 232 Maschinelle Übersetzung Dr. Heike Zinsmeister SS 2011 Hintergrund Übersicht Xerox Linguistics Environment (XLE) das Pargram-Projekt Lexical Functional Grammar

Mehr

Vorlesung 7: LFG I. Einführung, c- und f-strukturen

Vorlesung 7: LFG I. Einführung, c- und f-strukturen Vorlesung 7: LFG I. Einführung, c- und f-strukturen Dozent: Gerold Schneider Übersicht Die Behandlung überkreuzender Abhängigkeiten Transformationen Diskontinuierliche Grammatiken Argumentskomposition

Mehr

NLP Eigenschaften von Text

NLP Eigenschaften von Text NLP Eigenschaften von Text Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Folie: 1 Übersicht Einführung Eigenschaften von Text Words I: Satzgrenzenerkennung, Tokenization, Kollokationen

Mehr

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute Das TIGER-Korpus: Annotation und Exploration Stefanie Dipper Forschungskolloquium Korpuslinguistik, 11.11.03 Gliederung 1. TIGER-Korpus 2. Annotation 3. Visualisierung 4. Suche, Retrieval 5. Demo 6. Repräsentation

Mehr

Grundlagen der LFG. (1) I danced a dance, I sneezed a sneeze, I laughed a laugh I stumbled a stumble, *I drowned a drown, *I floated a float

Grundlagen der LFG. (1) I danced a dance, I sneezed a sneeze, I laughed a laugh I stumbled a stumble, *I drowned a drown, *I floated a float Lösung 2 Grundlagen der LFG Einführung in die LFG Sommersemester 2010 Universität Konstanz Miriam Butt 1 Linking 1.1 Intransitive Verben Englisch Agentive Verbs: sneeze, swim, laugh, sleep Non-agentive

Mehr

Generierung & Übersetzung mit XLE

Generierung & Übersetzung mit XLE Generierung & Übersetzung mit XLE Grammatikentwicklung, SS 2010 1 /25 Worum es heute geht: Generierung mit XLE Übersetzung mit XLE 2 /25 Allgemein: Generierung Generierung ist: der Gegenbegriff zum Parsing

Mehr

Merkmalsstrukturen. Merkmalsstrukturen. Merkmalsstrukturen (MS):

Merkmalsstrukturen. Merkmalsstrukturen. Merkmalsstrukturen (MS): (MS): Verbreiteter Formalismus in der Computerlinguistik. Ausführlich untersucht und beschrieben, (zumindest im Kern) auf MS basierende Ansätze: Categorical Unification Grammar [Uszkoreit, 1986] Functional

Mehr

Background for Hybrid Processing

Background for Hybrid Processing Background for Hybrid Processing Hans Uszkoreit Foundations of LST WS 04/05 Scope Classical Areas of Computational Linguistics: computational morphology, computational syntax computational semantics computational

Mehr

Semantic Role Labeling im modernen Text-Analyse-Prozess

Semantic Role Labeling im modernen Text-Analyse-Prozess Semantic Role Labeling im modernen Text-Analyse-Prozess Bastian Haarmann info@bastianhaarmann.de http://www.bastianhaarmann.de Agenda I Text-Analyse-Prozesse 1. Motivation 2. Informationsextraktion 3.

Mehr

LFG-basierter Transfer

LFG-basierter Transfer Inhaltsverzeichnis 1 2 2 Ein Beispiel 4 3 Strukturaufbau 7 4 Alternative Übersetzungen 8 5 Adjunkte 9 6 Kodeskription 10 http://www.ims.uni-stuttgart.de/ gojunaa/mue_tut.html 1 1 Um einen quellsprachlichen

Mehr

"What's in the news? - or: why Angela Merkel is not significant

What's in the news? - or: why Angela Merkel is not significant "What's in the news? - or: why Angela Merkel is not significant Andrej Rosenheinrich, Dr. Bernd Eickmann Forschung und Entwicklung, Unister GmbH, Leipzig UNISTER Seite 1 Unister Holding UNISTER Seite 2

Mehr

Part of Speech Tagging. Linguistische Sicht. Carolin Deck

Part of Speech Tagging. Linguistische Sicht. Carolin Deck Part of Speech Tagging Linguistische Sicht Carolin Deck Gliederung 1. Begriffsklärung 2. Vorstellung zwei wichtiger Tagsets (STTS & PTTS) 3. Bedeutung des POS-Tagging für die Sprachwissenschaft 4. Tagzuweisung

Mehr

Georg-August-Universität Göttingen University of Göttingen Seminar für Slavische Philologie Slavic Department

Georg-August-Universität Göttingen University of Göttingen Seminar für Slavische Philologie Slavic Department Hagen Pitsch Dr. phil. University of Göttingen Slavic Department Humboldtallee 19 37073 Göttingen Germany Zimmer room 3.116 November November 2007 Die Kopula(sätze) im Russischen The Copula (and Copular

Mehr

Topologische Dependenzgrammatik fürs Arabische. Vortrag von Marwan Odeh Betreut von Ralph Debusmannn Unter der Aufsicht von Prof.

Topologische Dependenzgrammatik fürs Arabische. Vortrag von Marwan Odeh Betreut von Ralph Debusmannn Unter der Aufsicht von Prof. Topologische Dependenzgrammatik fürs Arabische Vortrag von Marwan Odeh Betreut von Ralph Debusmannn Unter der Aufsicht von Prof. Gert Smolka Überblick Einführung Phänomene Modellierung in XDG Abschluss

Mehr

13. Übungsblatt

13. Übungsblatt Prolog für Linguisten 13. Übungsblatt 12.2.2011 Dieses Übungsblatt ist verpflichtend und wird benotet (48 Punkte + 8 Zusatzpunkte ). Achte besonders auf die Funktionalität des Programms mit verschiedenen

Mehr

QUALIA STRUKTUR NACH PUSTEJOVSKY

QUALIA STRUKTUR NACH PUSTEJOVSKY QUALIA STRUKTUR NACH PUSTEJOVSKY Angewandte Linguistische Datenverarbeitung Sprachliche Informationsverarbeitung Universität zu Köln Dozent: Prof. Dr. Jürgen Rolshoven Referentin: Corinna Asselborn 20.01.2014

Mehr

Syntax Phrasenstruktur und Satzglieder

Syntax Phrasenstruktur und Satzglieder Syntax Phrasenstruktur und Satzglieder Sätze und ihre Bestandteile haben eine hierarchische Struktur. Die Bestandteile eines Satzes (Konstituenten) bestehen aus geordneten Wortfolgen, die ihrerseits wieder

Mehr

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015

Mehr

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung

Satz Umstrukturierung für statistisch. Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Satz Umstrukturierung für statistisch maschinelle Übersetzung Anna Schiffarth Dozentin: Miriam Kaeshammer Fortgeschrittene Methoden der statistisch maschinellen Übersetzung Einführung Beschreibung einer

Mehr

Einführung in die Linguistik, Teil 4

Einführung in die Linguistik, Teil 4 Einführung in die Linguistik, Teil 4 Syntax: Fortsetzung Markus Bader, Frans Plank, Henning Reetz, Björn Wiemer Einführung in die Linguistik, Teil 4 p. 1/17 Grammatik des Deutschen: Fortsetzung Fragestellung

Mehr

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister

Syntaktische Annotationen. Korpuslinguistik Dr. Heike Zinsmeister Syntaktische Annotationen Korpuslinguistik Dr. Heike Zinsmeister 18.11.2011 Syntax Gestern war mir, wie vielen europäischen Abgeordneten, die Teilnahme unmöglich, da der Flug von Air France, mit dem wir

Mehr

Merkmale und Vererbung in unifikationsbasierten Lexika

Merkmale und Vererbung in unifikationsbasierten Lexika Gerold Schneider: Lexikonaufbau und Morphologieanalyseverfahren Seite 1 Merkmale und Vererbung in unifikationsbasierten Lexika Morphologieanalyse und Lexikonaufbau (14. Vorlesung) Dozent: Gerold Schneider

Mehr

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/ Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/12 21.11.2011 Lena Enzweiler 1 Was ist das Problem? Wortbasierte Vektormodelle betrachten nur

Mehr

Einführung in die Sprachwissenschaft -Tutorium-

Einführung in die Sprachwissenschaft -Tutorium- Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik Wintersemester 2010/2011 Einführung in die Sprachwissenschaft -Tutorium- Dienstag, 16.00 18.00 Uhr Seminarraum 10 Aufgaben Kapitel 1

Mehr

a) Erklären Sie, was eine SOV Sprache ist und was eine V2 Sprache ist. b) Welche Wortstellungsmuster sind eher selten in Sprachen der Welt?

a) Erklären Sie, was eine SOV Sprache ist und was eine V2 Sprache ist. b) Welche Wortstellungsmuster sind eher selten in Sprachen der Welt? Syntax 1) Wortstellung a) Erklären Sie, was eine SOV Sprache ist und was eine V2 Sprache ist. Unter SOV Sprachen verstehen wir all jene Sprachen, die als Grundwortstellung die Reihenfolge Subjekt (S) Objekt

Mehr

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis Inhaltsverzeichnis 1 Computerlinguistik Was ist das? 1 1.1 Aspekte der Computerlinguistik.................. 1 1.1.1 Computerlinguistik: Die Wissenschaft........... 2 1.1.2 Computerlinguistik und ihre Nachbardisziplinen.....

Mehr

Vorlesung: Lexikalisch Funktionale Grammatik Christian Fortmann Universität Zürich Sommersemester 2005

Vorlesung: Lexikalisch Funktionale Grammatik Christian Fortmann Universität Zürich Sommersemester 2005 Vorlesung: Lexikalisch Funktionale Grammatik 01.04.2005 Christian Fortmann Universität Zürich Sommersemester 2005 I. Lexikalisch Funktionale Grammatik - Repräsentationen Generative Theorien Die Lexikalisch

Mehr

Teil II: Phrasen und Phrasenstruktur

Teil II: Phrasen und Phrasenstruktur Teil II: Phrasen und Phrasenstruktur Übersicht: Grammatische Funktionen Kategorien Konstituenten & Strukturbäume Konstituententest Endozentrizität 1 Einfacher Satzbau Drei allgemeine Grundfragen der Syntax:

Mehr

Erkennung von Teilsatzgrenzen

Erkennung von Teilsatzgrenzen Erkennung von Teilsatzgrenzen Maryia Fedzechkina Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung SoSe 2007 Hauptseminar Maschinelle Sprachverarbeitung Agenda Definitionen

Mehr

Einführung Computerlinguistik. Konstituentensyntax II

Einführung Computerlinguistik. Konstituentensyntax II Einführung Computerlinguistik Konstituentensyntax II Hinrich Schütze & Robert Zangenfeind Centrum für Informations- und Sprachverarbeitung, LMU München 2013-11-18 Schütze & Zangenfeind: Konstituentensyntax

Mehr

Zur Struktur der Verbalphrase

Zur Struktur der Verbalphrase Zur Struktur der Verbalphrase Ein formales Kriterium zur Verbklassifikation: V ist ein intransitives Verb (ohne Objekte) schlafen, arbeiten, tanzen,... (1) Klaus-Jürgen schläft. V ist ein transitives Verb

Mehr

Spezielle Themen der KI. NLP Natural Language Processing Parsing

Spezielle Themen der KI. NLP Natural Language Processing Parsing Spezielle Themen der KI NLP Natural Language Processing Parsing Parsing Strategien top-down: Ausgehend von S Hypothesenbildung und Verifikation anhand der Grammatikregeln Ersetzung nicht-terminaler Symbole

Mehr

Syntaktische Bäume. Syntaktische Bäume: Prinzipien. Köpfe in Syntax vs. Morphologie CP! C S VP! V CP PP! P NP. S! NP VP VP! V (NP) PP* NP!

Syntaktische Bäume. Syntaktische Bäume: Prinzipien. Köpfe in Syntax vs. Morphologie CP! C S VP! V CP PP! P NP. S! NP VP VP! V (NP) PP* NP! Einführung in die Linguistik Butt / Eulitz / Wiemer Di. 12:15-13:45 Do.! 12:15-13:45 Fr.! 12:15-13:45 Syntax nfos etc. http://ling.uni-konstanz.de => Lehre Einführung in die Linguistik Syntaktische Bäume

Mehr

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Automatische Lexikonakquisition aus Textkorpora Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006 Inhalt Vorüberlegungen zu meiner Diplomarbeit Thema: (semi-)automatische Akquisition

Mehr

Einführung in die Computerlinguistik. Semantik

Einführung in die Computerlinguistik. Semantik Einführung in die Computerlinguistik Semantik WS 2006/2007 Manfred Pinkal Einführung in die Computerlinguistik 2006/2007 M. Pinkal UdS 1 Semantik für Dialogverarbeitung U: Ist der Flug um 2 nach London

Mehr

Practical Grammar Engineering Using HPSG 2.Tag. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel

Practical Grammar Engineering Using HPSG 2.Tag. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Practical Grammar Engineering Using HPSG 2.Tag Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Inhalt Matrix Differenzlisten Debugging (Demo, Frederik) Die LinGO Grammar Matrix Ein Nachteil

Mehr

Dependenz in Aktion: der Verbalkomplex kontrastiv. Anwendung Dependenz : der Verbalkomplex kontrastiv

Dependenz in Aktion: der Verbalkomplex kontrastiv. Anwendung Dependenz : der Verbalkomplex kontrastiv S. Hackmack Uni Bremen FB 10 SYNTAX 1 Anwendung Dependenz : der erbalkomplex kontrastiv Ich glaube, dass er mich noch lange hören können wird. Sie wissen, dass Sie sich die Unterlagen runterladen werden

Mehr

Aux Flip in German: A Walk in the Woods

Aux Flip in German: A Walk in the Woods Aux Flip in German: A Walk in the Woods Erhard Hinrichs 1, Kathrin Beck 1, and Tsuneko Nakazawa 2 1 Seminar für Sprachwissenschaft Eberhard Karls Universität Tübingen 2 University of Tokyo Aux Flip in

Mehr

Automatisches Lernen von Regeln zur quellseitigen Umordnung

Automatisches Lernen von Regeln zur quellseitigen Umordnung Automatisches Lernen von Regeln zur quellseitigen Umordnung E I N A N S AT Z V O N D M I T R I Y G E N Z E L Duwaraka Murugadas Fortgeschrittene Methoden der statistischen maschinellen Übersetzung (Miriam

Mehr

8 Fakultät für Philologie

8 Fakultät für Philologie 8 Fakultät für Philologie 8.1 Linguistik 8.1.1 Linguistik, PO 2004 Fach Linguistik (101) Abschluss 2-Fach Bachelor (81) PO-Version 2004 Folgendes ist zurzeit in HISPOS eingerichtet: Modul-Typen: o Nachgewiesene

Mehr

3. Phrasenstruktur und Merkmale 2

3. Phrasenstruktur und Merkmale 2 .1. WIEDERHOLUNG. Phrasenstruktur und Merkmale An welchen Eigenschaften erkennt man den Kopf einer Phrase? Was besagt das Thetakriterium? Was sind interpretierbare und uninterpretierbare Merkmale? Was

Mehr

Terminologie-Extraktion: Beispiel

Terminologie-Extraktion: Beispiel Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation

Mehr

Akademischer Lebenslauf. Udo-Michael Klein

Akademischer Lebenslauf. Udo-Michael Klein 1 Persönliche Daten Geburtsdatum 21.05.1973 Geburtsort Staatsbürgerschaft Familienstand Akademischer Lebenslauf Udo-Michael Klein Mediaş (Rumänien) deutsch verheiratet, 2 Kinder Anschrift dienstlich: Universitätsstrasse

Mehr

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov. 2008 [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis Content 1. Empirical linguistics 2. Text corpora and corpus linguistics 3. Concordances 4. Application I: The German progressive 5. Part-of-speech tagging 6. Fequency analysis 7. Application II: Compounds

Mehr

Practical Grammar Engineering Using HPSG. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel

Practical Grammar Engineering Using HPSG. Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Practical Grammar Engineering Using HPSG Frederik Fouvry, Petter Haugereid, Valia Kordoni, Melanie Siegel Inhalt Organisatorisches HPSG Grammatiken Werkzeuge Kodierungen TDL Syntax Über dieses Seminar

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde und Hagen Langer Spektrum Akademischer Verlag

Mehr

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen

Mehr

Contents / Inhalt. Lilijana Stepic, ERLERNEN WIR DIE ENGLISCHEN ZEITEN 205. Vorwort... und noch einige Tipps zum erfolgreichen Lernen

Contents / Inhalt. Lilijana Stepic, ERLERNEN WIR DIE ENGLISCHEN ZEITEN 205. Vorwort... und noch einige Tipps zum erfolgreichen Lernen Contents / Inhalt Vorwort... und noch einige Tipps zum erfolgreichen Lernen Simple Present and Present Progressive / Präsens (Gegenwart und Verlaufsform der Gegenwart) 7_ Simple Present / Präsens 7 Use

Mehr

Part-of-Speech Tagging. Stephanie Schuldes

Part-of-Speech Tagging. Stephanie Schuldes Part-of-Speech Tagging Stephanie Schuldes 05.06.2003 PS Erschließen von großen Textmengen Geißler/Holler SoSe 2003 Motivation Ziel: vollständiges Parsing und Verstehen natürlicher Sprache Herantasten durch

Mehr

Text Mining for Historical Documents. Historische Quellen mit (computer-)linguistischen Methoden analysieren Introduction to Computational Linguistics

Text Mining for Historical Documents. Historische Quellen mit (computer-)linguistischen Methoden analysieren Introduction to Computational Linguistics / Historische Quellen mit (computer-)linguistischen Methoden analysieren Introduction to Computational Linguistics Caroline Sporleder and Martin Schreiber Computational Linguistics & Kultur- und Mediengeschichte

Mehr

Conference Presentation

Conference Presentation Conference Presentation Maschinelle Übersetzung für Dialekte SCHERRER, Yves Reference SCHERRER, Yves. Maschinelle Übersetzung für Dialekte. In: 5. Tage der Schweizer Linguistik / 5èmes Journées Suisses

Mehr

Softwareprojekte. Anette Frank Seminar für Computerlinguistik Universität Heidelberg SS 2009

Softwareprojekte. Anette Frank Seminar für Computerlinguistik Universität Heidelberg SS 2009 Softwareprojekte Anette Frank Seminar für Computerlinguistik Universität Heidelberg SS 2009 Projekt 3 WSD für VerbNet Klassen WSD für VerbNet Klassen Ressourcen: SemLink: VNet/PBank/WNet Mapping Training

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora

LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora

Mehr

Information Retrieval and Semantic Technologies

Information Retrieval and Semantic Technologies Information Retrieval and Semantic Technologies Gerhard Wohlgenannt 6. April 2013 Inhaltsverzeichnis 1 Informationen zur Lehrveranstaltung 2 1.1 Inhalt................................... 2 2 Unterlagen

Mehr

Einführung in die Computerlinguistik

Einführung in die Computerlinguistik Einführung in die Computerlinguistik Syntax II WS 2011/2012 Manfred Pinkal Geschachtelte Strukturen in natürlicher Sprache [ der an computerlinguistischen Fragestellungen interessierte Student im ersten

Mehr

Transition Network Parser

Transition Network Parser Transition Grammatik als endlicher Automat oder Übergangsnetzwerk. Jedes Netzwerk repräsentiert ein Nichtterminal. Kanten repräsentieren Terminale oder Nichtterminale. Pfad durch das Netzwerk korrespondiert

Mehr

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev Korpora Referenten Duyen Tao-Pham Nedyalko Georgiev Hauptseminar: Angewandte Linguistische Datenverarbeitung (WS 11/12) Dozent: Prof. Dr. Jürgen Rolshoven Sprachliche Informationsverarbeitung Universität

Mehr

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz anne@coli.uni-sb.de A Topical/Local Classifier for Word Sense Idendification (TLC) entwickelt von: - Martin Chodorow (Dep. of

Mehr

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung

Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung Wissensbasierte Sprachverarbeitung Inhalt der Vorlesung 0. Einleitung i) Worum geht es? ii) Aufgaben und Anwendungen iii) Mehrdeutigkeit - Das Kernproblem iv) linguistische Grundlagen I. Der synthetische

Mehr

Satzstruktur und Wortstellung im Deutschen

Satzstruktur und Wortstellung im Deutschen Hauptstudium-Linguistik: Syntaxtheorie (DGA 32) WS 2016-17 / A. Tsokoglou Satzstruktur und Wortstellung im Deutschen 2. Satzstruktur und Wortstellung in den deskriptiven Grammatiken Relativ freie Wortstellung

Mehr

Korpus. Was ist ein Korpus?

Korpus. Was ist ein Korpus? Was ist ein Korpus? Korpus Endliche Menge von konkreten sprachlichen Äußerungen, die als empirische Grundlage für sprachwiss. Untersuchungen dienen. Stellenwert und Beschaffenheit des Korpus hängen weitgehend

Mehr

Computerlinguistik und Sprachtechnologie

Computerlinguistik und Sprachtechnologie Computerlinguistik und Sprachtechnologie Eine Einführung 2., überarbeitete und erweiterte Auflage Herausgegeben von: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde

Mehr

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8. Gliederung Natürlichsprachliche Systeme I D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg 1 WS 2011/12, 26. Oktober 2011, c 2010-2012

Mehr

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval Multilinguales Information Retrieval 1 Definition IR in einer anderen Sprache als Englisch IR auf einer einsprachigen Dokumentensammlung, die in mehreren Sprachen befragt werden kann. Information Retrieval

Mehr

Die DP-Hypothese: Abney (1987), Kap. 1 Ein Rätsel und seine Lösung

Die DP-Hypothese: Abney (1987), Kap. 1 Ein Rätsel und seine Lösung Die DP-Hypothese: Abney (1987), Kap. 1 Ein Rätsel und seine Lösung Gereon Müller Institut für Linguistik Universität Leipzig WiSe 2006/2007 www.uni-leipzig.de/ muellerg Gereon Müller (Institut für Linguistik)

Mehr

XML als Beschreibungssprache syntaktisch annotierter Korpora

XML als Beschreibungssprache syntaktisch annotierter Korpora Sven Naumann XML als Beschreibungssprache syntaktisch annotierter Korpora In den letzten Jahren ist die Zahl der verfügbaren linguistisch annotierten Korpora ständig gewachsen. Zu den bekanntesten gehören

Mehr

Kontextsensitive Sprachen

Kontextsensitive Sprachen Kontextsensitive Sprachen Standardbeispiel: {anbncn} S a b c S a A b B c c B A B b c B b b A A b a A a a Im Bereich der natürlichen Sprachen gibt es zahlreiche kontextsensitive Phänomene in der Semantik

Mehr

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen

Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Programmieren in natürlicher Sprache: Alice-Kontrollstrukturen Bachelorarbeit betreut von Mathias Landhäußer Ronny Hug 20. August 2014 IPD TICHY KIT Universität des Landes Baden-Württemberg und nationales

Mehr

Tagging von Online-Blogs

Tagging von Online-Blogs Tagging von Online-Blogs Gertrud Faaß (vertreten durch Josef Ruppenhofer) STTS tagset and tagging: special corpora 24. September 2012 Faaß MODEBLOGS 1 Korpuslinguistische studentische Projekte am IwiSt

Mehr

Automatisiertes Annotieren in CATMA

Automatisiertes Annotieren in CATMA Automatisiertes Annotieren in CATMA Thomas Bögel 1, Evelyn Gius 2, Marco Petris 2, Jannik Strötgen 3 1 Universität Heidelberg 2 Universität Hamburg 3 Max-Planck-Institut für Informatik jannik.stroetgen@mpi-inf.mpg.de

Mehr

Anglistik/Amerikanistik

Anglistik/Amerikanistik Anglistik/Amerikanistik Einführungsveranstaltungen A. 03.200 Einführung in die Sprachwissenschaft (Englisch) Sek I/II: A 1-5 GHR/GYM/BK: B1 Mi 8-10 O-09.36 Abel A. 03.314 Einführung in die Literaturwissenschaft

Mehr

Kompositionalität & DSM

Kompositionalität & DSM & DSM 7. Dezember 2011 Mitchell & Lapata (2008) I Evaluation verschiedener Kompositionsmodi: additiv gewichtet additiv (Kintsch, 2001) multiplikativ gemischt p = u + v Vektoraddition p = α u + β v Vektoraddition

Mehr

Syntax I. Vorlesung: Syntax des Deutschen unter besonderer Berücksichtigung regionaler Varietäten Claudia Bucheli Berger

Syntax I. Vorlesung: Syntax des Deutschen unter besonderer Berücksichtigung regionaler Varietäten Claudia Bucheli Berger Syntax I Vorlesung: Syntax des Deutschen unter besonderer Berücksichtigung regionaler Varietäten Claudia Bucheli Berger Repetition Morphologie Calvin: Ich verbe gern Wörter. ( Jet ) Es ist geverbt worden.

Mehr

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes

Falko. Error annotations in Falko 2.x. Marc Reznicek & Cedric Krummes Falko Error annotations in Falko 2.x Marc Reznicek & Cedric Krummes Symposium What s Hard in German? Structural Difficulties, Research Approaches and Pedagogic Solutions Bangor University Monday and Tuesday,

Mehr

INFORMATIONSEXTRAKTION

INFORMATIONSEXTRAKTION INFORMATIONSEXTRAKTION Referentin: Syriane Kemayou Yamga Universität Heidelberg, Computerlinguistik, Hauptseminar: Information Retrieval PD. Dr. Karin Haenelt 16.01.2006 Informationsextraktion (IE) 1.

Mehr

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter

Einführung in die Sprachwissenschaft des Deutschen. Syntax IV. PD Dr. Alexandra Zepter Einführung in die Sprachwissenschaft des Deutschen Syntax IV PD Dr. Alexandra Zepter Überblick Syntax Fokus auf linearer Ordnung: Sprachtypen, Topologisches Feldermodell Fokus auf hierarchischer Ordnung:

Mehr

Künstliche Intelligenz Sprachverarbeitung mit Prolog

Künstliche Intelligenz Sprachverarbeitung mit Prolog Künstliche Intelligenz Sprachverarbeitung mit Prolog Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Parsing mit Prolog Grammatik Wortartenklassifikation,

Mehr

Digitale Bearbeitung der textuellen Daten

Digitale Bearbeitung der textuellen Daten Digitale Bearbeitung der textuellen Daten 1. Digitale Bearbeitung des Textes: vs.. Die sebenen: Satz / Text; Ebene; Ebene; Ebene; Ebene. Die Abbildung eines Satzes / Textes in die oben gegebenen Ebenen

Mehr

Tagger for German. Online BRILL-Tagger für das Deutsche

Tagger for German. Online BRILL-Tagger für das Deutsche Tagger for German Online BRILL-Tagger für das Deutsche Morphologie V/Ü, Anke Holler Uni Heidelberg, SS2007 Nataliya Mytyay Éva Mújdricza 19.07.2007 Designed by: Dóra Dobos Tagger for German Eric Brill

Mehr

1.3 Charakteristische Eigenschaften von objektorientierten Systemen

1.3 Charakteristische Eigenschaften von objektorientierten Systemen 1.3 Charakteristische Eigenschaften von objektorientierten Systemen Einkapselung (Encapsulation) Geheimhaltungsprinzip (Information / Implementation hiding) Persistenz (State retention) Objektidentität

Mehr

Grammatikanalyse. Prof. Dr. John Peterson. Sprechstunde: Montags, 14:30-15:30h Raum LS10/Raum 425. Sommersemester 2015 Donnerstags, 14:15h-15:45h

Grammatikanalyse. Prof. Dr. John Peterson. Sprechstunde: Montags, 14:30-15:30h Raum LS10/Raum 425. Sommersemester 2015 Donnerstags, 14:15h-15:45h Grammatikanalyse Sommersemester 2015 Donnerstags, 14:15h-15:45h Prof. Dr. John Peterson Sprechstunde: Montags, 14:30-15:30h Raum LS10/Raum 425 1 Termin Thema 16.4. Einführung Zerlegung des Satzes in seine

Mehr

Harry gefangen in der Zeit Begleitmaterialien

Harry gefangen in der Zeit Begleitmaterialien Folge 029 Grammatik 1. The pronoun "es" (review) "es" is a pronoun that usually substitutes a neuter noun. Example: Ist das Bett zu hart? - Nein, es ist nicht zu hart. (es = it das Bett = the bed) But:

Mehr

Optimalitätstheoretische Syntax

Optimalitätstheoretische Syntax Optimalitätstheoretische Syntax Gereon Müller Institut für Linguistik gereon.mueller@uni-leipzig.ch Vorlesung Sommersemester 2005 Kasustheorie [1] Kasustheorie Inhärente vs. strukturelle Kasus: Woolford

Mehr

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten

Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten Extraktion und Visualisierung von multidimensionalen Textinformationen zur Integration von Big Data in unternehmensspezifischen Wissenslandkarten FOM Hochschulzentrum Dortmund, Fachbereich Wirtschaftsinformatik

Mehr

Mit der Entwicklung des Internets sind endliche Automaten noch weiter in den Fokus gerückt. Dafür sind mehrere Gründe ausschlaggebend:

Mit der Entwicklung des Internets sind endliche Automaten noch weiter in den Fokus gerückt. Dafür sind mehrere Gründe ausschlaggebend: Einleitung Endliche Automaten sind das Ergebnis der Entwicklung mathematischer Modelle für verschiedene mathematische, technische und naturwissenschaftliche Anwendungsbereiche. Als Pionierarbeiten gelten

Mehr

Grundlagen der Textlinguistik

Grundlagen der Textlinguistik Grundlagen der Textlinguistik * WS 2003/04 1 Grundlagen der Textlinguistik Teil 11: Textproduktion Aufgabe: Schreiben Sie in fünf Minuten ein kurzes Essay über das Thema Ökologie. Nehmen Sie die Aussage:

Mehr

Programmierkurs Python II

Programmierkurs Python II Programmierkurs Python II Michaela Regneri & tefan Thater FR 4.7 Allgemeine Linguistik (Computerlinguistik) Universität des aarlandes ommersemester 2010 (Charniak, 1997) the dog biscuits N V N V the dog

Mehr

Gliederung. Natürlichsprachliche Systeme I. Merkmalsbasierte Grammatiken. Merkmalsbasierte Grammatiken. Merkmalsbasierte Grammatiken mit NLTK

Gliederung. Natürlichsprachliche Systeme I. Merkmalsbasierte Grammatiken. Merkmalsbasierte Grammatiken. Merkmalsbasierte Grammatiken mit NLTK Merkmalsbasierte Merkmalsbasierte Gliederung Natürlichsprachliche Systeme I Merkmalsbasierte mit NLTK D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität

Mehr

Syntax II. Gereon Müller Institut für Linguistik 4. November Typeset by FoilTEX

Syntax II. Gereon Müller Institut für Linguistik  4. November Typeset by FoilTEX Syntax II Gereon Müller Institut für Linguistik heck@uni-leipzig.de gereon.mueller@uni-leipzig.de 4. November 2014 Typeset by FoilTEX [A] Kasus, 4. Teil [1] Inhärente vs. strukturelle Kasus: Fanselow (1999)

Mehr

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Syntax. Alla Shashkina Syntax Alla Shashkina Was ist Syntax? Satzlehre System von Regeln, die beschreiben, wie aus einem Inventar von Grundelementen (Morphemen, Wörtern, Satzgliedern) durch spezifische syntaktische Mittel (Morphologische

Mehr

Tiefenkasus und Kasusrahmen bei Fillmore

Tiefenkasus und Kasusrahmen bei Fillmore Tiefenkasus und Kasusrahmen bei Fillmore Technische Universität Berlin Fachbereich Germanistische Linguistik Seminar: Wortfeld, Frame, Diskurs Dozent: Prof. Dr. Posner Referent: Christian Trautsch 0. Referatsgliederung

Mehr

Syntax und Phonologie: Prosodische Phrasen

Syntax und Phonologie: Prosodische Phrasen Morphologie und Syntax (BA) Syntax und Phonologie: Prosodische Phrasen PD Dr. Ralf Vogel Fakultät für Linguistik und Literaturwissenschaft Universität Bielefeld, SoSe 2008 Ralf.Vogel@Uni-Bielefeld.de 30.6.2008

Mehr

NLP - Analyse des Wissensrohstoffs Text

NLP - Analyse des Wissensrohstoffs Text NLP - Analyse des Wissensrohstoffs Text Vorlesung Beginn: 8. April 2008 Dienstag 10.15 h - 11.45 h, in Raum 1607 oder 0443 Übungen Dr. Andreas Hotho Dominik Benz Beate Krause Sommersemester 2008 Beginn:

Mehr

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen NLP - Verarbeitungsstufen des Sprachverstehen 2 Phonologie und Phonetik Phonologie Lautlehre oder Sprachgebilde-Lautlehre untersucht

Mehr

Sprachstrukturen: Japanisch

Sprachstrukturen: Japanisch Sprachstrukturen: Japanisch Referentin: Katharina Blinova Universität zu Köln Institut für Linguistik Sprachliche Informationsverarbeitung Hauptseminar: Maschinelle Übersetzung Leitung: Prof. Dr. J. Rolshoven

Mehr

Übung 4: Weiterführende Transferaufgaben

Übung 4: Weiterführende Transferaufgaben Übung 4: Weiterführende Transferaufgaben 14.05.2011 Motivation Ziel der Übung ist, dass Sie (mehr) Erfahrung mit Transferregeln machen und ein Gefühl für die Verwendung von Variablen erhalten. Um den Ablauf

Mehr

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation Überblick VL: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Sommersemester 2004 kurze Wiederholung syntaktische phonetische/phonologische Tokenbasierte pos-tagging & Lemmatisierung

Mehr

Whitepaper Bio-Mode. Quelle: http://freshideen.com/trends/bio-kleidung.html

Whitepaper Bio-Mode. Quelle: http://freshideen.com/trends/bio-kleidung.html Whitepaper Bio-Mode Quelle: http://freshideen.com/trends/bio-kleidung.html Seite 1 von 11 Wo wird über Bio-Mode diskutiert? 0,79% 0,76% 0,00% 0,56% 5,26% 9,81% 9,93% 0,15% 72,73% News Soziale Netzwerke

Mehr

Syntax Verb-Zweit. Modul Syntax und Semantik. Universität Leipzig heck. Institut für Linguistik

Syntax Verb-Zweit. Modul Syntax und Semantik. Universität Leipzig  heck. Institut für Linguistik Syntax Verb-Zweit Modul 04-006-1003 Syntax und Semantik Institut für Linguistik Universität Leipzig www.uni-leipzig.de/ heck V2-Effekte Beobachtung: In deutschen Matrixsätzen ist die Position nach der

Mehr