Computerlinguistik I Vorlesung im WS 2007/08 Prof. Dr. Udo Hahn Lehrstuhl für Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena
Morphologie A writer is someone who writes, and a stinger is something that stings. But fingers don t fing, grocers don t groce, haberdashers don t haberdash, hammers don t ham, and humdingers don t humding. Richard Lederer, Crazy English 2
Morphologische Prozesse: Flexion - Deflexion Kombination von Grundformen mit Flexionsaffixen (Kasus, Numerus, Tempus usw.) Deklination Land: Land, Landes, Lande, Länder, Ländern Konjugation landen: lande, landest, landet, landeten, gelandet primär syntaktische, nur minimale semantische Information, kein Wortartwechsel 3
Morphologische Prozesse: Derivation - Dederivation Kombination von Grundformen mit Derivationsaffixen Land: landen, verlanden, anlanden, Land: Landung, Verlandung, Anlandung Land: ländlich, verländlichen, Verländlichung modifizierende semantische Information, häufig mit Wortartwechsel verbunden 4
Morphologische Prozesse: Komposition - Dekomposition Kombination von Grundformen mit Grundformen (mittels Fugeninfixen) Land: Landnahme, Landflucht, Landgang Land: Heimatland, Ausland, Bauland Land: Landesrekord, Landesverrat, Landsmann Land: Inlandsflug, Landesratspräsidentengattin starke semantische Modifikation, Wortartwechsel kein 5
Lexikon und Morphologie Vollformenlexikon morphologische Analyse ist ein Such-prozess im Lexikon. Alle Flexions-, Deri-vations- und Kompositionsvarianten sind im Lexikon mit allen grammatikalischen Informationen explizit spezifiziert. 6
Fragment eines Vollformenlexikons lande KAT: verb, NUM: sg, PERS: 1, TEMP: präs,... Landes KAT: nom, NUM: sg, KASUS: gen, GENUS: neut,... ländlicher KAT: adj, KOMP: pos, NUM: sg, KASUS: nom, GENUS: mask,... KAT: adj, KOMP: komp, NUM: _, KASUS: _, GENUS: _,... 7
Lexikon und Morphologie Vollformenlexikon morphologische Analyse ist ein Such-prozess im Lexikon. Alle Flexions-, Deri-vations- und Kompositionsvarianten sind im Lexikon mit allen grammatikalischen Informationen explizit spezifiziert. hoher Speicheraufwand sehr hoher Erstellungs- (Vollständigkeit) und Wartungsaufwand (Konsistenz) stets unvollständig: Komposita, Neologismen 8
Lexikon und Morphologie Grundformenlexikon morphologische Analyse ist ein Analyseprozess, bei dem alle Flexions-, Derivations- und Kompositionsvarianten regelgeleitet auf kanonische Einträge im Lexikon zurück geführt werden. Diverse grammatikalische Informationen werden berechnet (abhängig vom Typ der kanonischen Einträge). 9
Fragment eines Grundformenlexikons landen KAT: verb, NUM: {sg,pl}, PERS: {1,2,3}, TEMP: {präs,prät,futur}, MOD: {ind,konj}... Land KAT: nom, NUM: {sg,pl}, KASUS: {nom,gen,dat,akk}, GENUS: neut,... ländlich KAT: adj, KOMP: {pos,komp,super}, NUM: {sg,pl}, KASUS: {nom,gen,dat,akk}, GENUS: {mask,fem,neut},... 10
Verwendung eines Grundformenlexikons landen lande KAT: verb, NUM: sg, PERS: 1, TEMP: präs, MOD: ind Land Landes KAT: nom, NUM: sg, KASUS: gen, GENUS: neut ländlich ländlicher KAT: adj, KOMP: pos, NUM: sg, KASUS: nom, GENUS: mask KAT: adj, KOMP: komp, NUM:_, KASUS:_, GENUS:_ 11
Lexikon und Morphologie Grundformenlexikon morphologische Analyse ist ein Analyseprozess, bei dem alle Flexions-, Derivations- und Kompositionsvarianten regelgeleitet auf kanonische Einträge im Lexikon zurück geführt werden. Diverse grammatikalische Informationen werden berechnet (abhängig vom Typ der kanonischen Einträge). Spezifikation morphologischer Regeln Berechnungsaufwand für Analyse 12
Morphologische Analyse Lemmatisierung regelgeleitete Rückführung morphologischer Varianten auf eine kanonische Grundform im Lexikon (ohne Berücksichtigung grammatika-lischer Informationen) Wort-Parsing regelgeleitete Rückführung morphologischer Varianten auf eine kanonische Grundform im Lexikon mit simultaner Berechnung grammatika-lischer Informationen 13
Lemmatisierung vs. Wort-Parsing Eingabe Töchtern Hauses sagte Spiegelungen Lemma Tochter Haus sagen Spiegelung leichter verlängerte leicht verlängert verlängern 14
Lemmatisierung vs. Wort-Parsing Eingabe Lemma morphologische Merkmale Wort-Parse Töchtern Tochter Tochter [+N, +FEM, +PL, +DAT] Hauses Haus Haus [+N, +NEU, +SG, +GEN] sagte sagen sagen [+V, +SG, {1P,3P}, +PAST] Spiegelungen Spiegelung [Spiegel] N [ung] ds [+N, +FEM, +PL, {NOM,GEN,DAT,AKK}] leichter leicht leicht [+Adj, +POS, +MAS, +SG, +NOM] [+Adj, +KOM] verlängerte verlängert [ver] dp [[lang] Adj [er] ds ] Adj [t] ds [+Part, {MAS,FEM,NEU}, +SG, +NOM] [+Part, {FEM,NEU}, +SG, +AKK] verlängern [ver] dp [[lang] Adj [er] ds ] Adj [n] ds [+V, +SG, {1P,3P}, +PAST] 15
Flexionsmorphologie deutscher Substantive Ein flektiertes Substantiv besteht aus einer kanonischen Grundform und einer daran angehängten Endung. Grundformen mit gleichem Endungsverhalten (Flexionsparadigma) bilden eine Flexionsklasse. In einem flektierten Substantiv kann die Grundform durch Umlautung (a ä, o ö, u ü) verändert sein. 16
Morphologische Analyse Lexikon Liste von deutschen Substantiven (Nominativ-Singular) mit Flexionsparadigmen und Umlautungskodierung Lemmatisierungsalgorithmus zur lexikongestützten Deflexion 17
Flexionsklassen Singular FLS 1 2 3 4 5 6 7 8 Gen Dat Akk - - - -s - - -es -[e] - -ses -[se] - -ens -en - -en -en -en -n -n -n -n[s] -n -n Beispiele Frau, Mutter, Studentin, Hand, Kenntnis, Milch Vater, Messer, Auto, Lappen, Faden, Mädchen, See Mann, Tag, Wald, Brot, Haus, Sohn, Fluss, Floß Bus Herz Bär, Mensch, Student Riese, Gabe Buchstabe 18
Flexionsklassen Plural FLP 1 2 Nom Dat - -n -e -en Beispiele Vater, Mutter, Messer Tag, Bach, Hand, Brot, Floß, Fluss 3 -er -ern Leib, Wald, Kind, Haus 4 -se -sen Bus, Kenntnis 5 6 7 - - -s -s -n -n Lappen, Faden, Mädchen, Eltern Uhu, Bar, Echo Buchstabe, Riese, See, Gabe, Auge 8 -en -en Bär, Schmerz, Frau, Ohr, Herz, Student, Mensch 9 -nen -nen Studentin 19