Morphologie in der Computerlinguistik - Grundlagen

Ähnliche Dokumente
Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Tokenisierung und Lemmatisierung in Suchmaschinen

Einführung in die Computerlinguistik. Morphologie II

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Das Flexionssystem des Deutschen: Allgemeines

Morphologie. Dazu gehört auch: Wortarten und ihre Einteilung. Morphologie ist die Lehre vom Strukturaufbau der Wörter.

Vorlesung Morphologie Flexion

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Derivation

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Inhaltsverzeichnis. Abkürzungen... 9 Niveaustufentests Tipps & Tricks Auf einen Blick Auf einen Blick Inhaltsverzeichnis

Flexion. Grundkurs Germanistische Linguistik (Plenum) Judith Berman Derivationsmorphem vs. Flexionsmorphem

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina

Grundkurs Linguistik Wintersemester 2014/15. Morphologie. Jens Fleischhauer & Anja Latrouite

Wort. nicht flektierbar. flektierbar. nach Person, Numerus, Modus, Tempus, Genus verbi flektiert. nach Genus, Kasus, Numerus flektiert

KASUS NUMERUS GENUS DEKLIN. MUSTER/PARA. -en Gen (Sg) Schw 10 / 26

Morphologische Merkmale. Merkmale Merkmale in der Linguistik Merkmale in der Morpholgie Morphologische Typologie Morphologische Modelle

Morphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1

Morphologie. Lexikon Morphologie Syntax

Inhalt. Einleitung... 9

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

Flexion. Der Wortstamm als Basis für die Flexion. Auszug aus Dudengrammatik (2016), Randnummern

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Flexion

Artikelspiel erstellt von L. Schikowski M.A., Universität Göttingen, IIK e.v. Göttingen, Gruppen-/Partnerarbeit

Hinweise zur flexionsmorphologischen Glossierung

Lexikalische Morphologie. Flexionsmorphologie und lexikalische Morphologie Derivation Konversion Komposition Flexion vs.

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Das Grammatikfundament: Wortarten. Das komplette Material finden Sie hier:

8. Flexion. Roland Schäfer. Wintersemester 2018/ Dezember Deutsche und niederländische Philologie Freie Universität Berlin

WORTBILDUNG - MORPHOLOGIE

Inhalt. Einleitung. Wortarten 1

Seminar Ib Wort, Name, Begriff, Terminus Sommersemester Morphologie. Walther v.hahn. v.hahn Universität Hamburg

Inhalt.

Grammatische Terminologie

Flexion bei Nomen Verbalflexion Flexion und Wortarten Repetitorium. Morphologie IV. Flexion. Gerrit Kentner. 19. Dezember / 34

Wortbildung und Wortbildungswandel

Fortsetzung: Worin die Struktur von Konstruktionen besteht. kleinste (grammatische) Bausteine: Morpheme, realisiert durch (Allo-)Morphe;

Kanditatenkolloqium Syntax - AG

Einführung in die französische Morphologie

Gymbasis Deutsch: Grammatik Wortarten Verb: Bestimmung der infiniten Verben Lösung 1 Lösungsansätze Bestimmung der infiniten Verben

Nikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen

Einführung in die Computerlinguistik: Morphologie und Automaten I

Morphologie II Gross, L 11, 12 Kessel/Reimann, S

Einführung in die Computerlinguistik. Morphologie I

Morphologie. Gerrit Kentner. May 4, 2010

Grundkurs Linguistik - Morphologie

Einführung in die Linguistik. Morphologie: Lösung

Die Wortbildung des Deutschen. Wortbildungsmittel

D5 WA D5 WA D5 WA D5 WA

Klausur in zwei Wochen Einführung in die Morphologie Flexion

Lies die Sätze und schreibe die entsprechende Zeitform in das Kästchen!

Flexionsmerkmale und Markiertheit

Deutsch Grammatik Sekundarstufe 1 Die 5 Wortarten

SS 2010 Einführung in die Sprachwissenschaft Flexion und Wortarten Morphologie II: Nominale und verbale Flexion, Wortarten

Einführung in die französische Morphologie

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik. Morphologie IV

Kanditatenkolloqium Syntax - AG

Morphologie und Wortbildung (II)

Computerlinguistik I

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln

Morphologische Grundmerkmale prototypischer Adjektive: 1.) deklinierbar. 2.) freies Genus (Unterschied zu Nomen)

Vorwort 1.

Stichwortverzeichnis. Anhang. Bedingungssatz siehe Konditionalsatz Befehlsform

Inhalt. Inhalt. Vorwort 1

Was ist ein Wort? Morphologie I Einf. in die Linguistik

Wortbildung der deutschen Gegenwartssprache

Flexionsmerkmale / Tempus und Modus

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Ungarische Grammatik

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Wortbildung und Flexion. Ending Khoerudin Deutschabteilung FPBS UPI

Minimalistische Morphologie

UBUNGS- GRAMMATIK DEUTSCH

Inhalt EINFÜHRUNG. 1. Einführung I Einführung II...26

VP vs.?p. N V P N? N P N V Peter kommt nach Hause...dass Peter nach Hause kommt. Syntax V 2

Einführung in die Computerlinguistik Morphologie

Wie wird SIMILITUDO zu AFFINITAS?

Morphologie und Syntax (BA)

Einführung in die Linguistik Butt / Eulitz / Wiemer. Morphologie II

Inhalt EINFÜHRUNG. 1. Einführung I l. 2. Einführung II 26 XVII. Tabellenübersicht Schreibkonventionen Abkürzungen Zeichenerklärung

Syntax. Ending Khoerudin Deutschabteilung FPBS UPI


Einführung in die Sprachwissenschaft des Deutschen. Morphologie. PD Dr. Alexandra Zepter

Syntax und Morphologie. Einführungskurs 2. Vorlesung

Vorkurs Mediencode Die wichtigsten grammatikalischen Termini

Grammatiktheorie. Klausurfragen und Antworten

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Lexikoneinträge. Aufbau und Erstellung eines Lexikoneintrages

Outline. Morphologische Prozesse. Automaten. Schütze: Morphologie 2 / 17

Englische Morphologie und Wortbildung

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Grundkurs Linguistik - Syntax

VIII Flexion - Derivation

Probeklausur Syntax-Übung MA Linguistik

Einführung in die Grammatik der deutschen Gegenwartssprache

Transkript:

BLATT 1 Morphologie in der Computerlinguistik - Grundlagen Die Rolle der Morphologie in der Computerlinguistik Die morphologische Analyse bzw. korrekte Generierung von abgeleiteten Wörtern und von Wortformen ist für fast alle Anwendungen in der Computerlinguistik eine notwendige Voraussetzung. Die folgenden Illustrationen zeigen grob schematisierend, wo die Morphologie in der Textgenerierung und in der Textanalyse eine Rolle spielt. Morphologie in der Textanalyse (Schritte, bei denen die Morphologie eine wichtige Rolle spielt, sind fett gesetzt) Morphologie in der Textgenerierung (Schritte, bei denen die Morphologie eine wichtige Rolle spielt, sind fett gesetzt) semantische Analyse... Inhaltsrepresentation kind(x)&pinguin(y) &füttert(x,y) Lemmatisierung und weitere morphologische Analyse syntaktische Analyse... <Pinguin parade> <edinburgh er> <Zoo> <statt finden>... S(NP(...),VP(V,PP))... Lexemwahl Wahl der syntaktischen Konstruktion... <füttern>, <Fütterung> NP,SATZ...... Erkennung von Einzelworten (Tokenisierung) die Pinguinparade im edinburgher Zoo findet um 2 Uhr statt Einfügung der passenden Wortformen in das syntaktische Schema das Kind füttert den Pinguin die Fütterung des Pinguins durch das Kind Einzelne Aufgaben der morphologischen Analyse/Generierung Erkennung von Flexionsformen Außer der Rückführung auf die Grundform eines Lexems, kann eine morphologische Analyse auch falsche Wortformen erkennen oder weitere Informationen über korrekte Wortformen bereitstellen, die z.b. für die Rechtschreib/Grammatikkorrektur, die syntaktische Analyse ein Rolle spielen. (1.) *Pinguins <?"Pinguin",?,`?> sollten die Gäste <"Gast",nom,plur> kein Futter geben. (2.) Pinguinen <"Pinguin", dat,plur> sollten die Gäste <"Gast",nom,plur> kein Futter geben. Lemmatisierung Lemmatisierung von Wortformen im Text - d.h. die Rückführung auf ein Lemma in einem Lexikoneintrag - setzt die Erkennung von Flexionsformen voraus. Sie ist notwendige Voraussetzung für die Verwendung der Information im Lexikon - z.b. der Erkennung der Grundform, der Genierung aller Vollformen oder der Zuweisung syntaktischer oder semantischer Klassifizierungseinheiten. (3.) Es ist hier so kalt, dass von Rechts wegen ein Pinguin <"Pinguin", VOG> gewinnen müsste.

BLATT 2 (4.) Die Flügel des Pinguins <"Pinguin", VOG> dienen zum Schwimmen. (5.) Flugfähige Arten gibt sich unter den Pinguinen<"Pinguin", VOG> nicht. In den Beispielen sind sowohl Pinguin als auch Pinguins und Pinguinen dem Lemma Pinguin zuzuordnen. Mit dem Lemma könnten noch weitere Informationen verbunden sein. Analyse abgeleiteter Wortformen und Kompositaanalyse Auch die Analyse von abgeleiteten Wortformen und Komposita ist notwendige Voraussetzung für Anwendungen wie das Information Retrieval. Bei Wortformen werden die Bestandteile durch die Erkennung von Endungen, Präfixen etc. ermittelt; bei Komposita muss eine korrekte Segmentierung vorgenommen werden. (6.) Sie watschelte pinguinartig über den Laufsteg. (7.) Der Königspinguin lebt in der Antarktis. (8.) Im edinburgher Zoo findet täglich eine Pinguinparade statt. Überall ist hier von Pinguinen die Rede, doch das Wort Pinguin taucht nirgends frei auf. Wortformengenerierung (z.b. für die Textgenerierung und die automatische Übersetzung) Wortformengenerierung auf Basis von Grundformen und syntaktischen Eigenschaften ist notwendige Voraussetzung zur Generierung korrekter Sätze. (9.) <NOMEN,nom,sing> liebt <NOMEN,akk, plur> (10.) *Maria liebt Pinguins. (11.) Maria liebt Pinguine. Die Einsetzung falscher Wortformen führt zu grammatisch falschen Sätzen. Einige Anwendungen für die Computerlinguistik Maschinelle Übersetzung Textzusammenfassung Textgenerierung Suchmaschinen Rechtschreibkorrektur Grammatikkorrektur Einige Problemstellungen für die Computerlinguistik Regularitäten erkennen und kodieren Formenregularitäten - Wörter, die derselben morphologischen Klasse angehören bilden Formen in derselben Weise; Ausnahmen müssen berücksichtigt werden, um nicht falsche Wortformen zu tolerieren, unnötige Ambiguitäten zu vermeiden und um in bei der Generierung nicht falsche Formen zu erzeugen.

BLATT 3 (12.) suchen - suche - sucht - suchte - gesucht (13.) lachen - lache - lacht -lachte - gelacht (14.) gehen - gehe - geht - *gehte... Gehen gehört augenscheinlich zu einer anderen morphologischen Klasse als suchen und lachen. Kompositasegmentierung Korrekte Kodierung von Regularitäten der Kompositabildung kann verwendet werden, um Segmentierungsambiguitäten aufzulösen. Allerdings ist dies nicht immer trivial, manchmal ohne Kontextanalyse auch ganz unmöglich, wie etwa im letzten Beispiel. (15.) Marktstand - Markt stand, *Markts tand (16.) Antragsteller - Antrag steller,?antrags teller (17.) Wachstube - Wach stube, Wachs tube Bedeutungsregularitäten in der Wortbildung Bedeutungsregularitäten können z.b. verwendet werden, um semantische Merkmale automatisch zur vergeben. (18.) König <HERRSCHER> - Königin <HERRSCHER&FEM> (19.) Metzger <BERUF> - Metzgerin <BERUF&FEM> Das Suffix -in tritt in systematischer Weise zu maskulinen Menschenbezeichnern - das resultierende Nomen referiert auf weibliche Menschen. Ambige Wortformen Zahlreiche Wortformen sind morphologisch ambig z.b. bez. Kasus (Frau), Numerus (Treffen), Wortart (Treffen). Die Disambiguierung kann durch syntaktische, semantische oder pragmatische Methoden vorgenommen werden.

BLATT 4 Grundlagen der Morphologie Terminologie Morphologie Griechisch: Lehre von den Formen. Teilgebiet der Linguistik, das sich mit Wortformen, der Wortbildung und der Flexion beschäftigt. Morphe Kleinste Einheiten auf Formebene; noch nicht einem Morphem zugeordnet. Allomorphe Unterschiedliche Morphe, die demselben Morphem zuzuordnen sind. Beispiele sind Affixvarianten (z.b. Pluralallomorphe -er, -en etc.) und Stammvarianten (Gans- Gäns- /geh- ging- gang-) Morphem Abstraktes phonologisch-semantisches Basiselement: Kleinste bedeutungstragende/funktionstragende Einheit. Lexikalisches/ grammatisches Morphem Lexikalische Morpheme haben eine semantische Funktion (Schirm, sprech-); grammatische Morpheme eine rein grammatische Funktion (z.b. Genitivsuffix). Freies/gebundenes Morphem Erstere kommen frei vor (kurz, Schirm), letzter nicht (-er, Him-). Stamm (a,b), ~Basismorphem, ~Grundmorphem, ~Wurzel(b) a) Morpheme oder Morphemkombinationen zu denen Flexionsendungen treten können (z.b. Schirm mit den Wortformen Schirms, Schirme etc.); b) lexikalisches Morphem (nicht Morphemkombination), das einer Wortform oder einer Reihe von Wortformen zugrundeliegt (z.b. Unsinnigkeit - Sinn). Affix - Suffix - Präfix - Infix - diskontinuierliche Morpheme; Flexionsaffixe, Derivationsaffixe Affixe sind Morpheme, die zu einem Stamm treten können um entweder eine Wortform (Flexionsaffix, Z.B.: Pluralsuffix wie in Kind - Kinder) oder ein neues Wort (Derivationsaffix z.b. das denominale Suffix -bar in wunder - wunderbar) zu erzeugen. Außerdem könne Affix unterschieden werden nach den Wortarten, zu denen sie treten/die sie erzeugen (nominale, verbale etc. Affixe); oder dannach, ob sie: a) an den Wortanfang angehängt werden (Präfix); Bsp.: un- in unmöglich; b) an das Wortende angehängt werden (Suffix), Bsp. -bar in wunderbar; c) innerhalb des Wortes eingeschoben werden (Infix), Bsp. -zu- in einzuschenken; d) aus mehreren Teilen bestehen (diskont. Morphem) - -ge-t in eingeschenkt. Unikale Morpheme Lexikalische Morpheme, die an eine bestimmtes Stammmorphem gebunden sind; kommen, wie der Begriff sagt, meist in nur einem Wort vor: Himbeere, Brombeere

BLATT 5 Portemanteaumorphem Morphem das gleichzeitige verschiedene Merkmale realisiert: franz. au aus à & la. Additive morphologische Prozesse Darunter zählen Affigierung (s.o.) und Reduplikation (tagtäglich, wortwörtlich). In anderen Sprachen als dem Deutschen wird Reduplikation regelmäßiger zur Bildung von Wortformen verwendet (etwa Präteritum im Gothischen, z.b. haitan-haihait). Nicht-additive morphologische Prozesse Modulatorische Prozesse - Umlaut, Ablaut; Subtraktive Prozesse; Ø-Prozesse (Anhängung eines Null-Morphems - s.a. Konversion); Suppletion Austausch des Stamms durch einen anderen (sein,war; gut, besser, am besten) Derivation, Konversion, Komposition, Wortbildung Derivation (a. Ableitung) ist die Bildung neuer Wörter aus bestehenden Wörtern oder Wortstämmen. Meist geschieht dies durch Hinzufügung eines Affix. Beispiele: Glück - Unglück, Glück - glücklich. Konversion ist liegt vor bei Übertragung in eine andere Wortart ohne explizite Veränderung (deutsch- Deutsch). Komposition ist die Bildung neuer Wörter aus zwei existierenden Lexemen, z.b. Wortbildung aus Wort und Bildung. Isolierende, agglutinierende, flektierende Sprachen Unterteilung von Sprachen aufgrund der Flexionsmorphologie. Isolierende Sprache drücken (fast) alle grammatischen Beziehungen im Satz und syntaktische Merkmale durch separate Wörter (freie Morpheme) aus (z.b. Präpositionen). Als typisches Beispiel gilt Chinesisch; aber auch Englisch hat einige Merkmale isolierender Sprachen. Agglutinierende Sprachen realisieren gramm. Merkmale als jeweils separate Suffixe - Wörter sind leicht segmentierbar. Beispiele sind Finnisch oder Türkisch. Flektierende Sprachen realisieren gramm. Merkmale als Affixe, allerdings oft mehrere Merkmale in einem Affix; es treten auch Stammveränderungen auf. Deutsch und Latein können als flektierende Sprachen klassifiziert werden. Wort, Lexem, Wortformen Wort ist zunächst ein vortheoretischer, intuitiver Begriff. Hier einige Vorschläge zur Festlegung: ein Wort ist, was zwischen zwei Leerzeichen (bzw. anderen Satzzeichen) steht (orthographisches Kriterium); phonetisch-phonologische Kriterien (Wortakzent, Grenzsignale); syntaktische Kriterien - kleinste verschiebbare Einheiten, kleinste ersetzbare Einheiten; Es kann kein Material eingeschoben werden (aber s. Präfixverben); Grundeinheiten gramm. Paradigmen (Flexion); semantisch - kleinster, relativ selbständiger Träger von Bedeutung; Ein Lexem ist eine Abstraktion aus verschiedenen Wortformen (das Lexem Kind hat die Wortformen Kind, Kindes...etc.).

BLATT 6 Derivationsmorphologie Produktivität von Affixen Man unterscheidet in der Wortbildung zwischen produktiven und unproduktiven Ableitungen. Produktiv Neue Wörter mit dem Affix können jederzeit gebildet werden. Neubildungen sollten von einem Morphologieprogramm erkennt werden. z.b. -heit -keit, -mäßig Nicht produktiv Keine neuen Wörter können mehr gebildet werden z.b. miss- Historische Affixe Unproduktive/historische Affixe teilweise nicht mehr als solche erkennbar. Sie spielen für die (synchrone) Computermorphologie kaum eine Rolle. fahren - Fahrt Semantische Transparenz/Motiviertheit Wortbildungen können ferner danach unterschieden werden, ob sie semantisch transparent sind oder nicht (Motiviertheit). In der Computerlinguistik spielt Motiviertheit eine wichtige Rolle. Die Bedeutung semantisch voll motivierter komplexer Einheiten kann automatisch aus der Bedeutung der Bestandteile ermittelt werden (sowohl bei Kompositabildung, bei Affigierung als auch bei Phrasen). Bei nur teilweiser Motiviertheit oder bei vollständiger Opakheit der Bildung, muss die Einheit als ganzes in das semantische Lexikon aufgenommen werden. Volle Motiviertheit Kompositionalität: Bedeutung des Gesamtworts ergibt sich aus Stammbedeutung und Affixbedeutung Fröhlichkeit Lustigkeit Teilweise Motiviertheit Bedeutung des Affix und des Stamms lassen teilweise auf Bedeutung schließen Unglück Keine Motiviertheit Affixbedeutung+Stammbedeutung sind ungleich der Gesamtbedeutung Unfall

BLATT 7 Flexionsmorphologie Flexionsmerkmale Flexionsmerkmale lassen sich definieren als morphologische Merkmale, die syntaktischen Regularitäten (bes. Kongruenz und Rektion) unterworfen sind. Kongruenz Kongruenz ist die Übereinstimmung zweier Konstituenten in einem oder mehreren morphosyntaktischen Merkmalen (z.b. Adjektiv und Nomen in der NP hinsichtlich Kasus). Rektion Dagegen ist Rektion die Zuweisung eines Merkmals an eine Konstituente durch eine andere (z.b. Kasuszuweisung an die NP durch das Verb). Inhärente Merkmale Inhärente (lexikalische) Merkmale sind solche Merkmale, die einem Lexem inhärent sind, d.h. nicht durch Kongruenz erzwungen oder unter Rektion zugewiesen werden (z.b. Genus bei Nomina).

BLATT 8 Morphologie des Deutschen im CISLEX Wortarten des Deutschen und ihre morphologischen Eigenschaften Zum Begriff der Wortart Mögliche Gliederungsaspekte für Wortarten sind: Syntaktisch: Distributionelle Eigenschaften; Satzgliedstatus; Modifizierung andere Elemente; Modifizierbarkeit durch andere Elemente (z.b. Nomina durch Artikel); Rektion (Kasuszuweisung). Semantisch: Aufgrund von Bedeutungskategorien; z.b. Funktionswörter vs. Inhaltswörter; Wort denotiert Relationen, Prozesse, Eigenschaften, Entitäten etc. Morphologisch: welche morphologischen Merkmale können Wortformen eines Wortes tragen, z.b. Einteilung in flektierende vs. nicht flektierende Wortarten oder Typ des morphologischen Paradigmas eines Wortes. Oft am einfachsten handhabbares Kriterium, nicht geeignet zur Unterscheidung verschiedener nicht-flektierender Wortarten. Meist wird eine gemischte syntaktisch-morphologische Klassifikation herangezogen. Die Wortarten des Deutschen (CISLEX-Klassifikation) Flektierende Wortarten Nomen Adjektiv Verb Determinator Pronomen Nichtflektierende Wortarten Adverb Partikel Verbpartikel Präposition Konjunktion Interjektion Nomina Das nominale Formenparadigma im Deutschen Nomina im Deutschen tragen Merkmale für folgende Flexionskategorien: Genus (inhärent bei Nomina) Das Deutsche hat 3 Genera; maskulin, feminin und neutrum.

BLATT 9 Kasus Im Deutschen gibt es 4 Kasus: Nominativ, Genitiv, Dativ und Akkusativ. Numerus 2 Numerusmerkmale (Singular und Plural) Somit hat jedes Nomen im Deutschen potentiell 8 Flexionsformen Traditionell wird unterschieden nach starker, schwacher, und gemischter Deklination - s. folgende Tabelle: stark schwach Gemischt sing. nom Tag, Kind, Nacht Mensch, Hase Staat Gen Tages, Kindes, Nacht Menschen; Hasen Staats Dat Tag(e); Kind(e), Nacht Menschen, Hasen Staat(e) Akk Tag, Kind, Nacht Menschen, Hasen Staat plur nom Tage, Kinder, Nächte Menschen, Hasen Staaten Gen Tage, Kinder, Nächte Menschen, Hasen Staaten Dat Tagen, Kindern, Nächten Menschen; Hasen Staaten Akk Tage, Kinder, Nächte Menschen, Hasen Staaten Allerdings reicht dies keineswegs aus, um die Flexionsparadigmen aller Nomina im Deutschen auf der orthographischen Ebene formal zu beschreiben. Weiter gilt zu berücksichtigen: Umlaut (z. B. Nuss - Nüsse);; andere phonologische/orthographische Veränderungen (z. B. alte Rechtschreibung Nuß - Nüsse); "Fremd"wörter (z. B. Museum - Museen, Aphrodisiakum - Aphrodisiaka, Lemma- Lemmata) singulare tantum, plurare tantum; Nomina mit adjektivischer Deklination (Beamter/Beamte) unterschiedliches Verhalten je nach Artikelwahl Grundlage der Kodierung: Lexikon aller Wörter mit ihren Wortformen Grundidee der Kodierung: - Bestimme alle unterschiedlichen Zeichenkettenoperationen, die nötig sind, um Formen zu erzeugen: o Z.B. Mann -> (sing) Mann Mann(e) Mannes Mann (plu) Männer Männern Männer Männer Operationen (0,0e/0,es,0,Uer,Uern,Uer,Uer) o Z.B. Museum -> (sing) Museum Museum Museums Museum (plu) Museen Museen Museen Museen Operationen (0,0,s,0 / 2en,2en,2en,2en) - Fasse alle Nomina, die im Singular oder im Plural die gleichen Zeichenkettenoperationen erfordern, zu einer Klasse zusammen. Im CISLEX (ohne Nomina mit adjektivischer Deklination) sind 14 Singular und mehr als 50 Pluralklassen (viele aufgrund von relative seltenen Fremdwörtern aus diversen Sprachen) kodiert. In der Datei der einfachen Nomina (ca. 40000) treten aber immerhin 27 Kombinationen aus Kodes für Singular und Pluralmorphologie mehr als 20 mal auf - was heißt, dass auf jeden Fall ein große Zahl an Klassen angenommen werden muss, um die Nominalmorphologie im Deutschen maschinell zufriedenstellend behandeln zu können. Auszug aus dem Basislexikon

BLATT 10 Palme;fem;NS0;NP4; Palme;fem;NS0;NP4; Perspektive;fem;NS0;NP4; Perspektive;fem;NS0;NP4; Perspektive;fem;NS0;NP4; Dieb;mask;NS1;NP2; Dieb;mask;NS1;NP2; Admiral;mask;NS2;NP12; Admiral;mask;NS2;NP12; Animator;mask;NS2;NP3; Animator;mask;NS2;NP3; Auszug aus dem (generierten) Vollformenlexikon shirt,shirt.neut(ns2,np6):aen:den:nen kreis,kreis.mask(ns10,np2):aem:dem:nem fugungen,fugung.fem(ns0,np3):amf:dmf:gmf:nmf wefte,weft.neut(ns1,np2):amn:den:gmn:nmn offizierinnen,offizierin.fem(ns0,np5):amf:dmf:gmf:nmf sekündchen,sekündchen.neut(ns2,np0):aen:amn:den:dmn:gmn:nen:nmn stakes,stakes.no_gen(nst,np0):amu:dmu:gmu:nmu safe,safe.neut(ns2,np6):aen:den:nen inkarnats,inkarnat.neut(ns1,npsg):gen kopist,kopist.mask(ns3,np3):nem gefeilsche,gefeilsche.neut(ns2,npsg):aen:den:nen katabolie,katabolie.fem(ns0,np4):aef:def:gef:nef kasuistinnen,kasuistin.fem(ns0,np5):amf:dmf:gmf:nmf Was fehlt: - Morphologische Verarbeitung unbekannter Wörter - Morphologische Verarbeitung von Eigennamen - Morphologische Verarbeitung von Komposita (s.u.) Adjektive Das adjektivische Formenparadigma im Deutschen Genus (nicht inhärent bei Adjektiven) Kasus Numerus Starke und schwache Flexion Je nach syntaktischer Umgebung werden Adjektive im Deutschen überhaupt nicht nach Genus, Kasus und Numerus flektiert (prädikativ) oder sie werden flektiert (attributive Position). Hier kann wiederum

BLATT 11 unterschieden werden in stark flektiert (NP ohne def. Artikel) oder schwach flektiert (NP mit definitem Artikel). Komparation (Flexionskategorie?) Adjektive im Deutschen haben drei Komparationsstufen: Positiv, Komparativ und Superlativ. Im Deutschen werden Komparationsformen synthetisch gebildet. Fasst man Komparation unter Flexion hat jedes Adjektive im deutschen 3x4x2x2x3 = 144(!) Formen mit unterschiedlichen Flexionsmerkmalen (von diesen sind natürlich sehr viele homonym). Verben Verben sind von anderen Wortarten leicht abgrenzbar sie tragen verbale Flexionsmerkmale Verbale Flexionsmerkmale Finit vs. infinit Das Deutsche hat drei infinite Verbformen: Infinitiv, Partizip Präsens, Partizip Perfekt Tempus Im Deutschen werden synthetisch gebildet: Präsens und Präteritum. Alle anderen Tempora werde mit Hilfe von Hilfsverben gebildet. Numerus Verben kongruieren in Numerus mit dem Subjekt. Im Deutschen zwei Numeri: Singular und Plural. Person Verben kongruieren in der Person mit dem Subjekt (1., 2. und 3. Person). Modus Im Deutschen: Indikativ, Konjunktiv I, Konjunktiv II, Imperativ. Kasus Kasus ist keine Flexionsmerkmal von Verben, aber Verben weisen Nominalphrasen Kasus zu (Subkategorisierung). Andere Nicht synthetisch markiert werden im Deutschen die folgenden verbalen Kategorien: Aspekt (Abgeschlossenheit eines Ereignisses), Aktionsart (z. B. iterativ, inchoativ, diminutiv), Genus verbi (Passiv, Mediopassiv). Fazit Jedes Verb des Deutschen tritt potentiell in 2x2x3x2 (TempusxPersonxNumerusxModus)+3 (Infinite Formen)+2 (Imperativformen) = 29 Formen auf. Pronomina (Können allein eine Nominalphrase bilden). Tragen dieselben flexionsmorphologischen Merkmale wie Nominalphrasen: Kasus, Numerus, Genus.

BLATT 12 Determinatoren (Im CISLEX: Wörter, die an erster Stelle einer Nominalphrase vor dem Adjektiv stehen) Andere Bezeichnungen: Artikel, Quantoren. Flexionskategorien: Kasus, Numerus, Genus. Komposition Was ist Komposition Komposition ist die Zusammenfügung eines Lexems aus zwei freien Morphemen oder Wörtern. Die Bestandteile werden als Erst- und Zweitglied des Kompositums bezeichnet. Dabei richten sich im Deutschen die Flexionsmorphologie des Kompositums in fast allen Fällen nach dem Zweitglied. Beispiele für Komposita: Bahnhof, Dozententreffen, staubsaugen. Ein Kompositum kann auch aus anderen Komposita gebildet werden, wodurch sich im Deutschen recht lange Wörter erzeugen lassen, z.b. [[[Donau[dampfschiffs]][kapitäns]]witwen][vereins[vorsitzende]]. Komposita werden üblicherweise zusammengeschrieben, teilweise auch mit Bindestrich. Kompositionsfuge (Fugenmorphem, Fugenelement, Kompositionssuffix) Das Erstglied in Komposita hat eine besondere Form, die sich als Stamm/Wort+"Fugenmorphem" analysieren läßt. z. B. Kind+er = Kinder in Kinderarzt, Kirche-e = Kirch- in Kirchhof (s Tabellen). Das Fugenmorphem wird auch als Fugenelement oder Kompositionsfuge bezeichnet. Bei Nomina hängt die Kompositionsfuge von anderen morphologischen Eigenschaften (Suffixe, Flexionsmorphologie) ab. Morphosyntaktische Einteilung Komposita können zunächst nach den Bestandteilen unterschieden werden N+N: Bürotisch A+V: schönreden A+N: Großmaul, Kleinstminen V+V: presspolieren V+N: Lötkolben N + A: eisenhart Präp+N: Nebenwohnung A + A: gelbgrün N+V: staubsaugen... Semantische Einteilung Semantische Grobgliederung Hier werden üblicherweise drei große Gruppen unterschieden: Determinativkompositum, Erstglied bestimmt Zweitglied näher: Kinderarzt Rektionskompositum; Zweitglied (relational) regiert Erstglied: Bücherleser, Stadtzerstörung Possessivkompositum; exozentrisch:trotzkopf, Achtzylinder Kopulativkompositum: Dichterkomponist

BLATT 13 Feingliederung Weitere semantische Unterteilung nach der semantischen Beziehung zwischen den Gliedern, die sich u.a. durch Paraphrasen testen lassen, z.b. Eisenkugel - "Kugel aus Eisen" Eisenfabrik - "Fabrik, die Eisen verarbeitet" Eisentablette - "Tablette, die Eisen enthält" Eisensäge - "Säge zum Schneiden von Eisen" Die Zahl der Relationen zwischen Kompositagliedern lässt sich allerdings kaum endgültig festlegen - fast jede gefundene Relation läßt sich wieder in Unterrelationen aufgliedern. Semantische Motiviertheit - Lexikalisierung Komposita können unterschiedlich stark lexikalisiert sein. Voll lexikalisierte Komposita sind nur noch formal/sprachhistorisch, aber nicht mehr semantisch als Komposita anzusehen. Bei teilweise motivierten Komposita kann die Bedeutung des Erstglieds oder des Zweitglieds verdunkelt sein. Voll motiviert Teilweise motiviert voll lexikalisiert Eisenkugel Bahnhof, Laubwerk Hochzeit Komposition - Derivation Abgrenzung von Affigierung und Komposition ist teilweise schwierig, z.b. für folgende Zweitglieder/Suffixe, die sowohl semantisch von den zugrundeliegende Nomina abweichen, als auch reihenbildend sind. -gut (Strandgut, Ideengut), -zeug (Sattelzeug, Verbandszeug), -werk (Laubwerk), -mut (Unmut, Sanftmut) Einige Besonderheiten Interne Flexion möglich bei Hohelied, Langeweile (des Hohenlieds, der Langenweile) Komposita mit ausgefallenen Fugenelementen: Nachtigall; Gasometer.

BLATT 14 Einige Daten aus der Kodierung der Fugenelemente im CISLEX Suffix A Zahl der unterschiedlichen Erstglieder im Korpus, bei denen das Suffix B Gesamthäufigkeit im Korpus auftritt Ø 7012 126761 18 +s 2238 32090 14 +n 1290 15165 11 +en 481 4585 9 -e 47 1980 42 +es 39 1721 44 +e 35 494 14 +nen 30 51 1 -um+en 23 413 17 +er 18 891 49 +"er 15 169 11 -um+a 15 34 2 -en 14 770 55 -a+en 14 293 20 "+e 10 40 4 +ien 9 40 4 -us+en 8 12 1 -us+i 8 9 1 " 3 8 2 -o+en 2 20 10 +ens 1 42 42 -en+s 1 84 84 -n 1 84 84 +ten 1 3 3 -on+en 1 5 5 -us+ier 1 1 1 -ß+sse 1 1 1 -ß+sser 1 1 1 -e+s 1 30 30 gesamt 11320 185797 16 Kompositionsaktivität (B/A) Tabelle 1: Häufigkeiten von Kompositionssuffixen in einem Korpus von 190 000 Komposita

BLATT 15 Gesamt: 37124 Eine Kompositionsform: 28239 Zwei Kompositionsformen: 8136 Drei Kompositionsformen: 728 Vier Kompositionsformen 8 Tabelle 2: Kompositionsformen pro Lemma Nomina mit 4 Kompositionsformen: Land: Landmann, Landsmann, Landesvater, Länderspiel Kind: Kindfrau, Kindskopf, Kindesbeine(n), Kindergarten Mann: Mannjahr, Mannsbild, Manneskraft, Männerhasserin Medikament: Medikament-, Medikamente-, Medikamenten-, Medikatmentsverkauf (ebenso Instrument, Apparat, Element, Präparat) Kode Suffix Beispiel(e) Häufigkeit 1 0 Tisch 22766 2 " Bruder 10 3 +e Hund 87 4 "+e Gans 73 5 +en Instanz, Strauß 4316 6 +ens Herz 4 7 +er Geist 25 8 "+er Blatt 38 9 +es Geist 43 10 +ien Prinzip 19 11 +n Kranke 5310 12 +nen Drogistin 2610 13 +s Antritt 9638 14 -e Wette Kirche 122 15 -en Süden 33 16 -en+s Weihnachten 4 17 +o Film (Filmothek) 1 18 -n Ostern 3 19 -a+en Madonna 95 20 -um+en Museum 348 21 -sse +ß Adresse 7 22 -us+en Aphorismus 618 23 -os+en Mythos 3 24 -s+en Heros 1 25 -us+een Kaktus 1 26 +ten Bau 3 27 -ex+izia Simplex 1 28 -um+a Anabolikum 255 29 -s+nten Atlas 1 30 -o+en Laudatio 7 31 -on+en Distichon 59 32 -on+a Pharmakon 28 33 -s +tia Reagens 16 34 -s+tien Reagens 21 35 -us+ier Brontosaurus 6 36 -us+i Focus 73 37 -us Zodiakus 1 38 -e+i Carabiniere 11 39 -ß+ssen Hintersäß 7 40 +im Cherub 4 41 +inen Cherub 2 42 +in Mudschahed 1 43 -s+ten Primas 4 44 -ß+sse Niß 4 45 -ß "+sse Nuß 2 46 -s+tes Dos 2 47 -s+i Tholos 2 48 "+en Werkstatt 3 49 -x+zen Matrix 2 50 -x+zes Matrix 2 51 -x+ces Imperatrix 1 52 -r+ta Hepar 1 53 -kus+zera Ulkus 1 54 -us+ora Tempus 3 55 -us+oden Tripus 1 56 +ta Komma 30 57 -eps +ipes Prinzeps 1 58 -is+ en Dosis 19 59 -s +den Apsis 1

BLATT 16 60 -is +es Fortis 3 61 -is+ien Galaxis 1 62 -ß +"sser Faß 3 63 -er+res Frater 1 64 -nen+en Zeichnen 2 65 +ns Glaube 3 66 -x+ges Lex 1 67 -en+ina Nomen 4 68 -e+s Hilfe 1 69 +i Ban 1