Phonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008

Ähnliche Dokumente
4.9 Deterministische Kellerautomaten Wir haben bereits definiert: Ein PDA heißt deterministisch (DPDA), falls

Automatische Morphemanalyse

VI Morphologische Exponens

Morphologie Einleitung. System der deutschen Sprache Morphologie nominale Kategorie: Genus

THEORETISCHE INFORMATIK

SEMANTISCHE INFORMATION [NPnominativ1, NPakkusativ2]

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Lösung für Lehrerinnen und Lehrer Grammatik-Lapbook Teil 1: Wortarten

Grundlagen Theoretischer Informatik I SoSe 2011 in Trier. Henning Fernau Universität Trier fernau@uni-trier.de

3. Stilkontrolle. 4. Terminologiekontrolle

Fachseminar WS 2008/09

1. Der Begriff Informatik 2. Syntax und Semantik von Programmiersprachen. I.2. I.2. Grundlagen von von Programmiersprachen.

Morphologie & Syntax

Deterministische Turing-Maschinen (DTM) F3 03/04 p.46/395

Bestellformular Messeaktion Rehab 2009

Sprachen/Grammatiken eine Wiederholung

Segmentierung (Beispielanalyse)

Z 50. Z O Z Int Z Komma Z Real Ziffer Komma Ziffer

Einführung Computerlinguistik. Konstituentensyntax II

Vorlesung Theoretische Informatik

GTI. Hannes Diener. 6. Juni Juni. ENC B-0123, diener@math.uni-siegen.de

2. Lernen von Entscheidungsbäumen

Endlicher Automat (EA)

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Spezielle Themen der KI. NLP Natural Language Processing. Sprachverstehen

Grafische Interaktionssysteme/ dynamische Visualisierung des endlichen Automaten

Konfiguration einer TM als String schreiben: Bandinschrift zwischen den Blank-Zeichen Links von der Kopfposition Zustand einfügen.

Zusammenfassung Grundzüge der Informatik 4

Wortartenbestimmung nach Peter Eisenberg

Morphemunterstütztes Grundwortschatz- Segmentierungstraining (MORPHEUS)

Aufgabentypen die in der Klausur vorkommen

Einführung in die Computerlinguistik

Regeln zur Pluralbildung

Entscheidungsprobleme. Berechenbarkeit und Komplexität Entscheidbarkeit und Unentscheidbarkeit. Die Entscheidbarkeit von Problemen

Informatik II Greedy-Algorithmen

Formale Sprachen und Grammatiken

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Übung 9. Quellcode Strukturieren Rekursive Datenstrukturen Uebung 9

Maschinelles Lernen Entscheidungsbäume

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Lösungen zum Aufgabenblatt 9 Symbolisches Programmieren

Einführung in die Java- Programmierung

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Codierung. Auszug aus dem Skript von Maciej Liśkiewicz und Henning Fernau

Einführung in die Sprachwissenschaft Jan Bruners

Einführung in die Morphologie

Einführung in die Theoretische Informatik

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Generierung & Übersetzung mit XLE

ARBEITSBLATT ZU FORMALEN SPRACHEN

Kompositionen von Baumreihen-Transformationen

Informatik I WS 07/08 Tutorium 24

Musterlösung zur Vorlesung Modellbasierte Softwareentwicklung Wintersemester 2014/2015 Übungsblatt 9

Morphologie. Grundlagen. Begriffsklärung. Morphologie ist die Lehre von den Formen. Sie ist Teilgebiet verschiedener Wissenschaftszweige, z.b.

Verbesserung der Modellprüfung mittels Blackbox-Testen

CGI Programmierung mit Ha. Markus Schwarz

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Die Betonung der Wörter

Algorithmische Bioinformatik

Alignment-Verfahren zum Vergleich biologischer Sequenzen

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Das erste Programm soll einen Text zum Bildschirm schicken. Es kann mit jedem beliebigen Texteditor erstellt werden.

Approximationsalgorithmen

Einführung in die englische Sprachgeschichte

Englisch-deutsch-polnisches Wörterbuch. Benutzeranleitung

Textanalyse 10b. (Vorlagen von Pierre Nugues und von verschiedenen Websites). G. Görz, J. Schneeberger Lehrstuhl Informatik 8 (KI)

Automatentheorie Berechnungsmodell für logische Sprachen

Morphologie. Was ist Morphologie? Was ist Morphologie?

3. Turingmaschinen FORMALISIERUNG VON ALGORITHMEN. Turingmaschinen Registermaschinen Rekursive Funktionen UNTERSCHEIDUNGSMERKMALE DER ANSÄTZE:

Part-Of-Speech-Tagging mit Viterbi Algorithmus

Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester 2013

Adjektiv und Adjektivgruppe

Formale Sprachen, reguläre und kontextfreie Grammatiken

2. Vorlesung. Slide 40

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Übersetzen Spanisch Deutsch

Theoretische Informatik 2 (WS 2006/07) Automatentheorie und Formale Sprachen / Kontextfreie Sprachen und Kellerautomaten

II. Grundlagen der Programmierung. 9. Datenstrukturen. Daten zusammenfassen. In Java (Forts.): In Java:

Einführung in die Computerlinguistik

Duden Schülerhilfen. Englisch 5. Klasse Übungen zu Wortschatz und Wortlehre. Dudenverlag Mannheim Leipzig Wien Zürich

Informatik 11 Kapitel 2 - Rekursive Datenstrukturen

Kapitel 2. Lexikalische Analyse. Lexikalische Analyse Wintersemester 2008/09 1 / 39

Neuronale Netze mit mehreren Schichten

Dynamische Optimierung. Kapitel 4. Dynamische Optimierung. Peter Becker (H-BRS) Operations Research II Wintersemester 2014/ / 206

Praktikum zu Einführung in die Informatik für LogWiIngs und WiMas Wintersemester 2015/16. Vorbereitende Aufgaben

Erstspracherwerb. Sprachentwicklung: Wortschatz

Einführung. Heute. Parsing. Parser - Arten Parsing - Arten grob klassifiziert Interessante Parser Arten detailierter.

Morphologische Komplexität in germanischen Sprachen am Beispiel der Pluralbildung

22. Algorithmus der Woche Partnerschaftsvermittlung Drum prüfe, wer sich ewig bindet

Es sollen 2 verschiedene Reparaturmechanismen angewendet werden: *XB soll durch Änderung von X repariert werden

Sprachenvielfalt im Klassenzimmer: Deutsch und andere Sprachen im Vergleich. Dr.(Rus) Hahn

Bäume. Informatik B - Objektorientierte Programmierung in Java. Vorlesung 10: Collections 4. Inhalt. Bäume. Einführung. Bäume.

Programmierkurs Java

Volltextsuche und Text Mining

Zug Bart Borg Bart Borg Bart Borg Bart. Bart Borg verloren. Stand Zug Bart Borg Bart Borg Bart Borg

Parsing-EinfŸhrung Ð 1

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

1 Vom Problem zum Programm

2: Zahlentheorie / Restklassen 2.1: Modulare Arithmetik

Wissensbasierte Systeme

Transkript:

Phonetische Lexika Morphologische Analysen Uwe D. Reichel IPSK, LMU München reichelu@phonetik.uni-muenchen.de 9. Januar 2008

Inhalt Terminologie Finite-State-Methoden Schwierigkeiten der deutschen Morphologie Analyse ohne lexikalisches Wissen Wissenfreie Segmentierung 1

Terminologie Morphem: kleinste Bedeutungstragende Einheit einer Sprache Morph: Morphem-Realisierung Allomorphe: kontextabhängige verschiedene Realisierungen desselben Morphems; M. hart: hart, härt; M. <Plural>: e, en, es, s, ɛ Lexikalisches Morphem: Bezeichnung von Objekten, Sachverhalten der außersprachlichen Welt (hund, les) Grammatikalisches Morphem: Bestimmung von gramm. Beziehungen im Satz (e, en, heit, und, wenn) Freies Morphem: kann eigenständig auftreten; sowohl lex. (haus) als auch gramm. (und) Morpheme Gebundenes Morphem: kann nicht ohne freies Morphem auftreten: entwarnung) Stamm: Basismorphem, das gemeinsame Element einer Wortfamilie; les in lesen, ablesbar 2

Affixe: gebundene Morpheme zur Wortbildung (u.a. zu Wortartwechsel = Konversion führend); dem Stamm vorausgehend: Präfixe (entschuldigen); stammintern: Infixe; dem Stamm folgend: Suffixe (schuldig); den Stamm einschließend: Circumfixe (geglaubt); Reihenbildung möglich (ab+geordnet, Arbeitslos+ig+keit) Diskontinuierliches Morphem: durch mehrere getrennte Morphe realisert; M. <Part. Perf.>: geliebt Portemanteau-Morphem: Bedeutungseinheit, die durch Verschmelzung von Morphen entsteht; zum Unikales Morphem (Hapax Legomenon): nicht produktives Morphem mit rein distinktiver Funktion; Himbeere, Brombeere Nullmorphem: durch leeres Morph realisiertes Morphem; M. <Plural> in Wasser Derivation: Wortbildung (i.d.r. Wortartwechsel) durch Affigierung (s.o.), Ablaute (härter), Rückbildung (Schau[en]) Komposition: Verbindung von zwei oder mehr freien Morphemen (mit beliebig vielen gebundenen M.) Simplex: Nicht-Kompositum 3

Flexion: Codierung der Parameter Kasus, Numerus, Genus, Finitheit, Tempus, Modus, Komparation mit Hilfe von Flexionsmorphemen und Allomorphie (u.a. Ablautbildung); denken, Häuser, dachte Fugenmorphem: Bindeglied zwischen Morphemen; Bahnhofskneipe, Toilettentür, hoffnungslos Morphotaktik: Festlegung erlaubter Sequenzen von Morphemklassen String-Präfix: Stringsegment, beginnend am linken Rand, kein morph. Bezug: Altertum String-Suffix: Stringsegment, beginnend am rechten Rand, kein morph. Bezug: Altertum Stemming: Entfernung der Flektionsendungen und Suffixe 4

Deutsche Morphologie flektierende Sprache: gebundene Morpheme und Stammmodifizierungen zur Derivation, Flektion Kompositabildung hochproduktiv 5

Finite-State-Methoden Verfahren zum Analysieren (Parsen) und Erzeugen sprachlicher Einheiten Definitionen Alphabet : endliche Menge von Zeichen Wort w: Verkettung von Zeichen aus : Menge aller Wörter über Alphabet Sprache L über : Teilmenge von 6

Endliche Automaten Entscheidungsproblem: entscheide, ob w L Erkennungsproblem: ermittle Struktur von w endlicher Automat: A = (Q,, q 0, F, ) Q: endliche Zustandsmenge : endliches Eingabe-Alphabet q 0 Q: Startzustand F Q: Menge von Finalzuständen Q x x Q: Übergangsrelation; Q x Q; (q x, s) = q y ( vom Zustand q x gelangt man durch Einlesen des Zeichens s in Zustand q y ) Sprache L(A): Menge aller von A akzeptierten Wörter Eingabewort w ist Element von L(A), wenn in A nach Einlesen des letzten Zeichens von w ein Finalzustand erreicht werden kann deterministischer endlicher Automat: ist für jedes Zustand-Eingabesymbol-Paar eindeutig, also eine Funktion; man kann von einem Zustand nach Einlesen eines bestimmten Eingabesymbols nur in höchstens einen anderen Zustand gelangen nicht-deterministischer endlicher Automat: ist für mindestens ein Zustand-Eingabesymbol-Paar nicht eindeutig 7

Anwendung in der morphologischen Analyse Lexikon ordnet Morpheme ihren Klassen zu Automat repräsentiert Morphotaktik (Eingabe-Alphabet: Morphemklassen) Analyse: 1. Zerlegung des Eingabeworts (s.u.) 2. dabei Lookup der Morphemklassen der erhaltenen Segmente 3. Prüfung, ob der Morphotaktik-Automat die Morphemklassensequenz akzeptiert: ja Analyse geglückt; nein sofern andere Zerlegung möglich Neustart bei 1 mit anderer Zerlegung 8

Beispiel: finite Verben Lexikon VP PRFX PRP V N SFX FL aus be gegen halt ding ier en fort ent in komm form et setz te VP Verbalpartikel, PRFX V.-Präfix, PRP Präposition, V Verbstamm, N Substantivstamm, SFX V.-Suffix, FL V.-Flexionsendung Automat s P RF X V P ɛ 1 3 ɛ P RP ɛ 2 N P RF X V 4 5 SF X ɛ SF X 6 F L F L ɛ: leerer Übergang (kein Zeichen eingelesen), Startzustand s, Finalzustände doppelt umkreist 7 9

Analysierbare Wörter be/prfx+in/prp+halt/v+et/fl ent/prfx+gegen/prp+komm/v+en/fl fort/vp+setz/v+en/fl aus/vp+be/prfx+ding/n+te/fl form/n+ier/sfx+te/fl komm/v form/n+ier/sfx 10

Morphologisches Parsing Ausgabe von Grundform und gramm. Angaben zu Person, Kasus, Tempus, usw. Zwei-Ebenen-Morphologie (Koskenniemi, 1983) lexikalische Form: haus +N +PL Oberflächenform: Häuser Finite State Transducer zur Vermittlung zwischen diesen beiden Ebenen Beim Übergang von einem Zustand in einen anderen wird Zeichen aus Eingabealphabet durch Zeichen aus Ausgabealphabet ersetzt 11

Finite State Transducer T = ( 1, 2, Q, q 0, F, ) 1 : Eingabealphabet 2 : Ausgabealphabet Q: endliche Zustandsmenge q 0 Q: Startzustand F Q: Finalzustände Q x 1 x 2 x Q: Übergangsrelation mit Ersetzung; (q x, i : o) = q y ( Vom Zustand q x gelangt man durch Einlesen des Eingabzeichens i in Zustand q y. Dabei wird i durch das Ausgabezeichen o ersetzt. ) 12

Beispiel: Nomen Lexikon: enthält für lexikalische Morpheme auch 2 Ebenen N-er N-en FL häus:haus bett:bett en büch:buch er en-plural, FL: Nom. Flexionsendung Transducer N-er: Nomenstamm mit er-plural, N-en: Nomenstamm mit N er 1 ɛ:+n 2 er:+p L s 5 N en 3 ɛ:+n 4 en:+p L 13

Analysierbare Wörter buch+n+pl haus+n+pl gart+n+pl Durch Vertauschen von Eingabe- und Ausgabealphabet läßt sich ein analysierender Transducer in einen generierenden umwandeln. Im Lexikon stünde dann beispielsweise haus:häus und am er-plural-übergang im Transducer +PL:er. 14

Analyse ohne lexikalisches Wissen Reichel et al. (2004) nötiges Wissen: gebundene Morpheme, Allomorphie, Morphotaktik, POS, POS/Last-Morph-Kompatibilität nur zur Analyse, nicht zur Generierung geeignet (Übergeneralisierung) 2 Schritte: Lexikonaufbau, Segmentierung 15

Lexikon Aufbau: Morph + Morphemklasse initialisiert mit gebundenen Morphemen (Affixe, Fugen, Flektionsendungen) wird anhand von Input-Text mittels Stemming und Allomorph-Generierung aufgefüllt Stemming: Verben, Adjektive: greedy pattern matching und Entfernung gebundener Morpheme; Constraints: z.b. verbleibender String muß mind. 1 Vokal enthalten und best. Mindestlänge aufweisen Distributionsanalyse (betet & beten bet/v; Bilds & Bilder bild/n) Allomorph-Generierung Ersetzung von Umlauten in Adjektivstämmen (stärk/adj stark/adj) Vokalersetzung bei starken Verben mit informativen Ablautreihen (e.g. ge+lauf+en lief/v ) 16

Segmentierung gemäß simpler konkatenativer Morphologie, Kontextsensitivität der Allomorphie muß nicht beachtet werden. Algorithmus 1. Teile jedes Wort w rekursiv 1 von links nach rechts in String-Präfixe und -Suffixe bis eine erlaubte Segmentierung möglich ist oder das Wortende erreicht wird. 2. Im Laufe der Rekursion wird eine Grenze, die den aktuellen String in Präfix und Suffix unterteilt dann akzeptiert wenn (i) das Präfix im Lexikon zu finden ist, (ii) eine eine erlaubte Segmentierung des Suffixes möglich ist, oder /falls nicht) das Suffix im Lexikon steht, (iii) die Sequenz Präfix-Klasse + Klasse des ersten Suffixes nicht der Morphotaktik widerspricht 2 und (iv) die Klasse des letzten Suffixes kompatibel ist mit dem POS von w. 1 Rekursion: Aufruf einer Funktion durch sich selbst. 2 Morphotaktik hier also nur lokal zwischen Morphem-Paaren festgelegt, nicht über das ganze Wort hinweg. 17

Nominalsuffix Verb finit Fuge, Nominalsuffix, Nominalflexionsendung Verbalflexionsendung, Verbstamm Beispieleinträge für Morphotaktik (oben: Morphemklassen rechts können den Klassen links folgen) und POS letztes Suffix Kompatibilität (unten: Wörter mit POS links müssen mit einem Morphem einer der Klassen rechts enden) Entdeckung neuer Morpheme: über Distributionsanalyse. Wenn vollständige Segmentierung von w scheitert, wird eine partielle Segmentierung versucht (also eine Segmentierung von w-substrings). Falls nur ein Substring s nicht zu segmentieren ist und s in verschiedenen segmentierbaren lexikalischen Umgebungen auftritt, wird es als (nicht klassifiziertes) Morphem behandelt, und die betroffenen Wörter dementsprechend segmentiert (Chefpilot & Regierungschef chef/nc chef/nc+pilot/n & reg/v+ier/vsfx+ung/nsfx+s/fg+chef/nc) 18

Wissensfreie morph. Segmentierung Stemming: Peak and Plateau-Algorithmus (Nascimento et al., 1998) Stamm endet an lokalem Maximum der successor variety. (vgl. POS Tagging-Skript) Morphology Induction unüberwachtes Lernen (keine morphologischen Segmentierungen vorgegeben) Minimum Description Length (MDL) Prinzip: wähle dasjenige morph. Modell für die Trainingsdaten DATA, das den Ausdruck: Größe des Lexikons + Größe des Modells= DL(L) + DL(DATA L) minimiert Lexikon L beinhaltet die morph. Segmente Modell segmentiert Trainingsdaten DATA anhand des Lexikons L. Je weniger Bits im Durchschnitt benötigt werden, um ein Segment aus DATA vorherzusagen, desto kleiner die description length DL des Modells. alternative Modellgrößen: Anzahl der Zustände in einem Reduzierten Endlichen Automaten zur Segmentierung von DATA (Reichel et al., 2004) zu Details der Lernverfahren vgl. Brent et al. (1995), Goldsmith (2001) u.a. 19