Einführung in die Computerlinguistik

Ähnliche Dokumente
Einführung in die Computerlinguistik Finite State Transducers und Morphologie

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (morphembasiert mit Transduktoren)

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Einführung in die Computerlinguistik Morphologie (1): morphembasierte Morphologie mit Transduktoren

Morphologie mit Endlichen Automaten

Morphologie mit Endlichen Automaten

Centrum für Informations- und Sprachverarbeitung Uni München Repetitorium ZP Sommersemester 09. Morphologie. Alla Shashkina

Ivana Daskalovska. Willkommen zur Übung Einführung in die Computerlinguistik. Morphologie. Sarah Bosch,

Zweitspracherwerb und Sprachverarbeitung bei Erwachsenen. Kathleen Neubauer

Natürlichsprachliche Systeme I Materialien zur Vorlesung

Was ist ein Wort? Morphologie I Einf. in die Linguistik

Computerlinguistische Grundlagen. Jürgen Hermes Wintersemester 18/19 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Einführung in die Computerlinguistik. Morphologie II

Finite-State-Morphologie in XLE. Grammatikentwicklung, SS 2010

Wortbildung und Wortbildungswandel

Einführung in die französische Morphologie

Transduktoren & computationelle Morphologie

Was ist ein Wort? Einführung in die Linguistik Butt / Eulitz / Wiemer Di. 12:15-13:45 Do.! 12:15-13:45 Fr.! 12:15-13:45

Lemmatisierung und Stemming in Suchmaschinen

Lemmatisierung und Stemming in Suchmaschinen

Morphologie. Ending Khoerudin Deutschabteilung FPBS UPI

5.2 Endliche Automaten

Einführung in die französische Morphologie

Distribution Dieser Begriff bezieht sich nicht nur auf morphologische Einheiten, sondern ist z.b. auch auf <Phoneme anwendbar.

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Derivation

Phonetische Lexika Morphologische Analysen. Uwe D. Reichel IPSK, LMU München 9. Januar 2008

2.6 Verdeutlichung verwendeter Begriffe

Morphologie - Morphematik. Grundbegriffe: Morphem Wurzel Stamm Affix Morphemtypen

Einführung in die Computerlinguistik. Morphologie I

Morphologie. 1. Flexion und Derivation 2. Analyse mittels lexikalischer Regeln

Grundkurs Linguistik - Morphologie

Vertiefung der Grundlagen der Computerlinguistik. Semesterüberblick und Einführung zur Dependenz. Robert Zangenfeind

Grundkurs Linguistik Morphologie

Paradigmen-lose, Halb-paradigmatische & Hybride Theorien von M

Einführung in die Computerlinguistik: Morphologie und Automaten I

Grundkurs Linguistik Wintersemester 2014/15. Morphologie. Jens Fleischhauer & Anja Latrouite

Flexion bei Nomen Verbalflexion Flexion und Wortarten Repetitorium. Morphologie IV. Flexion. Gerrit Kentner. 19. Dezember / 34

Outline. Morphologische Prozesse. Automaten. Schütze: Morphologie 2 / 17

13. Wörter und Morpheme

Morphologie I Kessel/Reimann, S.91-96, 61-70

Formale Sprachen. Reguläre Sprachen. Rudolf FREUND, Marian KOGLER

Infos etc. => Studium => Lehrveranstaltungen Einführung in die Linguistik

Nikolaus Schpak-Dolt. Einführung in die Morphologie des Spanischen

Tokenisierung und Lemmatisierung in Suchmaschinen

Das Flexionssystem des Deutschen: Allgemeines

Syntax und Morphologie. Einführungskurs 2. Vorlesung

Einführung in die Theoretische Informatik

Morphologie: Was bisher geschah. Morphologie IV. Morphologie. Überblick. Flexion

Inhalt. Einleitung... 9

Am Anfang war das Wort!

Geschichte: Indische Grammatiker. Einführung in die Morphologie Geschichte, Grundbegriffe. Geschichte: Griechische Grammatiker

Basisterminologie I: Basis, Affix, Stamm und Co. Programm. Basisterminologie I: Basis, Affix, Stamm und Co

Einführung in die Computerlinguistik Morphologie

Operationen auf endlichen Akzeptoren und Transduktoren

Zwei-Ebenen-Morphologie

Morphologie. Dazu gehört auch: Wortarten und ihre Einteilung. Morphologie ist die Lehre vom Strukturaufbau der Wörter.

Minimalistische Morphologie

2 2 Reguläre Sprachen. 2.2 Endliche Automaten. Übersicht

Einführung in die Linguistik. Morphologie: Lösung

Vorlesung Morphologie Flexion

Operationen auf endlichen Akzeptoren und Transduktoren

Einführung in die Sprachwissenschaft des Deutschen. Morphologie. PD Dr. Alexandra Zepter

Sprachsynthese: Textnormalisierung

PÄDAGOGISCHE FAKULTÄT. Einführung in die Morphologie der deutschen Sprache

Natural Language Processing

H MPKP. Beispiel für eine Rechnung. Reduktion H MPKP. Überführungsregeln

Flexion. Der Wortstamm als Basis für die Flexion. Auszug aus Dudengrammatik (2016), Randnummern

Einführung in die Morphologie Geschichte, Grundbegriffe. Anke Lüdeling Sommersemester 2008

Einführung in die Linguistik Butt / Bader / Lutz / Wiemer. Teil II. Morphologie & Syntax. Überblick

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

WORTBILDUNG - MORPHOLOGIE

Operationen auf endlichen Automaten und Transduktoren

Alle Menschen schaffen neue Wörter. Würden wir das nicht tun, klängen wir immer noch wie Höhlenbewohner (Ugh, ugh).

Einführung in die Linguistik

Computerlinguistik I

Informatik III. Christian Schindelhauer Wintersemester 2006/07 3. Vorlesung

Übersicht. 3 3 Kontextfreie Sprachen

Morphologie! Zusammenfassung Phonologie! Zusammenfassung Phonetik! Neues Thema:" artikulatorische Phonetik! akustische Phonetik! auditive Phonetik!

2 Sprachliche Einheiten

Einführung Computerlinguistik. Morphologie I

Einführung in die Sprachwissenschaft des Deutschen. Morphologie. PD Dr. Alexandra Zepter

PD Dr. Ralf Vogel

Paradigmen. Jochen Trommer Paradigmen WS 2008/2009. Universität Leipzig Institut für Linguistik

Computerlinguistik I

Allomorphie Fortsetzung und Vertiefung

Endliche Automaten, reguläre Ausdrücke, rechtslineare Grammatiken

Alternative Theorien III: Minimalistische Morphologie

Grundbegriffe der Informatik Tutorium 11

Informatik III. Christian Schindelhauer Wintersemester 2006/07 7. Vorlesung

Morphologie und Syntax (BA)

Altenglische Nomina Maskulin. Morpheme. Neutrum. Singular. Plural. Morphe, Morpheme, Allomorphe. Morphe, Morpheme, Allomorphe.

a b b a Alphabet und Wörter - Zusammengefasst Formale Grundlagen der Informatik 1 Kapitel 2 Endliche Automaten und reguläre Sprachen

Morphologie und Syntax

Endliche Automaten. Endliche Automaten J. Blömer 1/24

Plank, WS 03/04, EinfLing, M&S 4b 1 Morphologische Analyse:

Endliche Automaten. Endliche Automaten J. Blömer 1/23

Übersicht. SD Einführung in die CL,

Informatik I: Einführung in die Programmierung

Die Morphologie (d.h. Formenlehre) untersucht die Gestalt von Wörtern, genauer den Wortaufbau einer Sprache.

Transkript:

Einführung in die Computerlinguistik Finite State Transducers und Morphologie Laura Kallmeyer Heinrich-Heine-Universität Düsseldorf Summer 2016 1 / 18

Morphologische Grundbegriffe (1) Wort / Lexem: abstrakte Einheit, die verschiedenen Formen zugrunde liegt. Bsp.: komm- Wortform: verschiedene Formen eines Lexems Bsp.: kommen, komme, kommst, kommt, kommend, kommenden, Paradigma: Menge von Wortformen eines Lexems. geh-e geh-st Bsp.: geh-t geh-en Synkretismus: Zusammenfallen verschiedener Wortformen Bsp.: 1. und 3. Pers. Plural des Lexems geh: gehen 2 / 18

Morphologische Grundbegriffe (2) Wortbildungsprozesse: Komposition: Wort + Wort Wort Kinder + Garten = Kindergarten Derivation: Wort + (gebundenes Morphem) Wort Zwerg + -lein = Zwerglein Flexion (Beugung): Wort + Flexionsmorphem Wortform Zwerg + -e = Zwerge 3 / 18

Morphologische Grundbegriffe (3) Welche Wortbildungsprozesse liegen hier vor? Kindchen Haustür gibst Balls Dummheit Vereinsamung Lauf Jagdhund Bälle verkaufte Diebe Hausboot Verlierer Korkenzieher 4 / 18

Morphologische Grundbegriffe (4) Morphem: Kleinste bedeutungstragende Einheit Bsp.: Zwerg, garten in Gartenzwerg, geh und -st in gehst freies Morphem: ein Morphem, das auch isoliert als Wortform auftreten kann Bsp.: Hund, Kind, auf, und,... gebundenes Morphem: Morphem, das nicht frei ist. Bsp.: -s, ver-, -lein,... Wurzel: Morphem, das Ausgangspunkt für Flexion und Derivation ist. Bsp.: lauf, Kind, Hund, schwarz,... 5 / 18

Morphologische Grundbegriffe (5) Affixe: periphere gebundene Morpheme. Präfixe/Suffixe, je nachdem, ob sie vor oder hinter der Wurzel stehen. Bsp.: Suffix -st, Präfix ent- Stamm: Morphemcluster ohne Flexionsaffixe Bsp.: vergleich, verkauf, enthalt,... Allomorphe: bedeutungsgleiche Morpheme. Bsp. Pluralmorphem: { e, er, s,...} (-e, -er und -s sind allomorph) 6 / 18

Morphologische Grundbegriffe (6) Aus welchen Morphemen sind die folgenden Wortformen entstanden? Kindchen Haustür gibst Balls Dummheit Vereinsamung Lauf Jagdhund Bälle verkaufte Diebe Hausboot Verlierer Korkenzieher 7 / 18

Morphologie mit endlichen Automaten (1) Bsp.: flektierte Formen von geh- g q 0 q e 1 q h 2 q 3 s e q 5 t n t q 6 q 4 Vereinfachung: Kanten können Konkatenationen von Eingabesymbolen als Labels haben. en geh q 0 q t 3 q 6 st 8 / 18

Morphologie mit endlichen Automaten (2) Englische Verben: walk speak, eat eaten, ate, spoke, spoken q walk 0 q 1 -ed q 3 walk, eat, speak q 2 -ing, -s 9 / 18

Finite State Transducer (1) Ziel: morphologisches Parsing. Eingabe Ausgabe cats cat N Pl cat cat N Sg Eingabe Ausgabe gehst geh V 2.Sg gehen geh V Inf gehen geh V 3.Pl gehen geh V 1.Pl 10 / 18

Finite State Transducer (2) Idee: Der FSA wird mit einer zusätzlichen Ausgabe versehen. g:g q 0 q e:e 1 q h:h 2 q 3 n:inf, n:1.pl, n:3.pl q 5 e:ε ε:v q 7 t:2.sg t:3.sg, t:2.pl q 6 s:ε q 4 String gehst wird akzeptiert und erzeugt gehv2.sg 11 / 18

Finite State Transducer (3) Ein finite state transducer (FST) M ist ein Tupel Q, Σ,, δ, q 0, F so dass Q, Σ, q 0, F sind wie bei einem NFA, ist das Ausgabealphabet, und δ : Q (Σ {ε} {ε}) P(Q) ist die Übergangsfunktion. D.h., δ gibt für einen Zustand und ein Paar aus Eingabe- und Ausgabesymbol einen Menge von möglichen neuen Zuständen an. Dabei ist ε bei Ein- und Ausgabesymbol mit eingeschlossen. Bsp.: δ(q 4, t, 2.Pl ) = {q 7 } 12 / 18

Finite State Transducer (4) Ein FSA kann auch als Generierer verwendet werden. D.h., Ein- und Ausgabe werden gewissermaßen vertauscht. g:g q 0 q e:e 1 q h:h 2 q 3 n:inf, n:1.pl, n:3.pl q 5 e:ε ε:v q 7 t:2.sg t:3.sg, t:2.pl q 6 s:ε q 4 String gehv2.sg wird akzeptiert und erzeugt gehst 13 / 18

Finite State Transducer (5) Ein FST kann als ein Automat mit zwei Bändern betrachtet werden. Lexikalische Ebene:... c a t N Pl... Oberfläche:... c a t s... Two-level morphology (Koskenniemi) Zusätzlich führen wir im Eingabealphabet Symboleˆund # ein für Morphemgrenze und Wortgrenze. 14 / 18

Finite State Transducer (6) FST für englische Singular- und Pluralmorphologie: ε:n q 0 reg-noun irreg-pl-noun irreg-sg-noun q 1 q 2 q 3 ε:n ε:n q 4 q 5 q 6 #:Sg #:Sg ŝ#:pl #:Pl Für die Platzhalter reg-noun, irreg-sg-noun und irreg-pl-noun müssen noch entsprechende Nomen eingesetzt werden. Außerdem müssen wir dafür sorgen, dass bei einem unregelmäßigen Plural der richtige Stamm ausgegeben wird. q 7 15 / 18

Finite State Transducer (7) fox, goose, cat: fox:fox, cat:cat goose:goose q 0 q 1 q 2 ε:n ε:n q 4 q 5 ŝ#:pl #:Sg q 7 #:Sg geese:goose q 3 ε:n q 6 #:Pl Außerdem benötigen wir orthographische Regeln der folgenden Art: e-insertion: e hinzufügen nach einem -s, -z, -x, -ch, -sh und vor -s 16 / 18

Finite State Transducer (8) Wir haben also drei Ebenen: Lex. Ebene:... f o x N Pl... Zwischenebene: Oberfläche:... f o x ˆ s #...... f o x e s Orthographische Regeln können ebenfalls als FSTs realisiert werden. Der Lexikalische FST und die FST für orthographische Regeln werden hintereinandergeschaltet (cascaded transducers) 17 / 18

Finite State Transducer (9) FST für e-insertion q 5 other z, s, x z, s, x s ˆ:ε z, s, x ˆ:ε ε:e q 1 q 2 q 3 q 0 other, #:ε z, x other, #:ε q 4 s ˆ:ε, other, #:ε #:ε (ein einzelnes a steht hier für das Paar a : a, z.b. z für z:z. other bezeichnet alles außer z,s,x,ˆ, #.) 18 / 18