Programmiertechniken in der Computerlinguistik II

Transkript

1 Programmiertechniken in der Computerlinguistik II Universität Zürich Institut für Computerlinguistik Sommersemester 2005 Dozent Simon Clematide Übungsbetreuung Daniela Landert Web

2 Programmiertechniken in der Computerlinguistik II Konzept-, Prädikats-, Operatoren- und Zeichenindex Legende: Ein Verweis wie meint die 13. Folie des 14. Kapitels. Inhaltsverzeichnis Sommersemester 2005 Organisatorisches... 1 Literaturhinweise Endliche Automaten Endliche Automaten Techniken Mengen-Prädikate Tokenizer Reguläre Mustererkennung Selektionsrestriktionen und (offene) Listen Komposition und Differenzlisten Morphologie und Buchstabenbäume Left-Corner-Parsing Dynamische Prädikate Charts Earley-Parser Charts: Subsumption Merkmalstrukturen Merkmalstrukturen in Prolog Grammatikentwicklung First-Argument-Indexing Last-Call-Optimization Software-Entwicklung mit Prolog /2: :/2: ::/2: [^ ]: 4.4 [ ]: 4.4 ^: 4.6 $: 4.6 +: 4.8 *: 4.8 {n,m}: 4.10f. abolish/1: 9.7 Akzeptor: DEA 0.16f. append_dl/4: 6.9f. asserta/1: 9.4 assertz/1: 9.5 Bottom-Up Parsing: 8.3 Chart: als Graph: 10.4 als Tabelle: 10.5 clause/2: 9.8 DCG: Morphologie: 7.5f. Effizienz: Offene Listen: 5.6 Differenzlisten: 6.7f. Buchstabenbäume: 7.14f. First-Argument-Indexing: 16.1 Last-Call-Optimization: 17.1 Exception-Handling: 3.15f. foreach/2: Fundamentalregel: 11.21f. Gepunktete Regeln: 10.10f. GULP: Kanten: aktiv: inaktiv: 10.9 Kantensubsumption: 12.9; Left Corner Relation: 8.5 Link-Relation: 8.15 Look-Ahead: 3.8f. Merkmalstruktur: als Graph: 13.5 als Funktion: 13.6 offene Liste: 14.8 Termschemata: Parsing: TopDown mit WFST: Pfad: 13:4f. koreferent: 13.9 retract/1: 9.6 Rekursive Übergangsnetzwerke: 1.2f. Substitutionsoperator: 4.11 subsumes_chk/2: 12.9 Termsubsumption: 12.7 Tilgungsregeln: Left-Corner-Parser: 8.16f. Earley-Parser: Übung 8 Top Down Parsing: 8.4,12.15f. Transduktoren: 1.7f. Unifikation: Merkmalstrukturen: Vollformenlexikon: 7.3 WFST: 10.8f.

3 Aufbau der Lehrveranstaltung (14 DL) Übungen Computerlinguistische Anwendungen in PROLOG Elementare und weiterführende Verfahren zur Analyse von Zeichenketten, Wörtern, Phrasen, Sätzen Endliche Automaten, Tokenisierung, Morphologie, Lexikon, Syntaxanalyse, Merkmalstrukturen Weiterführendere und effiziente Programmiertechniken Mengen-Prädikate, Exception-Handling, Dynamische Prädikate, Differenzlisten, offene Listen, First-Argument-Indexing, Last-Call-Optimization Crashkurs zur regulären Mustererkennung Teilakzessprüfung PCL II (bzw. APS-Prüfung PCL II) schriftliche Prüfung, Fr , h im KOL-I-321 Programmieren lernt, wer sich selbst an den Computer setzt, Lösungen ausdenkt und ausprobiert! Übungsaufgaben normalerweise wöchentlich (Aufwand mindestens 2h pro Woche) 2 betreute Übungsdoppelstunden pro Woche Schriftliche Abgabe (mit kommentierter Rückgabe) (Programmtext bitte direkt als Mail, nicht als Datei angehängt!) Subject: Prologkurs Uebung 1 To: dlander@access.unizh.ch.z Besprechung des weiterführenden Übungsstoffes in der Stunde Abgabe von Musterlösungenh Organisatorisches 1 Organisatorisches 2 Lösen der Übungen & QUIZ Folien und Übungsblätter Offizielle Übungsstunde (Prolog unter Windows 95) PC-Schulungsraum, Rämistr.74, Raum RAI-J003 Dienstag 12-14h & Donnerstag 14-16h QUIZ (Verständnis-Tests) erstellen Alle Studierenden erstellen zu einem Thema ein QUIZ mit mindestens 3 Verständnis-Fragen. Tests werden in unserer webbasierten E-Learning-Umgebung CLab publiziert. Interface für das Erstellen der QUIZ siehe Vorlesungsleitseite Wie üblich werden für die besten Beiträge Awards verteilt... Die Folien und Übungsblätter sind im WWW verfügbar. Adresse: Format: PDF-Dateien für Adobe Acrobat Programm zum Lesen der PDF-Dateien (ab Adobe Acrobat Reader 4) Neueste Version ab WWW: Für Druckerscheue Kopiervorlage des Skripts in ersten Vorlesungen bzw. bei mir im Büro Übungs- und Lösungsblätter in Papierform Wer will, bitte in Liste eintragen und nächstens CHF 3. mitbringen Organisatorisches 3 Seite 1 Organisatorisches 4

4 Einstiegsliteratur I Einstiegsliteratur II Kombinierte Einführungen zu Prolog und NLP (Natural Language Processing) in Buchform Esther König/Roland Seiffert: Grundkurs PROLOG für Linguisten. Tübingen: Francke, 199 Seiten,1989. (UTB 1525). DM 25. [Dt. Einführung in Prolog und simpelstes NLP. Äusserst verständlich geschrieben! "Prolog für Dummies"] Clive Matthews: An Introduction to Natural Language Processing through Prolog. London: Longman, 306 Seiten, USD 34. [Gute engl. Prolog-Einführung und grundlegendendste NLP-Anwendungen. Empfehlenswert, und man lernt die engl. Fachtermini (mit Glossar)!] Wilhelm Weisweber: Prolog: Logische Programmierung in der Praxis: Thomson, 384 Seiten, DM ca [Sehr sorgfältige dt. Prolog- Einführung und wichtigen Syntax-Anwendungen. Etwas teuer!] Literaturhinweise 1 Frei im Web erhältlich Christof Rumpf: Grundkurs Prolog WS '04/05 [Dt. Vorlesungsunterlagen zu einer sehr guten Prolog-Einführung mit einfachen NLP- Anwendungen wie maschinelle Übersetzung] Stefan Müller: Prolog und Computerlinguistik: Teil I - Syntax (Z.T. Übersetzung aus einem engl. Skript). 183 Seiten. [Dt. Einführung in Syntaxanalyse mit fundierter Theorie und Prolog-Implementationen. Sehr gute Qualität, aber z.t. erst in PCL II sinnvoll!] Unser Zürcher CL-Glossar Literaturhinweise 2 Standardliteratur Prologliteratur Computerlinguistik mit Prolog Michael A. Covington: Natural Language Processing for Prolog Programmers. Prentice Hall, 350 Seiten, USD 66. [Sehr sorgfältig aufgebaute Programme! Ausgezeichneter Programmier- und Analysestil!] Gerald Gazdar/Chris Mellish: Natural Language Processing in PROLOG: An Introduction to Computational Linguistics. Addison-Wesley, 504 Seiten, [Gute Beispiele, etwas weniger verständlich geschrieben als Covington!] Kommentar Die Bücher behandeln unterschiedlichste Bereiche der Computerlinguistik (Syntax, Morphologie, Semantik, Pragmatik) und präsentieren die Ansätze, wie sie in den 80er-Jahren entwickelt wurden. Als Grundlage immer noch nützlich! Der Prolog-Klassiker in 4. Auflage W.F. Clocksin/C.S. Mellish: Programming in Prolog. Springer, 282 Seiten, USD 37. Eine formidable praktische Einführung (online und druckbar) P. Blackburn/J. Bos/K. Striegnitz: Learn Prolog Now! Last but not least: SICStus-Prolog Homepage Handbuch mit Prädikatsindex; konzisen, aber guten Beispielen! Mit Verweisen auf Infos, Bibliotheken, Programme usw. Literaturhinweise 3 Literaturhinweise 4 Seite 2

5 Endliche Automaten (EA) Motivation Übersicht Endliche Automaten als Berechnungsmodell Beispiel-Automat: Der Lachautomat Verabeiten von Eingabeketten Akzeptieren von Eingabeketten Mengentheoretische Formalisierung Endliche Automaten in Prolog Nicht-Deterministische Endliche Automaten Sprachen von Endlichen Automaten Reguläre Ausdrücke Literatur Endliche Automaten (Finite-State Automata) sind mathematisch wohl-definiert und theoretisch aufgearbeitet Informatik: Grundlage der Berechenbarkeitstheorie Linguistik: Sind Teile der menschlichen Sprache mit Endlichen Automaten beschreibbar? Struktur von Wörtern, Sätzen, Dialogen leicht implementierbar und effizient ausführbar auf Computer in unterschiedlichsten Gebieten anwendbar Sprachverarbeitung: Tokenizer, Morphologie, Lexikon, Informationsextraktion, Phrasenerkennung, (Partielle) syntaktische Analyse Eigentliches Revival der sog. finite state methods in NLP feststellbar! Informatik: Compilertechnik, Kommunikationsprotokolle, Prozessmodellierung, abstrakte Maschinenmodelle! Endliche Automaten 1 Endliche Automaten 2 Beispiel: Ein Lachautomat Eingabe des Automaten Graphische Repräsentation Zustandsübergangdiagramm (transition diagram) h a! h Der Lachautomat erhält eine Zeichenkette als Eingabe: h a! h Was macht der Automat damit? h a h a! Endliche Automaten 3 Seite 3 Endliche Automaten 4

6 Beginn der Verarbeitung Ein einzelner Verarbeitungsschritt Zu Beginn der Automat ist im Startzustand er schaut auf das erste Zeichen der Eingabe Der Automat nimmt jenen Übergang, der vom aktuellen Zustand ausgeht und mit jenem Zeichen in der Eingabekette beschriftet ist, auf das der Automat gerade schaut. h a! h h a h a! h a! h h a h a! Endliche Automaten 5 Endliche Automaten 6 Ein einzelner Verarbeitungsschritt h a! h Beim Nehmen eines Übergangs springt der Automat in einen neuen Zustand und schaut auf das nächste Zeichen in der Eingabekette h a! h Endliche Automaten 7 h a h a! h a h a! Seite 4 Abarbeiten der Eingabe Der Automat konsumiert so Zeichen um Zeichen. h a! h h a! Endliche Automaten 8 h a h a! h h a h a! h a! h h a h a!

7 Abarbeiten der Eingabe Ende der Verarbeitung I Der Automat konsumiert Zeichen um Zeichen, bis auch das letzte Zeichen der Eingabe konsumiert wurde. h a! h h a h a! h a! h h a h a! Wenn die Eingabe vollständig konsumiert ist, gibt es zwei Möglichkeiten der aktuelle Zustand ist ein Endzustand 4 Automat hat die Eingabe akzeptiert der aktuelle Zustand ist kein Endzustand Automat hat die Eingabe nicht akzeptiert Ein Automat kann mehrere Endzustände besitzen! 3 Endliche Automaten 9 Endliche Automaten 10 Ende der Verarbeitung II Akzeptoren Kommt der Automat nicht weiter, weil kein Übergang zum aktuellen Eingabezeichen passt, ist die Eingabe ebenfalls nicht akzeptiert. Der Lachautomat ist ein Akzeptor. Eingabe: Zeichenkette Ausgabe:»akzeptiert«oder»nicht akzeptiert«h a! h h a i! ha! haha! hahaha! hahahaha! Ausgabe: Ja hi! aha! ah! hahah! ha Ausgabe: Nein h a! h Endliche Automaten 11 Seite 5 Endliche Automaten 12

8 Bestandteile Mengentheoretische Definition Bestandteile eines Endlichen Automaten Zustände States h i h a! ! a Alphabet Alphabet a 2 3 h h 1 2 h 3 2! 3 4 Übergänge Transitions 1 Startzustand Start State 4 Endzustände Final States Ein Endlicher Automat ist ein Fünf-Tupel S, Σ, δ, s, F Zustände h i! a Alphabet a 2 3 h 1 2 h 3 2! 3 4 Übergänge 1 Startzustand endliche, nicht leere Menge von Zuständen S Eingabe-Alphabet Σ partielle Übergangsfunktion δ: (S Σ ) S Startzustand s S Menge von Endzuständen F S 4 Endzustände Endliche Automaten 13 Endliche Automaten 14 Mengentheoretischer Lachautomat EA-Akzeptor in Prolog I h a! Die Struktur h a! h h Dieser Automat sei ein 5-Tupel S, Σ, δ, s, F mit S = {1, 2, 3, 4} Σ = {a, i, h,!} δ = { 1, h, 2, 2, a, 3, 3, h, 2, 3,!, 4 } s = 1 F = {4} start(1). delta(1, h, 2). delta(2, a, 3). delta(3, h, 2). delta(3,!, 4). h 1 2 final(4). 1 a 3 h 4 2 Startzustand 3 2! 3 4 Übergänge Endzustände Endliche Automaten 15 Seite 6 Endliche Automaten 16

9 EA-Akzeptor in Prolog II Die Abarbeitung Initialisierung init(string) :- start(startstate), accept(string, StartState). Abarbeitung der Eingabekette accept([], State) :- final(state). accept([char Chars], State) :- delta(state, Char, NextState), accept(chars, NextState). h a! h (Deterministische) Endliche Automaten Deterministische Endliche Automaten (DEA) Deterministic Finite-State Automata (DFA) Von einem Zustand gehen nur Übergänge mit verschiedenen Beschriftungen aus. Jeder Übergang konsumiert ein Zeichen der Eingabekette. Es kommt immer höchstens ein Übergang in Frage. h a! h Endliche Automaten 17 Endliche Automaten 18 Nicht-deterministische Endliche Automaten Sprache Endlicher Automaten Nicht-deterministische Endliche Automaten (NEA) Non-deterministic Finite-State Automata (NFA) Mehrere gleich beschriftete Übergänge von einem Zustand möglich ε-übergänge (epsilon) möglich, bei denen kein Eingabesymbol konsumiert wird Mehrere Übergänge können gewählt werden. Trotzdem: Jeder NEA kann in einen DEA konvertiert werden! Definition: Sprache eines Endlichen Automaten Die Menge aller Eingabeketten, die von einem Endlichen Automaten A akzeptiert werden, heisst Sprache des Automaten A, meist geschrieben als L( A ). L(Lachautomat) = {ha!, haha!, hahaha!, hahahaha!, } h a! h a! a h a! ε h Die Sprachen Endlicher Automaten können unendlich viele Elemente enthalten! Endliche Automaten 19 Seite 7 Endliche Automaten 20

10 Endliche Automaten und Reguläre Ausdrücke Lachen als Regulärer Ausdruck Die Sprachen, welche mit Endlichen Automaten erkannt werden können, heissen Regulären Sprachen. Reguläre Sprachen können auch durch Reguläre Ausdrücke beschrieben werden: a 1 2 Einzelnes Symbol des Alphabets: a a ε Repetition: (ab)+ b a 1 2 b Alternative: (a b) a ε Optionalität: (ab)? b a b Verkettung: ab a 1 2 ε Optionale Repetition: (ab)* b 3 Die Sprache, welche unser Lachautomat akzeptiert, kann als Regulärer Ausdruck spezifiziert werden. Achtung: Gewisse Diagramme lassen sich nicht 1:1 übertragen! Unterschiedliche Umformungen sind oft möglich! h a! a h(ah)*a! h a! ha(ha)*! h a! ε h (ha)+! Endliche Automaten 21 Endliche Automaten 22 Endliche Automaten Generatoren Literaturhinweise Aus Regulären Ausdrücken lassen sich automatisch Endliche Automaten generieren, die die Sprache akzeptieren, welche die Regulären Ausdrücke beschreiben! In der Computerlinguistik oft verwendet, insbesondere für morphologische Verarbeitung Anwendungen in sogenannten lex-werkzeugen, die für lexikalische Analyse beim Kompilieren von Programmiersprachen verwendet werden Anwendung beim Verabeiten von Suchmustern (pattern matching), die als Reguläre Ausdrücke angegeben werden. Z.B. in den Programmiersprachen Perl, JavaScript, Java, grep-tools von UNIX, Suche in MS Word usw. Mathematische Grundlagen der Linguistik Barbara H. Partee/Alice ter Meulen/Robert E. Wall: Mathematical Methods in Linguistics. Dordrecht: Kluwer Academic Publishers, Ausführliche, gut verständliche Einführung in Mengenlehre, Logik, Algebra, Lambda- Kalkül, Automatentheorie. Empfehlenswert. Verarbeitung Endlicher Automaten in Prolog Gerald Gazdar/Chris Mellis: Natural Language Processing in PROLOG: An Introduction to Computational Linguistics. Wokingham: Addison-Wesley, Seiten Programmierung einfacher computerlinguistischer Anwendungen mit EAs Wilhelm Weisweber: Prolog: Logische Programmierung in der Praxis: Thomson, Seiten Verarbeitung von EAs und Umwandlung von NEA zu minimalen DEA Reguläre Ausdrücke, Endliche Automaten und Prolog Endliche Automaten 23 Seite 8 Endliche Automaten 24

11 Endliche Automaten Techniken Rekursive Transitionsnetzwerke (RTN) Übersicht Rekursive Übergangsnetzwerke (RTN) RTN in Prolog Syntaxanalyse mit RTN Erweiterungen gegenüber EA S: NP 1 2 VP 3 Erweiterungen von RTNs Vom Akzeptor zum Transducer Beispiel: Lachautomat-Transduktor Implementation von Transduktoren in Prolog Lesen oder Schreiben? Kompilieren oder Interpretieren? Kanten sind lexikalische Kategorien! Det, N, Pn, Vt, Vi Kanten sind selbst Automaten! Literatur: Phrasen: S, VP, NP VP: NP: Vt 1 2 Vi Det 1 2 NP N 3 3 Gazdar/Mellish (1989: 59ff.) Matthews (1998: 141ff.) Pn Endliche Automaten Techniken 1 Endliche Automaten Techniken 2 RTNs in Prolog I RTN in Prolog II Lexikon Startzustände word(the, det). word(man, n). word(dog, n). word(peter, pn). word(smokes, vi). word(sees, vt). start(s, 1). start(np, 1). start(vp, 1). Endzustände final(s, 3). final(np, 3). final(vp, 3). Die Übergänge delta(s, 1, net(np), 2). delta(s, 2, net(vp), 3). delta(vp, 1, vi, 3). delta(vp, 1, vt, 2). delta(vp, 2, net(np), 3). delta(np, 1, pn, 3). delta(np, 1, det, 2). delta(np, 2, n, 3). Initialisierung Eine Zeichenkette gilt von einem Netzwerk als akzeptiert, falls ausgehend vom Startzustand des Netzwerks die ganze Zeichenkette abgearbeitet werden kann. init(string, StartNet) :- init(string, StartNet, []). Jedes Netzwerk konsumiert soviel von der Eingabekette, wie es ausgehend von seinem Startzustand akzeptiert. init(string, Net, RestString) :- start(net, StartState), accept(string, Net, StartState, RestString). Endliche Automaten Techniken 3 Seite 9 Endliche Automaten Techniken 4

12 RTN in Prolog III Erweiterungen von RTNs Abarbeitung Fall 1: Lexikalischer Übergang konsumiert Wort! accept([word String], Net, State, RestString) :- word(word, Cat), delta(net, State, Cat, NextState), accept(string, Net, NextState, RestString). Fall 2: Hineinspringen in Subnetzwerk ohne Zeichenkonsum! accept(string, Net, State, RestString) :- delta(net, State, net(subnet), NextState), init(string, SubNet, RestStringSubNet), accept(reststringsubnet, Net, NextState, RestString). Fall 3: Abbruchbedingung: Endzustand des Netzwerks erreicht! accept(string, Net, State, String) :- final(net, State). Komplexe Kanten Komplexe lexikalische Kategorien spezifizieren die üblichen morphosyntaktischen Beschränkungen Komplexe Automatenbezeichungen erlauben kantenübergreifende Kongruenzbeziehungen Allerdings: Die Welt der EA haben wir damit zugunsten mächtigerer Ausdrucksmittel verlassen. Aber: Warum sollen wir uns künstlich beschränken? S( 1 2 numerus(n)): NP( kasus(k), numerus(n)): NP( kasus(nom), numerus(n)) Det( kasus(k), numerus(n)) 1 2 VP(numerus(N)) 3 N( kasus(k), numerus(n)) Pn( kasus(k), numerus(n)) 3 Endliche Automaten Techniken 5 Endliche Automaten Techniken 6 Endliche Automaten vs. Transduktoren Lach-Transduktor Akzeptierende EAs: Einfach, aber eingeschränkt nützlich! Einfache akzeptierende Endliche Automaten sind ein gutes Modell, aber für die Praxis oft zu eingeschränkt! Wer mehr wissen will als nur "ja" oder "nein", muss den Formalismus aufbrechen (siehe RTN). Transducer: Einfach, und erst noch nützlich! Endliche Automaten, die zusätzlich zum Lesen auch noch Schreiben können, werden oft als Transduktoren (transducer) bezeichnet. Transduktoren können die beim Verarbeiten durchlaufenen Schritte nach Aussen kommunizieren ohne den Formalismus aufzubrechen! Endliche Automaten Techniken 7 Seite 10 Scanner-Interpretation mit Lese- und Schreibband h:h a:i!:? h a h a! h:h Endliche Automaten Techniken 8 h i h i Leseband Schreibband

13 Transduktor in Prolog I Transduktor in Prolog II start(1). h:h a:i!:? h:h delta(1, h, h, 2). delta(2, a, i, 3). delta(3, h, h, 2). delta(3,!,?, 4). final(4). h:h a:i 3 h:h 4 2 Startzustand!:? Übergänge Endzustände Transduktor Initialisierung init(input, Output) :- start(startstate), transduce(input, Output, StartState). h:h a:i!:? Abarbeitung transduce([], [], State) :- final(state). transduce([inchar InChars], [OutChar OutChars], State) :- delta(state, InChar, OutChar, NextState), transduce(inchars, OutChars, NextState). h:h Endliche Automaten Techniken 9 Endliche Automaten Techniken 10 Lesen oder Schreiben? Interpretieren oder kompilieren? Wir können in beide Richtungen schreiben bzw. lesen.?- init([h,a,'!'], R). R = [h,i,'?']; no?- init(r, [h,i,'?']). R = [h,a,'!']; no Wir können die Ein- und Ausgabesprache aufzählen lassen. Es gibt soviele Lösungen, wie die Sprache Elemente hat?- length(l1, _), init(l1, L2). L1 = [h,a,'!'] L2 = [h,i,'?']; L1 = [h,a,h,a,'!'] L2 = [h,i,h,i,'?'];... Automaten müssen nicht zwangsweise interpretiert werden! Automaten-Struktur und Abarbeitung lassen sich zu einem effizienteren, aber spezifischeren Programm verquicken! lachen(+ausgangszustand,?input,?output) lachen(in, Out) :- lachen(1, In, Out). lachen(1, [h RestIn], [h RestOut]) :- lachen(2, RestIn, RestOut). lachen(2, [a RestIn], [i RestOut]) :- lachen(3, RestIn, RestOut). lachen(3, [h RestIn], [h RestOut]) :- lachen(2, RestIn, RestOut). lachen(3, [!], [?]). Endliche Automaten Techniken 11 Seite 11 Endliche Automaten Techniken 12

14 Mengenprädikate findall/3 Lösungslisten finden Übersicht Lösungsmengen als Daten Alle Lösungen für ein Ziel erhalten (all solutions) findall/3 Ohne Backtracking und Variablenbindung Mit Backtracking auf ungebundene Variablen bagof/3 Lösungsliste kann Duplikate enthalten setof/3 Lösungsliste ist Menge Explizites Binden von Variablen durch Existenzquantor ^/2 Anwendungen von Mengenprädikaten word(cat, n). word(ring, n). word(do, v). word(ring, v). Das eingebaute Prädikat findall/3?- findall(word, word(word, Cat), Words). Words = [cat,ring,do,ring]? ; no berechnet alle Lösungen eines Ziels. Finde alle Wörter, egal von welcher Kategorie. liefert gewünschte Teile daraus als Elemente einer Liste zurück. Die Reihenfolge der Elemente entspricht der Reihenfolge, in der die Lösungen gefunden werden. ist wichtig, wenn alle Lösungen als Ganzes weiter verarbeitet werden sollen. Mengenprädikate 1 Mengenprädikate 2 findall/3 findall/3 Kontrollverhalten?- findall(word/cat, (word(word,cat), word(word,cat2), Cat \== Cat2), Ambig). Ambig = [ring/n,ring/v]? ; no Finde alle kategoriell ambigen Wörter mit ihren möglichen Kategorien. findall(term, Ziel, Liste) Term wird für jede Lösung von Ziel zu Liste hinzugefügt Ziel Ziel, das zu beweisen ist Liste enthält für jede Lösung von Ziel die entsprechende Instanz von Term?- findall(x, fail, Resultat). Resultat = []? ; no Kontrollverhalten falls das Ziel einfach fehlschlägt, ist die Liste leer freie Variablen in Term und Ziel werden nie gebunden! findall/3 terminiert nur, wenn der Suchbaum von Ziel endlich ist findall/3 gelingt höchstens einmal findall/3 kann nur scheitern, wenn die Liste instantiiert aufgerufen wird!?- findall(cat, word(word, Cat), [n,v,a]). no Mengenprädikate 3 Seite 12 Mengenprädikate 4

15 bagof/3 Existenzquantor ^/2 word(cat, n). word(ring, n). word(do, v). word(ring, v).?- bagof(word, word(word,cat), Words). Cat = n, Words = [cat,ring]? ; Cat = v, Words = [do,ring]? ; no Finde für jede Kategorie alle Wörter. word(cat, n). word(ring, n). word(do, v). word(ring, v).?- bagof(word, Cat^word(Word,Cat), Words). Words = [cat,ring,do,ring]? ; no Finde alle Wörter, von welcher Kategorie auch immer. Das eingebaute Prädikat bagof(term, Ziel, Liste) funktioniert wie findall/3, aber alle freien Variablen in Ziel, die nicht in Term vorkommen, werden gebunden, und Liste jeweils für eine unterschiedliche Bindung berechnet. falls Ziel nicht erfüllt werden kann, scheitert bagof/3. Der Existenzquantor ^ bindet freie Variablen in Ziel. ^/2 erlaubt es, die Lösungen für alle möglichen Belegungen für die Variable auf der linken Seite des Operators zu berechnen. ^/2 ist ein rechts-assoziativer Operator?- bagof(w, C1^C2^(word(W,C1),word(W,C2),C1 \== C2), W). Mengenprädikate 5 Mengenprädikate 6 setof/3 sortierte Lösungsmenge Anwendungen von Mengenprädikaten word(cat, n). word(ring, n). word(do, v). word(ring, v). word(nice, a).?- setof(cat, Word^word(Word,Cat), Cats). Cats = [a,n,v]? ; no Das eingebaute Prädikat setof(term, Ziel, Liste) funktioniert wie bagof/3, aber die Liste enthält keine Duplikate. die Liste ist entsprechend der Standardordnung für Terme sortiert. Finde die Menge aller Kategorien von welchen Wörtern auch immer. setof(term, Ziel, Menge) :- bagof(term, Ziel, Liste), sort(liste, Menge). Mögliche Definition von setof/3 Mengenprädikate sprengen den Rahmen der Prädikatenlogik erster Stufe. erlauben Dinge zu berechnen, die uns bis anhin unmöglich waren. Wie viele Lösungen hat eine Anfrage? Verschiedene Lösungen einer Anfrage vergleichen. Beispiel: Welcher Anteil von Wörtern im Lexikon ist ambig? ambig(anteil) :- setof(w, Cat^word(W,Cat), Ws), length(ws, AnzahlWoerter), setof(a, C1^C2(word(A,C1),word(A,C2),C1 \== C2), As), length(as, AnzahlAmbige), Anteil is AnzahlAmbige / AnzahlWoerter. Mengenprädikate 7 Seite 13 Mengenprädikate 8

16 Tokenizer Motivation Übersicht Was sind Tokenizer? Der Tokenizer von Covington Aufrufdiagramm Definition und Arbeitsweise der einzelnen Prädikate Programmiertechnik Look-Ahead Wort- und Satzgrenzen erkennen Tokenisieren von Dateien Probleme mit Dateiende und get_code/1 (bzw. get0/1) Auffangen von Exceptions mit catch/3 Programmiertechnik Exception-Handling Bisher: Linguistische Datenverarbeitung mit Prolog-Termen Einlesen von Text einzelne ASCII-Zeichen Prolog-Terme einlesen Mangel?- phrase(s, [the,cat,sleeps]). yes?- get_code(x). : a X = 97? yes?- read(x). : [a,cat,sleeps]. X = [a,cat,sleeps] yes Prolog hat keine vorgefertigte Eingabe-Möglichkeit, wo einfach ein Satz wie "The cat sleeps" zur Verarbeitung eingetippt bzw. eingelesen werden kann. Tokenizer 1 Tokenizer 2 Zweck und Funktion eines Tokenizers Ein einfacher Tokenizer Wie sollen Benutzende einen Satz eingeben? : These are words. [these, are, words,'.'] Praktisch für Benutzende Praktisch zum Programmieren Ein Tokenizer findet sich in Covington (1994: Anhang B) Aufruf des Tokenizers durch read_atomics/1 liest eine Zeile voll Buchstaben von der Standardeingabe ein gibt Liste der Atome der tokenisierten Zeile als Resultat zurück Grossbuchstaben werden in Kleinbuchstaben verwandelt Ein Tokenizer konsumiert als Eingabe eine Sequenz von Zeichen (Eingabestrom) gruppiert die Eingabezeichen zu sinnvollen Einheiten (Token) gewisse Eingabezeichen können dabei auch modifiziert werden produziert als Ausgabe die Sequenz der Token (Liste) Eingabe über Tastatur?- read_atomics(eingabe). : These are words. Eingabe = [these,are,words,'.']. Abschluss durch RETURN Tokenizer 3 Seite 14 Tokenizer 4

17 Aufrufdiagramm des Tokenizers Zeichen klassifizieren mit char_type/3 Aufrufdiagramme (call graphs) Ein Prädikat ruft die Prädikate auf, zu denen ein Pfeil führt Eingebaute oder Standard-Prädikate werden meist weggelassen Rekursive Prädikate sind durch Schlaufen verbunden Haupt- Prädikat read_atomics/1 read_char/2 char_type/3 Tokenizer 5 complete_line/3 complete_word/5 Aufrufdiagramm der Tokenizer Prädikate Das Hilfsprädikat char_type/3 klassifiziert Zeichen end Zeilenende blank Leerzeichen alpha alphanumerische Zeichen, d.h. Buchstaben und Ziffern special übrige Zeichen Zudem liefert char_type/3 das Zeichen als Kleinbuchstaben zurück.?- char_type(65, Type, Char). Type = alpha, Char = 97 Tokenizer 6 65 A 66 B 96 ` 97 a 98 b ASCII-Codes char_type/3 read_atomics/1 und read_char/2 char_type(10, end, 10) :-!. % UNIX end of line mark char_type(13, end, 13) :-!. % Macintosh/DOS end of line mark char_type(-1, end, -1) :-!. % get0 end of file code char_type(code, blank, 32) :- % blanks, other control codes Code =< 32,!. char_type(code, alpha, Code) :- % digits 48 =< Code, Code =< 57,!. char_type(code, alpha, Code) :- % lower-case letters 97 =< Code, Code =< 122,!. char_type(code, alpha, NewCode) :- % upper-case letters 65 =< Code, Code =< 90,!, NewCode is Code % translate to lower case char_type(code, special, Code). % anything else read_atomics/1: Erstes Zeichen (look ahead) einlesen und dann den Rest verarbeiten lassen Die Vorausschau von einem Zeichen brauchts zum Entscheid, ob das aktuelle Zeichen das letzte eines Wort-Tokens ist. read_atomics(atomics) :- read_char(firstchar, FirstType), complete_line(firstchar, FirstType, Atomics). read_char/2: Ein Zeichen einlesen und klassifizieren read_char(char, Type) :- get_code(enteredchar), char_type(enteredchar, Type, Char). Tokenizer 7 Seite 15 Tokenizer 8

18 complete_line/3 complete_line/3 besitzt folgende Argumente das look-ahead-zeichen: Integer dessen Typ (als Fallunterscheidung): Atom falls end: stoppen, da Zeile fertig eingelesen ist! falls blank: überspringen! falls alpha: Zeichen zum Wort-Token kompletieren! falls special: Zeichen zu eigenem Token machen! Ergebnisliste aus den einzelnen Tokens: Liste atomarer Terme complete_line/3 complete_line(_, end, []) :-!. complete_line(_, blank, Atomics) :-!, read_atomics(atomics). complete_line(char, special, [A Atomics]) :-!, name(a, [Char]), read_atomics(atomics). Rote oder grüne Cuts? Unter der Voraussetzung, dass das 2. Argument beim Aufruf von complete_line/3 immer instanziiert ist: grün!?- complete_line(97, alpha, Result). : bba, baba. Result = [abba, ',', baba, '.']. Beispiel-Anfrage 96 ` 97 a 98 b 99 c ASCII-Codes complete_line(firstchar, alpha, [A Atomics]) :- complete_word(firstchar, alpha, Word, NextChar, NextType), name(a, Word), complete_line(nextchar, NextType, Atomics). Tokenizer 9 Tokenizer 10 Spezifikation von complete_word/5 Implementation von complete_word/5 complete_word/5 besitzt folgende Argumente das look-ahead-zeichen dessen Typ 58 : 59 ; eine Liste, bestehend aus den ASCII-Codes 60 < der Zeichen, die zum gegenwärtigen Wort gehören dem nächstfolgenden Zeichen, das nicht zum Wort gehört, dessen Typ 96 ` 97 a 98 b 99 c 100 d 101 e ASCII-Codes?- complete_word(97, alpha, List, FollowChar, FollowType). : bba; List = [97, 98, 98, 97], FollowChar = 59, FollowType = special Rekursionsschritt Look-ahead ist alphanumerisch! FollowChar ist das zukünftige Look-ahead-Zeichen, das 1. Zeichen nach dem Wort! complete_word(firstchar, alpha, [FirstChar List], FollowChar, FollowType) :-!, % red Cut read_char(nextchar, NextType), complete_word(nextchar, NextType, List, FollowChar, FollowType). Abbruchbedingung Look-ahead ist nicht alphanumerisch! Es wird nichts mehr konsumiert, nur noch Wort-Zeichen-Liste abgeschlossen! Zukünftiger Look-Ahead wird auf aktuellen gesetzt! complete_word(firstchar, FirstType, [], FirstChar, FirstType). Tokenizer 11 Seite 16 Tokenizer 12

19 Schwierigere Fälle Satzgrenzen erkennen Welche Zeichen gehören zu welchem Token? Die Grille zirpt. Die Grille zirpt immer um 10. Die Grille zirpt immer am 10. Okt. Scarlett O Hara sagte Schau mir in die Augen, Kleines und erhielt dafür ca. Fr I said don t Doppelklick Bezeichnet ein Punkt das Ende eines Satzes? It was due Friday by 5 p.m. Saturday would be too late. She has an appointment at 5 p.m. Saturday to get her car fixed. Lösungsansätze»Jeder Punkt ist ein Satzende!«8-45% Fehlerquote (Englisch) Abkürzungswörterbuch, Regeln mit regulären Ausdrücken < 2% Training anhand Korpus < 2% Lösungsansatz mit Neuronalem Netz Palmer/Hearst (1994) (mit zusammenfassendem Einstieg ins Problem) Tokenizer 13 Tokenizer 14 Zeilenweises Tokenisieren von Dateien Ausnahmefall: Lesen über Dateiende Erste Idee Datei besteht aus Folge von Zeilen Einlesen aller Zeilen durch all-solution-prädikat Aber naive_tokenize_file(file, Lines) :- see(file), findall(line, (repeat,read_atomics(line)), Lines), seen. Wegen Determinismus von read_atomics/1 muss repeat/0 verwendet werden!?- naive_tokenize_file('gedicht.txt', Lines).! Existence error in get0/1! attempt to read past end of stream! goal: get0('$stream'( ),_76) Problem Dateiende darf nur einmal gelesen werden mit get_code/1! Bei einem weiteren Versuch wird eine exception ausgelöst!?- tell('leer.txt'),told. yes?- see('leer.txt'). yes?- get_code(c). C = -1 yes?- get_code(c).! Existence error in get0/2! attempt to read past end of stream! goal: get0('$stream'( ),_76) Tokenizer 15 Seite 17 Tokenizer 16

20 Ausnahmefälle behandeln Zeilenweise Tokenisieren von Dateien Das Metaprädikat catch(goal,pattern,handler) kann Ausnahmefälle auffangen. catch/3 ruft Goal auf Falls Goal gelingt oder scheitert, macht catch/3 dasselbe. Falls beim Beweis von Goal eine Exception E ausgelöst wird, passiert folgendes: Falls E mit Pattern unifiziert werden kann, wird als neues Ziel Handler aufgerufen. Falls E nicht mit Pattern unifiziert werden kann, wird E weiter hochgegeben. exceptions können beliebige Terme sein! exception für das Lesen über das Dateiende (leicht systemabhängig): existence_error(_,_,_,_,past_end_of_stream) Idee Tokenizer soll scheitern, falls über Dateiende gelesen wird safe_read_atomics/1 liest via Backtracking alle Zeilen safe_read_atomics(atomics) :- catch( (repeat, read_atomics(atomics)), % Goal existence_error(_,_,_,_,past_end_of_stream), % Pattern fail % Handler ). tokenize_file/2 liest alle Zeilen ein tokenize_file(file, Lines) :- see(file), findall(line, safe_read_atomics(line), Lines), seen. Tokenizer 17 Tokenizer 18 Literaturhinweise I Literaturhinweise II Tokenizer Michael A. Covington (1994): Natural Language Processing for Prolog Programmers. Prentice Hall. Eine verbesserte Version mit etwas anderem Output findet sich unter bzw. Doku unter et.pdf Palmer, David D. (2000): Tokenisation and Sentence Segmentation. In: Handbook of natural language processing, edited by R. Dale, H. Moisl and H. Somers. New York. S Satzgrenzenerkennung David D. Palmer/Marti A. Hearst (1994): Adaptive Sentence Boundary Disambiguation. In: Proceedings of the ANLP 94, Stuttgart. Programmieren mit Exceptions SICStus Prolog Handbuch: Dokumentation zu den folgenden Prädikaten für das Auffangen und Auslösen von Ausnahmen: catch/3 throw/1 Tokenisieren mit andern Programmiersprachen Es kann sinnvoll sein, Prolog nur für strukturell komplexere Teile eines Programms einzusetzen und die Tokenisierung in einer Sprache zu realisieren, welche einfache und mächtige Stringbehandlung enthält. siehe Programmiersprachen Perl, Ruby Tokenizer 19 Seite 18 Tokenizer 20

21 Reguläre Mustererkennung Mustererkennung Übersicht Suche von Zeichenketten mittels regulärer Ausdrücke Eine Anwendung von Endlicher Automaten Technik Reguläre Suchmuster: Zeichenketten Zeichenklassen Verankerungen Optionalität Disjunktion, Gruppierung Wiederholungen Suchstrategien: Eifrig und gierig! Ersetzen mit Regulären Ausdrücken Mustererkennung (pattern matching) in Zeichenketten In Textverarbeitungsprogrammen und vielen Programmiersprachen Hier: Mustererkennung wie es in Perl oder JavaScript 1.2 zur Verfügung steht Leider gibt es von Programm zu Programm kleinere und grössere Unterschiede in der konkreten Syntax. Die Prinzipen selbst sind allerdings stabil. Zeilenweise Mustererkennen Z.B. grep-tool: Zeige alle Zeilen, in denen ein Muster vorkommt Hier: Zeige das gefundene Muster in einer Zeichenkette Einmaliges vs. mehrfaches Erkennen Hier: Nur sogenannter first match Erweiterungen mit Ersetzen Mehrfaches Ersetzen bringt zusätzliche Schwierigkeiten Reguläre Mustererkennung 1 Reguläre Mustererkennung 2 Zeichenketten Zeichenklassen Wörtliche Zeichen Zeichenketten (mit relevanter Gross-/Kleinschreibung) /Peter Pan/ matcht "Aber Peter Pan sagte:" /die/ matcht "Die Radieschen schmecken." Zeichen mit Sonderbedeutung Die Zeichen.?()[]{}*+ ^$\ müssen mit \ geschützt werden. Dem schützenden Steuerzeichen (escape char) zusammen mit dem geschützten Zeichen sagt man escape sequence. /z\.b\. nicht\?/ matcht "Wer mag das z.b. nicht?" Zeichen für Sonderzeichen Tabulator (\t), Zeilenvorschub (\n ), Wagenrücklauf (\r) /\ttabulatoren\t/ matcht "Viele Tabulatoren " Zeichenauswahl Zwischen eckigen Klammern stehen alternative Zeichen. /[dd]ie/ matcht "Die Birne" oder "das Radieschen" /[ ] h/ matcht "Das dauert 2 h." oder "Das dauert 3 h." Zeichenausschluss Das Dach in[^chars] schliesst alle nachfolgenden Zeichen aus. /[^aeiou][^aeiou]/ matcht "abba" Zeichenbereiche Der Bindestrich erlaubt Bereiche von nachfolgenden Zeichenkodes. /Kapitel [0-9]/ matcht "Kapitel 4.2" /[A-Z][A-Z][A-Z]/ matcht "laut BBC wurde" Reguläre Mustererkennung 3 Seite 19 Reguläre Mustererkennung 4

22 Vorgefertigte Zeichenklassen Verankerungen Wildcards: Vorgefertigte Zeichenklassen Der Punkt steht für ein einzelnes Zeichen ausser \n. /... / matcht "Aber der Frosch sprach" \d steht für eine Ziffer von 0 bis 9 /CH\-\d\d\d\d/ matcht "CH-8580 Amriswil" \s steht für Layoutzeichen (Leerzeichen, Zeilenende, Tabulatoren) /,\s/ matcht "Er kommt, ich weiss es." \w steht für ein alphanumerisches Zeichen oder Unterstrich Orientiert sich an Bezeichnern in Programmiersprachen wie C oder Perl /\w\w\w\w/ matcht "Was, 99$ kostet das?" Grosse Wildcards sind ausgeschlossene kleine: \D = [^\d], \S = [^\s], \W =[^\w] Verankerungen: Positionieren von Suchmustern Mit dem Dach suchen wir am Anfang der Zeichenkette /^die/ matcht "die Radieschen" Mit dem Dollar suchen wir am Ende der Zeichenkette /die$/ matcht "die Parodie" Mit \b suchen wir an einer Wortgrenze /\bdies\b/ matcht "Den Radieschen ist der 'dies academicus' egal." Als Wortgrenze zählen nebst allen Zeichen, die \W matchen noch Anfang und Ende von Zeichenketten. Mit \B suchen wir nicht an einer Wortgrenze. Praktisch: /\B...\b/ matcht Suffixe, /\b...\b/ matcht Präfixe Die Verankerungen selbst matchen keine Zeichen! Reguläre Mustererkennung 5 Reguläre Mustererkennung 6 Optionalität, Gruppierung, Disjunktion Wiederholungen Optionale Zeichen Das Fragezeichen macht das vorausgehende Zeichen optional: /Microsofts?/ matcht "Microsoft verschenkt Programme." Optionale Muster Dank Klammerung lassen sich reguläre Muster optional setzen: /(Bill )?Gates/ matcht "Gates als Wohltäter" Disjunktion Der senkrechte Strich ist ein Infixoperator, der alternative Ausdrücke trennt mit niedrigste Präzedenz. /das die/ matcht "Gates verärgert die Aktionäre." /, (die das der)/ matcht "Das Programm, das niemand kauft." +: Mindestens einmal repetieren Zeichen repetieren /\d+/ matcht "Er feiert den 25. Geburtstag." Um Muster zu repetieren, braucht es Klammern: /([Hh]a)+!/ matcht "Er: Hahahaha!" *: Beliebig oft wiederholen Beliebig heisst null oder mehr Mal... /x*/ matcht "" oder "xxx" /the*/ matcht "theee" /Ha(ha)*!/ matcht "Hahaha!" Achtung: Was matcht /h*/ in "d.h."? Reguläre Mustererkennung 7 Seite 20 Reguläre Mustererkennung 8

23 Matching-Strategien Wiederholungen II Matching ist mehrdeutig /h*/ matcht nicht bloss "d.h.", sondern noch ε vor und nach allen Buchstaben! D.H. "εd.h.", "dε.h.", "d.εh.", "d.hε.", "d.h.ε" Strategie I: Sei eifrig! (eager) Matche die am weitesten links stehende Zeichenkette! /h*/ matcht zuerst "εd.h." Matching ist mehrdeutig /a!*/ passt nicht bloss auf "ha!!!", sondern auch auf "ha!!!", "ha!!!" und "ha!!!" Strategie II: Sei gierig! (greedy) Matche soviele Zeichen wie möglich mit einem Ausdruck! /a!*/ matcht "ha!!!" {n}: Genau n Mal wiederholen! /\d{2}(-\d{3}){2}/ matcht "Immatrikulationsnummer " {min,max}: Mindestens min Mal und höchstens max Mal wiederholen /ha{3,6}!/ matcht "haaaa!", aber nicht "haa!" oder "haaaaaaa!" {n,}: Mindestens n Mal wiederholen! Beispiel: Suche Sätze, die mindestens 3 Komma enthalten! /(.*,.*){3,}/ Beispiel: Suche Sätze, die genau 3 Komma enthalten! /^([^,]*,[^,]*){3}$/ Reguläre Mustererkennung 9 Reguläre Mustererkennung 10 Ersetzen mit Regulären Ausdrücken Literatur Oft soll die gefundene Zeichenkette ersetzt werden. Ersetzungsoperator: s/suchmuster/ersetzungstext/ s/z\.?b\./zum Beispiel/ Oft sollen nur bestimmte Teile der gefundenen Zeichenkette modifiziert werden. Geklammerte Ausdrücke im Suchmuster stehen im Ersetzungstext als nummerierte Register ($n) zur Verfügung n-tes Register enthält Ausdruck mit n-ter öffnender Klammer (von links nach rechts) s/(\w+) \w+ (\w+)/$2 $1/ modifiziert "das alte Haus" zu "Haus das" Beispiel "Satzendeerkennung" Einsetzen eines Leerzeichen vor Satzendpunkten s/(\. ["\(«'])/ $1/ modfiziert "Er log. "Soso!" zu "Er log. "Soso!" Minitutorat mit Beispielen und Übungen zum Trainieren Literatur Friedl, Jeffrey E. F. (1998): Reguläre Ausdrücke. "Bibel der Regulären Ausdrücke": Widmet sich umfassend dem Umgang mit Regulären Ausdrücken in verschiedenen UNIX-Tools und Perl. Jurafsky, D., Martin, J. (2000): Speech and Language Processing: An Introduction to Natural Language Processing. S Verständliche Einführung mit einigen praktischen Beispielen. Handbücher zur Programmiersprache PERL Hilfe zu MS Word Reguläre Mustererkennung 11 Seite 21 Reguläre Mustererkennung 12

24 Semantische Restriktionen und Listen Selektionsrestriktionen * Übersicht Selektionsrestriktionen und Lesarten Hierarchische Strukturierung einfach vs. multiple Vererbung Selektionsbeschränkungen im Verb Offene Listen für Mindestanforderungen Selektionsbeschränkungen bei Substantiven Geschlossene Pfade im Hierarchiebaum Tradition Valenzwörterbuch Elektronische Thesaurusprojekte Relationale lexikalische Semantik im Stil von WordNet Selektionsbeschränkungen Tiere können quieken, Pflanzen und Gegenstände nicht: Tiere und Pflanzen können verdursten, nicht aber Gegenstände: Lesarten Die Katze quiekt. Die Katze verdurstet. Die Kokospalme verdurstet. Hans kocht. Die Suppe kocht. Mit Stern werden in der Linguistik ungrammatische oder unakzeptable Sätze/Konstruktionen markiert. *Die Kokospalme quiekt. *Die Linsensuppe quiekt. *Die Linsensuppe verdurstet. *Hans und die Suppe kochen. Semantische Restriktionen und (offene) Listen 1 Semantische Restriktionen und (offene) Listen 2 Hierarchische Selektionsrestriktionen Einfache vs. multiple Vererbung Es kann hilfreich sein, diese Beschränkungen hierarchisch zu definieren. gefrieren Gegenstand flüssig Suppe fest Lampe Entität Lebewesen Tier Katze quieken Pflanze Palme verdursten Einfachvererbung (simple inheritance) Ein Knoten ererbt von max. einem Elternteil die Eigenschaften baum-förmige Struktur einfache Implementierung Mehrfachvererbung (multiple inheritance) Ein Knoten ererbt Eigenschaften Lebewesen von mehreren Elternteilen netz-förmige Struktur schwierigere Implementierung Tier Pflanze Katze Koralle Palme Beispiel Mehrfachvererbung Semantische Restriktionen und (offene) Listen 3 Seite 22 Semantische Restriktionen und (offene) Listen 4

25 Einfache Vererbung in Prolog DCG mit Selektionsbeschränkungen Selektionsbeschränkungen mit einfacher Vererbung lassen sich in Prolog mit offenen Listen implementieren. Bei Verben werden die minimalen Beschränkungen spezifiziert v([entitaet,gegenstand,fluessig _]) --> [gefriert]. Jedem Nomen wird der Platz in der Hierarchie zugeordnet. n([entitaet,gegenstand,fluessig,suppe]) --> [linsensuppe]. Implementation mit einer Prolog-DCG: s --> np(sel), vp(sel). np(sel) --> det, n(sel). vp(sel) --> v(sel). det --> [die]. n([entitaet,lebewesen,tier,katze]) --> [katze]. n([entitaet,lebewesen,pflanze,palme]) --> [kokospalme]. n([entitaet,gegenstand,fest]) --> [schreibtischlampe]. n([entitaet,gegenstand,fluessig,suppe]) --> [linsensuppe]. gefrieren Entität Gegenstand Lebewesen flüssig fest Tier Pflanze v([entitaet,lebewesen _]) --> [verdurstet]. v([entitaet _]) --> [existiert]. v([entitaet,lebewesen,tier _]) --> [quiekt]. v([entitaet,gegenstand,fluessig _]) --> [gefriert]. Linsensuppe Suppe Lampe Katze Palme Semantische Restriktionen und (offene) Listen 5 Semantische Restriktionen und (offene) Listen 6 Tradition "Valenzwörterbuch" Thesaurusprojekte Objekt konkretes Individuum Lebewesen Individuum Sachverhalt Zustand Vorgang Entität abstraktes Individuum Regularität Substanz Stoff Institution Vereinfachter Auszug aus: H. Schumacher [Hrsg.]: Verben in Feldern. Valenzwörterbuch zur Syntax und Semantik deutscher Verben. Berlin: De Gruyter, WordNet ein elektronischer Thesaurus Eine relationale lexikalische Durchstrukturierung des Wortschatzes mit Ober-/Unter-/Synonymiebegriffen etc. in elektronisch zugänglicher Form wurde im "WordNet"-Projekt fürs Englische realisiert. Für Verben, Substantive, Adjektive und Adverbien Europäische Ableger Etwas Ähnliches für europäische Sprachen wurde im Projekt "EuroWordNet" gemacht, fürs Deutsch im "GermaNet". [EuroWordNet] [GermaNet] Semantische Restriktionen und (offene) Listen 7 Seite 23 Semantische Restriktionen und (offene) Listen 8

26 Komposition und Differenzlisten Komposition als Verkettung Übersicht Morphologie: Fallbeispiel Komposition Komposition als Listenverkettung Stämme und ihre Information Komposition und Vererbung von Information Effizienzprobleme mit append/3 Differenzlisten Offene Listen + Zugriff auf Restliste Verkettung von Differenzlisten: append_dl/3 Implizites Verketten durch Variablenbindung Differenzlisten sind wichtigste Datenstruktur in Prolog für effiziente Verarbeitung sequentieller Daten! arbeit+s+zeit Kompositionsanalyse Simple Idee zur Bildung und Analyse von Komposita Listen von Buchstabenatomen repräsentieren Einfache Worte Allfällige Fugen (z.b. s, en, n) Komposition ist Listenverkettung, sowohl für Analyse wie Synthese [a,r,b,e,i,t]+[s]+[z,e,i,t] Repräsentation in PROLOG?- append([b,r,o,t], N, [b,r,o,t,z,e,i,t]). N = [z,e,i,t]?- append([b,r,o,t], [z,e,i,t], K). K = [b,r,o,t,z,e,i,t] Komposition und Differenzlisten 1 Komposition und Differenzlisten 2 n_stamm/4 und n_comp/4 append/3 Nominalstämme: n_stamm/4 i. Zeichenfolge ii. Flexionsklasse iii. Genus iv. Fugenforderung Nominalkomposita: n_comp/4 i. Zeichenfolge ii. Flexionsklasse des Kompositum iii. Genus des Kompositum iv. Fugenforderung des Kompositum n_stamm([a,r,b,e,i,t], 1, f, [s]). n_stamm([z,e,i,t], 1, f, []). n_stamm([b,r,o,t], 1, n, []). n_stamm([p,a,u,s,e], 2, f, [n]). n_comp(kompositum, Flexion, Genus, Fuge) :- n_stamm(stamm1, _, _, Fuge1), append(stamm1, Fuge1, Teil1), n_stamm(stamm2, Flexion, Genus, Fuge), append(teil1, Stamm2, Kompositum). Listen verketten append([], L2, L2). append([x L1], L2, [X L3]) :- append(l1, L2, L3). Die Laufzeit ist proportional zur Länge der ersten Liste. rekursives Abarbeiten der ersten Liste für jedes Element der ersten Liste ein rekursiver Aufruf Komposition und Differenzlisten 3 Seite 24 Komposition und Differenzlisten 4

27 Effizienzüberlegungen Verbesserungsmöglichkeiten Verwendung von append/3 führt zu grosser Ineffizienz um Fugenelement anzuhängen, muss das Erstglied vollständig dekomponiert werden 3 2 Call: append([a,r,b,e,i,t],[s],_522)? 9 8 Exit: append([],[s],[s])? 3 2 Exit: append([a,r,b,e,i,t],[s],[a,r,b,e,i,t,s])? bevor falsches Erstglied bemerkt wird, werden alle Zweitglieder ausprobiert 11 2 Call: append([a,r,b,e,i,t,s],[a,r,b,e,i,t],[b,r,o,t,z,e,i,t]) 11 2 Call: append([a,r,b,e,i,t,s],[z,e,i,t],[b,r,o,t,z,e,i,t]) 11 2 Call: append([a,r,b,e,i,t,s],[b,r,o,t],[b,r,o,t,z,e,i,t]) 11 2 Call: append([a,r,b,e,i,t,s],[p,a,u,s,e],[b,r,o,t,z,e,i,t]) es werden blind alle Kombinationen versucht, bis allenfalls die passende Struktur erscheint Komposition und Differenzlisten 5 Wie optimieren? Fallunterscheidung, falls Fugenelement "leer" ist Effizienteres append/3 mit Akkumulatortechnik verwenden Nur minime Verbesserung! Falsche Erstglieder sofort erkennen und nicht noch Zweitglied mutieren Bessere Datenstruktur wählen, die Listenverkettung zulässt, ohne dass eine Liste immer vollständig auseinander zu nehmen ist Erstaunlicherweise gibt es eine Prolog-Datenstruktur, mit der die letzten 2 Punkte verbessert werden können: Differenzlisten Komposition und Differenzlisten 6 Differenzlisten Differenzlisten II Die Liste [1,2,3] als Differenz unterschiedlicher Listen [1,2,3] [1,2,3,4,5] [4,5] [1,2,3] [1,2,3 [bla]] [bla] [1,2,3] [1,2,3] [ ] Listen können leicht in Differenzlisten mit denselben Elementen umgewandelt werden: [1,2, ] [1,2, X] - X Allgemeinstes Schema [1,2,3] [1,2,3 X] - X Offene Liste Differenzoperator Rest-Variable (durch Unifikation Zugriff auf Inneres der Offenen Liste) [] X - X n_stamm([z,e,i,t], 1, f, []). n_stamm_dl([z,e,i,t X]-X, 1, f, Y-Y). Komposition und Differenzlisten 7 Seite 25 Komposition und Differenzlisten 8

28 append_dl/3 Listen verketten mit Differenzlisten append_dl(a-b, B-C, A-C). A?- append_dl([1,2 X]-X, [4,5]-[], Z). Anwendung von append_dl/3 n_comp_dl(a-d, Flexion, Genus, Fuge-E) :- n_stamm_dl(a-b, _, _, B-C), append_dl(a-b, B-C, A-C), n_stamm_dl(c-d, Flexion, Genus, Fuge-E), append_dl(a-c, C-D, A-D).?- n_comp_dl([a,r,b,e,i,t,s,z,e,i,t]-[], Flex, Gen, Fuge-E). B A B A C B C Laufzeit ist konstant C keine Rekursion, sondern simple Term-Unifikation?- append_dl([1,2 X]-X, [4,5 Y]-Y, Z). A B A C B C A D C D A B C D Komposition und Differenzlisten 9 Komposition und Differenzlisten 10 n_stamm_dl/4 und n_comp_dl/4 Redundanz von append_dl/3 Nominalstämme Zeichenfolge als Differenzliste Fugenforderung als Differenzliste Nominalkomposita: n_comp_dl/4 i. Zeichenfolge als Differenzliste ii. Flexionsklasse iii. Genus iv. Fugenforderung als Differenzliste n_stamm_dl([a,r,b,e,i,t X]-X, 1, f, [s Y]-Y). n_stamm_dl([z,e,i,t X]-X, 1, f, Y-Y). n_stamm_dl([b,r,o,t X]-X, 1, n, Y-Y). n_stamm_dl([p,a,u,s,e X]-X, 2, f, [n Y]-Y). n_comp_dl(a-d, Flexion, Genus, Fuge-E) :- n_stamm_dl(a-b, _, _, B-C), append_dl(a-b, B-C, A-C), n_stamm_dl(c-d, Flexion, Genus, Fuge-E), append_dl(a-c, C-D, A-D). Die beiden Aufrufe von append_dl sind redundant, da alle Variablen schon vorher identisch instantiiert sind. n_comp_dl(a-d, Flexion, Genus, Fuge-E) :- n_stamm_dl(a-b, _, _, B-C), append_dl(a-b, B-C, A-C), n_stamm_dl(c-d, Flexion, Genus, Fuge-E), append_dl(a-c, C-D, A-D). Deshalb kurz und elegant: n_comp_dl(a-d, Flexion, Genus, Fuge-E) :- n_stamm_dl(a-b, _, _, B-C), n_stamm_dl(c-d, Flexion, Genus, Fuge-E). Komposition und Differenzlisten 11 Seite 26 Komposition und Differenzlisten 12

29 Morphologie und Buchstabenbäume Motivation Übersicht Vollformen Morphologie als Wortgrammatik Simple DCG als Wortgrammatik: Stämme und Endungen, Flexionsklassen Schnittstelle zwischen Syntax/Morphologie Grenzen einfacher konkatenativer Morphologie Überlegungen zur Effizienz Tries: Buchstabenbäume Datenstruktur Buchstabenbäume (tries) find_word/3: Wörter finden im Buchstabenbaum find_morph/4: Wortteile finden im Buchstabenbaum Stammbäume und Suffixbäume Konkatenative Morphologie mit Buchstabenbäumen Womit befasst sich die Morphologie? Wortstruktur und Wortbildung! Flexion trenn+en, trenn+e, trenn+test, trenn+ten, ge+trenn+t, trenn+end, Komposition Fruchtbarkeit+s+gott, Fruchtbarkeit+s+göttinnen+verehrung+s+zeremonie+n+meister, Derivation Frucht, frucht+en, frucht+bar, un+frucht+bar, Un+frucht+bar+keit, Wie viele Wörter gibt es? der viermillioneneinhunderttausendundzweite Schluck das In-der-Schlange-Stehen Morphologie und Buchstabenbäume 1 Morphologie und Buchstabenbäume 2 Vollformen-Lexikon Morphologie als "Wortgrammatik" Vollformen-Lexikon als Prolog-Datenbank für jede Wortform alle möglichen Funktionen angeben lexikalisch, morphosyntaktisch, semantisch, pragmatisch, Nachteile immer unvollständig wegen produktiven Wortbildungen je nach Sprache aufwändiger für flexionsarmes Englisch machbar Morphologie und Buchstabenbäume 3 lex(kind, n, nom, sg, 'KIND'). lex(kindes, n, gen, sg, 'KIND'). lex(kinde, n, dat, sg, 'KIND'). lex(kind, n, dat, sg, 'KIND'). lex(kind, n, akk, sg, 'KIND'). lex(kinder, n, nom, pl, 'KIND'). lex(kinder, n, gen, pl, 'KIND'). lex(kindern, n, dat, pl, 'KIND'). lex(kinder, n, akk, pl, 'KIND'). Flexionsformen von»kind«für flexionsreicheres Deutsch schon anspruchsvoller (pro Substantiv <8 Formen) für Finnisch problematisch: Finnische Verben haben ~ Formen Aber: Leistungsfähigere Computersysteme ermöglichen Dinge, die vor wenigen Jahren nicht machbar waren! Seite 27 Satzgrammatik = Wörter + syntaktische Kategorien + Verknüpfungsregeln Wortgrammatik = Morpheme + morphologische Kategorien + Verknüpfungsregeln Det der Stamm Stamm Affix Kind er S NP VP N V Hund bellt N Affix Stamm lied er Beide "Grammatiken" können im DCG-Formalismus notiert werden Morphologie und Buchstabenbäume 4