Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Ähnliche Dokumente
Mathematische Grundlagen der Computerlinguistik Bäume

Formale Methoden 1. Gerhard Jäger 7. November Uni Bielefeld, WS 2007/2008 1/18

Linguistik für Kognitionswissenschaften 1:[1em] Formale Komplexität 21. Oktober natürlicher 2010 Sprachen 1 / 33

Kontextfreie Sprachen Kontextfreie Sprachen und Grammatiken. Satzformen sind die Wörter aus (N T ). Notation: Wir verwenden oft

Formale Methoden 1. Gerhard Jäger 14. November Uni Bielefeld, WS 2007/2008 1/17

Lemma Für jede monotone Grammatik G gibt es eine kontextsensitive

Mathematische Grundlagen der Computerlinguistik Ordnungsrelationen

2.1 Grundlagen: Kontextfreie Grammatiken

Formale Methoden 1. Gerhard Jäger 28. November Uni Bielefeld, WS 2007/2008 1/15

Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie

Definition 4 (Operationen auf Sprachen) Beispiel 5. Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A + = n 1 An

Mathematische Grundlagen der Computerlinguistik Ordnungsrelationen

Theoretische Grundlagen des Software Engineering

Kapitel: Die Chomsky Hierarchie. Die Chomsky Hierarchie 1 / 14

Grundlagen der Theoretischen Informatik

Teil V. Weiterführende Themen, Teil 1: Kontextsensitive Sprachen und die Chomsky-Hierarchie

Automatentheorie und formale Sprachen

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen

Formale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23

Theoretische Grundlagen der Informatik

Formale Sprachen. Grammatiken und die Chomsky-Hierarchie. Rudolf FREUND, Marian KOGLER

Seminar: Algorithmisches in der Geometrie Ausarbeitung zu Vortrag 9. Triangulierungen im Cayley-Graph und Enden von kontextfreien Gruppen

Automaten und formale Sprachen Klausurvorbereitung

Theoretische Informatik Mitschrift

Formale Sprachen. Grammatiken. Grammatiken und die Chomsky-Hierarchie. Rudolf FREUND, Marion OSWALD. Grammatiken: Ableitung

Kapitel IV Formale Sprachen und Grammatiken

Formale Sprachen. Script, Kapitel 4. Grammatiken

Grundlagen der Theoretischen Informatik

2.1 Allgemeines. Was ist eine Sprache? Beispiele:

Formale Methoden 1. Gerhard Jäger 16. Januar Uni Bielefeld, WS 2007/2008 1/19

Programmiersprachen und Übersetzer

Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht

Ordnungsrelationen auf Mengen. Beispiel einer Ordnungsrelation. Spezielle Elemente von Ordnungen. Spezielle Elemente von Ordnungen

WS 2013/14. Diskrete Strukturen

Graphen und Bäume. A.1 Graphen

Algorithmen und Datenstrukturen I - Exkurs Formale Sprachen -

Grammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S)

Grundbegriffe. Grammatiken

Übungsblatt 1 - Lösung

Theoretische Informatik Testvorbereitung Moritz Resl

Linguistische Grundlagen 6. Semantik

Formale Sprachen und Automaten

I.5. Kontextfreie Sprachen

Einführung in die mathematische Logik

Formale Systeme. Aussagenlogik: Sequenzenkalkül. Prof. Dr. Bernhard Beckert WS 2010/2011 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

Grundlagen der Theoretischen Informatik

Zusammenfassung. Beispiel. 1 Wir betrachten die folgende Signatur F = {,, +, 0, 1} sodass. 3 Wir betrachten die Identitäten E. 4 Dann gilt E 1 + x = 1

Theoretische Informatik I

Einführung in die Informatik 2

Diskrete Strukturen Kapitel 4: Graphentheorie (Bäume)

Diskrete Strukturen Kapitel 2: Grundlagen (Relationen)

Mathematische Strukturen

Eine Relation R in einer Menge M ist eine Teilmenge von M x M. Statt (a,b) R schreibt man auch arb.

Einführung in die Theoretische Informatik

Theoretische Informatik 2 (WS 2006/07) Automatentheorie und Formale Sprachen 19

Theoretische Grundlagen der Informatik

Zentralübung zur Vorlesung Theoretische Informatik

3. Klausur Einführung in die Theoretische Informatik Seite 1 von Welches der folgenden klassischen Probleme der Informatik ist entscheidbar?

Formale Methoden 1. Gerhard Jäger 23. Januar Uni Bielefeld, WS 2007/2008 1/18

Lösungen zur 1. Klausur. Einführung in Berechenbarkeit, formale Sprachen und Komplexitätstheorie

6 Modellierung von Strukturen 6.1 Kontextfreie Grammatiken

1. Klausur Einführung in die Theoretische Informatik Seite 1 von 14

2.11 Kontextfreie Grammatiken und Parsebäume

Mathematik I für Studierende der Informatik und Wirtschaftsinformatik (Diskrete Mathematik) im Wintersemester 2017/2018

Beschreibungskomplexität von Grammatiken Definitionen

Berechenbarkeit und Komplexität

Einführung in die Computerlinguistik

WS 2009/10. Diskrete Strukturen

WS06/07 Referentin: Katharina Blinova. Formale Sprachen. Hauptseminar Intelligente Systeme Dozent: Prof. Dr. J. Rolshoven

Berechenbarkeitstheorie 7. Vorlesung

Mehrdeutige Grammatiken

Einführung in die Semantik, 2./3. Sitzung Mengen / Relatione

Theoretische Informatik: Berechenbarkeit und Formale Sprachen

VU Software Paradigmen / SS 2012

Bemerkungen zur Notation

Sprachen/Grammatiken eine Wiederholung

7. Formale Sprachen und Grammatiken

Grundlagen der Theoretischen Informatik Musterlösungen zu ausgewählten Übungsaufgaben

Was bisher geschah Chomsky-Hierarchie für Sprachen: L 0 Menge aller durch (beliebige) Grammatiken beschriebenen Sprachen L 1 Menge aller monotonen

Musterableitung Relativsätze als Hilfestellung zur Lösung von Aufgaben in den Übungen und der Klausur

Mathematische Grundlagen der Computerlinguistik Relationen und Funktionen

Grundbegriffe der Informatik

Kontextfreie Sprachen

Einführung in die Informatik I

Kontextfreie Sprachen

1 Automatentheorie und Formale Sprachen

Informales Beispiel. Formale Grundlagen der Informatik 1 Kapitel 6 Eigenschaften kontextfreier Sprachen. Grammatiken. Anmerkungen

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

Elemente in Φ werden Wurzeln genannt. Bemerkung 3.2. (a) Zu einem Wurzelsystem können wir immer eine Spiegelungsgruppe definieren

Grundlagen der Theoretischen Informatik

Datenstrukturen Teil 2. Bäume. Definition. Definition. Definition. Bäume sind verallgemeinerte Listen. Sie sind weiter spezielle Graphen

Automaten und Formale Sprachen SoSe 2013 in Trier

Ludwig-Maximilians-Universität München SoSe 2009 Institut für Informatik PD Dr. Martin Lange Dipl.-Inf. Markus Latte 25. Juni 2009

Was bisher geschah: Formale Sprachen

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Informatik-Grundlagen

Reduktion. 2.1 Abstrakte Reduktion

Theoretische Informatik 1

3. Relationen Erläuterungen und Schreibweisen

Motivation natürliche Sprachen

Transkript:

1/22 Formale Methoden 1 Gerhard Jäger Gerhard.Jaeger@uni-bielefeld.de Uni Bielefeld, WS 2007/2008 12. Dezember 2007

2/22 Bäume Baumdiagramme Ein Baumdiagramm eines Satzes stellt drei Arten von Information dar: die Konstituenten-Struktur des Satzes, die grammatische Kategorie jeder Konstituente, sowie die lineare Anordnung der Konstituenten.

3/22 Bäume Konventionen Ein Baum besteht aus Knoten, die durch Kanten verbunden werden. Kanten sind implizit von oben nach unten gerichtet (ähnlich zu Hasse-Diagrammen, wo die implizite Richtung aber von unten nach oben ist.) Jeder Knoten ist mit einem Etikett (engl. label) versehen.

4/22 Bäume Dominanz Ein Knoten x dominiert Knoten y wenn es eine zusammenhängende Seq von gerichteten Ästen gibt, die mit x beginnt und mit y endet. Für einen Baum T bildet D T = { x,y x dominiert y in T } die zugehörige Dominanz-Relation D T ist eine schwache Ordnung, also reflexiv, transitiv und anti-symmetrisch.

5/22 Konventionen Bäume Wenn x nach D T der unmittelbare Vorgänger von y ist, dann dominiert x y unmittelbar. Der unmittelbare Vorgänger von x bzgl. D T heißt der Mutterknoten von x. Die unmittelbaren Nachfolger von x heißen Tochterknoten von x. Wenn zwei Knoten nicht identisch sind, aber den selben Mutterknoten haben, heißen sie Schwesterknoten. Jeder Baum hat endlich viele Knoten. Jeder Baum hat ein Infimum. Das Infimum heißt Wurzel oder Wurzelknoten des Baums. Die maximalen Elemente eines Baumes heißen Blätter.

6/22 Bäume Präzedenz Baum-Diagramme beinhalten (anders als Hasse-Diagramm) Informationen über die lineare Abfolge der Knoten. Knoten x geht Knoten y voran (engl. x precedes y) gdw. x links von y steht und keiner der beiden Knoten den anderen dominiert. Für einen Baum T bildet { x, y x geht y voran} die zugehörige Präzedenz-Relation. P T ist eine starke Ordnung, also irreflexiv, transitiv und asymmetrisch.

7/22 Bäume Exklusivität In einem Baum T stehen die Knoten x und y in der Präzedenz-Relation (also P t (x,y) oder P t (y,x)) gdw. sie nicht in der Dominanz-Relation stehen (also weder D T (x,y) noch D T (y,x)).

8/22 Bäume Nicht-Überkreuzung Wenn in einem Baum der Knoten x dem Knoten y vorangeht, dann geht jeder Knoten x, der von x dominiert wird, jedem Knoten y voran, der von y dominiert wird. Diese Bedingung schließt aus, dass ein Knoten mehrere Mutterknoten hat, oder dass sich Äste überkreuzen.

9/22 Bäume Etikettierung Für jeden Baum T gibt es eine Etikettierungs-Funktion L T, die jedem Knoten ein Etikett zuweist. L T muss nicht injektiv sein (mehrere Knoten können das selbe Etikett tragen). Bei Ableitungsbäumen werden Blätter (auch Terminal-Knoten genannt) auf Terminalsymbole abgebildet und alle anderen Knoten auf Nichtterminal-Symbole.

10/22 Bäume Mit Hilfe dieser Eigenschaften von Bäumen können Theoreme bewiesen werden, also Sachverhalte, die für alle Bäume gelten. Zum Beispiel Theorem Wenn x und y Schwesterknoten sind, dann gilt entweder P(x,y) oder P(y,x). Theorem Die Menge der Blätter eines Baumes sind durch P total geordnet.

11/22 Grammatiken und Bäume Bäume repräsentieren die relevanten Aspekte einer Ableitung Zusammenhang zwischen Ableitung und Baum am einfachsten, wenn alle Regeln der Grammatik die Form A α haben (mit A V N und α (V T V N ) )

12/22 Definition Grammatiken und Bäume Eine Grammatik G = V T,V N,S,R, bei der alle Regeln als linke Seite genau ein Nichtterminal-Symbol haben, generiert einen Baum T genau dann wenn die Wurzel von T mit S etikettiert ist, die Blätter entweder mit Terminalsymbolen oder it ǫ etikettiert sind, sowie es für jeden Teilbaum A in T eine Regel α 1,,α n A α 1,,α n in R gibt.

13/22 Grammatiken und Bäume Beispiel-Grammatik G = {a,b}, {S,A,B},S,R S AB B Bb R = A aab B b A ǫ

14/22 Grammatiken und Bäume Diese Grammatik generiert z.b. folgende Baum: S A B a A b B b ǫ b Frage: Welche Sprache wird durch diese Grammatik generiert?

15/22 Kontext-sensitive Regeln Manchmal möchte man die Anwendung bestimmter Regeln auf bestimmte Kontexte einschränken. Zum Beispiel: D des nur wenn das nachfolgende Nomen maskulin oder neutrum singular Genitiv ist /d/ [d] nur wenn das Segment nicht am Wortende steht [Präteritum] t nur wenn direkt davor der Stamm eines schwachen Verbs steht... Aufgabe: Finde mehr Beispiele für kontext-abhängige grammatische Regeln!

16/22 Kontext-sensitive Regeln übliches Format für kontext-sensitive Regeln: A: Nichtterminal-Symbol A γ/α β α,β,γ: Ketten von Terminal- und Nichtterminal-Symbolen γ ǫ α β gibt Kontext an, in dem die Regel A γ angewendet werden kann offizielle Schreibweise: αaβ αγβ

17/22 Die Chomsky-Hierarchie Unterschiedliche Einschränkung für das Format von Grammatik-Regeln führt zu folgender Hierarchie von Grammatik-Typen: Chomsky-Hierarchie Typ 0 keine Einschränkung Typ 1 Regeln der Form αaβ αγβ kontext-sensitive A V N,α ǫ Grammatik Typ 2 Regeln der Form A γ kontext-freie Grammatik A V N Typ 3 Regeln der Form A xb reguläre Grammatik oder A x A,B V N,x VT

18/22 Die Chomsky-Hierarchie keine strikte Hierachie, weil bei kontext-freien Grammatiken ǫ als rechte Seite auftreten kann, bei kontext-sensitiven Grammatiken jedoch nicht Typ 3 Typ 2 Typ 1 Typ 0

19/22 Die Chomsky-Hierarchie Grammatik-Hierarchie entspricht Hierarchie formaler Sprachen: Typ-0-Sprachen ( rekursiv aufzählbare Sprachen ): Sprachen, die von Typ-0-Grammatik generiert werden Typ-1-Sprachen ( kontext-sensitive Sprachen ): Sprachen, die von Typ-1-Grammatik generiert werden Typ-2-Sprachen ( kontext-freie Sprachen ): Sprachen, die von Typ-2-Grammatik generiert werden Typ-3-Sprachen ( reguläre Sprachen ): Sprachen, die von Typ-3-Grammatik generiert werden Theorem Wenn L eine kontext-freie Sprache ist und ǫ L, dann ist L auch eine kontext-sensitive Sprache.

20/22 Die Chomsky-Hierarchie Alle kontext-freien und kontext-sensitiven Sprachen sind entscheidbar es gibt für jede dieser Sprachen ein Computerprogramm, das in endlicher Zeit entscheidet, ob eine gegebene Kette zu der Sprache gehört oder nicht. Rekursiv aufzählbare Sprachen sind nicht immer entscheidbar. Zum Beispiel bildet die Menge aller beweisbaren mathematischen Aussagen eine rekursiv aufzählbare Sprache, die nicht entscheidbar ist. Kontext-freie Sprachen können vom Computer effizient verarbeitet werden (maximal kubische Zeitkomplexität). Reguläre Sprachen können vom Computer sehr effizient verarbeitet werden (lineare Zeitkomplexität). Kontext-sensitive Sprachen sind im allgemeinen Fall nicht effizient verarbeitbar.

21/22 Die Chomsky-Hierarchie 1957 (Chomsky): Nachweis, dass Englisch keine reguläre Sprache ist. 1957 (Chomsky): Vermutung, dass natürliche Sprachen generell nicht kontext-frei, sondern kontext-sensitiv sind. 1982 (Pullum & Gazdar): English as a context-free language Argumente, dass Englisch (und alle anderen nat. Sprachen) kontext-frei sind. 1984 (Huybregts), 1985 (Shieber): Beweis, dass Schweizerdeutsch nicht kontext-frei ist 1985 (Culy): Beweis, dass Bambara (westafrikanische Sprache) nicht kontext-frei ist Die meisten phonologischen und morphologischen Prozesse in natürlichen Sprachen können durch reguläre Grammatiken erfasst werden.

Die Chomsky-Hierarchie 22/22