Linguistische Informatik

Ähnliche Dokumente
Grammatik Prüfung möglich, ob eine Zeichenfolge zur Sprache gehört oder nicht

Kapitel IV Formale Sprachen und Grammatiken

Automatentheorie und formale Sprachen rechtslineare Grammatiken

Formale Methoden 1. Gerhard Jäger 28. November Uni Bielefeld, WS 2007/2008 1/15

Grundkurs Linguistik Wintersemester 2014/15. Syntax. Anja Latrouite

Einführung in die Computerlinguistik

Syntax natürlicher Sprachen

Formale Sprachen. Grammatiken und die Chomsky-Hierarchie. Rudolf FREUND, Marian KOGLER

Kapitel: Die Chomsky Hierarchie. Die Chomsky Hierarchie 1 / 14

Theorie der Informatik. Theorie der Informatik. 6.1 Einführung. 6.2 Alphabete und formale Sprachen. 6.3 Grammatiken. 6.4 Chomsky-Hierarchie

Grammatiken. Eine Grammatik G mit Alphabet Σ besteht aus: Variablen V. Startsymbol S V. Kurzschreibweise G = (V, Σ, P, S)

Theoretische Grundlagen der Informatik

Einführung Computerlinguistik. Konstituentensyntax II

Der Earley-Algorithmus

Formale Sprachen. Grammatiken. Grammatiken und die Chomsky-Hierarchie. Rudolf FREUND, Marion OSWALD. Grammatiken: Ableitung

Theoretische Grundlagen der Informatik. Vorlesung am 8. Januar INSTITUT FÜR THEORETISCHE INFORMATIK

Konstituenz und Phrasenstrukturen Die Konstituente : Die»Einheit in der Einheit«

Grammatiken. Grammatiken sind regelbasierte Kalküle zur Konstruktion von Systemen und Sprachen Überprüfung von Systemen und Sprachen

Grundlagen der Theoretischen Informatik

Algorithmen und Formale Sprachen

Alphabet, formale Sprache

Grundlagen der Theoretischen Informatik

Theoretische Informatik I

FORMALE SYSTEME. Sprachen beschreiben. Wiederholung. Wie kann man Sprachen beschreiben? 2. Vorlesung: Grammatiken und die Chomsky-Hierarchie

7. Syntax: Grammatiken, EBNF

Kontextsensitive Sprachen

Einführung in die Computerlinguistik. Syntax I

Inkrementelle Syntax

Einführung in die Linguistik. Syntax: Lösung

Einführung in die Computerlinguistik Phrasenstrukturgrammatik

Was bisher geschah Chomsky-Hierarchie für Sprachen: L 0 Menge aller durch (beliebige) Grammatiken beschriebenen Sprachen L 1 Menge aller monotonen

2. Überlegen Sie, ob folgende Sprache vom gleichen Typ sind (m, n 1): Ordnen Sie die Sprachen jeweils auf der Chomsky-Hierarchie ein.

Abschnitt 5. Grammatiken

Sprachanalyse. Fachseminar WS 08/09 Dozent: Prof. Dr. Helmut Weber Referentin: Nadia Douiri

Linguistik für Kognitionswissenschaften 1:[1em] Formale Komplexität 21. Oktober natürlicher 2010 Sprachen 1 / 33

Deterministischer Kellerautomat (DPDA)

Lehrstuhl für Computerlinguistik

Definition 4 (Operationen auf Sprachen) Beispiel 5. Seien A, B Σ zwei (formale) Sprachen. Konkatenation: AB = {uv ; u A, v B} A + = n 1 An

Sprachen sind durch folgenden Aufbau gekennzeichnet:

Konstituenten, Phrasenstruktur und Feldermodell

WS06/07 Referentin: Katharina Blinova. Formale Sprachen. Hauptseminar Intelligente Systeme Dozent: Prof. Dr. J. Rolshoven

Grundbegriffe. Grammatiken

Einführung in die Sprachwissenschaft des Deutschen. Syntax II. PD Dr. Alexandra Zepter

Informatik-Grundlagen

Einführung in die Sprachwissenschaft des Deutschen Syntax II. PD Dr. Alexandra Zepter

Automatentheorie und formale Sprachen reguläre Ausdrücke

Syntax natürlicher Sprachen

Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie

Formale Methoden 1. Gerhard Jäger 12. Dezember Uni Bielefeld, WS 2007/2008 1/22

Übungsblatt 6. Vorlesung Theoretische Grundlagen der Informatik im WS 18/19

Syntax und Morphologie

Grundlagen der Theoretischen Informatik

Grundlagen der Theoretischen Informatik

Chomsky-Grammatiken 16. Chomsky-Grammatiken

Kontextfreie Grammatiken

Theorie der Informatik

Formale Sprachen und Grammatiken

Kontextfreie Sprachen. Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester Kontextfreie Sprachen

Vorlesung Automaten und Formale Sprachen Sommersemester Beispielsprachen. Sprachen

Syntax von Programmiersprachen

VU Software Paradigmen / SS 2014

Syntax von Programmiersprachen

Syntax von Programmiersprachen

Linguistische Grundlagen 5. Syntax 2. Teil: Phrasenstrukturgrammatik

Übungsblatt 6. Vorlesung Theoretische Grundlagen der Informatik im WS 17/18

Sprachen/Grammatiken eine Wiederholung

Einführung Computerlinguistik. Konstituentensyntax II

Syntax natürlicher Sprachen

Kapitel 3: Grundlegende Ergebnisse aus der Komplexitätstheorie Gliederung

Semantik und Pragmatik

Dyck-Sprachen & Syntax-Analyse

Theoretische Informatik I

Einführung in die Computerlinguistik

Sie gab das Buch ihrer Schwester.

Transkript:

Linguistische Informatik Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik

Syntax Problem: Gegeben eine Menge von Wortformen (oder Wörtern), welche Reihenfolgen sind grammatikalische oder sinnvolle Sätze? Ein Sack von Wörtern Sonne die scheint Leipzig warm in die Leipzig scheint warm in Sonne in Leipzig warm Sonne die scheint warm die in Sonne scheint Leipzig Die Sonne scheint in Leipzig warm 2

Syntax Gegenstand: Wörter bzw. Wortformen und deren Kombination zu Sätzen Definition (Chomsky): Syntax is the study of principles and processes by which sentences are constructed in particular languages - Grammatik der Einzelsprachen (z.b. Deutsch, Englisch,...) - Universalgrammatik (Bedingungen menschlichen Sprachverstehens) 3

Ziele einer Syntax für natürliche Sprachen 1) Syntaktische Struktur einer Einzelsprache welche Elemente? wie kombiniert? 2) Grammatik einer Einzelsprache syntaktische Merkmale der Einzelsprache Formalisierung der Grammatik Bedingungen der Grammatikalität 3) Prinzipien der Universalgrammatik Merkmale menschlicher Sprachfähigkeit Grundlagen und Grenzen ihrer Formalisierung 4

Requirements on the syntactic description 1. Linear sequence of words (time linearity) only one word after the other can be uttered and perceived 2. Sentences contain syntactic ambiguities Flying planes can be dangerous (Chomsky) 3. Hierarchic structuring of phrases Some expressions are closer to each other than others, e.g. flying planes, can be rather than planes can Empirical tests for determining constituents, e.g. substitution permutation 5

Formale Sprachen a) Erzeugungsgrammatik b) Erkennungsgrammatik Chomsky - Grammatik < s, T, N, P > T = Mengen der Terminalen Symbole N = Mengen der Nichtterminale s = Startsymbol, s N P = Produktionsregeln (Ersetzungsregeln) Als Vokabular V bezeichnen wir V = N T 6

Ersetzungsregeln u v Eine Kette w 2 ist aus einer Kette w 1 direkt ableitbar, wenn es eine Ersetzungsregel p q gibt und sich w 2 von w 1 dadurch unterscheidet, daß die Teilkette p in w 1 durch die Teilkette q in w 2 ersetzt ist. Allgemein ist w n ableitbar aus w 1, wenn es eine Folge direkt ableitbarer Ketten wie folgt gibt: w 1... w i... w n Typ 0 : unbeschränkte Ersetzungssysteme keine Beschränkungen an die Form der Regeln 7

Typ 1 : kontext-sensitive Grammatik x A y x v y A N, x, y V*, v V + Beschreibung: Ersetze A durch v im Kontext x, y Beispiel Mit einer kontext-sensitiven Grammatik lässt sich die Menge {a n b n c n } ableiten. Grammatik: T={ a, b, c }, N={ s, x, y, z } Regeln: s abc s axbcy x axbc x az cy yc zb bz cb bc zy bc 8

Typ 2 : kontext-freie Grammatik A v A N, v V* Beispiel 1 Mit einer kontext-freien Grammatik lässt sich die Menge {a n b n } ableiten. Grammatik: T={a, b}, N={s, x} Regeln: s ab s axb x ab x axb 9

Beispiel KF 2 Mit einer kontext- freien Grammatik lässt sich die Menge {a n b k c n } ableiten. Grammatik: T={a, b, c}, N={s, x, y} Regeln: s ac s axc x axc x ayc y yb y b ABER Mit einer kontext- freien Grammatik lässt sich nicht die Menge {a n b n c n } ableiten. 10

Typ 3 : reguläre Grammatik Regeln der Form A a A B b (links-linear) bzw. A b B (rechts-linear) mit A, B N, v V* Beispiel Mit einer regulären Grammatik lässt sich nicht die Menge {a n b n } ableiten. 11

Ein Beispiel Beispiel: Der Bayer stellt die Maß auf den Tisch. 1) Welche Elemente? Wortformen (nicht Wörter): {der,die, den, Bayer, Maß, Tisch, stellt, auf} 2) Wie kombiniert? im Vergleich dazu die entsprechenden Wörter: {der, die, Bayer, Maß, Tisch, stellen, auf} 12

Tests für Konstituenten: Was sind richtige Strukturen? 1. Ersetzungsprobe Wortfolgen, die sich füreinander ersetzen lassen, ohne dass sich an der Grammatikalität des Ganzen etwas ändert, sind (möglicherweise) Konstituenten. 2. Pronominalisierungstest Pronomina: Er, sie, dort, damals... Was sich pronominalisieren läßt (worauf man sich mit einer Proform beziehen kann), ist eine Konstituente. Die Straßenbahn stand durch den Zusammenstoß mit einem sie dadurch Auto auf der Kreuzung des Augustusplatzes. dort Ede will einen Pudding essen. Das will ich auch. 13

Tests für Konstituenten II 3. Weglassprobe die Straßenbahn stand... 4. Fragetest wer, wann, wo, wohin, wie, womit, was, warum,... 5. Koordinierungstest (Verbindung durch und ) 6. Verschiebeprobe Auf der Kreuzung des Augustusplatzes stand die Straßenbahn durch den Zusammenstoß mit einem Auto. 14

Konstituentenstruktur-Syntax Der syntaktische Aufbau sämtlicher Sätze einer Sprache (und nur dieser) ist dann vollständig beschrieben, wenn festgelegt ist, (a) zu welchen Kategorien die Wörter der Sprache gehören und (b) welche Folgen von Kategorien von jeweils welcher Kategorie unmittelbar dominiert werden können. 15

Der Beispielsatz richtig zerlegt Regeln: S NP VP NP Art N VP V NP PP PP P NP S VP PP NP NP NP Art N V Art N P Art N der Bayer stellt die Maß auf den Tisch Abarbeitung (Parsing): Top-Down oder Bottom-up 16

Modell für die Sprachgenerierung 1. Erzeugen der syntaktisch richtigen Struktur 2. Ersetzen der Kategorien durch (passende) Terminale S NP VP Art N VP der N VP der Bayer VP... der Bayer stellt die... 17

Angemessenheit von syntaktischen Beschreibungen Beobachtungsadäquatheit (Erzeugung der richtigen terminalen Ketten) Beschreibungsadäquat (richtige Terminalketten plus intuitiv richtige Struktur) Erklärungsadäquat (Beschreibungsadäquat plus richtige Grammatik, z.b. Rekursivität) 18

Komplexitätsfragen Was ist die richtige Komplexität für natürliche Sprachen? a) unbeschränkt? OK aber zu wenig Struktur bzw. Beschränkung, daher zu wenig Erklärungswert b) regulär? zu schwach wegen rekursiven Strukturen z.b. A={the cat, the dog, the rat, the elefant,...} B={chased, bit, admired, ate, befriended,...} Die Sprache x n y n-1 died mit x A und y B ist wohlgeformtes Englisch, aber nicht regulär. 19

Komplexitätsfragen 2 1) Richtige Struktur: Reguläre Sprachen und Rekursivität Rekursive Präpositionalphrasen (NP -> NP PP, PP -> P NP) und Nominalphrasen (N -> A N). Chomskys Beipiel (1957) 1) Der Mann s 1 liest das Buch s 2 2) Das Buch ist 1957 geschrieben 3) Der Mann s 3 empfiehlt das Buch s 2 Jede der beiden Satzvariablen s 1 und s 3 können die Sätze 1 und 3, s 2 den Satz 2 als Wert nehmen. Rekursive Verknüpfung der Sätze: Der Mann, der das Buch, das 1957 geschrieben worden ist, liest, empfiehlt das Buch. Das ist eine Struktur der Form a n b n, also nicht regulär beschreibbar. 20

Phrasenstrukturgrammatik kontextfrei oder kontextsensitiv? Peter bzw. Maria bzw. Paul wandern bzw. schwimmen bzw. fahren Fahrrad nach Naumburg bzw. an der Ostsee bzw. im Rosenthal a1 a2 a3 b1 b2 b3 c1 c2 c3 liefert eine nicht kontextfreie Konstruktion vom Typ a n b n c n mit folgender Interdependenz: a1 a2 a3... b1 b2 b3... c1 c2 c3 21

Ergänzende Literatur Grewendorf, Hamm, Sternefeld, Sprachliches Wissen, Suhrkamp Taschenbuch Wissenschaft swt 695 Barton, Berwick, Ristad, Computational Complexity and natural language, MIT Press: Cambridge (Ma) 1987 22