Übersicht. (A) Kontextfreie Sprachen (B) Syntaxanalyse (Parsing) (C) Grenzen der Kontextfreiheit

Transkript

1 Übersicht (A) Kontextfreie Sprachen (B) Syntaxanalyse (Parsing) (C) Grenzen der Kontextfreiheit

2 (B) Syntaxanalyse 1. Definition Parsing 2. Einfache Parsestrategien: Top-down Bottom-Up Probleme beim Parsen 3. Effiziente Parsestrategien: Chart-Parsing

3 (B.1) Was ist Parsing? Parsing bedeutet, einen String als grammatisch oder ungrammatisch bezüglich einer gegebenen Grammatik zu klassifizieren und ihm einen Strukturbaum zuzuordnen Die Grammatik bestimmt also, ob ein Satz grammatisch ist oder nicht. Das Parsing ist eine Methode, für eine gegebene Grammatik und einen gegebenen Satz zu bestimmen, ob diese Grammatik diesen Satz generiert (und wie der entsprechende Ableitungsbaum aussieht)

4 (B.1) Was ist Parsing? Beim Parsing unterscheidet man grob zwei Hauptstrategien voneinander: Inputgetriebenes Parsing (Bottom-up) Theoriegetriebenes Parsing (Top-down)

6 (B.2) Beispielgrammatik G = { S, NP, VP, DET, N, V }, { der, Hund, bellt, sieht, die, Katze }, { S NP VP, NP DET N, VP V, VP V NP, DET der, DET die, N Hund, N Katze, V bellt, V sieht }, S

7 (B.2) Top-down-Parsing Parser beginnt beim Startsymbol S und versucht, durch sukzessive Regelanwendung schließlich bei den Eingabewörtern zu landen Regelanwendung von links nach rechts nennt man Expansion Den Abgleich mit den Symbolen des Eingabesatzes nennt man Scan

8

9 (B.2) Parsing-Algorithmen: Verschiedene Strategien 1. Analyserichtung: von der Wurzel S zum Eingabestring (Top-down) oder vom Eingabestring zur Wurzel (Bottom-up, mehr dazu später) 2. Verarbeitungsrichtung: links-nach-rechts oder rechts-nach-links (oder bi-direktional) z.b. links-rechts: das linkeste Symbol wird zuerst expandiert: DET vor N (Linksableitung)

10 (B.2) Parsing-Algorithmen: Verschiedene Strategien 1. Alternativen: Bei mehreren passenden Regeln: welche Regel wird zuerst angewandt? z.b. nach Reihenfolge im Regelwerk z.b. N P soll expandiert werden, benutze als erstes die erste NP -Regel und wenn das schiefgeht, probier die nächste N P -Regel (Backtracking) oder: alle Regeln parallel anwenden (Parallel Processing)

11 (B.2) Parsing-Algorithmen: Verschiedene Strategien 4. Suchstrategie: S NP VP NP DET N VP V (a) Tiefe-zuerst (depth-first) bearbeite zuerst ein Symbol so weit wie möglich zuerst NP expandieren, dann DET und dann N expandieren, bevor man zu V P zurückkehrt

12 (B.2) Parsing-Algorithmen: Verschiedene Strategien 1. Breite-zuerst (breadth-first) bearbeite alle Symbole der Reihe nach, wie sie entstehen zuerst NP expandieren, dann V P, und erst dann bei den Töchtern von N P weitermachen

13 (B.2) Top-down-Parsing: Suchstrategien Tiefe-zuerst: Breite-zuerst:

14 (B.2) Top-down-Parsing: Algorithmus 1. Anfang: lege S auf den Stapel + notiere Inputstring 2. dann wende Regeln in 3. so lange an, bis entweder Stapel und Eingabestring leer sind = Satz ist akzeptiert oder es keine anwendbare (neue) Regel mehr gibt = Satz nicht akzeptiert

15 (B.2) Top-down-Parsing: Algorithmus 3. Regeln: (a) ist das aktuelle Symbol auf dem Stapel ein Nichtterminal, so expandiere es; d.h. wende (erste) passende Regel an (b) ist das aktuelle Symbol auf dem Stapel ein Terminal, so vergleiche dieses Symbol mit dem aktuellen Symbol des Eingabestrings: scan; sind beide gleich, lösche beide; ansonsten: (c) backtracking: kehre zur letzten Expand-Regelanwendung zurück, bei der es Alternativen gab, und wende alternative Regel an

16 (B.2) Backtracking Verschiedene Aktionsmöglichkeiten des Parsers Entscheidung Entscheidung kann falsch gewesen sein, d.h. top-down: gewählte Regel führt nicht zur Ableitung der Eingabe bottom-up: Eingabesatz kann nicht auf das Startsymbol reduziert werden Falsche Entscheidung kann sich erst zu späterem Zeitpunkt bemerkbar machen Fehlerbehebung nach dem Prinzip des Backtracking: Alle Schritte bis zu der letzten Stelle, an der eine Wahlmöglichkeit bestand, rückgängig machen, und dort eine andere Wahl treffen

17 (B.2) Top-down-Parser: Beispiel Ableitung des Satzes der Hund sieht die Katze Top-down, Tiefe-zuerst, links-nach-rechts, mit Backtracking E = Expandieren, S = Scannen, B = Backtracken Regeln: S NP VP, NP DET N, VP V, VP V NP, DET der, DET die, N Hund, N Katze, V bellt, V sieht

18 (B.2) Top-down-Parser: Beispiel Nr. Stapel Eingabe Schritt Regel Alternativen 1 S der Hund sieht die Katze E S NP VP 2 NP VP der Hund sieht die Katze E NP DET N 3 DET N VP der Hund sieht die Katze E DET der DET die 4 der N VP der Hund sieht die Katze S [der gelöscht] 5 N VP Hund sieht die Katze E N Hund N Katze 6 Hund VP Hund sieht die Katze S [Hund gelöscht] 7 VP sieht die Katze E VP V VP V NP 8 V sieht die Katze E V bellt V sieht 9 bellt sieht die Katze S scheitert B zu 8 [Kopie von 8] 8 V sieht die Katze

19 (B.2) Top-down-Parser: Beispiel (Forts.) Nr. Stapel Eingabe Schritt Regel Alternativen... 8 V sieht die Katze E V sieht 9 sieht sieht die Katze S [sieht gelöscht] V sieht scheitert B zu 7 7 VP sieht die Katze E VP V NP VP V NP 8 V NP sieht die Katze E V bellt V sieht 9 bellt NP sieht die Katze B zu 8 8 V NP sieht die Katze E V sieht V sieht 9 sieht NP sieht die Katze S [sieht gelöscht] 10 NP die Katze E NP DET N 11 DET N die Katze

20 (B.2) Top-down-Parser: Beispiel (Forts.) Nr. Stapel Eingabe Schritt Regel Alternativen DET N die Katze E DET der DET die 12 der N die Katze B zu DET N die Katze E DET die DET die 12 die N die Katze S [die gelöscht] 13 N Katze E N Hund N Katze 14 Hund Katze B zu N Katze E N Katze N Katze 14 Katze Katze S [Katze gelöscht] 15 ε ε akzeptiert

21 (B.2) Top-down-Parsing: Probleme bei Top-down, Tiefe-zuerst, links-nach-rechts, mit Backtracking: Linksrekursion (z.b. Regeln der Form: S S und S oder NP NP P P ), da Algorithmus nicht terminiert mögliche Lösung(en)? ineffizient wegen wiederholter Konstituentenanlyse z.b. Schritt 8 zu 9 : V sieht korrekt angewendet, aber Analyse wieder vergessen bei backtracking in 9

22 (B.2) Bottom-Up-Parsing Parser startet mit den Wörtern des Eingabesatzes Rückwärtiges Anwenden der Regeln der Grammatik, bis das Startsymbol erreicht ist Unterscheidung zwischen Shift: Stapeln der Eingabewörter bzw. der ihnen zugeordneten Kategorien und Reduce: Ersetzung einer rechten Regelseite durch die linke

23

24 (B.2) Ein Bottom-Up-Parser Verschiedene Strategien eines Bottom-Up-Parse-Algorithmus : 1. Verarbeitungsrichtung 2. Wann wird geshiftet, wann wird reduziert? (Suchstrategie) Shift-Reduce-Konflikt 3. Welche Reduktionsregel wird zuerst angewandt? (Alternativen) Reduce-Reduce-Konflikt Problem: ε-regeln, da theoretisch an jeder Stelle reduziert werden kann

25 (B.2) Probleme beim Parsen: Zusammenfassung Top-down: Linksrekursion; Bottom-up: ε-regeln Nichtdeterminismus Echte und lokale Ambiguitäten müssen behandelt werden z.b. durch Backtracking Ineffizientes Arbeiten durch wiederholte Konstituentenanlyse

27 (B.3) Chartparsing Prominente Vertreter: Cocke/Kasami/Younger, 1967 (CKY) und Earley, 1970 Teilergebnisse eines Parses werden in einer Chart (Tabelle) festgehalten Wiederholte Analyse derselben Satzabschnitte entfällt Robust und effizient

28 (B.3) Die Chart Einträge in der Tabelle werden Items oder Kanten genannt Chart-Item enthält folgende Informationen: den Satzabschnitt, auf den sich das Item bezieht, die Syntaxregel, die angewandt wurde. Zahlenmarkierungen beim Chartparsing: Beispiel eines Chart-Items: 0 Der 1 Hund 2 sieht 3 die 4 Katze NP Det N

29 (B.3) Active Chart Parsing Man unterscheidet zwischen: aktivem Chartparsing (Annahme partieller Zwischenergebnisse) und inaktivem Chartparsing (keine Annahme partieller Zwischenergebnisse) Items aktiver Chart-Parser haben einen aktiven und einen inaktiven Abschnitt inaktiver Abschnitt umfasst den Bereich der angewandten Regel, der bereits analysiert wurde, und der aktive Abschnitt den noch nicht vollständig analysierten Rest

30 Man nennt diese Kanten geteilte Produktionen oder dotted Items Beispiel eines dotted items: 0 2 S NP VP

31 (B.3) Earley Parsing Earley-Algorithmus besteht aus drei Prozeduren: 1. PREDICT ist die Top-down-Komponente des Algorithmus und legt ausschließlich aktive Items an; (vgl. Expand) 2. SCAN erzeugt (ausschließlich inaktive) Items für die Wörter der Eingabekette; (vgl. Scan/Shift) 3. COMPLETE fasst die bereits vorhandenen Chart-Einträge zu größeren Einheiten zusammen, reduziert also bottom-up. (vgl. Reduce)

32 (B.3) Prozedur PREDICT DATEN: Eine kontextfreie Grammatik G = Φ, Σ, S, R METHODE: Wenn die Chart bereits eine Kante der Form i j A α B β (mit: i j) enthält, dann wird für jede Grammatikregel der Form B γ R ein neues Chart-item der Form angelegt. j j B γ

33 (B.3) Prozedur PREDICT PREDICT produziert neue Items für alle alten Items in der Chart gibt, für deren erstes aktives Symbol (= erstes Symbol rechts von ) es eine Grammatikregel gibt produziert Top-down-Hypothesen, also Vorhersagen über die weitere Feinstruktur bestehender Annahmen über die Eingabekette erzeugt ausschließlich zyklische, aktive Kanten (Start/Ende bei gleicher Position) Beispiel: Wenn wir annehmen, dass die Chart das Item 0 0 S NP VP enthält und in der Grammatik die Regel NP DET N vorkommt, dann würde PREDICT das Item 0 0 NP DET N produzieren.

34 (B.3) SCAN DATEN: Eine Eingabekette w = w 1 w 2... w n (mit: 1 n) METHODE: Wenn die Chart ein Item der Form: i j 1 A α w j β enthält, dann wird ein neues Item der Form angelegt. i j A α w j β

35 (B.3) SCAN SCAN benutzt keine Grammatikregeln, sondern schaut den Inputstring an wenn die Existenz eines Wortes w j an der aktuellen Input-Position j vorausgesagt wird und w j tatsächlich an Position j vorkommt, wird eine neue Chart-Kante generiert, die dieses Vorkommen von w j als erkannt, d.h. als Bestandteil des inaktiven Abschnitts, registriert erzeugt in der Regel inaktive Kanten (wegen nicht-verzweigender Terminalregeln) Beispiel: Angenommen, die Chart enthält bereits das Item 0 0 DET der und nach der Position 0 (in diesem Beispiel), d.h. als erstes Wort der Eingabekette, befindet sich das Wort der, dann fügt SCAN der Chart ein neues Item der Form 0 1 DET der hinzu.

36 (B.3) Prozedur COMPLETE DATEN: METHODE: Wenn die Chart bereits eine Kante der Form i j A α B β und eine weitere Kante der Form: j k B γ enthält, dann wird ein neues Item i k A α B β in die Chart eingetragen.

37 (B.3) Prozedur COMPLETE COMPLETE nimmt weder auf die Eingabekette noch auf die Grammatik Bezug, operiert ausschließlich auf den bereits vorhandenen Chart-Kanten verbindet inaktive Kanten (d.h. vollständig erkannte Teilstrukturen) mit aktiven Kanten Beispiel: Angenommen, die Chart enthält das inaktive Item 0 1 DET der sowie das aktive Item 0 0 NP DET N, dann erzeugt COMPLETE das neue Item 0 1 NP DET N.

38 (B.3) Earley-Algorithmus Algorithmus-Schema EARLEY-RECOGNIZER DATEN: Eine kontextfreie Grammatik G = Φ, Σ, S, R und eine Chart C. Die Grammatik darf weder Tilgungsregeln (Regeln des Typs: X ɛ) noch Kettenregeln enthalten, die Chart ist im Anfangszustand leer. INPUT: Eine Eingabekette w = w 1 w 2... w n (0 n) OUTPUT: Kette akzeptiert/kette nicht akzepiert

39 (B.3) Earley-Algorithmus (Forts.) METHODE: 1. Initialisierung: Erzeuge für alle das Startsymbol der Grammatik expandierenden Regeln der Form S α eine Chart-Kante der Form 0 0 S α 2. Erzeugung weiterer Chart-Kanten: Für alle Positionen j = 0,..., n und alle Positionen i = 0,..., j: (a) wende PREDICT und COMPLETE auf alle Items mit der Startposition i und der Endposition j solange an, bis diese beiden Prozeduren keine neuen Kanten mehr erzeugen. (b) wende die Prozedur SCAN auf alle Items mit der Startposition i und der Endposition j 1 an. 3. Auswertung: Wenn die Chart ein Item der Form 0 n S α enthält, dann ist der Rückgabewert Kette akzeptiert, sonst Kette nicht akzeptiert.

40 (B.3) Earley-Algorithmus: Beispiel Es soll w = der Hund bellt analysiert werden. Die Chart enthält nach abgeschlossener Analyse folgende Items: Nr. Item Prozedur S NP VP (Initialisierung) NP DET N (PREDICT 1.) DET der (PREDICT 2.) DET die (PREDICT 2.) DET der (SCAN 3.) NP DET N (COMPLETE 2. mit 5.) N Hund (PREDICT 6.) N Katze (PREDICT 6.) N Hund (SCAN 7.) NP DET N (COMPLETE 6.mit 9.) S NP VP (COMPLETE 1. mit 10.)

41 (B.3) Earley-Algorithmus: Beispiel Nr. Item Prozedur S NP VP (COMPLETE 1. mit 10.) VP V (PREDICT 11.) VP V NP (PREDICT 11.) V bellt (PREDICT 12. bzw. 13.) V sieht (PREDICT 12. bzw. 13.) V bellt (SCAN 14.) VP V (COMPLETE 12. mit 16.) VP V NP (COMPLETE 12. mit 16.) S NP VP (COMPLETE 11. mit 17.) Es gibt eine inaktive, mit dem Startsymbol etikettierte Kante, die den kompletten Satz überspannt die Eingabekette wird akzeptiert

42 Übersicht (A) Kontextfreie Sprachen (B) Syntaxanalyse (Parsing) (C) Grenzen der Kontextfreiheit

43 (C) Natürlichsprachliche Phänomene Sätze des Standarddeutschen (nach Jäger & Michaelis): (N i V i : V i regiert Kasus von N i ; N 0 : nicht regiert, V 0 : nicht regierend) Jan sagt, dass... der Karl die Maria dem Peter helfen läßt NP 0 NP 1 NP 2 V 2 V 1 der Karl die Maria dem Peter lehren helfen läßt NP 0 NP 1 NP 2 V 0 V 2 V 1 der Peter den Hans schwimmen lehrt NP 0 NP 1 V 0 V 1 die Maria dem Peter den Hans schwimmen lehren hilft NP 0 NP 1 NP 2 V 0 V 2 V 1

44 (C) Natürlichsprachliche Phänomene Jan sagt, dass... der Karl die Maria dem Peter den Hans schwimmen lehren helfen läßt NP 0 NP 1 NP 2 NP 3 V 0 V 3 V 2 V 1 Das ergibt folgende schematisch dargestellten Abhängikeiten: Außerdem Iteration sei möglich: NP 1 NP 2 NP 3... V 3 V 2 V 1... der Karl die Maria dem Peter n den Hans m schwimmen lehren m helfen n läßt NP 0 NP 1 NP 2 NP 3 V 0 V 3 V 2 V 1

45 (C) Natürlichsprachliche Phänomene Betrachten wir nun analoge Sätze des Schweizerdeutschen: Jan säit das... Jan sagt, dass... mer em Hans es huus hälfed aastriiche. wir Hans-DAT das Haus-ACC helfen-dat anstreichen-acc. wir Hans das Haus anstreichen helfen. mer de Hans es huus lönd aastriiche. wir Hans-ACC das Haus-ACC lassen-acc anstreichen-acc. wir Hans das Haus anstreichen lassen. *mer em Hans es huus lönd aastriiche. wir Hans-DAT das Haus-ACC lassen-acc anstreichen-acc.

46 (C) Natürlichsprachliche Phänomene *mer de Hans em huus lönd aastriiche. wir Hans-ACC das Haus-DAT lassen-acc anstreichen-acc. mer d chind em Hans es huus lönd hälfe aastriiche. wir die Kinder-ACC Hans-DAT das Haus-ACC lassen-acc helfen-dat anstreichen-acc. wir die Kinder Hans das Haus anstreichen helfen lassen. mer em Hans es huus haend wele hälfe aastriiche. wir Hans-DAT das Haus-ACC haben gewollt helfen-dat anstreichen-acc. wir Hans das Haus anstreichen helfen gewollt haben. mer d chind em Hans es huus haend wele laa hälfe aa wir die Kinder-ACC Hans-DAT das Haus-ACC haben gewollt lassen-acc helfen-dat an wir die Kinder Hans das Haus anstreichen helfen lassen gewollt haben.

47 (C) Natürlichsprachliche Phänomene Beobachtungen: In Nebensätzen des Schweizerdeutschen... können zuerst alle NPs kommen und anschließend alle Vs kommen, Schema: Jan säit das mer NP es huus haend wele V aastriiche sind (u.a.) solche Sätze grammatisch, in denen alle DAT-NPs nach allen AKK-NPs und alle Vs mit DAT-Komplement nach allen Vs mit AKK-Komplement kommen, Schema also: Jan säit das mer d chind-akk m em Hans-DAT n es huus haend wele laa m hälfe n aastriiche Abhängigkeiten wie diese heißen cross-serial dependencies. NP 1 NP 2 NP 3... V 1 V 2 V 3...

48 (C) Natürlichsprachliche Phänomene Übersetzt man die Bestandteile des Schweizerdeutschen folgendermaßen Jan säit das mer ε d chind a em Hans b es huus haend wele ε laa c hälfe d aastriiche ε sonstiges ε und schneidet das Ergebnis mit der regulären Sprache a b c d

49 (C) Natürlichsprachliche Phänomene... so erhält man wegen der Beobachtungen die formale Sprache a m b n c m d n Diese Sprache ist nicht kontextfrei, was sich mittels des Pumping-Lemmas für kontextfreie Sprachen zeigen lässt.

50 (C) Natürlichsprachliche Phänomene Das Pumping-Lemma für kontextfreie Sprachen: Sei L eine kontextfreie Sprache. Dann gibt es eine (von L abhängige) Konstante n, so dass sich jedes Wort z aus L mit z n als z = uvwxy schreiben lässt mit 1. vx 1 2. vwx n und 3. für alle i 0 liegt uv i wx i y in L. Im Gegensatz zu regulären Sprachen gibt es bei kontextfreien Sprachen also zwei pumpbare Teile.