Teil 4: Grammatiken und Syntaxanalyse (Kapitel T5-T7)
Grammatiken und die Chomsky- Hierarchie [T5.1] Ziel: Regelsysteme zur Erzeugung von Sprachen. Beispiel: arithmetische Ausdrücke können definiert werden durch a (Variable), a+a, a a sind arithmet. Ausdr. Wenn A und B arithm. Ausdr. sind, dann auch (A)+(B) und (A) (B). Grammatik: formalere Beschreibung solcher Regeln. 449
Bestandteile einer Grammatik T (oder Σ): endliche Menge von Terminalzeichen (das Alphabet der erzeugten Sprache) V : endliche Menge von Variablen (T V= ) S V : Startsymbol P : endliche Menge von Ableitungsregeln/ Produktionen Paare (l,r) mit l (V T ) +, r (V T )* (Schreibweise: l r) Variante: l V + 450
Beispiel: arithmetische Ausdrücke V={S} T={(,),a,+, } P = {S (S)+(S), S (S) (S), S a, S a+a, S a a} Herleitung eines Wortes: S (S)+(S) (S)+((S) (S)) (a a)+((s) (S)) (a a)+((a) (S)) (a a)+((a) (a +a)) 451
Notation w z z lässt sich durch Anwendung einer Ableitungsregel (l,r) aus w herleiten, d.h., es gibt in w ein Teilwort l, so dass nach Ersetzen von l durch r das Wort z entsteht. w z * w w 1 w 2 w 3 w n z, d.h., z kann aus w in endlich vielen Schritten hergeleitet werden. L(G): Die von der Grammatik G erzeugte Sprache, also die Menge der Wörter w T* mit S w. * 452
Notation Variablen: Großbuchstaben. Terminale: meistens Kleinbuchstaben a,b,c,... oder Ziffern, manchmal auch Sonderzeichen oder Klammern. Wörter aus (V T )*: Kleinbuchstaben u,v,... oder griechische Kleinbuchstaben. 453
Weiteres Beispiel L = { w w {a,b,c}* und w enthält gleich viele a s, b s und c s } Angabe einer Grammatik: V = {S,A,B,C,R}, T = {a,b,c}, P = {S R, S ε, R RABC, R ABC AB BA, BA AB, CA AC, AC CA, BC CB, CB BC, A a, B b, C c} 454
Eingeschränkte Grammatiken Definition T5.1.1: Chomsky-0-Grammatiken: Grammatiken ohne weitere Einschränkungen. Chomsky-1-Grammatiken: Produktionen der Form S ε oder u v mit u V +, v ((V T) {S})* und u v. monoton oder kontextsensitiv (Beispiel: siehe vorherige Folie) 455
Eingeschr. Grammatiken (Forts.) Chomsky-2-Grammatiken: Produktionen der Form A v mit A V, v (V T)*. kontextfrei Chomsky-3-Grammatiken: Produktionen der Form A ε oder A ab mit A,B V, a T. rechtslinear oder regulär 456
Sprachklassen L i : Menge der von Chomsky-i-Grammatiken erzeugbaren Sprachen, genauer L 0 : Chomsky-0-Sprachen (=rekursiv aufzählbare Sprachen) L 1 : kontextsensitive Sprachen L 2 : kontextfreie Sprachen L 3 : rechtslineare Sprachen (=reguläre Sprachen) 457
Chomsky-Hierarchie Folgerung aus der Definition: L 3 L 2 und L 1 L 0 Später: L 2 L 1 Alle Inklusionen sind echt. 458
Chomsky-0-Grammatiken (T5.2) Ziel: Chomsky-0-Sprachen = rek. aufz. Sprachen Grammatik: S * Wort Turing-Maschine: Wort akz. Konfig. D.h.: Die Rechnung einer Grammatik verläuft anders herum. 459
Rek. Aufz. Chomsky-0-Grammatik Satz T5.2.1: L rekursiv aufzählbar Es gibt Chomsky-0-Grammatik G mit L(G)=L. Beweis: Sei L rekursiv aufzählbar und M zugehörige deterministische Turingmaschine, d.h., x L M akzeptiert x, x L M läuft endlos. 460
Vereinfachungen von M M kann modifiziert werden, so dass gilt: Der Startzustand q 0 wird nur zu Beginn der Rechnung benutzt. Es gibt nur einen akzept. Zustand q*. Vor dem Akzeptieren löscht M das Band. Startkonfiguration: q 0 w 1 w n Akzep. Konfiguration: q* 461
Rückwärtsrechnung von G V = Q {S,L,R,X,Y} (Γ Σ), Startsymbol S T = Σ Regeln: Bandalphabet 1. Erzeugung der Endkonfiguration: S Lq*R, q* q*b, q* Bq* 2. Rückwärtsrechnung: Eingabealphabet δ(q,a)=(q,a,1): a q qa, δ(q,a)=(q,a, 1): q ba bqa f.a. b Γ δ(q,a)=(q,a,0): q a qa. 462
3. Schlussregeln für den Test, ob tatsächlich eine Startkonfiguration beschrieben wird, und zum Löschen der Randmarkierungen: Bq 0 q 0 Lq 0 q 0 q 0 a ax f.a. a Σ Xa ax f.a. a Σ XB Y YB Y YR ε XR ε q 0 B Y Zeichen links des hergel. Wortes löschen Zum rechten Ende des hergel. Wortes gehen Zeichen rechts des hergel. Wortes löschen Sonderfall leeres Wort 463
Korrektheit 1. L(M) L(G). Sei c 1,,c m eine akzeptierende Rechnung für w 1 w n von M. Dann gibt es in G die Herleitung S Lq*R * LB Bq*B BR = LB Bc m B BR LB Bc m 1 B BR LB Bc 1 B BR = LB Bq 0 w 1 w n B BR * w 1 w n. 464
Korrektheit 2. L(G) L(M). Sei S Lq*R * w 1 w n Herleitung in G. L,R, Zustandssymbol können nur mit den Schlussregeln entfernt werden LB Bq 0 w 1 w n B BR wurde erreicht. Die Herleitung Lq*R * LB Bq 0 w 1 w n B BR entspricht einer umgekehrten Rechnung von M. M akzeptiert w 1 w n. 465
Beispiel Rechnung von M auf ab : q 0 ab cq 1 b cdq 2 B cq 3 db q 4 cbb q*bbb Herleitung in G: S Lq*R Lq*BR Lq*BBR Lq*BBBR Lq 4 cbbr Lcq 3 dbr Lcdq 2 BR Lcq 1 bbr Lq 0 abbr q 0 abbr axbbr abxbr abyr ab 466
Chomsky-0-Grammatik Rek. Aufz. Satz T5.2.2: Wenn L durch eine Chomsky-0- Grammatik G beschrieben wird, gibt es eine NTM M, die L akzeptiert. Beweis: Algo von M: Schreibe S auf freie Spur. Iteriere: Führe nichtdeterministisch gewählte Ableitungsregel aus Vergleiche hergeleitetes Wort mit Eingabe, akzeptiere bei Gleichheit. 467
Umformung NTM DTM Satz T5.2.3: Wenn L durch eine NTM M akzeptiert wird, ist L rekursiv aufzählbar. Beweis: Konstruktion einer DTM für L: For i:=0 to Sim. alle Rechenwege von M der Länge i. Falls akzeptierende Konfiguration erreicht wird, akzeptiere. 468
Charakterisierung rek. aufz. Spr. Folgerung T5.2.4: Die Menge der rekursiv aufzählbaren Sprachen ist gleich 1. der Menge der von DTMs akzeptierten Sprachen, 2. der Menge der von NTMs akzeptierten Sprachen, 3. der Menge der von Chomsky-0- Grammatiken erzeugten Sprachen. 469
Chomsky-3-Grammatiken (T5.3) Ziel: Äquivalenz von Chomsky-3-Grammatiken und DFAs. 470
DFA Chomsky-3-Grammatik Satz T5.3.1: Sei M ein DFA für L. Dann gibt es auch eine rechtslineare Grammatik G für L. Beweis: Idee: Rechnung von M mit einer Grammatik simulieren. V=Q, T =Σ, S=q 0, Ableitungsregeln: q aq, falls δ(q,a)=q, q ε, falls q F. 471
Korrektheit Rechnung des DFA auf einem Wort w 1 w n : Zustandsfolge q 0,q 1,,q n mit δ(q i,w i+1 )=q i+1 und q n F. Rechnung der erzeugten Grammatik: q 0 w 1 q 1 w 1 w 2 q 2 w 1 w n q n w 1 w n q aq, falls δ(q,a)=q, q ε, falls q F. 472
Chomsky-3-Grammatik NFA Satz T5.3.1: Sei G eine rechtslineare Grammatik für L. Dann gibt es auch einen NFA M für L. Beweis: Sei rechtslin. Grammatik für L gegeben. Konstruktion des NFAs: Q=V, q 0 =S, F = {A Regel A ε vorhanden} δ(a,a)={b Regel A ab vorhanden} 473
Korrektheit Ableitung von w 1 w n hat die Form S w 1 A 1 w 1 w 2 A 2 w 1 w n A n w 1 w n Mögliche Zustandsfolge des NFAs bei Eingabe w 1,,w n : S A 1 A 2 A n Q=V, q 0 =S, F = {A Regel A ε vorhanden} δ(a,a)={b Regel A ab vorhanden} 474
Charakterisierung d. reg. Sprachen Folgerung: Die Menge der regulären Sprachen ist gleich der Menge der von DFAs oder NFAs erkannten Sprachen, der Menge der Sprachen, die durch reguläre Ausdrücke beschrieben werden, der Menge der Sprachen, die durch Chomsky-3-Grammatiken beschrieben werden. 475
Beobachtung Grammatiken sind ein auf natürliche Weise nichtdeterministisches Konzept. Simulationen von Ableitungen einer Grammatik werden mit Hilfe von nichtdeterministischen Maschinen besonders einfach. 476
Kontextfreie Sprachen (Kap. T6) Überblick: Beispiele kontextfreier Sprachen Chomsky-Normalform Wortproblem für kontextfreie Sprachen Pumping-Lemma Mehrdeutigkeit Algorithmen Unentscheidbare Probleme Greibach-Normalform Maschinenmodell für kontextfreie Sprachen 477
Beispiel: L={0 n 1 n n 1} Haben gesehen: L nicht regulär (Folien 338 und 346) Kontextfreie Grammatik: V={S}, Σ={0,1}, P={S 01, S 0S1} L kontextfrei 478
Variante: L={0 i 1 j 1 i j} Kontextfreie Grammatik: V={S}, Σ={0,1}, P={S 01, S 0S1, S S1} L kontextfrei 479
Bsp: Sprache der Palindrome L={w {0,1}* w=w R } Haben gesehen: L nicht regulär (Folie 347) Kontextfreie Grammatik G: V={S}, Σ={0,1}, P={S ε, S 0, S 1, S 0S0, S 1S1} Korrektheit: G erzeugt nur Palindrome. L(G) L Alle Palindrome können durch G erzeugt werden. L L(G) 480
G erzeugt nur Palindrome. Behauptung: Alle von G erzeugten Wörter w sind Palindrome. Induktion über w : w =0 oder w =1: ε, 0, 1 sind Palindrome. w >1: Die erste angewandte Regel ist S 0S0 oder S 1S1, d.h., w beginnt und endet mit demselben Buchstaben. Nach I.V. ist das Wort dazwischen Palindrom w Palindrom. V={S}, Σ={0,1}, P={S ε, S 0, S 1, S 0S0, S 1S1} 481
Alle Palindrome w in G herleitbar. Induktion über w : w =0 oder w =1: ε, 0, 1 sind herleitbar. w >1: w Palindrom w beginnt und endet mit 0 (bzw. 1); dazwischen befindet sich ein Palindrom w, also w=0w 0 oder w=1w 1. Nach I.V. ist w aus S herleitbar. S 0S0 * 0w 0 = w bzw. S 1S1 * 1w 1 = w. V={S}, Σ={0,1}, P={S ε, S 0, S 1, S 0S0, S 1S1} 482
Klammersprache w=w 1...w n {(,)}* heißt korrekt geklammert, falls die Anzahl ( ist gleich der Anzahl ). in jedem Anfangsstück w 1,...,w i (i n) ist die Anzahl ( nicht kleiner als die Anzahl ). Definiere L={w {(,)}* w korrekt geklammert} Nicht regulär Folie 349f Kontextfreie Grammatik: S SS, S (S), S ε. 483
Bsp: L={w w 0 = w 1 } w 0 : Anzahl Nullen in w, w 1 : Anzahl Einsen in w. Übungsaufgabe: Zeige, dass L nicht regulär. Kontextfreie Grammatik G: V={S}, Σ={0,1} P={S ε, S 0S1S, S 1S0S} Korrektheit: G erzeugt nur Wörter aus L. G erzeugt alle Wörter aus L. L(G) L L L(G) 484
Beispiel Ableitung von 110010 S 1S0S 11S0S0S 1100S 11001S0S 110010 S 1 S 0 S Syntaxbaum 1 S 0 S 1 S 0 S ε ε ε ε P={S ε, S 0S1S, S 1S0S} 485
Korrektheit: L(G) L G erzeugt nur Wörter aus L : folgt, da bei jedem Ableitungsschritt gleichviele Nullen wie Einsen erzeugt werden. P={S ε, S 0S1S, S 1S0S} 486
Korrektheit: L L(G) Induktion über w w =0 w=ε L(G). w >0, o.b.d.a. beginne w mit 0. Sei i>0 kleinste Zahl m. w 1 w i 0 = w 1 w i 1. Dann gilt: w 1 =0, w i =1, w 2 w i 1 0 = w 2 w i 1 1 und w i+1 w n 0 = w i+1 w n 1. Also w 2 w i 1 L und w i+1 w n L und S 0S1S * 0w 2 w i 1 1w i+1 w n. I.V. 487
Syntaxbaum Graphische Darstellung der Ableitung eines Wortes Wurzel: markiert mit S. Blätter: markiert mit Terminalen/Buchstaben oder ε. Innere Knoten: markiert mit Variablen A Nachfolger entsprechen Anwendung einer Ableitungsregel A α 1 α r. 488
Anmerkungen Zu jeder Ableitung gibt es einen Syntaxbaum. Zu einem Syntaxbaum kann es mehrere (äquivalente) Ableitungen geben. Linksableitung: Ableitung, bei der die jeweils linkeste Variable ersetzt wird. Rechtsableitung: Ableitung, bei der die jeweils rechteste Variable ersetzt wird. 489
Eindeutigkeit und Mehrdeutigkeit Definition T6.1.5: Eine kontextfreie Grammatik G heißt eindeutig, wenn es für jedes Wort w L(G) nur einen Syntaxbaum gibt. Eine kontextfreie Sprache heißt eindeutig, wenn es für sie eine eindeutige kontextfreie Grammatik gibt, anderenfalls heißt sie inhärent mehrdeutig. 490
Beispiel: Klammersprache Die Grammatik S SS, S (S), S ε ist nicht eindeutig. Beispiel: ()()() Linksableitungen: S SS SSS (S)SS ()SS ()(S)S ()()S ()()(S) ()()() S SS (S)S ()S ()SS ()(S)S ()()S ()()(S) ()()() Eindeutige Grammatik: S (S)S, S ε 491
Weiteres Beispiel S ε, S 0S1S, S 1S0S ist mehrdeutig: das Wort 011001 hat die Linksableitungen S 0S1S 01S0S1S 011S0SS0S1S * und 011001 S 0S1S 01S 011S0S 0110S 01100S1S 011001 * Etwas schwieriger: Konstruktion einer eindeutigen Grammatik. 492
Beispiel Die Grammatik S 01, S 0S1 für L={0 n 1 n n 1} ist eindeutig. 493
Motivation Nahe liegende Vermutung: Syntaxanalyse für eindeutige Grammatiken einfacher. Verschiedene Ableitungsbäume haben bei Programmiersprachen häufig verschiedene Semantiken, Beispiel: dangling else. 494
Chomsky-Normalform Ziel: einfachere Algorithmen für kontextfreie Grammatiken. Definition T6.2.1: Eine kontextfreie Grammatik ist in Chomsky-Normalform, wenn alle Ableitungsregeln von der Form A BC oder A a (mit A,B,C V, a T) sind. 495
Chomsky-Normalform Besonderheit: ε kann nicht erzeugt werden. Im Folgenden Umformung G G Kontextfreie Kontextfreie Grammatik Grammatik in Chomsky-Normalform mit L(G ) = L(G) {ε} 496
Umformung Sei s(g) die Größe (Anzahl der Buchstaben in allen Produktionen) der kontextfreien Grammatik G. Satz T6.2.2: Eine kontextfreie Grammatik G kann in Zeit O(s(G) 2 ) in Chomsky- Normalform umgeformt werden. Beweis: Umformung in 4 Schritten 497
Schritt 1: Separation Ziel: Auf den rechten Seiten der Regeln entweder 1 Terminal oder nur Variablen. Dazu: erzeuge für jedes a T eine neue Variable Y a und die Regel Y a a, Ersetze auf jeder rechten Seite einer Regel a durch Y a. 498
Beispiel für Schritt 1 A AbcDeF (mit A,D,F V, b,c,e T) wird ersetzt durch A AY b Y c DY e F, Y b b, Y c c, Y e e 499
Schritt 2: Lange rechte Seiten A B 1 B m (mit m 3, A,B 1,,B m V) wird ersetzt durch A B 1 C 1 C 1 B 2 C 2 C i B i+1 C i+1 (für 1 i m 3) C m 2 B m 1 B m Dabei sind C 1,,C m 2 neue Variablen, die nur für die betrachtete Regel eingeführt werden. 500
Resultat der Schritte 1 und 2 Nur noch Regeln der Form: A ε (ε-regeln) A B (Kettenregeln) A BC (o.k.) A a (o.k.) Bisher: Grammatik hat sich nur um konstanten Faktor vergrößert. 501
Schritt 3: Beseitigung der ε-regeln 1. Teilschritt: Finde alle Var. A mit A ε. * Initialisierung: Variablen A mit Regel A ε in Mengen V und Q einfügen. Solange Q Variable B aus Q entnehmen. Auf allen rechten Seiten von allen Regeln B durch ε ersetzen. Falls neue Regel C ε entsteht (d.h. C V ): C in V und Q aufnehmen. Ausgabe: V 502
Korrektheit des 1. Teilschritts Behauptung: V enthält genau die Variablen A mit A * ε. offensichtlich. Induktion über die Länge l der kürzesten Ableitung A * ε. l=1: Es gibt die Regel A ε. Dann wird A in V eingefügt. l>1: Dann A BC * ε oder A B * ε. Dann haben B (und C) ε-ableitungen mit Länge <l und kommen in V. A wird in V aufgenommen. 503
Beseitigung der ε-regeln, 2. Teil Entferne alle ε-regeln. Für jede Regel A BC: Falls B V : erzeuge Regel A C, falls C V : erzeuge Regel A B. Resultat: Grammatik vergrößert sich nur um konstanten Faktor. 504
Schritt 4: Entf. der Kettenregeln 1. Teilschritt: Äquivalente Variablen entfernen. Erzeuge Graphen: Knoten: Variablen Kante A B, falls Kettenregel A B vorh. Suche mit DFS nach Kreisen A 1 A 2 A 3 A r A 1 Dann sind A 2,,A r zu A 1 äquivalent und können überall durch A 1 ersetzt werden. 505
Schritt 4: Entf. der Kettenregeln 2. Teilschritt: Kettenregeln beseitigen Ber. Graphen d. Kettenregeln, ist kreisfrei. Ber. topologische Ordnung A 1,,A r. For i:=r downto 1 do Seien A i α 1,,A i α s die Regeln mit linker Seite A i. Falls A j A i mit j<i vorhanden, lösche A j A i und erzeuge A j α 1,,A j α s. 506
Beispiel für den 2. Teilschritt Graph der Kettenregeln (auf A,B,C,D,E): 1 A 3 D a C B E b 2 RS Topologische Nummerierung berechnen Regeln für E: C b, C RS, B b, B RS Regeln für D: C a, (C b) 4 5 Regeln für C: A a, A b, A RS, B a, B b, B RS 507
Größenänderung im 4. Schritt Sei A 1,,A r die topol. Ordnung der Var. Im ungünstigen Fall: Alle A r -Regeln werden zu A 1 -,...,A r 1 - Regeln, alle A r 1 -Regeln werden zu A 1 -,...,A r 2 - Regeln, usw. Höchstens Quadrierung der Größe. 508
Folgerung Zu jeder kontextfreien Grammatik G gibt es eine äquivalente kontextsensitive Grammatik, also L 2 L 1. Chomsky-Hierarchie L 3 L 2 L 1 L 0 {0 n 1 n } Alle kontextsens. Sprachen sind rekursiv. {w w a = w b = w c } 509