FRIEDRICH SCHILLER UNIVERSITÄT JENA Fkultät für Mthemtik und Informtik INSTITUT für INFORMATIK VORLESUNG IM WINTERSEMESTER STOCHASTISCHE GRAMMATIKMODELLE Ernst Günter Schukt-Tlmzzini 06. Quelle: /home/schukt/ltex/folien/sprchmodelle-00/ssm-06.tex 30. Septemer 2013 Identifizierrkeit von Sprchen 1 Identifizierrkeit von Sprchen Positiveispielsequenz O + = (w t + t IN) wt + L Negtiveispielsequenz O = (w t t IN) wt L Beispielsequenz O = ((w t +,w t ) t IN) w t +,w t wie oen O + vollständig zgl. L, flls lle w L in O + enthlten sind. O vollständig zgl. L, flls lle w L in O + enthlten sind und lle w L in O enthlten sind. O + strukturell vollständig zgl. G, flls jede Produktion von G zur Aleitung mindestens eines w O + enötigt wird. Positivstichproe / Stichproe: O τ + = (w t + t τ) zw. O τ = ((w t +,w t ) t τ) Grmmtik G τ komptiel mit O τ, flls für lle t τ gilt: Identifizierrkeit von Sprchen.................. 1 Knonisch-definite Grmmtiken................. 4 Quotientenildung......................... 5 Formle Differentition....................... 7 k-rest-äquivlenz.......................... 11 Lernen im Vernd mit Orkel................... 12 Lernen von CFGs mit strukturierten Beispielen......... 13 Beispiel: Chromosomenkonturen.................. 17 w t + L(G τ ) und w t L(G τ ) Die Klsse G von Grmmtiken heißt zulässig, flls G zählr ist und die Aussge w L(G) für lle w VT, G G entscheidr ist. Identifizierrkeit von Sprchen 2 DEFINITION: G heißt schließlich identifizierr (identifile in the limit), flls es ein Lernverfhren A git, so dß für lle G G und lle zgl. L(G) vollständigen Beispielsequenzen O gilt: Es git ein τ IN mit G t = G τ für lle t τ L(G τ ) = L(G) woei G t = A(O t,g) die im t-ten Schritt us O gelernte Grmmtik ist. DEFINITION: Ein Lernverfhren A pproximiert die Grmmtik G, flls gilt: Für lle w L(G) ex. τ IN mit t τ = w L(G t ) Für lle G mit L(G )\L(G) ex. τ IN mit BEMERKUNGEN: t τ = G t G 1. A ist u.u. ußerstnde, ei G τ zu hlten! 2. A pproximiert L ˆ= A weist schließlich lle nichtkomptilen G zurück Identifizierrkeit von Sprchen 3 Lnguge Identifiction in the Limit (Gold 1967) zählre Klsse G von Grmmtiken inkrementelle Beispielpräsenttion für G G je ein positives & ein negtives Beispiel für L(G) nur ein positives Beispiel für L(G) grmmtisches Lernverfhren A wählt einen Kndidten G t G uf Grundlge der isherigen Lerneispiele SATZ 1: Sei G eine zulässige Klsse von Grmmtiken. Es git ein Lernverfhren A, so dß jede Sprche L(G), G G schließlich identifizierr ist ufgrund einer vollständigen Sequenz positiver und negtiver Beispiele. SATZ 2: Enthlte G Grmmtiken für lle endlichen Sprchen sowie mindestens eine unendliche Sprche L. Dnn ist L nicht schließlich identifizierr llein ufgrund positiver Beispiele. Korollr: Die Klsse G der regulären Sprchen ist nicht schließlich identifizierr llein ufgrund positiver Beispiele. SATZ 3: Sei G eine zulässige Klsse von Grmmtiken. Dnn git es ein Lernverfhren A, so dß lle G G ufgrund einer vollständigen Sequenz positiver Beispiele pproximiert werden können.
Knonisch-definite Grmmtiken 4 GRUNDANNAHMEN: die gesuchte Grmmtik G ist regulär O = (O +,O ) ist eine endliche Beispielmenge O + ist ezüglich G strukturell vollständig O + ist mit der Quellgrmmtik G komptiel Knonisch-definite Grmmtik G K für O + : G = (V N,V T,R,S) V T = {v v kommt in einer Kette w O + vor} Für jedes w O +, w = w 1,...,w n erweitere R um S w1 Zw,1 Zw,1 w2 Zw,2 Zw,2 w3 Zw,3.................. Zw,n 2 wn 1 Zw,n 1 Zw,n 1 wn S Zw,1 Zw,2 Zw,n 2 Zw,n 1 w1 w2 wn V N = {S} {Z w,i w O + und 1 i < w } Die knonisch-definite Grmmtik ist komptiel: L(G K ) = O + und L(G K ) O PROBLEM: umfngreiche Lerndten gewltiger Zustndsrum Quotientenildung 5 Quotientenildung Knonisch-definite Grmmtik G K mit V N = {S,Z 1,...,Z n } Prtition {B 0,B 1,...,B r } =: V N der Nichtterminle us V N Der Quotient von G K nch {B 0,B 1,...,B r }: G Q = (V N,V T,R Q,B 0 ) Strtsymol ist o.b.d.a. B 0 mit S B 0 Es ist B i B j R Q flls ex. Z,Z V N mit Z Z und Z B i, Z B j Es ist B i R Q flls ex. Z, V N mit Z und Z B i Sei O + strukturell vollständige Menge von Positiveispielen für L(G) und G K die knonisch-definite Grmmtik für O +. Dnn git es eine Prtition V N der G K-Nichtterminle, so dß für den Quotienten G Q von G K nch V N gilt: L(G Q ) = L(G) Sei G Q ein elieiger Quotient der knonisch-definiten Grmmtik G K von O +. Dnn gilt L(G Q ) O + Quotientenildung 6 Kndidtenmenge ˆ= lle Quotienten von G K G K = {G 1,G 2,...,G η(k) = G K } Aufsteigende Ordnung nch der Anzhl der Nichtterminle von G i G K = η(k) = endlich; dei ist k := #(Nichtterminle von GK) n ( ) n η(0) = 1 und η(n+1) = η(j) j Mindestens ein G G K erfüllt die Komptiilitätsedingung O + L(G) j=0 O L(G) Sei O = (O +, ). Alle Grmmtiken in G K sind potentielle Lösungen des Lernprolems. Sei O = (O +,O ). Die potentiellen Lösungen des Lernprolems ilden eine nichtleere Teilmenge G G K der Klsse ller G K -Quotienten. PROBLEM: G K wächst exponentiell mit G K, d.h. mit O +! Formle Differentition 7 Formle Differentition Sei M ein Menge von Zeichenketten üer V T und V T M = M BEISPIEL: M = {01, 100, 111, 0010} = {w w M} 0 M = {1,010} 1 M = {00,11} Zweite & höhere Aleitungen: M = ( M) und 1... n M = n ( 1... n 1 M) Knonische Aleitungsgrmmtik von O + G A = (V N,V T,R,S) V T = Menge ller Zeichen in O + V N = {U 1,...,U r } = Menge ller O + -Aleitungen ( ) S = U 1 = $ O + U i U j R flls U i = U j U i R flls $ U i
Formle Differentition 8 Formle Differentition 9 Sei G eine reguläre Grmmtik und O = (O +,O ) komptiel zu G sowie O + strukturell vollständig zgl. G. Sei ferner G A die knonische Aleitungsgrmmtik für O + und G A die Menge ller Quotientengrmmtiken von G A. Dnn gilt für lle G G A BEISPIEL (Fortsetzung I): Knonisch-definite Grmmtik GK: S 1 A A 0 A A 1 S 1 B B 1 B B 1 L(G ) O + und für wenigstens ein G G A uch L(G ) O Quotientengrmmtik G zur Prtition S = {{S},{A,A },{B,B }} = {S,A,B}: S 1 A A 0 A A 1 S 1 B B 1 B B 1 Ds ergit G = G mit L(G ) = L(G) = 1(0 1 )1. BEMERKUNGEN: G A ist i.. weniger umfngreich ls G K. Es gilt nicht notwendigerweise G G A! Quotientengrmmtik G zur Prtition S = {{S},{A,B },{A,B }} = {S,S,S }: S 1 S S 0 S S 1 (S 1 S ) S 1 S (S 1) Es gilt L(G ) = 1(0 1)1 = O+. BEISPIEL: Grmmtik G 2 mit V N = {S,A,B} und V T = {0,1} und den PS-Regeln S 1 A 1 B A 0 A 1 B 1 B 1 und den Positiveispielen O + = {101,111}. Wie sehen G K, G A und G A us? Quotientengrmmtik G zur Prtition S = {{S,A,B },{A,B }} = {S,S }: S 1 S S 0 S S 1 (S 1 S) S 1 S (S 1) Es gilt L(G ) = 1 (0 1)1. Quotientengrmmtik G zur Prtition S = {{S},{A,B,A,B }} = {S,S }: S 1 S S 0 S S 1 (S 1 S ) S 1 S (S 1) Es gilt L(G ) = 1{0,1} 1. Formle Differentition 10 BEISPIEL (Fortsetzung II): Aleitungen: Knonische Aleitungsgrmmtik GA: Es gilt L(GA) = 1(0 1)1 L(G). Quotientenildung: S = U$ = = {101,111} U0 = 0O+ = A = U1 = 1O+ = {01,11} B = U10 = 0U1 = {1} U11 = 1U1 = {1} C = U111 = 1U11 = {$} S 1 A 1S = A, 0S = A 0 B 0A = B A 1 B 1A = B (B 1 C) 0B =, 1B = C B 1 1B = C, $ C {S,A} {S,B} {A,B} {S,A,B} S 1 S S 1 A S 1 A S 1 S S 0 B A 0 S A 0 A S 0 S S 1 B A 1 S A 1 A S 1 S B 1 S 1 A 1 S 1 1 (0 1)1 (1{0,1}) 1 1{0,1} 1 {0,1} 1 unvergleichr unvergleichr L(G) L(G) 1101? 10101? 1011? 01? 1001! 1001! Nur die Grmmtik GA selst ist komptiel mit (O+, L(G)). k-rest-äquivlenz 11 k-reste Für M VT, z V T und k IN definiere den k-rest k-reste-äquivlenz k zm = {w V T zw M und w k} Seien U w = w O + und U v = v O + zwei Zustände der knonischen Aleitungsgrmmtik G A von O +. Die eiden Zustände heißen k-rest-äquivlent, flls gilt: BEMERKUNG: k wo + = k vo + Der Quotient von G A zgl. dieser Äquivlenzreltion heißt G R ; G R G A Die Menge ller Quotienten von G R enthält u.u. keine komptilen Grmmtiken! BEISPIEL: O + = {01,100,111,0010} w k 4 k = 3 k = 2 k = 1 U0 $ O+ {01, 100, 111} {01} U1 0 {1, 010} {1, 010} {1} {1} U2 1 {00, 11} {00, 11} {00, 11} U3 00 {10} {10} {10} U4 01 {$} {$} {$} {$} U5 10 {0} {0} {0} {0} U6 11 {1} {1} {1} {1}
Lernen im Vernd mit Orkel 12 Lernen mit Orkel Der Quotientenvernd einer Grmmtik Sei O + Menge positiver Lerneispiele für die reguläre Quellgrmmtik G und G K die Menge der Quotienten von G K (O + ). Definiere die Reltion G 1 G 2 gdw. (Prtition von G1 ist feiner ls Prtition von G2) Dnn ist eine Hlordnung und (G K, ) ildet einen Vernd. Es gilt G 1 G 2 = L(G 1 ) L(G 2 ) Po s Lernverfhren: (1) Wähle zwei -minimle Grmmtiken G 1, G 2. (ENDE, flls Vernd nur noch einen Kndidten enthält) (2) Teste die Äquivlenz L(G 1 ) = L(G 2 ) Flls JA, eliminiere G 1 und gehe nch (1). (3) Konstruiere die Differenz G 12 = G 1 G 2, welche Ketten us L(G 1 )\L(G 2 ) erzeugt. Wähle ein w L(G 12 ) und efrge ds Orkel nch w L(G). Flls JA, eliminiere G 2, sonst eliminiere G 1. Gehe nch (1). Sei G eine Klsse regulärer Grmmtiken. Jedes G G ist schließlich identifizierr durch eine strukturell vollständige Menge O + positiver Lerndten, wenn ein Orkel verfügr ist. Lernen von CFGs mit strukturierten Beispielen 13 Lernen kontextfreier Grmmtiken Die CFG G heißt vollständig reduziert, wenn gilt: R enthält keine Regeln A $ mit A S R enthält keine Regeln A B mit A,B V N Für jedes α (V N V T ) mit S α existiert ein w V T mit α w Jede Regel us R wird von mindestens einem w L(G) genutzt Die Klmmergrmmtik [G] zu G Erweitere V T um die (neuen) Symole [ und ]. Ersetze jede Regel A α durch A [α]. Strukturierte positive Beispielsequenzen: (nlog: O, vollständige Sequenzen,...) O + = (w t w t L([G]) und t IN) Menge der Links- und Rechtsterminle von η zgl. G L t (η) = { V T η α oder (η Aβ mit L t (β))} R t (η) = { V T η α oder (η βa mit R t (β))} (d.h. Lt(η) flls in einer Stzform einer Aleitung us η ds m weitesten links stehende Terminlsymol ist; η,α,β (VN VT) ) Lernen von CFGs mit strukturierten Beispielen 14 Algorithmus von CRESPI-REGHIZZI BEISPIEL: Arithmetische Ausdrücke üer V T = {,+,(,)} (0) Beispiele O 1 + = {w 1 } mit w 1 = [[]+[[]+[]]] (1) Loklisiere erstes inneres Klmmerpr; erzeuge Produktion N (2) Nmensgeung für ds neue Nichtterminl: N L t (α) R t (α) (3) Sustituiere neues Nichtterminl in ds Lerneispiel (1 ) Erzeuge N + (2 ) Benenne N + + w 1 = [ +[ + ]] (3 ) Sustituiere w 1 = [ + + + ] (1 ) Erzeuge N + + + (2 ) Benenne N + + Es ergit sich nch Umtufen die Grmmtik G 1 : S B B A+A B A+B A B + + A Es ist L(G 1 ) = {++,+++,...} und O 1 + L(G 1 ) Lernen von CFGs mit strukturierten Beispielen 15 Zweites Lerneispiel, O+ 2 = {w 1,w 2 } w 2 = [[([[]+[]])]+[]] Folgende Produktionsregel werden generiert (G 2 ): S D D +( + D C +A C ( ) C (B) B + + B A+A A A Dnn gilt die Komptiilität {w 2 } L(G 2) und für die Vereinigungsgrmmtik gilt L(G 2 ) = L(G 1 G 2) L(G 1 ) L(G 2) Mit den zusätzlichen Beispielen w3 = ((++))++(+) w7 = (+)+(+)+ w4 = (+(+)+) w8 = ++(+) w5 = ((+)+((+)+)) w9 = (+(+)) w6 = +((+)+) w10 = +(+)+(+)+(+) ergit sich Grmmtik G 10, die lle* rithmet. Ausdrücke enthält: S B C D E F F C +E C +C C +F F +( +) E A+C A+E A+F E + + D C +A C +B C +D D +( + C (B) (C) (E) (F) C ( ) B A+A A+B A+D B + + A A (*) die Ausdrücke, (), (()) etc. lssen sich durch die Beispiele w11 =, w12 = () nlernen
Lernen von CFGs mit strukturierten Beispielen 16 Der Crespi-Reghizzi-Algorithmus erzeugt freie Opertorvorrnggrmmtiken Alle rechten Seiten von Produktionen sind verschieden. Alle rechten Seiten eines Nichtterminls esitzen dieselen Rechts- und Linksterminle. Zwei verschiedene Nichtterminle esitzen nicht dssele L t R t -Pr. Der Crespi-Reghizzi-Algorithmus erzeugt eine minimle hinsichtlich der Anzhl der Nichtterminle und Produktionsregeln freie Opertorvorrnggrmmtik, die mit der gegeenen (positiven) Beispielmenge verträglich ist. Beispiel: Chromosomenkonturen 17 Beispiel: Chromosomenkonturen Formkodierung der Kontursegmente Außenogen c Innenogen (eng) d Innenogen (weit) gerdes Segment Kerngrmmtik für die Kontureschreiung c d d c S BB zwei Symmetriehälften B c ARM d ARM je zwei Chromosomenrme ARM??? us den Dten lernen!!! Strukturierte Beispiele für Chromosomenrme w 1 w 2 w 3 w 4 Gelernte Grmmtik = [[[[]]]] = [[[[]]]] = [[[[[]]]]] = [[[]]] ARM G G G F H F E F H E E