Identifizierbarkeit von Sprachen



Ähnliche Dokumente
Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester Sprachen. Grammatiken (Einführung)

Vorlesung. Einführung in die mathematische Sprache und naive Mengenlehre

Hausaufgabe 2 (Induktionsbeweis):

Die Regelungen zu den Einsendeaufgaben (Einsendeschluss, Klausurzulassung) finden Sie in den Studien- und Prüfungsinformationen Heft Nr. 1.

Domäne und Bereich. Relationen zwischen Mengen/auf einer Menge. Anmerkungen zur Terminologie. r Relationen auf/in einer Menge.

Theoretische Informatik 2 (WS 2006/07) Automatentheorie und Formale Sprachen 19

Übungsblatt Gleichungssysteme Klasse 8

Teil III. Grammatische Inferenz STOCHASTISCHE GRAMMATIKMODELLE. Grammatikinduktion Maschinelles Lernen einer Grammatik aus Beispielsätzen

Grundbegriffe der Informatik Aufgabenblatt 5

Theoretische Grundlagen der Informatik

Funktionen und Mächtigkeiten

Programmiersprachen und Übersetzer

Theorie der Informatik

Formale Sprachen. Der Unterschied zwischen Grammatiken und Sprachen. Rudolf Freund, Marian Kogler

Def.: Sei Σ eine Menge von Zeichen. Die Menge Σ* aller Zeichenketten (Wörter) über Σ ist die kleinste Menge, für die gilt:

Aufgaben zur Vorlesung Analysis II Prof. Dr. Holger Dette SS 2012 Lösungen zu Blatt 6

Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester 2011

Lösung zur Klausur. Grundlagen der Theoretischen Informatik. 1. Zeigen Sie, dass die folgende Sprache regulär ist: w {a, b} w a w b 0 (mod 3) }.

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Technische Informatik 2

Mathe Warm-Up, Teil 1 1 2

Was bisher geschah: Formale Sprachen

Streuungsmaße. Grundbegriffe

Logarithmus - Übungsaufgaben. I. Allgemeines

Vorlesung 24: Topological Sort 1: Hintergrund. Einführung in die Programmierung. Bertrand Meyer. Topological sort

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Algorithmen II Vorlesung am

Mathematische Grundlagen der Informatik 2

Grundbegriffe der Informatik

Teil V: Formale Sprachen

7 Rechnen mit Polynomen

Grundlagen der Künstlichen Intelligenz

Thema 13 Integrale, die von einem Parameter abhängen, Integrale von Funktionen auf Teilmengen von R n

Seminar Analyse von Petrinetz-Modellen

Minimalautomat. Wir stellen uns die Frage nach dem. kleinsten DFA für eine reguläre Sprache L, d.h. nach einem DFA mit möglichst wenigen Zuständen.

In Fachwerken gibt es demnach nur konstante Normalkräfte. Die Fachwerksknoten sind zentrale Kraftsysteme.

Grundbegriffe der Informatik

Satz. Für jede Herbrand-Struktur A für F und alle t D(F ) gilt offensichtlich

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Endliche Automaten. S. Kuske: Endliche Automaten; 6.Novenber 2006

LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 7. Übung/Lösung Mathematik für Studierende der Biologie

Automaten und Formale Sprachen alias Theoretische Informatik. Sommersemester Kurzer Einschub: das Schubfachprinzip.

Großübung zu Kräften, Momenten, Äquivalenz und Gleichgewicht

4.9 Deterministische Kellerautomaten Wir haben bereits definiert: Ein PDA heißt deterministisch (DPDA), falls

Grundlagen der Theoretischen Informatik, SoSe 2008

Mathematik schriftlich

Grundbegriffe der Informatik

Schritte international im Beruf

Definition Suffixbaum

Klausur zur Vorlesung Stochastische Modelle in Produktion und Logistik im SS 2010

Zwei unbekannte Zahlen und alle vier Rechenarten

Primzahlen und RSA-Verschlüsselung

Lehrgang: Digitaltechnik 1 ( Grundlagen ) - Im Lehrgang verwendete Gatter ( Übersicht ) Seite 3

Mathematik. Name, Vorname:

6.2 Scan-Konvertierung (Scan Conversion)

Kapitel 2: Formale Sprachen Kontextfreie Sprachen. reguläre Grammatiken/Sprachen. kontextfreie Grammatiken/Sprachen

Therapiebegleiter Kopfschmerztagebuch

Einführung in die Algebra

Grundlagen Theoretischer Informatik I SoSe 2011 in Trier. Henning Fernau Universität Trier fernau@uni-trier.de

Lösungen zu Kapitel 7

Grundlagen der Informatik II. Teil I: Formale Modelle der Informatik

Die Komplexitätsklassen P und NP

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Terme stehen für Namen von Objekten des Diskursbereichs (Subjekte, Objekte des natürlichsprachlichen Satzes)

Übungsblatt 1 zum Propädeutikum

Algorithmen und Datenstrukturen 2

Einführung in die Theoretische Informatik

Rahmen und Bogen

Kriterien für die Auszeichnung einer Abbaustelle

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Relationen: Äquivalenzrelationen, Ordnungsrelationen

Lineare Gleichungssysteme

Rabatt und Skonto. Rechnung Computersystem. Bruttopreis Rabatt Nettopreis Skonto Zahlung. 2' Fr. 2' Fr.

Grammatiken. Einführung

Informatik I WS 07/08 Tutorium 24

Grundbegriffe der Informatik

Universität Koblenz-Landau, Abteilung Koblenz FB 4 Informatik. Seminar Entscheidungsverfahren für logische Theorien. Endliche Modelle.

Übung Theoretische Grundlagen Nachtrag zur Vorlesung Dirk Achenbach

Automaten und formale Sprachen Notizen zu den Folien

Algorithmentheorie Maximale Flüsse

Kevin Caldwell. 18.April 2012

Automaten und formale Sprachen Notizen zu den Folien

Übungskomplex Felder (1) Eindimensionale Felder Mehrdimensionale Felder

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

2.11 Kontextfreie Grammatiken und Parsebäume

Inhalt. Endliche Automaten. Automaten und Formale Sprachen. Franz Binder. Endliche Automaten. Deterministische Automaten

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Mathematik Thema Vielecke

D a s P r i n z i p V o r s p r u n g. Anleitung. - & SMS-Versand mit SSL (ab CHARLY 8.11 Windows)

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Serienbrief mit Works 7.0

Formale Systeme, WS 2012/2013 Lösungen zu Übungsblatt 4

Frohe Weihnachten und ein gutes neues Jahr!

teischl.com Software Design & Services e.u. office@teischl.com

Theoretische Informatik I

Franz Binder. Vorlesung im 2006W

Formale Systeme, Automaten, Prozesse SS 2010 Musterlösung - Übung 2 M. Brockschmidt, F. Emmes, C. Fuhs, C. Otto, T. Ströder

Transkript:

FRIEDRICH SCHILLER UNIVERSITÄT JENA Fkultät für Mthemtik und Informtik INSTITUT für INFORMATIK VORLESUNG IM WINTERSEMESTER STOCHASTISCHE GRAMMATIKMODELLE Ernst Günter Schukt-Tlmzzini 06. Quelle: /home/schukt/ltex/folien/sprchmodelle-00/ssm-06.tex 30. Septemer 2013 Identifizierrkeit von Sprchen 1 Identifizierrkeit von Sprchen Positiveispielsequenz O + = (w t + t IN) wt + L Negtiveispielsequenz O = (w t t IN) wt L Beispielsequenz O = ((w t +,w t ) t IN) w t +,w t wie oen O + vollständig zgl. L, flls lle w L in O + enthlten sind. O vollständig zgl. L, flls lle w L in O + enthlten sind und lle w L in O enthlten sind. O + strukturell vollständig zgl. G, flls jede Produktion von G zur Aleitung mindestens eines w O + enötigt wird. Positivstichproe / Stichproe: O τ + = (w t + t τ) zw. O τ = ((w t +,w t ) t τ) Grmmtik G τ komptiel mit O τ, flls für lle t τ gilt: Identifizierrkeit von Sprchen.................. 1 Knonisch-definite Grmmtiken................. 4 Quotientenildung......................... 5 Formle Differentition....................... 7 k-rest-äquivlenz.......................... 11 Lernen im Vernd mit Orkel................... 12 Lernen von CFGs mit strukturierten Beispielen......... 13 Beispiel: Chromosomenkonturen.................. 17 w t + L(G τ ) und w t L(G τ ) Die Klsse G von Grmmtiken heißt zulässig, flls G zählr ist und die Aussge w L(G) für lle w VT, G G entscheidr ist. Identifizierrkeit von Sprchen 2 DEFINITION: G heißt schließlich identifizierr (identifile in the limit), flls es ein Lernverfhren A git, so dß für lle G G und lle zgl. L(G) vollständigen Beispielsequenzen O gilt: Es git ein τ IN mit G t = G τ für lle t τ L(G τ ) = L(G) woei G t = A(O t,g) die im t-ten Schritt us O gelernte Grmmtik ist. DEFINITION: Ein Lernverfhren A pproximiert die Grmmtik G, flls gilt: Für lle w L(G) ex. τ IN mit t τ = w L(G t ) Für lle G mit L(G )\L(G) ex. τ IN mit BEMERKUNGEN: t τ = G t G 1. A ist u.u. ußerstnde, ei G τ zu hlten! 2. A pproximiert L ˆ= A weist schließlich lle nichtkomptilen G zurück Identifizierrkeit von Sprchen 3 Lnguge Identifiction in the Limit (Gold 1967) zählre Klsse G von Grmmtiken inkrementelle Beispielpräsenttion für G G je ein positives & ein negtives Beispiel für L(G) nur ein positives Beispiel für L(G) grmmtisches Lernverfhren A wählt einen Kndidten G t G uf Grundlge der isherigen Lerneispiele SATZ 1: Sei G eine zulässige Klsse von Grmmtiken. Es git ein Lernverfhren A, so dß jede Sprche L(G), G G schließlich identifizierr ist ufgrund einer vollständigen Sequenz positiver und negtiver Beispiele. SATZ 2: Enthlte G Grmmtiken für lle endlichen Sprchen sowie mindestens eine unendliche Sprche L. Dnn ist L nicht schließlich identifizierr llein ufgrund positiver Beispiele. Korollr: Die Klsse G der regulären Sprchen ist nicht schließlich identifizierr llein ufgrund positiver Beispiele. SATZ 3: Sei G eine zulässige Klsse von Grmmtiken. Dnn git es ein Lernverfhren A, so dß lle G G ufgrund einer vollständigen Sequenz positiver Beispiele pproximiert werden können.

Knonisch-definite Grmmtiken 4 GRUNDANNAHMEN: die gesuchte Grmmtik G ist regulär O = (O +,O ) ist eine endliche Beispielmenge O + ist ezüglich G strukturell vollständig O + ist mit der Quellgrmmtik G komptiel Knonisch-definite Grmmtik G K für O + : G = (V N,V T,R,S) V T = {v v kommt in einer Kette w O + vor} Für jedes w O +, w = w 1,...,w n erweitere R um S w1 Zw,1 Zw,1 w2 Zw,2 Zw,2 w3 Zw,3.................. Zw,n 2 wn 1 Zw,n 1 Zw,n 1 wn S Zw,1 Zw,2 Zw,n 2 Zw,n 1 w1 w2 wn V N = {S} {Z w,i w O + und 1 i < w } Die knonisch-definite Grmmtik ist komptiel: L(G K ) = O + und L(G K ) O PROBLEM: umfngreiche Lerndten gewltiger Zustndsrum Quotientenildung 5 Quotientenildung Knonisch-definite Grmmtik G K mit V N = {S,Z 1,...,Z n } Prtition {B 0,B 1,...,B r } =: V N der Nichtterminle us V N Der Quotient von G K nch {B 0,B 1,...,B r }: G Q = (V N,V T,R Q,B 0 ) Strtsymol ist o.b.d.a. B 0 mit S B 0 Es ist B i B j R Q flls ex. Z,Z V N mit Z Z und Z B i, Z B j Es ist B i R Q flls ex. Z, V N mit Z und Z B i Sei O + strukturell vollständige Menge von Positiveispielen für L(G) und G K die knonisch-definite Grmmtik für O +. Dnn git es eine Prtition V N der G K-Nichtterminle, so dß für den Quotienten G Q von G K nch V N gilt: L(G Q ) = L(G) Sei G Q ein elieiger Quotient der knonisch-definiten Grmmtik G K von O +. Dnn gilt L(G Q ) O + Quotientenildung 6 Kndidtenmenge ˆ= lle Quotienten von G K G K = {G 1,G 2,...,G η(k) = G K } Aufsteigende Ordnung nch der Anzhl der Nichtterminle von G i G K = η(k) = endlich; dei ist k := #(Nichtterminle von GK) n ( ) n η(0) = 1 und η(n+1) = η(j) j Mindestens ein G G K erfüllt die Komptiilitätsedingung O + L(G) j=0 O L(G) Sei O = (O +, ). Alle Grmmtiken in G K sind potentielle Lösungen des Lernprolems. Sei O = (O +,O ). Die potentiellen Lösungen des Lernprolems ilden eine nichtleere Teilmenge G G K der Klsse ller G K -Quotienten. PROBLEM: G K wächst exponentiell mit G K, d.h. mit O +! Formle Differentition 7 Formle Differentition Sei M ein Menge von Zeichenketten üer V T und V T M = M BEISPIEL: M = {01, 100, 111, 0010} = {w w M} 0 M = {1,010} 1 M = {00,11} Zweite & höhere Aleitungen: M = ( M) und 1... n M = n ( 1... n 1 M) Knonische Aleitungsgrmmtik von O + G A = (V N,V T,R,S) V T = Menge ller Zeichen in O + V N = {U 1,...,U r } = Menge ller O + -Aleitungen ( ) S = U 1 = $ O + U i U j R flls U i = U j U i R flls $ U i

Formle Differentition 8 Formle Differentition 9 Sei G eine reguläre Grmmtik und O = (O +,O ) komptiel zu G sowie O + strukturell vollständig zgl. G. Sei ferner G A die knonische Aleitungsgrmmtik für O + und G A die Menge ller Quotientengrmmtiken von G A. Dnn gilt für lle G G A BEISPIEL (Fortsetzung I): Knonisch-definite Grmmtik GK: S 1 A A 0 A A 1 S 1 B B 1 B B 1 L(G ) O + und für wenigstens ein G G A uch L(G ) O Quotientengrmmtik G zur Prtition S = {{S},{A,A },{B,B }} = {S,A,B}: S 1 A A 0 A A 1 S 1 B B 1 B B 1 Ds ergit G = G mit L(G ) = L(G) = 1(0 1 )1. BEMERKUNGEN: G A ist i.. weniger umfngreich ls G K. Es gilt nicht notwendigerweise G G A! Quotientengrmmtik G zur Prtition S = {{S},{A,B },{A,B }} = {S,S,S }: S 1 S S 0 S S 1 (S 1 S ) S 1 S (S 1) Es gilt L(G ) = 1(0 1)1 = O+. BEISPIEL: Grmmtik G 2 mit V N = {S,A,B} und V T = {0,1} und den PS-Regeln S 1 A 1 B A 0 A 1 B 1 B 1 und den Positiveispielen O + = {101,111}. Wie sehen G K, G A und G A us? Quotientengrmmtik G zur Prtition S = {{S,A,B },{A,B }} = {S,S }: S 1 S S 0 S S 1 (S 1 S) S 1 S (S 1) Es gilt L(G ) = 1 (0 1)1. Quotientengrmmtik G zur Prtition S = {{S},{A,B,A,B }} = {S,S }: S 1 S S 0 S S 1 (S 1 S ) S 1 S (S 1) Es gilt L(G ) = 1{0,1} 1. Formle Differentition 10 BEISPIEL (Fortsetzung II): Aleitungen: Knonische Aleitungsgrmmtik GA: Es gilt L(GA) = 1(0 1)1 L(G). Quotientenildung: S = U$ = = {101,111} U0 = 0O+ = A = U1 = 1O+ = {01,11} B = U10 = 0U1 = {1} U11 = 1U1 = {1} C = U111 = 1U11 = {$} S 1 A 1S = A, 0S = A 0 B 0A = B A 1 B 1A = B (B 1 C) 0B =, 1B = C B 1 1B = C, $ C {S,A} {S,B} {A,B} {S,A,B} S 1 S S 1 A S 1 A S 1 S S 0 B A 0 S A 0 A S 0 S S 1 B A 1 S A 1 A S 1 S B 1 S 1 A 1 S 1 1 (0 1)1 (1{0,1}) 1 1{0,1} 1 {0,1} 1 unvergleichr unvergleichr L(G) L(G) 1101? 10101? 1011? 01? 1001! 1001! Nur die Grmmtik GA selst ist komptiel mit (O+, L(G)). k-rest-äquivlenz 11 k-reste Für M VT, z V T und k IN definiere den k-rest k-reste-äquivlenz k zm = {w V T zw M und w k} Seien U w = w O + und U v = v O + zwei Zustände der knonischen Aleitungsgrmmtik G A von O +. Die eiden Zustände heißen k-rest-äquivlent, flls gilt: BEMERKUNG: k wo + = k vo + Der Quotient von G A zgl. dieser Äquivlenzreltion heißt G R ; G R G A Die Menge ller Quotienten von G R enthält u.u. keine komptilen Grmmtiken! BEISPIEL: O + = {01,100,111,0010} w k 4 k = 3 k = 2 k = 1 U0 $ O+ {01, 100, 111} {01} U1 0 {1, 010} {1, 010} {1} {1} U2 1 {00, 11} {00, 11} {00, 11} U3 00 {10} {10} {10} U4 01 {$} {$} {$} {$} U5 10 {0} {0} {0} {0} U6 11 {1} {1} {1} {1}

Lernen im Vernd mit Orkel 12 Lernen mit Orkel Der Quotientenvernd einer Grmmtik Sei O + Menge positiver Lerneispiele für die reguläre Quellgrmmtik G und G K die Menge der Quotienten von G K (O + ). Definiere die Reltion G 1 G 2 gdw. (Prtition von G1 ist feiner ls Prtition von G2) Dnn ist eine Hlordnung und (G K, ) ildet einen Vernd. Es gilt G 1 G 2 = L(G 1 ) L(G 2 ) Po s Lernverfhren: (1) Wähle zwei -minimle Grmmtiken G 1, G 2. (ENDE, flls Vernd nur noch einen Kndidten enthält) (2) Teste die Äquivlenz L(G 1 ) = L(G 2 ) Flls JA, eliminiere G 1 und gehe nch (1). (3) Konstruiere die Differenz G 12 = G 1 G 2, welche Ketten us L(G 1 )\L(G 2 ) erzeugt. Wähle ein w L(G 12 ) und efrge ds Orkel nch w L(G). Flls JA, eliminiere G 2, sonst eliminiere G 1. Gehe nch (1). Sei G eine Klsse regulärer Grmmtiken. Jedes G G ist schließlich identifizierr durch eine strukturell vollständige Menge O + positiver Lerndten, wenn ein Orkel verfügr ist. Lernen von CFGs mit strukturierten Beispielen 13 Lernen kontextfreier Grmmtiken Die CFG G heißt vollständig reduziert, wenn gilt: R enthält keine Regeln A $ mit A S R enthält keine Regeln A B mit A,B V N Für jedes α (V N V T ) mit S α existiert ein w V T mit α w Jede Regel us R wird von mindestens einem w L(G) genutzt Die Klmmergrmmtik [G] zu G Erweitere V T um die (neuen) Symole [ und ]. Ersetze jede Regel A α durch A [α]. Strukturierte positive Beispielsequenzen: (nlog: O, vollständige Sequenzen,...) O + = (w t w t L([G]) und t IN) Menge der Links- und Rechtsterminle von η zgl. G L t (η) = { V T η α oder (η Aβ mit L t (β))} R t (η) = { V T η α oder (η βa mit R t (β))} (d.h. Lt(η) flls in einer Stzform einer Aleitung us η ds m weitesten links stehende Terminlsymol ist; η,α,β (VN VT) ) Lernen von CFGs mit strukturierten Beispielen 14 Algorithmus von CRESPI-REGHIZZI BEISPIEL: Arithmetische Ausdrücke üer V T = {,+,(,)} (0) Beispiele O 1 + = {w 1 } mit w 1 = [[]+[[]+[]]] (1) Loklisiere erstes inneres Klmmerpr; erzeuge Produktion N (2) Nmensgeung für ds neue Nichtterminl: N L t (α) R t (α) (3) Sustituiere neues Nichtterminl in ds Lerneispiel (1 ) Erzeuge N + (2 ) Benenne N + + w 1 = [ +[ + ]] (3 ) Sustituiere w 1 = [ + + + ] (1 ) Erzeuge N + + + (2 ) Benenne N + + Es ergit sich nch Umtufen die Grmmtik G 1 : S B B A+A B A+B A B + + A Es ist L(G 1 ) = {++,+++,...} und O 1 + L(G 1 ) Lernen von CFGs mit strukturierten Beispielen 15 Zweites Lerneispiel, O+ 2 = {w 1,w 2 } w 2 = [[([[]+[]])]+[]] Folgende Produktionsregel werden generiert (G 2 ): S D D +( + D C +A C ( ) C (B) B + + B A+A A A Dnn gilt die Komptiilität {w 2 } L(G 2) und für die Vereinigungsgrmmtik gilt L(G 2 ) = L(G 1 G 2) L(G 1 ) L(G 2) Mit den zusätzlichen Beispielen w3 = ((++))++(+) w7 = (+)+(+)+ w4 = (+(+)+) w8 = ++(+) w5 = ((+)+((+)+)) w9 = (+(+)) w6 = +((+)+) w10 = +(+)+(+)+(+) ergit sich Grmmtik G 10, die lle* rithmet. Ausdrücke enthält: S B C D E F F C +E C +C C +F F +( +) E A+C A+E A+F E + + D C +A C +B C +D D +( + C (B) (C) (E) (F) C ( ) B A+A A+B A+D B + + A A (*) die Ausdrücke, (), (()) etc. lssen sich durch die Beispiele w11 =, w12 = () nlernen

Lernen von CFGs mit strukturierten Beispielen 16 Der Crespi-Reghizzi-Algorithmus erzeugt freie Opertorvorrnggrmmtiken Alle rechten Seiten von Produktionen sind verschieden. Alle rechten Seiten eines Nichtterminls esitzen dieselen Rechts- und Linksterminle. Zwei verschiedene Nichtterminle esitzen nicht dssele L t R t -Pr. Der Crespi-Reghizzi-Algorithmus erzeugt eine minimle hinsichtlich der Anzhl der Nichtterminle und Produktionsregeln freie Opertorvorrnggrmmtik, die mit der gegeenen (positiven) Beispielmenge verträglich ist. Beispiel: Chromosomenkonturen 17 Beispiel: Chromosomenkonturen Formkodierung der Kontursegmente Außenogen c Innenogen (eng) d Innenogen (weit) gerdes Segment Kerngrmmtik für die Kontureschreiung c d d c S BB zwei Symmetriehälften B c ARM d ARM je zwei Chromosomenrme ARM??? us den Dten lernen!!! Strukturierte Beispiele für Chromosomenrme w 1 w 2 w 3 w 4 Gelernte Grmmtik = [[[[]]]] = [[[[]]]] = [[[[[]]]]] = [[[]]] ARM G G G F H F E F H E E