Lernen Formaler Sprachen

Ähnliche Dokumente

Primzahlen und RSA-Verschlüsselung

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Übung Theoretische Grundlagen

1 topologisches Sortieren

1 Mathematische Grundlagen

Grundlagen der Theoretischen Informatik, SoSe 2008

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Einführung in die Algebra

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Absolute Stetigkeit von Maßen

Informationsblatt Induktionsbeweis

Beweisbar sichere Verschlüsselung

Professionelle Seminare im Bereich MS-Office

Codierungstheorie Rudolf Scharlau, SoSe

Was meinen die Leute eigentlich mit: Grexit?

Grundbegriffe der Informatik

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Zeichen bei Zahlen entschlüsseln

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Wichtige Forderungen für ein Bundes-Teilhabe-Gesetz

Kapitalerhöhung - Verbuchung

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

7 Rechnen mit Polynomen

Also kann nur A ist roter Südler und B ist grüner Nordler gelten.

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

! " # $ " % & Nicki Wruck worldwidewruck

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Was ist Sozial-Raum-Orientierung?

Die Post hat eine Umfrage gemacht

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Musterlösungen zur Linearen Algebra II Blatt 5

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

8. Quadratische Reste. Reziprozitätsgesetz

Anleitung über den Umgang mit Schildern

Mathematische Maschinen

Anleitung zum erfassen von Last Minute Angeboten und Stellenangebote

Leichte-Sprache-Bilder

Wie löst man Mathematikaufgaben?

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Programmiersprachen und Übersetzer

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Info zum Zusammenhang von Auflösung und Genauigkeit

Was ich als Bürgermeister für Lübbecke tun möchte

3. Zusammenhang. 22 Andreas Gathmann

Das Leitbild vom Verein WIR

Berechnungen in Access Teil I

Prolog basiert auf Prädikatenlogik

Entscheidungsprobleme. Berechenbarkeit und Komplexität Entscheidbarkeit und Unentscheidbarkeit. Die Entscheidbarkeit von Problemen

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Lineare Gleichungssysteme

6.2 Perfekte Sicherheit

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Anmerkungen zur Übergangsprüfung

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Dow Jones am im 1-min Chat

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Literatur. Dominating Set (DS) Dominating Sets in Sensornetzen. Problem Minimum Dominating Set (MDS)

Leit-Bild. Elbe-Werkstätten GmbH und. PIER Service & Consulting GmbH. Mit Menschen erfolgreich

Theoretische Grundlagen der Informatik WS 09/10

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Erstellen von x-y-diagrammen in OpenOffice.calc

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Programmentwicklungen, Webseitenerstellung, Zeiterfassung, Zutrittskontrolle

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

2.11 Kontextfreie Grammatiken und Parsebäume

Modellbildungssysteme: Pädagogische und didaktische Ziele

EINFACHES HAUSHALT- KASSABUCH

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Säuglingsanfangsnahrung und Folgenahrung Was ändert sich? Was bleibt?

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

Geld Verdienen im Internet leicht gemacht

Printserver und die Einrichtung von TCP/IP oder LPR Ports

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

Theoretische Grundlagen des Software Engineering

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Matrizennorm. Definition 1. Sei A M r,s (R). Dann heißt A := sup die Matrixnorm. Wir wissen zunächst nicht, ob A eine reelle Zahl ist.

Lineare Gleichungssysteme

4. Übungsblatt Matrikelnr.:

Erklärung zu den Internet-Seiten von

10. Public-Key Kryptographie

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Korrigenda Handbuch der Bewertung

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Vorlesung. Funktionen/Abbildungen 1

Kapitalerhöhung - Verbuchung

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Plotten von Linien ( nach Jack Bresenham, 1962 )

Transkript:

Lernen Formaler Sprachen Timo Kötzing 28. Januar 2014 1 Einleitung Dieses Dokument ist das Skript zur Vorlesung Lernen Formaler Sprachen. Bei den Definitionen der Lernbarkeitskriterien folgen wir dem etwas ungewöhnlichen Baukasten -Ansatz aus [Köt09]. Eine gute Übersicht über die Lerntheorie bietet das Buch Systems that learn, sowohl in der aktuellen zweiten Ausgabe [JORS99], aber auch in der signifikant unterschiedlichen ersten Ausgabe [OSW86]. Die Einührung der Berechenbarkeit erfolgt in 5 Treffen, mit einem zusätzlichen Treffen für einen Test. Folgende Auflistung gibt einen Überblick über die Daten. Eine grobe Übersicht der Wochenplanung: Woche Thema 1-3 Vorkurs Berechenbarkeit 4 Einführung und Topologische Restriktionen 5 Konsistenz 6-8 Verzögerbare Lernrestriktionen 9-10 Fin, Bc, Fex Weihnachten 11 Verschiedene Themen der Lerntheorie (Rel, Prud) & Konkrete Algorithmen 12 Was ist ein Beweis? 13 Beweisanalyse und Alternativbeweise 14 Forschungsfragen 15 Uniform entscheidbare Sprachfamilien 1

2 Informelle Einleitung Eine Sprache ist eine Menge L N (wir interessieren uns für die Lernbarkeit von aufzählbaren Sprachen). Ein Lerner ist eine Funktion h P. Ein Text T ist eine Funktion T : N N {#}, wobei # das Pausezeichen ist; wir nennen content(t ) = range(t ) \ {#} den Content oder Gehalt von T. Ein Text T ist Text für eine Sprache L, falls content(t ) = L. Für eine Funktion T und jedes n sei T [n] die endliche Sequenz der n ersten elemente von T (T (0),... T (n 1)). Wir interessieren uns für die Frage: wann gibt es für eine Menge L von Sprachen einen Lerner h, so dass h jede Sprache L L von beliebigem Text lernt? Dies formalisieren wir nun. Gegeben ein Lerner h und ein Text T, wir definieren, für alle n, p(n) = h(t [n]). Wir nennen p die G-Hypothesensequenz von h auf T ( G steht für Gold und symbolisiert volle Information des Lernenden). Wir sagen p ist Ex-erfolgreich für T, falls es ein n gibt, so dass Für alle n > n, p(n) = p(n ) (die Hypothese ändert sich nicht mehr, die Hypothesensequenz konvergiert zu einer finalen Hypothese); W p(n) = content(t ) (die finale Hypothese ist korrekt). Eine Menge von Sprachen L heisst TxtGEx-lernbar, falls es einen Lerner h gibt, so dass, für jede Sprache L L und jeden Text T für L, die G-Hypothesensequenz von h auf T Ex-erfolgreich für T ist. Aufgabe 1 Zeige, dass {xn x N} ist TxtGEx-lernbar. Gegeben ein Lerner h und ein Text T, wir definieren p(0) = h( ); (die initiale Hypothese) n : p(n + 1) = h(p(n), T (n)). Wir nennen p die It-Hypothesensequenz von h auf T ( It steht für iterativ ). Eine Menge von Sprachen L heisst TxtItEx-lernbar, falls es einen Lerner h gibt, so dass, für jede Sprache L L und jeden Text T für L, die It-Hypothesensequenz von h auf T ist Ex-erfolgreich für T. Aufgabe 2 Zeige, dass {xn x N} ist TxtItEx-lernbar. 2

Eine Lockingsequenz von einem Lerner h auf einer Sprache L ist eine endliche Sequenz σ aus Elementen von L, so dass h nach σ für beliebige weitere Daten (in beliebiger Reihenfolge) aus L seine Meinung nie mehr ändert. Aufgabe 3 (1) Was sind Lockingsequenzen für die Lerner aus den vorigen Aufgaben auf 15N? (2) Gibt es einen Lerner h der 15N TxtGEx-lernt und einen Text T für 15N, so dass, für alle n, T [n] ist keine Lockingsequenz? Im Allgemeinen hat jeder Lerner eine Lockingsequenz für alle Sprachen, die er Ex-lernt, wie das folgende Theorem zeigt. Theorem 2.1. Sei h ein Lerner und sei L eine Sprache, die h TxtGEx-lernt. Dann gibt es eine Lockingsequenz von h auf L. Beweis. Sei T ein Text für L und nehme an, dass h keine Lockingsequenz auf L hat. Dann gibt es also für jede Sequenz τ eine Verlängerung r(τ), so dass h(τ) h(r(τ)). Wir definieren eine unenedliche Folge (σ n ) n N rekusiv wie folgt. σ 0 = ; n : σ n+1 = r(σ n T (n)). Es gilt nun, für alle n, σ n σ n+1. Sei T = n N σ n. T ist ein Text für L; aber h macht unendlich viele Hypothesenwechsel auf T, ein Widerspruch dazu, dass h ein TxtGEx-Lerner für L ist. Aufgabe 4 Sei L = {D D N endlich, 0 D} {N + }. Zeige (1) L ist TxtGEx-lernbar; (2) L ist nicht TxtItEx-lernbar. 3

3 Formelle Einleitung In diesem Abschnitt lernen wir die formalen Definitionen für Lernbarkeitskriterien kennen. Dabei nutzen wir den Baukasten -Ansatz aus [Köt09]. Eine Sprache ist eine Menge L N (wir interessieren uns für die Lernbarkeit von aufzählbaren Sprachen). Ein Lerner ist eine Funktion h, welcher optional auch? ausgeben darf; üblicherweise gehen wir von h P aus. Ein Text T ist eine Funktion T : N N {#}, wobei # das Pausezeichen ist; wir nennen content(t ) = range(t ) \ {#} den Content oder Gehalt von T. Ein Text T ist Text für eine Sprache L, falls content(t ) = L. Für eine Funktion T und jedes n sei T [n] die endliche Sequenz der n ersten Elemente von T (T (0),..., T (n 1)). Wir benutzen als Hypothesenraum das W -system; damit ist jedes e eine Hypothese für W e = dom(ϕ e ), wodurch jede aufzählbare Menge unendlich viele Hypothesen hat. Da nicht-aufzählbare Mengen somit keine Hypothesen haben, beschränken wir uns auf das Lernen von aufzählbaren Mengen; die Menge aller aufzählbaren Sprachen schreiben wir als E. Ein Interaktionsoperator ist eine Funktion β welches als Argumente h (den Lerner) und einen Text T nimmt, und welcher eine Funktion p ausgibt. Wir nennen p die β-hypothesensequenz von h auf T. Wir definieren die Interaktionsoperatoren G und It (passend zu den Lernbarkeitskriterien aus Abschnitt 2) wie folgt. Für Lerner h, Texte T und i N, G(h, T )(i) = h(t [i]); { It(h, T )(i) = h( ), falls i = 0; 1 h(it(h, T )(i 1), T (i 1)), sonst. Dadurch hat ein Lerner Zugang zu ausschließlich dem momentanen Datum beim iterativen Lernen, aber zu allen Daten beim G-Lernen. Wir definieren drei weitere Interaktionsoperator Td ( transductive ), Sd ( set-driven ) und Psd ( partially set-driven ) wie folgt.?, falls i = 0; Td(h, T )(i) = Td(h, T )(i 1), sonst, falls h(t (i 1)) =?; h(t (i 1)), sonst. Sd(h, T )(i) = h(content(t [i])); Psd(h, T )(i) = h(content(t [i]), i). Somit hat ein transduktiver Lerner fast keine Information über den Lernprozess, nur das momentane Datum ist bekannt; ein solcher Lerner kann jedoch die Ausgabe? nutzen, um effektiv die vorangegangene Hypothese zu nutzen. Beim set-driven Lerner hat ein Lerner keine Information über Reihenfolge oder Häufigkeit der Aufzählung einzelner Daten, kennt aber alle Daten; beim partial set-driven Lernen hat der Lerner zusätzlich die Information der Länge des bisher präsentierten Datensegments. Erfolgreiches Lernen erfordert besondere Eigenschaften der Hypothesensequenz, zum Beispiel Konvergenz zu einer korrekten Hypothese. Diese Anforderungen werden mit der nächsten Definition formalisiert. Eine Lernrestriktion ist ein Prädikat δ auf Lerner und Text. Wir geben die Beispiele Ex ( explanatory ), Bc ( behaviorally correct ), Cons ( consistent ), sowie Coh ( coherent ). Später werden wir noch viele mehr kennenlernen. Wir definieren, für alle 1 h( ) ist die initiale Hypothese von h. 4

Hypothesensequenzen p und texte T, Ex(p, T ) [ q n : p(n) = q content(t ) = W q ]; Bc(p, T ) [ n : content(t ) = W p(n) ]; Cons(p, T ) [ i : content(t [i]) W p(i) ]; Coh(p, T ) [ i : T (i) W p(i+1) ]. Aufgabe 5 Sei p eine Hypothesensequenz und sei T ein Text. Zeige: Cons(p, T ) impliziert Coh(p, T ) und Ex(p, T ) impliziert Bc(p, T ). Wir kombinieren zwei Lernrestriktionen δ und δ indem wir ihren Schnitt bilden; wir schreiben dies als Juxtaposition (zum Beispiel wird Cons immer zusammen mit Ex benutzt). Sei C eine Menge von Lernern, β ein Interaktionsoperator und α und δ Lernrestriktionen. Dann ist (α, C, β, δ) ein Lernbarkeitskriterium (oder einfach Kriterium ). Hierbei ist α die globale Lernrestriktion und δ die lokale Lernrestriktion; C ist die Lernereinschränkung. Wir schreiben dieses auch verkürzt als τ(α)ctxtβδ, wobei τ(α) weggelassen wird, falls α das konstant wahre Prädikat ist, und C wird weggelassen, falls C = P. Die Menge aller Texte schreiben wir als Txt, die Menge aller Texte für eine Sprache L als Txt(L). Sei ein Lernbarkeitskriterium I = (α, C, β, δ) gegeben. Ein Lerner h I-lernt die leere Menge, falls h C oder falls es einen Text T gibt, so dass nicht α(β(h, T ), T ), ansonsten die Menge I(h) = {L E T Txt(L) : δ(β(h, T ), T )}. Damit beschränken also sowohl C wie auch α welche Lerner benutzt werden dürfen. Typische Beispiele für C sind P und R; ein interessantes Beispiel für α ist Cons, welches effektiv fordert, dass jede von dem Lerner gemachte Hypothese die Daten enthält, auf denen die Hypothese basiert. Für ein Lernbarkeitskriterium I schreiben wir [I] für die Menge aller I-lernbaren Mengen von Sprachen (lernbar durch irgend einen Lerner). 5

4 Notwendige Bedingungen In diesem Abschnitt werden wir uns das wichtige Lernbarkeitskriterium TxtGEx anschauen und insbesondere ein paar notwendige Bedingungen für Lernbarkeit herausstellen. Eine Lockingsequenz von einem Lerner h auf einer Sprache L ist eine endliche Sequenz σ aus Elementen von L, so dass h nach σ für beliebige weitere Daten (in beliebiger Reihenfolge) aus L seine Meinung nie mehr ändert. Im Allgemeinen hat jeder Lerner eine Lockingsequenz für alle Sprachen, die er Ex-lernt, wie das folgende Theorem zeigt. Theorem 4.1 (Lockinglemma). Sei h ein Lerner und sei L eine Sprache, die h TxtGEx-lernt. Sei σ eine endliche Sequenz mit Elementen aus L. Dann gibt es eine Erweiterung von σ welches eine Lockingsequenz von h auf L ist. Beweis. Sei T ein Text für L und nehme an, dass h keine Erweiterung von σ als Lockingsequenz auf L hat. Dann gibt es also für jede Sequenz τ σ mit Elementen aus L eine Verlängerung r(τ) mit Elementen aus L so, dass h(τ) h(r(τ)). Wir definieren eine unendliche Folge (ρ n ) n N rekursiv wie folgt. ρ 0 = σ; n : ρ n+1 = r(ρ n T (n)). Es gilt nun, für alle n, ρ n ρ n+1. Sei T = n N ρ n. T ist ein Text für L; aber h macht unendlich viele Hypothesenwechsel auf T, ein Widerspruch dazu, dass h ein TxtGEx-Lerner für L ist. Als nächstes lernen wir Angluins Kriterium kennen, welches wir hier als notwendige Bedingung beschreiben (Angluin hat genauer die Lernbarkeit von uniform berechenbaren Sprachmengen charakterisiert). Dieses Kriterium kann man mittels Lockinsequenzen sehr einfach beweisen. Aufgabe 6 Sei L eine Menge von Sprachen, welche TxtGEx-lernbar ist. Dann gibt es für jedes L L eine endliche Menge D L so, dass für alle Sprachen L mit D L L gilt L L. 6

5 Relationen von Interaktionsoperatoren In diesem Abschnitt lernen wir die Verschiedenen Interaktionsoperatoren näher kennen. Zuerst wollen wir aber sehen, dass TxtGEx-Lerner immer o.b.d.a. als total angenommen werden können. Aufgabe 7 Zeige [RTxtGEx] = [TxtGEx]. Als nächstes sehen wir, wie Lernen mit dem Operator Psd ( partially set-driven ) keine Einschränkung gegenüber voller Information darstellt. Theorem 5.1. Eine Menge von Sprachen ist TxtPsdEx-lernbar genau dann, wenn sie TxtGExlernbar ist. Beweis. Es ist klar, dass jede TxtPsdEx-lernbare Sprachemenge auch TxtGEx-lernbar ist. Sei nun also L eine TxtGEx-lernbare Sprachmenge und sei h R ein (totaler) TxtGEx-Lerner für L. Für jede endliche Menge D N und t N sei D t die Menge aller endlichen Sequenzen mit Elementen aus D {#} und Länge höchstens t; es sei außerdem p(d, t) = {σ D t τ D t : h(σ) = h(σ τ)}. Intuitiv enthält p(d, t) mögliche Lockingsequenzen (solche, die mit bisherigen Mitteln nicht verworfen werden können). Da wir endliche Sequenzen codieren können, ist p(d, t) implizit auch eine Menge an (natürlichen) Zahlen und hat damit ein Minimum (falls nicht-leer). Wir definieren einen Psd-Lerner h so, dass für alle endlichen Mengen D und alle t N { h h(min(p(d, t))), falls p(d, t) ; (D, t) = 0, sonst. Intuitiv sucht h nach einer Lockingsequenz von h auf der gegebenen Sprache; für diese Lockingsequenz muss h eine korrekte Antwort liefern. Sei nun L L und T Txt(L). Sei M die Menge aller Lockinsequenzen von h auf L. Nach Theorem 4.1 ist M nicht leer. Sei σ = min(m). Wir setzen D = content(σ) und t = len(σ). Für alle (endlich viele) τ < σ gibt es ein n so, dass n > n : τ p(content(t [n ], n ); sei also n 0 das Maximum über all diese endlich vielen n. Sei n 1 so, dass D content(t [n 1 ]). Sei n 2 das Maximum aus n 0, n 1 und t. Dann gilt nun also, für alle n n 2, Psd(h, T )(n ) = h(σ), was zeigt, dass h auf T eine Ex-erfolgreiche Sequenz ausgibt. Aufgabe 8 Zeige: Eine Menge von unendlichen Sprachen ist RTxtSdEx-lernbar genau dann, wenn sie TxtGEx-lernbar ist. 7

Aufgabe 9 Mit R bezeichnen wir die Menge aller Funktionen N N. Sei L eine Sprachmenge. Zeige, dass die folgenden Aussagen äquivalent sind. (1) L [RTxtGEx]; (2) L [RTxtSdEx]; (3) Für alle L L gibt es eine endliche Menge D L so, dass für alle Sprachen L mit D L L gilt L L. Interessanterweise gibt es Sprachmengen, welche TxtGEx-gelernt werden können, nicht jedoch TxtSdEx-gelernt. Den Beweis hierzu geben wir später mit Theorem 5.3. Stattdessen schauen wir uns nun weitere Interaktionsoperatoren an. Theorem 5.2. Es gibt eine Menge von Sprachen welche TxtSdEx-lernbar, aber nicht TxtItExlernbar ist. Beweis. Sei L = {D D N endlich, 0 D} {N + } und nehme an es gäbe einen TxtItEx-Lerner h für L. Sei σ eine Lockingsequenz für h auf N + und sei x das maximale Element von content(σ) (0, falls content(σ) = ). Dann sind σ (x + 1) 0 und σ (x + 2) 0 Texte für unterschiedliche Sprachen aus L für welche h die exakt gleiche It-Hypothesensequenz erzeugt. Da diese Sequenz nur Ex-erfolgreich für maximal eine der beiden Sprachen ist, ist h unerfolgreich auf mindestens einer der beiden Sprachen. Aufgabe 10 Zeige: Es gibt eine TxtItEx-lernbare Menge von Sprachen, die nicht TxtTdEx-lernbar ist. 8

Theorem 5.3. Es gibt eine TxtGEx-lernbare Menge von Sprachen, die nicht TxtSdEx-lernbar ist. Beweis. Für alle e seien L e = { e, x x N ϕ e (0) }; L e = { e, x x ϕ e (0) ϕ e (0) }; L = {L e ϕ e (0) } {L e ϕ e (0) }. Wir zeigen zuerst, dass L TxtGEx-lernbar ist, danach, dass es nicht TxtSdEx-lernbar ist. Mit dem S-m-n Theorem gibt es zwei total berechenbare Funktionen p und r so, dass für alle e und endliche Mengen D W p(e) = { e, x x N}; W r(d) = D. Dann ist L TxtGEx-lernbar durch den folgenden Lerner h. r(content(σ)), falls e, 0 content(σ) Φ e (0) σ ; σ : h(σ) = p(e), sonst, falls e, 0 content(σ) Φ e (0) > σ ;?, sonst. Um zu zeigen, dass h L TxtGEx-lernt sei nun e gegeben. Fall 1: ϕ e (0). Nun ist L e zu lernen. Sei T ein Text für L e und sei n so groß, dass e, 0 content(t [n]) Dann gilt, für alle n n, h(t [n ]) = p(e) wie gewünscht. Fall 2: ϕ e (0). Nun ist L e zu lernen. Sei T ein Text für L e und sei n so groß, dass L e content(t [n]) und Φ e (0) n. Dann gilt, für alle n n, h(t [n ]) = r(l e) wie gewünscht. Jetzt zeigen wir über einen Widerspruchsbeweis, dass L nicht TxtSdEx-lernbar ist. Nehmen wir also an, L sei doch TxtSdEx-lernbar durch einen Lerner h. Mit KRT gibt es e so, dass für alle x N, ϕ e (x) ist das erste gefundene m mit e, m + 1 W h({ e,z z m}), und undefiniert, falls es kein solches m gibt. Da die Menge solcher m aufzählbar ist (das Prädikat ist Σ 1, oder partiell entscheidbar ), ist dies eine erlaubte Verwendung von KRT. Fall 1: ϕ e (0). Dies bedeutet m : e, m + 1 W h({ e,x x m}). Sei T der Text so, dass i : T (i) = e, i. Dann ist T ein Text für L e L, aber h macht niemals eine korrekte Hypothese, ein Widerspruch. Fall 2: ϕ e (0). Sei m = ϕ e (0). Dies bedeutet L e = { e, x x m} ist in L. Sei T ein beliebiger Text für L e und sei n groß genug, so dass L e = content(t [n]). Nun gilt, für alle n n, h(content(t [n ])) = h(content(t [n])) = h(l e) = h({ e, x x m}), aber mit unserer Wahl von m gilt nun e, m + 1 W h({ e,x x m}), ein Widerspruch. Zusammenfassend haben wir das folgende Bild: [TxtTdEx] [TxtItEx] [TxtSdEx] [TxtPsdEx] = [TxtGEx]. Hierbei haben wir schon alle Separationen gezeigt, und die Inklusionen sind fast alle trivial, nur [TxtItEx] [TxtSdEx] bleibt noch zu zeigen. 9

Theorem 5.4. Jede TxtItEx-lernbare Menge ist auch TxtSdEx-lernbar. Beweis. Sei L eine TxtItEx-lernbare Menge mit Lerner h. Wir zeigen nun zuerst, dass es einen TxtItEx-Lerner für L gibt, so dass, für alle e, h (e, #) = e, also so, dass h seine Hypothese niemals auf # ändert. Zuerst definieren wir aber h rekursiv so, dass für alle e und alle m, h (e, 0) = e; h (e, m + 1) = h(h (e, m), #). Intuitiv ist also h (e, m) die Hypothese, die nach m zusätzlichen Pausezeichen aktuell ist. Außerdem sei, mit S-m-n, f R streng monoton steigend so, dass für alle e, { W h (e,m), wobei m minimal so, dass h (e, m + 1) = h (e, m); W f(e) =, falls es kein solches m gibt. Wir definieren nun h so, dass h ( ) = f(h( )); { e, x : h (f(e), x) = f(e), falls x = #; f(h(h(e, #), x)), sonst. Sei nun L L und sei T ein Text für L. Sei T der Text, der aus T durch Löschen von allen # entsteht, sowie Ersetzen aller nicht-# x durch # x. Falls T nun endlich ist, so konvergiert h auf T # zu einer korrekten Hypothese e, während h zur äquivalenten Hypothese f(h(t )) konvergiert. Ansonsten konvergiert h auf T zu einer korrekten Hypothese e mit h(e, #) = e und h zu einer äquivalenten Hypothese f(e). Dies zeigt, dass TxtItEx-Lerner immer so angenommen werden können, dass Pausezeichen die Hypothese nicht verändern. Zu einer endlichen Menge D sei nun σ D die Auflistung der Elemente von D in strikt aufsteigender Reihenfolge. Wir definieren einen Sd-Lerner h wie folgt. Für eine endliche Menge D ist h (D) die Hypothese, die von h nach sehen des Textanfangs σ D ausgegeben wird. Sei L L und sei T ein Text für L und sei T der Text, der alle Elemente aus L in numerisch aufsteigender Reihenfolge auflistet. Sei e der Index, zu dem h auf T konvergiert. Dann konvergiert h auf T auch zu e, sobald alle Elemente gesehen sind, die h zur Konvergenz auf T benötigt. Aufgabe 11 Zeige: (1) E ist nicht TxtGEx-lernbar. (2) Sei L eine unendliche Menge. Dann ist {D D L endlich} {L} nicht TxtGExlernbar. (3) Sei (L i ) i N so, dass i : L i L i+1. Dann ist {L i i N} { i N L i} nicht TxtGExlernbar. 10

6 Konsistenz und Kohärenz In diesem Abschnitt befassen wir uns eingehender mit Konsistenz und Kohärenz. Zuerst halten wir fest, dass beide Konzepte Extensional äquivalent sind, wie für einen Fall in der Hausaufgabe schon gezeigt. Theorem 6.1. Es gelten die folgenden Aussagen. (1) [TxtGConsEx] = [TxtGCohEx]. (2) [RTxtGConsEx] = [RTxtGCohEx]. (3) [τ(cons)txtgex] = [τ(coh)txtgex]. Beweis. Der Beweis ist jeweils analog zum Beweis von Theorem 4 in der Hausaufgabenserie 3. Das τ(cons)txtgex-lernen hat eine Besonderheit, auf welche in der folgenden Aufgabe eingegangen wird. Sie lässt sich mittels Lockingsequenzen beweisen. Aufgabe 12 Sei L τ(cons)txtgex-lernbar. Zeige: Jedes L L ist entscheidbar. Allgemein lassen sich die verschiedenen Varianten der Konsistenz wie vergleichen wie im folgenden Theorem gezeigt. Insbesondere können konsistente Lerner nicht als total angenommen werden. Theorem 6.2. Es gilt [τ(cons)txtgex] [RTxtGConsEx] [TxtGConsEx] [TxtGEx]. Beweis. Der Beweis von Theorem 3 in der Hausaufgabenserie 3 zeigt genauer [TxtGConsEx] [TxtGEx]. Als nächstes zeigen wir [τ(cons)txtgex] [RTxtGConsEx]. Wir definieren dazu einen Td- Lerner h = π 1 ; dann ist offenbar h R. Sei L = RTxtTdConsEx(h) die Menge der Sprachen, die h konsistent lernt. Aufgabe 13 Charakterisiere L in etwa wie in dem Beweis von Theorem 3 in der Hausaufgabenserie 3. Nehme an, es gäbe einen Lerner h welcher L τ(cons)txtgex-lernt. Mit ORT (wobei wir nur zwei Indizes benutzen) gibt es e und p so, dass für alle x W e = content(ϕ p ); { ϕ p (x) = e, 2x, e, 2x + 1, falls h(ϕ p [x] e, 2x ) h(ϕ p [x]); sonst. Sei L = W e. 11

Aufgabe 14 Zeige, dass L L und dass h L nicht τ(cons)txtgex-lernt. Nun zeigen wir [RTxtGConsEx] [TxtGConsEx]. Dazu nehmen wir ein L fast wie im vorigen Beweis, allerdings so abgeändert, dass nun das extrahieren der Hypothese nicht mehr total berechenbar sein kann. Wir definieren h als Sd-Lerner mit Hilfsfunktionen r, s so, dass für alle D r(d) = max{k e : e, k D}; s(d) = min{e e, r(d) D}; h(d) = ϕ s(d) (0). Intuitiv codiert die Eingabe das Auszugebende Element nicht mehr als erst Komponente eines Paars, sondern über die Ausgabe eines Programms, welches in der ersten Komponente kodiert ist. Sei L = TxtSdConsEx(h) die Menge der Sprachen, die h konsistent lernt. Aufgabe 15 Charakterisiere L in etwa wie in dem Beweis von Theorem 3 in der Hausaufgabenserie 3. Für jede Menge endliche Menge D sei q(d) ein Index für D. Nehme an, es gäbe einen Lerner h welcher L RTxtGConsEx-lernt. Mit ORT (wobei wir nun tatsächlich unendlich viele Indizes benutzen) gibt es e R injektiv so, dass für alle x, n W e(0) = content(ϕ e(1) ); { e(2x + 2), 0, falls h (ϕ e(1) [x] e(2x + 2), 0 ) h (ϕ e(1) [x]); ϕ e(1) (x) = e(2x + 3), 0, sonst; { e(0), falls h (ϕ e(1) [x] e(2x + 2), 0 ) h (ϕ e(1) [x]); ϕ e(2n+2) (x) = q(content(ϕ e(1) [x] e(2x + 2), 0 )), sonst; ϕ e(2n+3) (x) = e(0). Sei T = ϕ e(1) und L = W e0. Aufgabe 16 Zeige, dass L L und dass h L nicht RTxtGConsEx-lernt. 12

7 Verzögerbare Lernkriterien In diesem Abschnitt sind wir an einer Anzahl von neuen Lernrestriktionen interessiert. Für eine Hypothesensequenz p und einen Text T definieren wir Prädikate wie folgt. Conv(p, T ) [ i : content(t [i + 1]) W p(i) p(i) = p(i + 1)]; Caut(p, T ) [ i, j : W p(i) W p(j) i < j]; NU(p, T ) [ i, j, k : i j k W p(i) = W p(k) = content(t ) W p(j) = W p(i) ]; Dec(p, T ) [ i, j, k : i j k W p(i) = W p(k) W p(j) = W p(i) ]; SNU(p, T ) [ i, j, k : i j k W p(i) = W p(k) = content(t ) p(j) = p(i)]; SDec(p, T ) [ i, j, k : i j k W p(i) = W p(k) p(j) = p(i)]; SMon(p, T ) [ i, j : i < j W p(i) W p(j) ]; Mon(p, T ) [ i, j : i < j W p(i) content(t ) W p(j) content(t )]; WMon(p, T ) [ i, j : i < j content(t [j]) W p(i) W p(i) W p(j) ]. Der Reihe nach sind dies conservative (Conv, nur Hypothesen verwerfen, die nicht alle bisherigen Daten beinhalten), cautious (Caut, nie zu einer echt kleineren Hypothese als eine bisher ausgegebene wechseln), non-u-shaped (NU, niemals eine korrekte Hypothese semantisch verwerfen), decisive (Dec, niemals zu einer semantisch verworfenen Hypothese zurückkehren), strongly non-u-shaped (SNU, niemals eine korrekte Hypothese syntaktisch verwerfen), strongly decisive (SDec, niemals zu einer syntaktisch verworfenen Hypothese zurückkehren), strongly monotone (SMon, die Hypothese wächst nur in ihrem Umfang), monotone (Mon, aus der Hypothese werden nur garantiert falsche Daten entfernt) und weakly monotone (WMon, solange die Hypothese konsistent ist, werden keine Daten aus ihr entfernt). Für alle Hypothesenfolgen p seien Sem(p) = {p i : ϕ p(i) = ϕ p (i)}; Mc(p) = {p i : (p(i) = p(i + 1) p (i) = p (i + 1))}. Eine Lernrestriktion δ heißt semantisch falls, für alle (p, T ) δ und p Sem(p), (p, T ) δ. Eine Lernrestriktion δ heißt pseudo-semantisch falls, für alle (p, T ) δ and p Sem(p) Mc(p), (p, T ) δ. Intuitiv dürfen bei semantischen Lernrestriktionen alle Hypothesen durch semantisch äquivalente ersetzt werden; bei pseudo-semantischen Lernrestriktionen dürfen hierdurch keine neuen Hypothesenwechsel entstehen. Sei R die Menge aller r : N N mit unendlichem Limes inferior, d.h. für alle m gilt n : r(n) m. Eine Lernrestriktion δ heißt verzögerbar (delayable) falls, für alle (p, g) δ und r R nicht-fallend mit n : r(n) n, (p r, g) δ. Intuitiv darf man Hypothesenwechsel hinauszögern, muss sie aber im Limes vollziehen. 13

Das folgende Diagramm zeigt die Inklusionsbeziehungen zwischen den verschiedenen Lernrestriktionen ( T steht für das immer-wahre Prädikat). T NU Caut Dec SNU WMon SDec Mon Conv SMon Alle diese Lernrestriktionen sind verzögerbar, die gestrichelt umkreisten sind pseudo-semantisch, alle anderen sind semantisch. Eine Kante bedeutet, dass die untere der beiden verbundenen Lernrestriktionen in der oberen enthalten ist (Hasse-Diagramm). Der Grund für den Namen verzögerbar ergibt sich aus der Eigenschaft, dass solche Restriktion beliebige Verzögerungstricks bei den Berechnungen des Lerners erlauben. Daraus ergibt sich sofort das folgende Theorem (siehe auch Aufgabe 7). Aufgabe 17 Sei δ verzögerbar. Dann gilt [RTxtGδEx] = [TxtGδEx]. Wir nennen einen Lerner sink-locking auf L, falls, für alle L L und jeden Text T für L es ein n gibt, so dass T [n] eine Lockingsequenz von h auf L ist. Von Aufgabe 3 wissen wir, dass nicht jeder TxtGEx-Lerner sink-locking ist. Aufgabe 18 Zeige, dass jeder TxtSdEx-Lerner auf der Menge seiner gelernten Sprachen sink-locking ist. 14

Von hier an Nutzen wir eine Funktion ind, so dass, für alle endlichen Mengen D, W ind(d) = D; solch eine Funktion existiert mit s-m-n. Theorem 7.1. Es gilt [TxtSdEx] \ [RTxtSdEx]. Beweis. Wir definieren einen Sd-Lerner h so, dass für alle endlichen, nicht-leeren Mengen D, h(d) = ϕ max(d) (0). Sei L = TxtSdEx(h). Wir nehmen an, dass L von einem Lerner h R ebenfalls TxtSdEx-gelernt wird und zeigen nun einen Widerspruch. Mit ORT gibt es p und e R stark monoton steigend so, dass für n, x, W p = range(e); { ϕ e(n) (x) = p, falls n n : h (content(e[n + 1])) h (content(e[n + 2])); ind(content(e[n + 1])), sonst. Fall 1: Für alle n, h (content(e[n + 1])) h (content(e[n + 2])). Dann gilt W p L, aber h macht unendliche viele Hypothesenwechsel auf dem Text e für W p. Fall 2: Es gibt ein n mit h (content(e[n + 1])) = h (content(e[n + 2])). Dann gilt h(content(e[n + 1])) = ϕ e(n) (0) = ind(content(e[n + 1])); h(content(e[n + 2])) = ϕ e(n+1) (0) = ind(content(e[n + 2])). Damit gilt nun content(e[n + 1]), content(e[n + 2]) L, aber h konvergiert auf beliebigen Texten für die beiden Sprachen zur immer gleichen Hypothese, ein Widerspruch. Die folgende Aufgabe zeigt eine interessante Struktureigenschaft lernbarer Mengen. Man zeigt sie mittels Lockingsequenzen und einer Fallunterscheidung N L. Aufgabe 19 Sei L eine TxtGEx-lernbare Menge. Dann gibt es eine unendliche Menge L so, dass für alle Obermengen L L, welche sich von L nur endlich unterscheiden (in Zeichen: L = L ): L L. 15

Theorem 7.2. Es gilt [TxtGEx] = [TxtGSNUEx]. Beweis. Sei L TxtGEx-lernbar und sei h R der TxtGEx-Lerner für L, welcher äquivalent zu dem in Theorem 5.1 definierten Psd-Lerner für L ist. Sei L 0 wie gefunden in Aufgabe 19 (für L). Das Prädikat Q(σ, t) sei definiert als man findet kein τ mit Elementen nur aus W h(σ) so, dass h(σ τ) h(σ) innerhalb von t Schritten. Mit s-m-n gibt es nun ein p R so, dass für alle σ, W p(σ) = {x W h(σ) Q(σ, x)} {x L 0 t : Q(σ, t)}. Dann gilt, dass W p(σ) eine endliche Obermenge von L 0 ist, falls es ein t gibt mit Q(σ, t), und W p(σ) = W h(σ), sonst. Wir definieren h als { σ : h (σ) = p(σ), falls σ = oder h(σ) h(σ ); h (σ ), sonst. Aufgabe 20 Zeige, dass h ein TxtGSNUEx-Lerner für L ist. Wir befassen uns nun mit dem Fall für iterative Lerner. Theorem 7.3. Sei L eine TxtItEx-lernbare Sprachmenge. Die folgenden Aussagen sind äquivalent. (1) L ist TxtItSNUEx-lernbar. (2) L ist TxtItConvEx-lernbar. (3) L ist TxtItSDecEx-lernbar. (4) L ist TxtItEx-lernbar durch einen Lerner, der sink-locking auf L ist. Beweis. Sei h ein TxtItSNUEx-Lerner für L und seien L L und T ein Text für L. Sei n so, dass für alle n n, It(h, T )(n ) = It(h, T )(n). Dann ist It(h, T )(n) also eine korrekte Hypothese für L. Dann kann, da h strongly non-u-shaped ist, diese Hypothese nie mehr verlassen werden, mit anderen Worten: T [n] ist eine Lockingsequenz von h auf L. Dies zeigt, dass h sink-locking auf L ist. Damit ist (1) (4) gezeigt. Außerdem sind (2) (1) und (3) (1) klar. Die folgende Aufgabe beendet somit den Beweis. Aufgabe 21 Sei h ein TxtItEx-Lerner, der sink-locking auf L ist. Zeige, dass L dann auch TxtItSNUEx-lernbar ist. 16

Beweis. Sei L TxtItEx-lernbar durch einen Lerner h, der sink-locking auf L ist. Mit dem S-m-n Theorem gibt es ein p R so, dass e : W p(e) = {x W e h(e, x) = e}. Wir konstruieren einen Lerner h mit Initialhypothese p(h( )) derart, dass für alle e, x, h (p(e), x) = p(h(e, x)). Sei nun L L und T ein Text für L. Sei e so, dass h auf T zu e konvergiert (somit gilt L = W e ). Dann konvergiert h auf T zu p(e). Da h sink-locking ist, gilt nun, für alle x L, h(e, x) = e. Somit ist W p(e) = W e. Sei p(e ) eine Ausgabe von h auf T vor der Ausgabe von p(e). Dann gilt, für alle x L, dass h nur dann seine Meinung wechselt, wenn h dies tut auf e ; für ein solches x gilt jedoch, dass x W p(e ) wie gewünscht. Dies zeigt, dass L TxtItConvEx-lernbar ist. Als nächstes beschäftigen wir uns mit Caut. Theorem 7.4. Es gilt Beweis. Aufgabe 22 [TxtGWMonEx] [TxtGCautEx] [TxtGEx]. Zeige, dass [TxtGCautEx] [TxtGEx]. Aufgabe 23 Zeige, dass [TxtGWMonEx] [TxtGCautEx]. Aufgabe 24 Zeige, dass [TxtGWMonEx] [TxtGCautEx]. 17

8 Bc und Fin In diesem Abschnitt analysieren wir verschiedene Alternativen zu Ex. Formal sei, für jede Hypothesensequenz p und jeden Text T, Fin(p, T ) [ e, n : W e = content(t ) i < n : p(i) =? i n : p(i) = e]; Fex(p, T ) [ D : e D : W e = content(t ) i : p(i) D]; Ex (p, T ) [ e : W e = content(t ) i : p(i) = e]; Bc(p, T ) [ i : W p(i) = content(t )]; Bc (p, T ) [ i : W p(i) = content(t )]. Aufgabe 25 Welche der obigen Restriktionen sind verzögerbar? Welche semantisch? Welche pseudosemantisch? Wir nennen eine eine Lernrestriktion Abbildungs-pseudo-semantisch falls, für alle Funktionen f mit e : W f(e) = W e und alle (p, T ) δ gilt (f p, T ) δ. Aufgabe 26 Welche der obigen Restriktionen sind Abbildungs-pseudo-semantisch? Aus der Hausaufgabe wissen wir [TxtGEx] [TxtGBc]; [TxtGFin] [TxtItEx]; [TxtGEx] [TxtGEx ]. Dabei ist die Inklusion [TxtGFin] [TxtItEx] eher etwas untergegangen (die Separation erfolgt durch die Menge aller endlichen Mengen). Deshalb nun die folgende Aufgabe. Aufgabe 27 Zeige [TxtGFin] [TxtItEx]. Für jede Sprache L bezeichnen wir mit Seq(L) die Menge aller endlichen Sequenzen mit Elementen aus L. Aus dem Theorem über Lockingsequenzen wissen wir das folgende. Theorem 8.1 (Lockingtheorem für TxtGEx). Sei h ein Lerner und L eine Sprache so, dass h L TxtGEx-lernt. Dann gibt es, für jedes σ Seq(L) eine Erweiterung τ Seq(L) derart, dass für alle Erweiterungen ρ Seq(L) gilt h(σ τ ρ) = h(σ τ). Wir nennen σ τ eine Lockingsequenz. 18

Wir haben dieses Theorem auch für andere Interaktionsoperatoren benutzt etwa so, dass auch iterative Lerner sowas wie Lockingsequenzen haben. Etwas formaler ist dies mit der folgenden Definition. Definition 8.2. Seien β, β zwei Interaktionsoperatoren. Wir schreiben β β (in Worten: β-lerner können zu β -Lernern übersetzt werden), falls für jeden Lerner h gibt es einen Lerner h so, dass für alle Texte T β(h, T ) = β (h, T ). Insbesondere gibt es für jeden β-lerner einer Sprachmenge auch einen β -Lerner. Für unsere Transaktionsoperatoren gilt das folgende Bild. Td It Sd Psd G Für β G und h ein β-lerner schreiben wir h für den zu h gehörigen G-Lerner, den es nach Defintion 8.2 gibt. Nun haben wir allgemein das folgende Lockingtheorem. Theorem 8.3 (Lockingtheorem, beliebige Interaktionsoperatoren). Sei β G, sei h ein β-lerner und L eine Sprache so, dass h L TxtβEx-lernt. Dann gibt es, für jedes σ Seq(L) eine Erweiterung τ Seq(L) derart, dass für alle Erweiterungen ρ Seq(L) gilt h (σ τ ρ) = h (σ τ). Für eine Funktion f : N N und n, m N mit n m schreiben wir f[n, m] für die endliche Sequenz σ der Länge m n + 1 so, dass für alle x < m n + 1, σ(x) = f(x + n). Definition 8.4. Sei δ eine Lernrestriktion und sei P ein Prädikat auf Paaren aus einer endlichen Hypothesensequenzen und einem Text. Dann nennen wir δ die Lernrestriktion zum Limesprädikat P falls, für alle Hypothesensequenzen p und alle Texte T, δ(p, T ) n m n : P (p[n, m], T ). Jedes Limesprädikat P definiert demnach eindeutig seine zugehörige Lernrestriktion; anders herum gibt es allerdings potentiell mehrere Limesprädikate zu einer gegebenen Lernrestriktion (oder gar keine). Falls eine Lernrestriktion δ mindestens ein zugehöriges Limesprädikat hat, so nennen wir δ eine Limesrestriktion. Aufgabe 28 Welche Limesrestriktionen kennen wir? Was sind zugehörige Prädikate? Theorem 8.5 (Generalisiertes Lockingtheorem). Sei δ eine Limesrestriktion zu einem Limesprädikat P. Sei h ein Lerner und L eine Sprache so, dass h L TxtGδ-lernt. Dann gibt es, für jedes σ Seq(L) eine Erweiterung τ Seq(L) derart, dass für jeden Text T für L mit σ τ T und n = σ τ gilt m n : P (G(h, T )[n, m], T ). Wir nennen σ τ eine P -Lockingsequenz (oder, falls das mit δ assoziierte P klar ist, eine δ- Lockingsequenz). 19

Wir nutzen jetzt diese verallgemeinerten Lockingsequenzen um die folgende Aussage zu zeigen. Aufgabe 29 Sei L = {L L = N}. Dann ist L TxtGEx -lernbar, aber nicht TxtGBc-lernbar. Als Schlussfolgerung ergibt sich nun auch das folgende Theorem. Theorem 8.6. Es gilt [TxtGBc] [TxtGBc ]. Zusätzlich bohren wir nun den Beweis zu [TxtGEx] [TxtGBc] noch ein bisschen auf und zeigen, dass Bc auch Sprachmengen lernen kann, die nicht Ex lernbar sind. Mit der vorigen Aufgabe ergibt sich also der folgende Satz. Theorem 8.7. Die Lernbarkeitsklassen [TxtGEx ] und [TxtGBc] sind unvergleichbar. Beweis. Wir wissen bereits [TxtGEx ] [TxtGBc] (Aufgabe 29). Nun zeigen wir [TxtGBc] [TxtGEx ]. Für zwei Mengen A, B N schreiben wir A B = { a, b a A, b B}. Sei Aufgabe 30 L = {(K {x}) N x N}. Zeige, dass L TxtGBc-lernbar ist. Nehme nun an, L sei TxtGEx -lernbar durch einen Lerner h. Sei σ eine Lockingsequenz von h auf K N L. Dann gilt x K τ Seq((K {x}) N) : h(σ τ) h(σ). Dies zeigt, dass K aufzählbar ist, ein Widerspruch zur Unentscheidbarkeit des Halteproblems. Aufgabe 31 Was ist TxtGConvBc-lernbar? 20

Aufgabe 32 Zeige, dass es eine TxtGEx-lernbare Sprachmenge gibt, welche nicht TxtGCautBclernbar ist. Wir analysieren nun eine Erweiterung des endlichen Lernens, des Lernens mit beschränkt vielen Hypothesenwechseln (mind-changes, Mc). Dazu definieren wir, für alle n, die folgende Lernrestriktion. Für alle p, T sei Mc n (p, T ) [Ex(p, T ) D, D n : p(i) p(i + 1) (p(i) =? i D)]. Intuitiv darf der Lerner also nur n Hypothesenwechsel machen (an allen Stellen in D), wobei der Wechsel von einer (Initial-)hypothese? nicht mitgezählt wird. Damit ist auch klar, dass Fin = Mc 0. Aufgabe 33 Zeige, für alle n, [TxtGMc n ] [TxtGMc n+1 ]. Aufgabe 34 Sei n gegeben. Wie verhalten sich TxtGMc n und confident TxtGEx-Lernen? Abschließend zeigen wir nun das folgende Theorem. Theorem 8.8. Es gilt [TxtGEx] [TxtGFex]. Beweis. Sei r R so, dass für alle σ r(σ) das minimale Element x content(σ) ist, für das π 2 (x) maximal ist. Sei h R so, dass für alle σ h(σ) = π 1 (r(σ)). Sei L = TxtGFex(h). Nehmen wir nun an, dass L auch TxtGEx-lernbar ist, durch einen Lerner h. Mit ORT gibt es dann eine berechenbare Folge (σ i ) i N sowie p, q so, dass σ 0 = ; i : σ i+1 = σ i (µτ {( p, i ) t, ( q, i ) t t N} h (σ i ) h (σ i τ)) p, i q, i ; W p = (content(σ i ) { p, i }); W q = i N,σ i i N,σ i (content(σ i ) { q, i }). Dabei sind W p so zu verstehen, dass iterative die σ i berechnet werden, und dann jeweils (nach terminierter Berechnung) content(σ i ) { p, i } aufgezählt wird (entsprechend bei W q ). 21

Fall 1: Es gibt ein i so, dass σ i und σ i+1. Seien T 0 = σ i p, i ; T 1 = σ i q, i. Dann ist T 0 ein Text für W p und T 1 ein Text für W q ; auf beiden Texten konvergiert h zur selben Hypothese. Jedoch sind beide Sprachen in L, da h zu p respektive zu q konvergiert, ein Widerspruch. Fall 2: Für alle i gilt σ i. Sei T = i N σ i ein Text für L = content(t ) = { e, i e {p, q}, i N}. Es gilt, dass h auf T nicht konvergiert, daher L nicht lernt. Andererseits gilt, dass h auf beliebigen Texten nur p und q ausgibt, welches beide korrekte Hypothesen für L sind. 22

9 Verschiedene Beweisarten In diesem Abschnitt schauen wir uns die drei prinzipiellen Arten an, wie man eine Separation von zwei Lernbarkeitskritierien zeigen kann. Diese sind im einzelnen: (1) Reduktion eines bekannten Problems auf das gegebene; (2) Ausnutzung eines Rekursionstheorems; und (3) direkte Diagonalisierung. Bisher haben wir für die meisten Separationsbeweise ein Rekursionstheorem (KRT oder ORT) benutzt. Diese Technik ist sehr universell und, in meinen Augen, intuitiv. Mit ein bisschen Raffinesse bietet die erste Möglichkeit aber durchaus kürzere und einleuchtendere Beweise, bezieht sich dabei aber meist auf Wissen aus der Berechenbarkeitstheorie (wir werden nur Reduktionen mit dem Halteproblem nehmen). Die dritte Möglichkeit ist vielleicht die mächtigste von allen, benötigt aber auch die meiste Notation und ist im Allgemeinen unelegant. Interessant ist noch zu erwähnen, dass sowohl die Reduktionen wie auch die Rekursiontheoreme implizit eine Diagonalisierung benutzen: KRT und ORT werden über Diagonalisierungen bewiese, und die Unentscheidbarkeit des Halteproblems auch. Wir besprechen jetzt für zwei Separationen Beweise für alle drei Techniken. Zuerst zeigen Theorem 9.1. Es gilt [TxtGConsEx] [TxtGEx]. Beweis. Reduktion vom Halteproblem. Die Idee bei diesem Beweisansatz ist zu zeigen, dass bei Gleichmächtigkeit der Lernbarkeitskrierien auch das Halteproblem berechenbar wäre. Sei L = {N, K}, wobei K das (diagonale) Halteproblem ist (insbesondere is K aufzählbar aber nicht entscheidbar). Diese Menge ist TxtGEx-lernbar indem man sich ein Element x K hernimmt und solange als Hypothese K ausgibt bis x in der Eingabe erscheint; dann wechselt man zu einer Hypothese für N. Nehmen wir nun an es gäbe einen TxtGConsEx-Lerner h für L. Da L dicht ist, ist h immer konsistent. Sei σ eine Lockingsequenz von h auf K. Dann gilt nun also, für alle x, x K h(σ x) = h(σ) x K h(σ x) h(σ) wegen σ Lockingsequenz; wegen h konsistent; Damit können wir K entscheiden indem wir h(σ x) = h(σ) testen, ein Widerspruch zur Unentscheidbarkeit des Halteproblems. Aufgabe 35 Zeige, mit einer einfachen Reduktion, [τ(cons)txtgex] [TxtGConsEx]. Beweis. Ausnutzung eines Rekursionstheorems. Dies ist der Beweis, den wir schon aus der Vorlesung kennen. Sei L 0 = {L e, k : [ e, k L W e = L x L : x = e, k π 2 (x) < k]}. 23

Es ist leicht zu sehen, dass L 0 dicht und TxtGEx-lernbar ist. Nehmen wir nun an, dass L 0 [TxtGConsEx] durch einen Lerner h. Da L 0 dicht ist, muss h konsistent auf beliebigen Daten sein. Mit ORT gibt es e und p so, dass für alle x W e = range(ϕ p ); e, 1, falls x = 0; ϕ p (x) = 2x, 0, sonst, falls h(ϕ p [x] 2x, 0 ) h(ϕ p [x]); 2x + 1, 0, sonst. Sei T = ϕ p ein Text für L = W e. Es gilt, dass L L 0, da wir e, 1 L als einziges Datum mit π 2 -Wert > 0. Da h nun insbesondere L lernt, gibt es ein n 0 so, dass für alle n > n 0 gilt h(t [n]) = h(t [n 0 ]) und W h(t [n]) = L. Somit gilt mit der Wahl von T = ϕ p, für alle n > n 0, T (n) = 2n + 1, 0 und h(t [n] 2n, 0 ) = h(t [n]). Aus der Definition von Cons ergibt sich n > n 0 : 2n, 0 W h(t [n] 2n,0 ) = W h(t [n]) = W h(t [n0]) = L. Das ist aber ein Widerspruch, da L = W e nur 2n + 1, 0, nicht jedoch 2n, 0 enthält. Beweis. Direkte Diagonalisierung. Bei der direkten Diagonalisierung ist die Idee für jeden möglichen Lerner ϕ j einige Sprachen in L zu haben, die dieser konkrete Lerner ϕ j nicht lernen kann. Das machen wir hier zum Beispiel wie folgt. Für alle j N definieren wir rekursiv eine Funktion f j so, dass { j, 2x, falls ϕ j (f j [x]) ϕ j (f j [x] j, 2x ) ; x : f j (x) = j, 2x + 1, sonst. Für jedes j sei L j = range(f j ) und es sei L = {L j j N}. Die Parallelen zum Beweis durch Rekursionstheorem sind erkennbar in der. Ein wichtiger Unterschied ist der, dass L schon in Referenz auf die Möglichen Lerner für L konstruiert wird. L ist TxtGEx-lernbar: Ein Lerner gibt erst eine Hypothese für aus, bis das erste Datum j, y gesehen wurde. Ab dann gibt der Lerner eine Hypothese für range(f j ) aus, welche mit dem S-m-n Theorem leicht aus dem j berechnet werden kann. Nehmen wir nun also an, dass L konsistent TxtGEx-lernbar ist, durch einen Lerner h. Dann gibt es natürlich ein j so, dass h = ϕ j (da dies für alle berechenbaren Funktionen gilt). Nun kann man zeigen, dass h = ϕ j nicht L j lernen kann, analog zu dem Beweis mittels Rekursionstheorem. Insgesamt sehen wir insbesondere bei diesem Beweis, dass man Definitionen für alle möglichen Lerner macht, dann später aber nur den Teil für einen konkreten Lerner nutzt. Theorem 9.2. Es gilt [TxtGCautEx] [TxtGEx]. Beweis. Ausnutzung eines Rekursionstheorems. Für alle e seien e, ϕ e (0) : L e = { e, x x N}; e, ϕ e (0) : L e = { e, x x < ϕ e (0)}; L = {L e ϕ e (0) } {L e ϕ e (0) }. 24

Es ist klar, dass L TxtGEx-lernbar ist. Nehmen wir an, L sei doch TxtGCautEx-lernbar durch einen Lerner h. Für alle e sei T e der Text so, dass i : T e (i) = e, i. Mit KRT gibt es e so, dass für alle x N, ϕ e (x) ist das erste gefundene m mit e, m W h(te[m]), und undefiniert, falls es kein solches m gibt. Fall 1: ϕ e (0). Dies bedeutet m : e, m W h(t [m]). Dann ist T ein Text für L e L, aber h macht niemals eine korrekte Hypothese, ein Widerspruch. Fall 2: ϕ e (0). Sei m = ϕ e (0). Dies bedeutet L e = { e, x x < m} ist in L. Sei T ein Text für L e der mit T e [m]. Da h nach T [m] übergeneralisiert, kann h L e nicht cautious lernen. Beweis. Direkte Diagonalisierung. In diesem Fall brauchen wir je potentiellem Lerner zwei Sprachen. Für alle j N sei L j so, dass L j = { j, x x N} und für jedes j sei T ein Text so, dass i : T (i) = j, i ; wir definieren eine zweite Sprache L j zu j so, dass { content(t [m]), falls es ein minimales Paar m, t gibt mit content(t [m]) W t ϕj(t [m]) ; L j =, sonst. Sei L = {L j j N} {L j j N}. L ist TxtGEx-lernbar: Ein Lerner gibt erst eine Hypothese für aus, bis das erste Datum j, y gesehen wurde. Ab dann gibt der Lerner eine Hypothese für L j aus, bis ein m gefunden wurde mit content(t [m]) W h(t [m]) in σ Schritten, dann wechseln wir zu L j. Hierbei ist es wichtig zu bemerken, dass wir einen Index für L j berechnen können, weil die Fallunterscheidung (und die Bestimmung von m) berechenbar sind. Nehmen wir nun also an, dass L TxtGCautEx-lernbar ist, durch einen Lerner h. Dann gibt es natürlich ein j so, dass h = ϕ j (da dies für alle berechenbaren Funktionen gilt). Nun kann man zeigen, dass h = ϕ j entweder nicht L j oder nicht L j lernen kann, analog zu dem Beweis mittels Rekursionstheorem. Beweis. Reduktion vom Halteproblem. Wir nehmen wieder K als das (diagonale) Halteproblem. Für jedes x sei L x so, dass { {D D N endlich min(d) = x}, falls x K; L x = {{y y x}}, sonst. Insbesondere ist L x unendlich, falls x K, und einelementig sonst. Wir nehmen L = x N L x. Aufgabe 36 Zeige: L ist TxtGEx-lernbar. Aufgabe 37 Zeige: L ist nicht TxtGCautEx-lernbar. 25

Bei diesem Beweis sieht man auch sehr schön wie viel Rafinesse für solche Reduktionen manchmal nötig ist. 26

10 Beweisstrategien Hier ist eine Übersicht darüber, welche Strategien wir für die Beweise in der formalen Lerntheorie verwenden. Im letzten Abschnitt haben wir drei Formen von Beweisen für Separationen gesehen. Dazu kommt nun auch noch eine Strategie, die wir zum Beispiel in Theorem 5.2 benutzt haben, sogenannte topologische Separationen. Hierbei wird der berechenbarkeitstheoretische Aspekt komplett vernachlässigt. Separationen berechenbarkeitstheoretisch Reduktion von Unentscheidbarer Menge Ausnutzung eines Rekursionstheorems Direkte Diagonalisierung topologisch Wie zeigt man nun im einzelnen, dass ein Lerner h eine Sprachklasse L nicht lernt? Separationen: h lernt L nicht Ex-Konvergenz h konvergiert nicht h konvergiert zu inkorrekter Hypothese h konvergiert auf Texten für 2 Sprachen aus L zur gleichen Hypothese Fex-Konvergenz neue Hypothesen Bc-Konvergenz keine Semantisch korrekten Hypothesen h gibt auf Texten für 2 Sprachen aus L dieselbe Hypothesensequenz aus (im Limes) It-Lernen Vergessen von Daten endliche Mengen Sd-Lernen keine unendlich wachsende Eingabe (zur beschränkten Suche) endliche Mengen Was können wir im umgekehrten Fall machen, um die Gleichheit von Kritierien (bzw. einzelnge Inklusionen) zu zeigen? Inklusionen Simulation vom gegebenen Lerner... auf dem gleichen Text... auf neu strukturiertem/umgeordneten Text Suche nach Lockingsequenz Ausnutzen von Normalenformen sink-locking total Vergiften Verzögern Direkt über Charakterisierungen 27

Literatur [JORS99] S. Jain, D. Osherson, J. Royer, and A. Sharma. Systems that Learn: An Introduction to Learning Theory. MIT Press, Cambridge, Massachusetts, second edition, 1999. [Köt09] T. Kötzing. Abstraction and Complexity in Computational Learning in the Limit. PhD thesis, University of Delaware, 2009. Available online at http://pqdtopen.proquest.com/#viewpdf?dispub=3373055. [OSW86] D. Osherson, M. Stob, and S. Weinstein. Systems that Learn: An Introduction to Learning Theory for Cognitive and Computer Scientists. MIT Press, Cambridge, Mass., 1986. 28