Herzlich willkommen!!!

Transkript

1 Computational Learning Theory Sommersemester 2017 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main Herzlich willkommen!!! 1 / 159

2 Einführung Einführung 2 / 159

3 Teil I: Statistische Lerntheorie (a) Das PAC-Modell Probably Approximately Correct (Supervised) Learning. eine unbekannte Verteilung D erzeugt klassifizierte Beispiele (also überwachtes Lernen), der Lernalgorithmus wird auf D evaluiert. (b) Die wesentlichen Fragen Beispielkomplexität Wie viele Beispiele sind für ein erfolgreiches Lernen hinreichend und notwendig? Die Vapnik-Chervonenkis Dimension. Algorithmische Komplexität Für welche Probleme können Hypothesen effizient bestimmt werden? Einführung Inhalt 3 / 159

4 Teil II: Online-Lernen (a) Gegenbeispiel-Komplexität Ein (bösartiger) Lehrer legt einem Schüler ein Beispiel vor. Der Schüler klassifiziert und erhält danach die richtige Antwort. Wiederhole, solange bis alle Antworten richtig sind. (b) Expertenauswahl Weighted-Majority: Experten geben Online Empfehlungen ab. Können wir, ohne den Sachverhalt zu kennen, eine Strategie entwickeln, die fast so gut ist wie der im Nachhinein beste Experte? Winnow: Finde wenige entscheidende aus vielen möglichen Gründen. Perzeptron: Trenne rote von blauen Vektoren im R n durch eine Hyperebene. Einführung Inhalt 4 / 159

5 Teil III: Lernverfahren (a) Grundlegende Methoden Validierung Boosting/Bagging Nicht-binäres Lernen stochastischer Gradientenabstieg (b) Lernalgorithmen: Nearest Neighbor Support Vektor Maschinen Neuronale Netzwerke Maximum Likelihood, Expectation-Maximization. (c) Aktives Lernen: Wie stark verbessert sich die Lernleistung, wenn der Schüler Fragen stellen darf? Einführung Inhalt 5 / 159

6 Worauf wird aufgebaut? Diskrete Modellierung: Beweisführung: Direkte und indirekte Beweise, vollständige Induktion. Datenstrukturen und Theoretische Informatik 1: Laufzeitanalyse: O, o, Ω, ω and Rekursionsgleichungen, Graphalgorithmen, NP-Vollständigkeit, Berechenbarkeit. Mathematik 3: Grundlagen der Wahrscheinlichkeitstheorie Siehe auch Kapitel 2.4 im Skript. Einführung Vorwissen 6 / 159

7 Literatur (1) S. Shalev-Shwartz und Shai Ben-David, Machine Learning: From Theory to Algorithms, Cambridge University Press (PAC Lernen und Support-Vektor-Maschinen) (2) M. Mohri, A. Rostamizadeh und A. Talwalkar, Foundations of Machine Learning, MIT Press (PAC Lernen und Support-Vektor-Maschinen) (3) M. J. Kearns und U. V. Vazirani, An Introduction to Computational Learning Theory, MIT Press (PAC Lernen) (4) M. H. G. Anthony und N. Biggs, Computational Learning Theory, Cambridge University Press (PAC Lernen) (5) I. Goodfellow, Y. Bengio und A. Courville, Deep Learning, MIT Press (Lernverfahren, insbesondere Neuronale Netzwerke) (6) Skript zur Vorlesung Computational Learning Theory, Goethe-Universität Frankfurt, Einführung Literatur 7 / 159

8 Organisatorisches Einführung Organisatorisches 8 / 159

9 Die Webseite Die Webseite enthält alle wichtigen Informationen zur Veranstaltung: Alle Vorlesungsmateralien (Skript, Folien, Zugang zu Extra-Materalien) finden Sie auf dieser Seite. Auch organisatorische Details zum Übungsbetrieb werden beschrieben. Unter Aktuelles finden Sie zum Beispiel: Anmerkungen zum Übungsbetrieb und gegebenenfalls Anmerkungen zu aktuellen Übungsaufgaben. Im Logbuch finden Sie Informationen, Beamer-Folien, weitere Referenzen zu den einzelnen Vorlesungsstunden. Einführung Organisatorisches 9 / 159

10 Prüfungen und Übungsbetrieb BITTE, BITTE, BITTE aktiv an den Übungen teilnehmen! Wöchentliche Übungszettel auf der Webseite mit Ausgabe am Montag. Der 1. Übungszettel wird in der 2. Vorlesungswoche ausgegeben. Rückgabe, nach 1-wöchiger Bearbeitungszeit, vor der Montag- Vorlesung. (Rückgabe auch im Briefkasten neben Büro 312 möglich.) Wenn die Prüfung bestanden ist: Bei mindestens 50% aller Übungspunkte eine Verbesserung um einen Notenschnitt, bei mindestens 70% eine Verbesserung um zwei Notenschritte. Bei nicht zu vielen Teilnehmern werden nur mündliche Prüfungen angeboten, sonst eine Klausur. Einführung Organisatorisches 10 / 159

11 BITTE, BITTE, BITTE 1 Bitte helfen Sie mir durch Fragen, Kommentare und Antworten! 2 Die Vorlesung kann nur durch Interaktion interessant werden. Ich muss wissen, wo der Schuh drückt. 3 Sie erreichen mich außerhalb der Vorlesung im Büro 303. Sprechstunde: Dienstags Kommen Sie vorbei. Einführung Organisatorisches 11 / 159

12 Studiengänge Neuer Master Informatik oder Master Wirtschaftsinformatik : Computational Learning Theory: Grundlagen (5 CP). Die Veranstaltung findet vom bis zum statt. Computational Learning Theory: Weiterführende Themen (5 CP) Die Veranstaltung findet vom bis zum statt. Als Veranstaltung vom 18.4 bis zum (10 CP). Alter Master Informatik oder Master Bioinformatik : Computational Learning Theory (4+2 SWS, 10 CP). Einführung Organisatorisches 12 / 159

13 Worum geht s? Konzepte und Hypothesen 13 / 159

14 Beispiele, Konzepte und Hypothesen Supervised Learning: Die zentralen Begriffe Sei X eine nicht notwendigerweise endliche Menge. (a) Wir nennen X den Beispielraum. (b) Ein Konzept c (über X) ist eine Teilmenge von X. (c) Eine Hypothese h (über X) ist ein Konzept (über X) und eine Hypothesenklasse H ist eine Menge von Hypothesen. (d) Für ein Konzept c ist x X ein positives Beispiel für c, falls x c und ansonsten ein negatives Beispiel. Insbesondere ist { (x, b) X {0, 1} : x c b = 1 } die Menge der gemäß c klassifizierten Beispiele. Konzepte und Hypothesen 14 / 159

15 Die Zielstellung c ist das unbekannte Konzept. Der Lernalgorithmus erhält gemäß klassifizierte Beispiele. Eine Hypothese ist zu bestimmen, die c möglichst gut erklärt. Welche Fragen sind zu klären? (1) Was ist Lernen? Wann erklärt die Hypothese h das Konzept c? Wann können wir behaupten, dass unsere Hypothese gut ist? (2) Algorithmische Komplexität: Kann eine gute Hypothese bei genügend vielen Beispielen in vertretbarer Zeit gefunden werden? (3) Beispielkomplexität: Wieviele Beispiele werden für ein erfolgreiches Lernen benötigt? Konzepte und Hypothesen 15 / 159

16 Anwendungsszenarien (1) Handschriftenerkennung: Für jeden Anwender x und jede Ziffer z {0, 1,..., 9} besteht das Konzept c x,z aus allen Schriftproben des Anwenders x, die der Ziffer z entsprechen. (2) Textinterpretation: Nachrichten sind zum Beispiel automatisch einer der Kategorien Politik, Wirtschaft, Kultur, Sport... zuzuordnen. Jede dieser Kategorien entspricht einem Konzept. (3) Bilderkennung: Eine Pixelmatrix ist einer Kategorie (wie etwa Sonnenaufgang, Wüste, Meer, Stadt,... ) zuzuordnen. (4) Bestimmung der Funktion von Proteinen: Sage die Funktion eines Proteins voraus. Proteinfamilien mit ähnlicher Funktion entsprechen Konzepten. Konzepte und Hypothesen 16 / 159

17 Welche Konzeptklassen sind von besonderem Interesse? Konzepte und Hypothesen 17 / 159

18 Die Konzeptklasse der monotonen Monome Jedes Beispiel x X := {0, 1} n wird als ein Vektor von n Eigenschaften (oder Features) repräsentiert. - Die unbekannte Konjunktion α := x i1 x ik sei zu lernen. Das entsprechende Zielkonzept c α ist die Menge c α = { x {0, 1} n : x erfüllt α }. aller positiven Beispiele. - Die Konzeptklasse MONOTON-MONOM n besteht aus der Menge aller Konzepte c α für eine monotone Konjunktion α. Konzepte und Hypothesen Boolesche Konzeptklassen 18 / 159

19 Weitere boolesche Konzeptklassen - Und wenn allgemeine Monome zu lernen sind? Jetzt entsprechen die unbekannten Zielkonzepte der Konzeptklasse MONOM n aller Monome mit den Literalen x 1, x 1,..., x n, x n. - Darf es ein wenig mehr sein? k-term DNF n ist die Konzeptklasse aller DNF-Formeln mit den Literalen x 1, x 1,..., x n, x n und höchstens k Monomen. - Und vielleicht noch ein wenig(?) mehr: BOOLEAN n ist die Konzeptklasse aller booleschen Funktionen f : {0, 1} n {0, 1}. Konzepte und Hypothesen Boolesche Konzeptklassen 19 / 159

20 Entscheidungsbäume Die Konzeptklasse DECISION n,s hat für jeden Entscheidungsbaum B mit höchstens s Knoten (über den Variablen x 1,..., x n ) ein Konzept c B. x x 1 x x Konzepte und Hypothesen Entscheidungsbäume 20 / 159

21 Automaten / Halbräume AUTOMAT n,σ besitzt für jeden DFA A mit höchstens n Zuständen ein Konzept, nämlich die von A akzeptierte Sprache L(A). A muss das Eingabealphabet Σ besitzen. HALBRAUM n besitzt für alle Gewichte w 1,..., w n R und jeden Schwellenwert (bzw. Threshold) t R das Konzept { x R n n w i x i t } i=1 HALBRAUM ist unsere erste reellwertige Kozeptklasse. Konzepte und Hypothesen Automaten / Halbräume 21 / 159

22 Halbräume = neuronale Netzwerke und SVMs - Die Konzeptklasse der neuronalen Netzwerke besteht aus Schaltungen mit neuronalen Gattern der Form g( n i=1 w i y i t). Zum Beispiel werden das Standard-Sigmoid g(x) = 1 1+e x rectified linear units g(z) = max{0, z} { 0 x < 0, oder die binäre Threshold-Funktion g(x) = verwandt. 1 sonst - In der Methode der Support Vektor Maschinen wird eine Feature-Funktion φ : X R n auf die Beispiele x 1,..., x s angewandt. Dann wird nach einer Hyperebene gesucht, die so weit es geht alle positiven Beispiele φ(x i ) von den negativen Beispielen φ(x j ) trennt. Konzepte und Hypothesen Halbräume und neuronale Netzwerke 22 / 159

23 Wichtige Fragestellungen (1) Wieviele Beispiele werden benötigt, um eine Chance zu haben die einzelnen Konzeptklassen erfolgreich zu erlernen? - Für MONOM n sollten sehr viel weniger Beispiele ausreichen als für BOOLEAN n. - Die Beispielzahl sollte von der Anzahl der Freiheitsgrade der Hypothesenklasse abhängen. - Wie misst man Freiheitsgrade? (2) Können wir tatsächlich lernen, wenn genügend viele Beispiele vorhanden sind? (3) Müssen wir ewig herum experimentieren oder können wir sagen, ob wir zumindest hoch-wahrscheinlich erfolgreich lernen werden? Konzepte und Hypothesen Beispielzahl und Lernbarkeit 23 / 159

24 PAC-Algorithmen Das PAC-Modell 24 / 159

25 Fehlermessung - Klassifizierte Beispiele werden zufällig und unabhängig voneinander, gemäß einer unbekannten Verteilung D 1, gezogen. - Der Lernalgorithmus L berechnet eine Hypothese h. - Wie gut ist h? Wir messen den Fehler zwischen dem unbekannten Zielkonzept c und der Hypothese h gemäß einer Verteilung D 2 : fehler D2 (c, h) = prob[ c h ] (Später betrachten wir allgemeinere Fehlermodelle.) Fairness-Bedingung: Wenn Beispiele nach der Verteilung D 1 erzeugt werden, dann sollte der Fehler auch gemäß D 1 gemessen werden. Wir fordern deshalb D 1 = D 2. Das PAC-Modell 25 / 159

26 Hochwahrscheinlich approximatives Lernen Der Anwender gibt einen Fehlerparameter ε vor. - Der Fehler, also der Unterschied zwischen Zielkonzept und Hypothese, soll höchstens ε betragen. - Aber wenn der Lernalgorithmus zufälligerweise wenig informative Beispiele erhält, dann wird die Hypothese i. A. nicht gut sein. Der Anwender gibt einen Misstrauensparameter δ vor und fordert: Der Fehler darf mit Wahrscheinlichkeit mindestens 1 δ den Fehlerparameter ε nicht übersteigen. Das PAC-Modell 26 / 159

27 PAC-Algorithmen PAC Lernen = probably (mit Wahrscheinlichkeit mindestens 1 δ) approximately (mit Fehler höchstens ε) correct. Wir möchten also hoch-wahrscheinlich approximativ korrekt lernen. Ein Lernalgorithmus A ist genau dann ein PAC-Algorithmus für eine Konzeptklasse C, wenn für alle ε (0, 1], für alle δ (0, 1], für alle Konzepte c C und für alle Verteilungen D prob D [ fehler D (c, h c ) ε ] 1 δ gilt, wobei h c die von A bestimmte Hypothese ist. Das PAC-Modell 27 / 159

28 Die Grundstruktur eines PAC-Algorithmus 1. Die Eingabe besteht aus dem Misstrauensparameter δ und dem Fehlerparameter ε. Die Hypothesenklasse H sei vorgegeben: Ein unbekanntes Konzept c ist mit Hilfe einer Hypothese h c H zu erlernen. 2. Fordere eine Trainingsmenge S = { (x 1, b 1 ),..., (x s, b s ) } von s = s(δ, ε) klassifizierten Beispielen an. /* Es gilt x i c b i = 1 für 1 i s. */ 3. Bestimme eine Hypothese h c H. Das PAC-Modell 28 / 159

29 Zentrale Fragen (1/2) - Fordern wir zuviel? In Anwendungen achtet man darauf, dass die Trainingsmenge aus möglichst informativen Beispielen besteht: Die Beispielverteilung D 1 ist dann sogar unterstützend. - Andererseits wäre die Existenz von PAC-Algorithmen A klasse, denn wir können A mit einem Gütesiegel versehen: Für jede Verteilung D, falls A mindestens s(ε, δ) Beispiele erhält, ist approximativ korrektes Lernen hoch-wahrscheinlich. Das PAC-Modell 29 / 159

30 Zentrale Fragen (2/2) - Wie groß ist die Beispielzahl s(ε, δ) in Abhängigkeit vom erlaubten Fehler ε und vom Vertrauensparameter δ? - Angenommen, A ist ein PAC-Algorithmus mit Fehler ε and Vertrauensparameter δ. Um wieviel steigt die Beispielzahl und Laufzeit an, wenn δ durch δ mit 0 < δ δ ersetzt wird? Um wieviel steigt die Beispielzahl und Laufzeit an, wenn ε durch ε mit 0 < ε ε ersetzt wird? Das PAC-Modell 30 / 159

31 Konsistente Hypothesen Das PAC-Modell 31 / 159

32 Ein Lernalgorithmus für MONOM n (1) Bestimme s = s n (ε, δ) und fordere s Beispiele an. (2) Die erste vorläufige Hypothese ist das Monom h x 1 x 1 x 2 x 2 x n x n. (3) Streiche jedes Literal, das irgendeinem positiven Beispiel widerspricht. (4) Gib die resultierende Hypothese aus. Das PAC-Modell Monome 32 / 159

33 h ist mit allen Beispielen konsistent (1) Das Literal x j (bzw. x j ) wird entfernt, falls ein positives Beispiel diesem Literal widerspricht. (2) Wir bestimmen somit das längste mit allen positiven Beispielen konsistente Monom h. (3) Ist y ein negatives Beispiel und ist M das unbekannte Zielmonom, dann gibt es i, so dass das Literal x i (bzw. x i ) in M vorkommt, und xi (bzw. x i ) verwirft das negative Beispiel y. Da h das längste mit allen positiven Beispielen konsistente Monom ist, kommt x i (bzw. x i ) in h vor und h verwirft y. Wir zeigen jetzt, dass unser Algorithmus ein PAC-Algorithmus für die Konzeptklasse MONOM n ist, falls s n (ε, δ) = 1 ( ) 1 ε ln + ln(3n ). δ ε Das PAC-Modell Monome 33 / 159

34 PAC-Algorithmen für endliche Konzeptklassen Konzepte einer Klasse C von endlich vielen Konzepten sind zu lernen. Vertrauensparameter δ und Fehlerparameter ε sind vorgegeben. (1) Setze s = 1 ε (ln C + ln ( 1 δ )). (2) Wähle irgendein Konzept h C als Hypothese, das mit allen s Beispielen konsistent ist. /* Eine Hypothese h ist genau dann konsistent, wenn h alle positiven Beispiele akzeptiert und alle negativen Beispiele verwirft. Für MONOM n genügen, wie versprochen, 1 ε ln ( ) 1 δ + ln(3 n ) ε Beispiele. Die Beispielkomplexität Die log C -Schranke 34 / 159

35 Die Analyse (1/3) Behauptung: Wir erhalten einen PAC-Algorithmus, der s = 1 ε (ln C + ln ( 1 δ )) Beispiele anfordert. - Wir müssen für jedes Konzept c C und jede Verteilung D nachweisen. prob D [ fehler D (c, h c ) ε ] 1 δ - Sei p = prob D [ fehler D (c, h c ) > ε ]. Dann ist p prob[ Es gibt eine konsistente Hypothese h mit ] fehler D (c, h) > ε prob[ h ist konsistente Hypothese ]. h C mit fehler D (c,h)>ε Die Beispielkomplexität Die log C -Schranke 35 / 159

36 Die Analyse (2/3) - Wenn h C eine Hypothese mit großem Fehler ist (also fehler D (c, h) > ε), dann wird h ein zufällig gezogenes Beispiel mit Wahrscheinlichkeit höchstens 1 ε richtig klassifizieren. - Also ist p h C mit fehler D (c,h)>ε h C mit fehler D (c,h)>ε(1 ε) s h C = C (1 ε) s. prob[h ist eine konsistente Hypothese ] (1 ε) s - Es ist p = prob D [ fehler D (c, h c ) > ε ]. Wir müssen p δ fordern! Die Beispielkomplexität Die log C -Schranke 36 / 159

37 Die Analyse (3/3) - Wir müssen C (1 ε) s δ erfüllen. - Logarithmiere beide Seiten der Ungleichung: ln C + s ln(1 ε) ln δ. }{{} ε (Es ist ln(1 ε) ε. Warum? ) - Somit reicht der Nachweis von ln C s ε ln δ. Diese Ungleichung ist äquivalent zu und das war zu zeigen. 1 (ln C ln δ) s ε Die Beispielkomplexität Die log C -Schranke 37 / 159

38 Weitere Anwendungen (a) Beispiel(MONOTON-MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ), Beispiel(MONOM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (b) Beispiel(k-KNF n ) = O( nk ε + 1 ε ln ( 1 δ ) ) für festes k, Beispiel(k-DNF n ) = O( nk ε + 1 ε ln ( ) 1 δ ) für festes k. (c) Beispiel(k-KLAUSEL-KNF n ) = O( k n ε + 1 ε ln ( ) 1 δ ), Beispiel(k-TERM-DNF n ) = O( k n ε + 1 ε ln ( 1 δ ) ). (d) Beispiel(KNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(DNF n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ), Beispiel(BOOLEAN n ) = O( 1 ε 2n + 1 ε ln ( 1 δ ) ). (e) Beispiel(SYM n ) = O( n ε + 1 ε ln ( 1 δ ) ). (f) Beispiel(AUTOMAT n,σ ) = O( n ε Σ log 2 n + 1 ε ln ( 1 δ ) ). Die Beispielkomplexität Die log C -Schranke 38 / 159

39 Diskussion Die Beispielzahl s = 1 ε (ln C + ln ( 1 δ )). - Eine große Verläßlichkeit, also ein kleines δ, kann billig erzielt werden, denn die Beispielanzahl wächst nur logarithmisch mit 1/δ. - Ein kleiner Fehler, also ein kleines ε, ist teuer, denn 1/ε geht linear in der Beispielanzahl ein. - Könnte ln C eine Definition der Anzahl der Freiheitsgrade sein? Nur wenn die Schranke für s scharf ist. Was tun für Konzeptklassen mit unendlich vielen Konzepten? - Unser PAC-Algorithmus wählt eine konsistente Hypothese. Wie bestimmt man konsistente Hypothesen effizient? Und wenn es keine effizienten Hypothesen gibt? Die Beispielkomplexität Diskussion 39 / 159

40 Was tun bei unendlich vielen Konzepten? (Allerdings pessimistische) Schranken für die Beispielzahl: - Konzepte aus HALBRAUM n werden durch n + 1 Parameter beschrieben: Die n Koeffizienten und der eine Schwellenwert. - Für die Darstellung einer Gleitkommazahl genügen c Bits: Die Anzahl der im Rechner darstellbaren Halbräume ist 2 c(n+1) = 1 ( ( )) 1 ε c (n + 1) ln 2 + ln δ klassifizierte Beispiele reichen, um den wahren Fehler ε mit Wahrscheinlichkeit mindestens 1 δ nicht zu überschreiten. Der genaue Wert von c ist rechner-abhängig. Für präzise Schranken der Beispielzahl benötigen wir neue Ideen. Die Beispielkomplexität Diskussion 40 / 159

41 Das ERM-Problem Die Beispielkomplexität Das ERM-Problem 41 / 159

42 Empirische Risiko Minimierung (ERM) (1/3) Wir möchten ein unbekanntes Konzept c mit der Hypothesenklasse H lernen und fordern klassifizierte Beispiele (x 1, b 1 ),..., (x s, b s ) an. Empirische Risiko Minimierung: Bestimme eine Hypothese h c H, so dass das empirische Risiko bzw der empirische Fehler { i : 1 i s, h c (x i ) b i } minimal ist. (Wenn möglich, bestimme konsistente Hypothesen.) Achtung, droht Overfitting (bzw Auswendiglernen)? Die vielen Freiheitsgrade der Hypothesenklasse werden nur teilweise durch die Beispiele gesetzt. Oder Underfitting? Die Hypothesenklasse hat zu wenige Freiheitsgrade. Die Beispielmenge ist auch näherungsweise nicht erklärbar. Die Beispielkomplexität Das ERM-Problem 42 / 159

43 Empirische Risiko Minimierung (ERM) (2/3) In der empirischen Risiko Minimierung mit induktivem Bias fließen Annahmen über wesentliche Eigenschaften der Konzeptklasse in die Definition der Hypothesenklasse ein. (a) Die Hypothesenklasse sollte möglichst wenige, (b) aber genügend viele Freiheitsgrade beitzen um einen kleinen empirischen Fehler und damit auch einen kleinen wahren Fehler zu garantieren. Die Beispielkomplexität Das ERM-Problem 43 / 159

44 Empirische Risiko Minimierung (ERM) (3/3) Sei H eine Hypothesenklasse über einer Menge X von Beispielen. (a) Im ERM-Problem für die Beispielmenge S = {(x 1, b 1 ),..., (x s, b s )} X {0, 1} ist eine Hypothese h S H zu bestimmen, die den empirischen Fehler (bzw das empirische Risiko) { i : 1 i s, h S (x i ) b i } unter allen Hypothesen in H minimiert. Wir nennen h S eine ERM-Hypothese. (b) Ein ERM-Algorithmus für H ist ein Lernalgorithmus, der nur ERM-Hypothesen für H ausgibt. (Später messen wir den Fehler auch auf andere Arten.) Die Beispielkomplexität Das ERM-Problem 44 / 159

45 Inkonsistente Hypothesen Die Beispielkomplexität Inkonsistente Hypothesen 45 / 159

46 Kritik - Für praktische Anwendungen können wir nicht davon ausgehen, dass jedes Zielkonzept auch in der Hypothesenklasse liegt: Die Schriftproben einer bestimmten Person werden wir nur approximativ, aber nicht exakt erkennen können! - Stattdessen sollten wir annehmen, dass es zu jedem Zielkonzept c C eine Hypothese h H mit kleinem Fehler gibt, d.h. es gelte fehler D (c, h) ε. Der Lernalgorithmus: (1) Bestimme die Beispielzahl s in Abhängigkeit von ε und δ. (3) Wähle irgendeine Hypothese h H, die mit mindestens (1 2ε) s Beispielen konsistent ist. Gib eine Fehlermeldung aus, wenn eine solche Hypothese nicht existiert. Die Beispielkomplexität Inkonsistente Hypothesen 46 / 159

47 Das Ziel Bestimme die Beispielzahl s so, dass gilt prob D [ Algorithmus findet eine Hypo these h c mit fehler D (c, h c ) 4ε ] 1 δ - Zwei Fehlerquellen: Es gibt keine fast konsistenten Hypothesen (Fehlermeldung) oder der Fehler ist zu groß. - Bestimme s, so dass prob D [ Algorithmus gibt eine Fehlermeldung ] δ 2 und prob D [ fehler D (c, h c ) 4ε ] δ 2 Die Beispielkomplexität Inkonsistente Hypothesen 47 / 159

48 Die Wahrscheinlichkeit einer Fehlermeldung (1/2) Die Situation: Es gibt eine Hypothese h H mit fehler D (c, h) ε, aber keine Hypothese, ist mit mindestens (1 2ε) s Beispielen konsistent. - h ist also mit mehr als 2ε s Beispielen inkonsistent. - Wenn wir aber s Beispiele zufällig ziehen, dann ist die erwartete Anzahl der durch h falsch klassifizierten Beispiele höchstens ε s. - Im Falle einer Fehlermeldung verstoßen wir signifikant gegen den Erwartungswert: Statt Inkonsistenz mit höchstens ε s Beispielen sogar Inkonsistenz mit mehr als 2ε s Beispielen. - Ein heftiger Verstoß gegen den Erwartungswert sollte doch unwahrscheinlich sein! Die Beispielkomplexität Inkonsistente Hypothesen 48 / 159

49 Die Wahrscheinlichkeit einer Fehlermeldung (2/2) Wir liegen mit 2εs zweifach über dem Erwartungswert und die Chernoff-Schranke für β = 1 liefert e εs 3. als Wahrscheinlichkeit einer Fehlermeldung. - Wir müssen die Wahrscheinlichkeit einer Fehlermeldung durch δ/2 nach oben beschränken. - Wir fordern s 3 ε ln ( 2 δ ). Die Beispielkomplexität Inkonsistente Hypothesen 49 / 159

50 Zu große Fehler (1/2) - Sei h H eine beliebige Hypothese mit zu großem Fehler, also fehler D (c, h) 4 ε. - Ist es nicht dann unwahrscheinlich, dass h mit höchstens 2ε s Beispielen inkonsistent ist? Mehr als 4ε s inkonsistente Beispiele sind zu erwarten. - Chernoff muss ran und zwar mit β = 1/2. p = prob D [ h ist mit höchstens 2εs Beispielen nicht konsistent ] e 4ε s 4 2 = e ε s 2 Die Beispielkomplexität Inkonsistente Hypothesen 50 / 159

51 Zu große Fehler (2/2) Für die Wahrscheinlichkeit q eines zu großen Fehlers gilt: q prob D [ h H mit fehler D (c,h) 4ε h ist mit 2εs Beispielen nicht konsistent ] - Also q h H e εs 2 = H e εs 2. - Um q δ/2 zu erhalten, fordere H e εs 2 δ/2. - Nach logarithmieren folgt ln H εs 2 ln ( δ [ ( )] 2 2 ε ln H + ln s. δ 2) und äquivalent Die Beispielkomplexität Inkonsistente Hypothesen 51 / 159

52 Zusammenfassung Wir erreichen fehler D (c, h) 4ε mit Wahrscheinlichkeit mindestens 1 δ, falls es eine Hypothese h mit fehler d (c, h ) ε gibt und falls s(δ, ε) 3 [ ( )] 2 ε ln H + ln. δ Die Beispielzahl steigt, im Vergleich zur garantierten Existenz konsistenter Lösungen nur moderat an!? Sind die Schranken für die Beispielzahl scharf? Sind ln( C ), bzw. ln( H ) gute Messungen der Anzahl der Freiheitsgrade von Konzept- bzw. Hypothesenklasse?? Wie bestimmt man (fast-)konsistente Hypothesen? Die Beispielkomplexität Inkonsistente Hypothesen 52 / 159

53 Das agnostische PAC-Modell Das agnostische PAC-Modell 53 / 159

54 Es wäre schön, wenn wir 1. Klassen C von Funktionen f : X Y mit beliebigem Wertebereich Y lernen könnten (bisher Y = 2), 2. Verteilungen D auf X Y zulassen könnten. (Bisher ist D nur auf dem Beispielraum X definiert.) Wir kennen das äußeren Erscheinungsbild x einer Frucht. Was sind die Schmeckt-lecker-Wahrscheinlichkeiten prob D [ Beispiel = x, y = 1 ]? Das agnostische PAC-Modell 54 / 159

55 Loss-Funktionen und erwarteter Loss Sei H eine Hypothesenklasse (a) Eine Funktion der Form l : H X Y R 0 wird als Loss-Funktion bezeichnet. { 0 h(x) = y Der 0-1 Loss l(h, x, y) = 1 h(x) y, y verschieden ist, bestraft, wenn h(x) von der quadratische Loss l(h, x, y) := (h(x) y) 2 bestraft große Abweichungen von y. (b) Der erwartete Loss einer Hypothese h H (bzgl. D und l) ist Loss D (h) := E (x,y) D [ l(h, x, y) ]. (Loss D (h) verallgemeinert unsere Definition von fehler D (c, h c ).) Das agnostische PAC-Modell Der erwartete Loss 55 / 159

56 Es ist Loss D (h) = fehler D (h) 0-1 Loss Sei l der 0-1 Loss. (a) Für eine Zielfunktion f : X Y und eine Hypothese h : X Y ist Loss D (h) = E (x,y) D [ l(h, x, y) ] = prob (x,y) D [ h(x) y ]. Die Verteilung D kann unterschiedliche Werte y h(x) in Abhängigkeit von x unterschiedlich gewichten (sprich: bestrafen) (b) Sei Y = {0, 1}, D eine Verteilung nur über dem Beispielraum X. Wir erhalten auch das alte Fehlermodell wie folgt: Setze D auf X {0, 1} fort. Das Paar (x, f (x)) übernimmt das Gewicht des Beispiels x. Das agnostische PAC-Modell Der erwartete Loss 56 / 159

57 Der quadratische Loss und lineare Regression Das einfache lineare Regressionsproblem: Experimentelle Beobachtungen (x 1, y 1 ),..., (x s, y s ) R 2 liegen vor: Allerdings sind Meßwerte u. U. verfälscht. Es wird nach einem linearen Zusammenhang zwischen den Größen x i und y i gesucht. Bestimme a, b R mit kleinem Trainingsfehler 1 s s (ax i + b y i ) 2. i=1 Hoffentlich ist der erwartete Loss Loss D (a, b) := E (x,y) D [(ax + b y) 2 ] (zur quadr. Loss-Funktion und Hypothese h(x) := ax + b) klein. Das agnostische PAC-Modell Der erwartete Loss 57 / 159

58 Agnostische PAC-Algorithmen Das agnostische PAC-Modell Agnostische PAC-Algorithmen 58 / 159

59 Wir wollen alles, aber H sei eine Konzeptklasse über X und Y Ein Lernalgorithmus A ist genau dann ein agnostischer PAC-Algorithmus für H (und eine Loss-Funktion l), wenn es für alle ε (0, 1] und alle δ (0, 1] eine Beispielzahl s = s(ε, δ) gibt, so dass A für alle Verteilungen D über X und Y, nach Erhalt von s Beispielen, eine Hypothese h bestimmt mit Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Das agnostische PAC-Modell Agnostische PAC-Algorithmen 59 / 159

60 Noch mal langsam... Schätzfehler von h {}}{ prob (x,y) D [ E D [ l(h, x, y) ] min E D[ l(g, x, y) ] ε ] 1 δ. g H }{{} Approximationsfehler von H Der erwartete Loss E D [ l(h, x, y) ] ist eine Zufallsvariable, denn die Hypothese h hängt von den gezeigten Beispielen ab. Neue Perspektive: Der Approximationsfehler ist eine Eigenschaft der Hypothesenklasse und lässt sich nicht ändern. Wir sollten aber versuchen, den Schätzfehler klein zu halten. Gibt es agnostische PAC-Algorithmen? Das agnostische PAC-Modell Agnostische PAC-Algorithmen 60 / 159

61 Empirischer Loss (a) Für eine Menge S X Y von s klassifizierten Beispielen ist Loss S (h) := 1 s (x,y) S l(h, x, y) der empirische Loss (oder Trainingsfehler) für eine Loss-Funktion l und die Beispielmenge S. (b) Eine Hypothese h H ist eine ERM-Hypothese bezüglich l auf S, wenn Loss S (h) = min g H LossS (g). Was wäre toll? Wenn sich empirischer Loss und wahrer Loss nur unwesentlich unterscheiden. Das agnostische PAC-Modell Agnostische PAC-Algorithmen 61 / 159

62 ε-repräsentative Beispielmengen Das agnostische PAC-Modell ε-repräsentative Beispielmengen 62 / 159

63 ε-repräsentative Beispielmengen (1/6) H sei eine Hypothesenklasse über X und Y. Eine Beispielmenge S ist ε-repräsentativ für H, eine Loss-Funktion l und eine Verteilung D über X und Y, falls für alle Hypothesen h H gilt. Loss S (h) Loss D (h) ε Wenn ε-repräsentative Beispielmengen hoch-wahrscheinlich sind, dann gilt Loss S (h) Loss D (h) hoch-wahrscheinlich. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 63 / 159

64 ε-repräsentative Beispielmengen (2/6) Zeige: Für jede Verteilung D ist eine gemäß D zufällig ausgewählte Menge S von s = s(ε, δ) Beispielen ε-repräsentativ. mit Wahrscheinlichkeit mindestens 1 δ Zeige: p := prob D [ h H : ]! LossS (h) Loss D (h) ε δ. Für eine beliebige Hypothese h H ist E[ Loss S (h) ] = 1 s E[ l(h, x, y) ] = 1 s Loss D (h) = Loss D (h). (x,y) S (x,y) S Das agnostische PAC-Modell ε-repräsentative Beispielmengen 64 / 159

65 ε-repräsentative Beispielmengen (3/6) Gute Nachrichten: Der wahre Loss ist der Erwartungswert des empirischen Loss. Sind signifikante Abweichungen vom Erwartungswert relativ unwahrscheinlich, haben wir gewonnen! 1. Definiere die Zufallsvariable X h i := l(h, x i, y i ). 2. Fordere a i := 0 X h i 1 =: b i. Die Hoeffding-Ungleichung besagt prob[ LossS (h) Loss D (h) ε ] s ( = prob[ X h i E[ Xi h ] ) ε s ] 2 exp 2sε2. i=1 Das agnostische PAC-Modell ε-repräsentative Beispielmengen 65 / 159

66 ε-repräsentative Beispielmengen (4/6) [ ] p = prob D h H : LossS (h) Loss D (h) ε [ ] prob D Loss S (h) Loss D (h) ε h H H 2 exp 2sε2. Wir müssen p! δ erreichen und die Forderung H 2 exp 2sε2 δ ist zu erfüllen = s = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ) Beispiele sind ausreichend. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 66 / 159

67 ε-repräsentative Beispielmengen (5/6) Sei H eine Hypothesenklasse mit endlich vielen Hypothesen und sei l : H X Y [0, 1] eine Loss-Funktion. Es gelte }{{} Zu schwere Bestrafungen sind verboten s(ε, δ) = 1 (ln(2 H ) 2ε 2 + ln( 1δ ) ). }{{} Beispielzahl steigt um Faktor 1 ε an 1. Fordert man eine Menge S von s(ε/2, δ) Beispielen an und 2. bestimmt eine ERM-Hypothese h H bezüglich l, 3. so erhält man einen agnostischen PAC-Algorithmus bezüglich l. Das agnostische PAC-Modell ε-repräsentative Beispielmengen 67 / 159

68 ε-repräsentative Beispielmengen (6/6) Fazit Ist die Beispielzahl genügend groß, dann sagt der Trainingsfehler den Verallgemeinerungsfehler hoch-wahrscheinlich voraus und zwar simultan für alle Hypothesen. Was bedeutet dies für praktische Anwendungen? Das agnostische PAC-Modell ε-repräsentative Beispielmengen 68 / 159

69 Occam-Algorithmen Das agnostische PAC-Modell Occam Algorithmen 69 / 159

70 Occam s Razor Non sunt multiplicanda entia praeter necessitatem. In freier Übersetzung: Wähle stets eine möglichst einfache Erklärung. Was ist eine einfache Erklärung (bzw. Hypothese)? Eine Erklärung, die zu einer Teilklasse H H mit möglichst wenigen Freiheitsgraden gehört. ( ) Hier weisen wir jeder Hypothese einen binären Namen zu. Wir suchen eine ERM-Hypothese mit möglichst kurzem Namen. Das agnostische PAC-Modell Occam Algorithmen 70 / 159

71 Die Konzeptklasse MONOM n Sei m ein Monom mit m = l 1 l 2 l k. l 1,..., l k sind Literale mit l j {x ij, x ij }. - Beschreibe m durch die Binärdarstellung b 1 code(i 1 ) b 2 code(i 2 ) b k code(i k ). code(i) ist die Binärdarstellung der Zahl i {0,..., n 1} mit führenden Nullen auf log 2 n Bits aufgefüllt. bj code(i j ) gibt an, ob l j = x ij (b j = 0) bzw. l j = x ij (b j = 1). - Die Beschreibungslänge ist k ( log 2 n + 1 ). Unser PAC-Algorithmus für MONOM n hat ein längstes konsistentes Monom bestimmt. War das eine gute Idee? Das agnostische PAC-Modell Occam Algorithmen 71 / 159

72 Occam-Algorithmen (1/2) Setup: Für h H sei länge(h) die Länge des binären Namens von h. H r : alle Hypothesen in H mit Namenslänge kleiner als r. Für welche Beispielzahl s r (ε, δ) erhalten wir einen PAC-Algorithmus, wenn wir eine konsistente Hypothese in H r finden? - Es ist H r r 1 i=0 2i = 2 r 1. - Sei p s,r die Wahrscheinlichkeit, dass es eine Hypothese h H r gibt, die mit s Beispielen konsistent ist und einen Fehler > ε hat. Dann ist p s,r (1 ε) s H r (1 ε) s 2 r. Das agnostische PAC-Modell Occam Algorithmen 72 / 159

73 Occam-Algorithmen (2/2) (1) Wir möchten p s,r δ erreichen und müssen fordern (1 ε) s 2 r δ. (2) Nach Logarithmieren ist dies äquivalent zu: s ln(1 ε) + r ln 2 ln δ. (3) Aber ln(1 ε) ε mit der Mutter aller Ungleichungen. Fordere s ε + r ln 2 ln(δ). Wenn für s r (ε, δ) = 1 ( ( ) ) 1 ε r ln 2 + ln δ Beispiele eine Hypothese h der Länge < r gefunden wird, dann hat h mit Wahrscheinlichkeit 1 δ einen Fehler ε. Das agnostische PAC-Modell Occam Algorithmen 73 / 159

74 Fazit: Occam-Algorithmen Erfolgreiches Lernen für Hypothesenlänge < r und s = 1 ( ( ) ) 1 ε r ln 2 + ln Beispiele. δ - Erfolgreiches Lernen, wenn die konsistente Hypothese wesentlich kürzer ist als die Anzahl der Beispiele, d.h. r << s. - Kurze Hypothesen komprimieren die Beispiele! Hat ein unbekanntes Monom höchstens k Literale, dann ( genügen 1 ε k log 2 n + ln ( ) ) 1 δ Beispiele. ( Unser erster Algorithmus benötigt 1 ε n + ln ( ) ) 1 δ Beispiele. Das agnostische PAC-Modell Occam Algorithmen 74 / 159

75 Zusammenfassung: Endliche Hypothesenklassen Das agnostische PAC-Modell Occam Algorithmen 75 / 159

76 Fazit (1/2) Was haben wir insgesamt erreicht? Das Gütesiegel hoch-wahrscheinlich kleiner Fehler kann bei Ω( 1 ε (ln( H ) + ln(1 δ ))) Beispielen an ERM-Hypothesen vergeben werden. Occam-Algorithmen erlauben eine Vergabe des Gütesiegels bei mgl. sehr kleiner Beispielmenge. Eine ERM-Hypothese erhält das Gütesiegel in Gold ( holt hoch-wahrscheinlich raus, was drin ist ) bei Ω( 1 ε 2 (ln( H ) + ln(1 δ ))) Beispielen: Schafft Verteilungen auf X Y und Loss-Funktionen! Das agnostische PAC-Modell Occam Algorithmen 76 / 159

77 Fazit (2/2) Ja, aber Werden so viele Beispiele auch tatsächlich benötigt? Kann man den Begriff Freiheitsgrad formalisieren? Lassen sich keine scharfen Aussagen über die Beispielzahl für reellwertige Hypothesenklassen wie etwa HALBRAUM n machen? Lassen sich ERM-Hypothesen effizient bestimmen? Modellieren wir Lern-Situationen in der Praxis? Sind die in Anwendungen gelieferten Beispiele unabhängig? Warum wird Lernen gegen jede Verteilung gefordert? Das agnostische PAC-Modell Occam Algorithmen 77 / 159

78 VC-Dimension und Freiheitsgrade Die VC-Dimension 78 / 159

79 Wie misst man Freiheitsgrade? Sei C eine Konzeptklasse (1) C zertrümmert eine Menge S von Beispielen, falls P(S) = {S c c C}. (P(S) = {T T S} ist die Potenzmenge von S.) (2) Die VC-Dimension VC(C) ist die maximale Mächtigkeit einer Menge S, die von C zertrümmert wird. Wenn C die Menge S zertrümmert, dann erhalten wir jede Teilmenge von S als den Durchschnitt von S mit einem Konzept in C: Wenn C die Menge S zertrümmert, dann muss bei kleinem Fehler die Klassifikation eines jeden Beispiels in S bekannt sein! Die VC-Dimension 79 / 159

80 Die Anzahl der Freiheitsgrade Wir definieren VC(C) als die Anzahl der Freiheitsgrade von C. Ist diese Definition vernünftig? BOOLEAN n besitzt ein Konzept c f für jede Boolesche Funktion f : {0, 1} n {0, 1}: c f = {x {0, 1} n f (x) = 1}. - BOOLEAN n sollte 2 n Freiheitsgrade besitzen, da der Wert von f auf jedem Argument x {0, 1} n bestimmt werden muss. - BOOLEAN n zertrümmert {0, 1} n, denn es gibt für jede Teilmenge T {0, 1} n ein Konzept c BOOLEAN n mit c = T. - Also ist VC(BOOLEAN n ) = 2 n. Die VC-Dimension 80 / 159

81 Die Konzeptklasse RECHTECK n RECHTECK n besitzt für jedes achsenprallele Rechteck R R n ein Konzept, das aus allen Punkten in R besteht. (1) Die Anzahl der Freiheitsgrade von RECHTECK 2 sollte vier sein, denn jedes Rechteck wird durch die vier Koordinaten diagonal gegenüber liegender Eckpunke beschrieben. (2) Die vier Punkte e 1 = ( 1, 0), e 2 = (0, 1), e 3 = (0, 1), e 4 = (1, 0) werden von RECHTECK 2 zertrümmert und VC(RECHTECK 2 ) 4 folgt. Die VC-Dimension Rechtecke 81 / 159

82 VC(RECHTECK 2 ) = 4 Wir zeigen VC(RECHTECK 2 ) 4. (1) Angenommen, RECHTECK 2 zertrümmert die fünf Punkte p 1, p 2, p 3, p 4, p 5. (2) p 1 und p 2 seien die Punkte mit minimaler (bzw. maximaler) x-koordinate. p 3 und p 4 seinen die Punkte mit minimaler (bzw. maximaler) y-koordinate. (3) Dann kann die Teilmenge T = {p 1, p 2, p 3, p 4 } aber nicht von p 5 getrennt werden! p 4 p 2 p1 p5 p 3 Die VC-Dimension Rechtecke 82 / 159

83 HALBRAUM n Jedes Konzept in HALBRAUM n besteht aus allen Punkten x R, die die Ungleichung n i=1 w i x i t erfüllen. HALBRAUM n sollte n + 1 Freiheitsgrade besitzen: Jedes Konzept wird durch die n Gewichte und den Schwellenwert beschrieben. - HALBRAUM n zertrümmert die n + 1 Punkte 0, e 1,..., e n, wobei e i der ite Einheitsvektor ist. Warum? Sei T {0, e 1,..., e n } eine beliebige Teilmenge. Wenn 0 T, wähle c als den Halbraum n i=1 w i x i 1 mit w i = 1, wenn e i T, und w i = 1, wenn e i T. Wenn 0 T, dann arbeite mit den gleichen Gewichten, setze aber den Schwellenwert auf 0. - Also ist VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 83 / 159

84 VC(HALBRAUM n ) n + 1 (1/2) - Sei S eine Menge von n + 2 Punkten. - Wie beschafft man sich eine Teilmenge T S, die nicht von ihrem Komplement S \ T getrennt werden kann? Der Satz von Radon Für jede Menge S R n mit S n + 2 gibt es eine nicht-leere Teilmenge T S, so dass konvexe Hülle(T ) konvexe Hülle(S \ T ). Zum Beispiel: Vier Punkte im R 2 besitzen stets eine Teilmenge T, die nicht von ihrem Komplement getrennt werden kann. Die VC-Dimension Halbräume 84 / 159

85 VC(HALBRAUM n ) n + 1 (2/2) Angenommen, n i=1 w i x i t für alle Punkte in T und n i=1 w i x i < t für alle Punkte in S \ T. (1) Setze H 1 = { x R n n w i x i t }, H 2 = { x R n i=1 n w i x i < t }. i=1 (2) Dann H 1 H 2 =. (3) Aber T H 1 und S \ T H 2 nach Annahme. (4) Wir erhalten einen Widerspruch zum Satz von Radon, denn H 1 und H 2 sind konvex. VC(HALBRAUM n ) n + 1. Die VC-Dimension Halbräume 85 / 159

86 Kugeln und konvexe Polygone (a) Die Konzeptklasse KUGEL d besitzt für jede Kugel K r (m) = {y R d : x m r} in R d ein Konzept. Es ist VC(KUGEL d ) = d + 1. (b) Die Konzeptklasse k-gons ist die Klasse der konvexen Polygone in R 2 mit höchstens k Ecken. Das Konzept besteht aus allen eingeschlossenen Punkten. Es ist VC(k-GONS) = 2k Der Beweis wird in den Übungen behandelt. - k-gons werden doch durch k Punkte mit jeweils zwei Koordinaten festgelegt?! (Aber höchstens k Ecken werden gefordert.) Die VC-Dimension Halbräume 86 / 159

87 Und dann sowas! Für a R definieren wir das Konzept Sinus(a) R 1 Es ist x Sinus(a) sin(a x) = 1. (Wir setzen 1 = 0.) 2 Die Konzeptklasse S besteht aus allen Konzepten Sinus(a). S wird durch einen Parameter beschrieben, aber VC(S) =. Welche Sichtweise ist richtig: Kann man S mit endlich vielen Beispielen lernen? Die VC-Dimension Halbräume 87 / 159

88 Einfache Eigenschaften der VC-Dimension (a) Wenn C 1 C 2, dann ist VC(C 1 ) VC(C 2 ). (b) C = { c c C } ist die Komplement-Konzeptklasse von C. Dann gilt VC(C) = VC ( C ). (c) Für jede endliche Konzeptklasse C ist VC(C) log 2 C. Zu Teil (c): ( ) Angenommen, C zertrümmert eine Beispielmenge S. ( ) Dann gibt es zu jeder Teilmenge T S ein Konzept c T C mit T = S c T. ( ) Also ist die Anzahl der Teilmengen von S höchstens so groß wie die Anzahl der Konzepte in C = 2 S C. ( ) = VC(C) log 2 C. Die VC-Dimension Eigenschaften der VC-Dimension 88 / 159

89 Die VC-Dimension wichtiger Konzeptklassen (a) VC(MONOTON-MONOM n ) = n. (b) VC(MONOM 1 ) = 2 und VC(MONOM n ) = n für n 2. (c) ( ) n k VC(k-KNFn ) = VC(k-DNF n ) ( n k) 2 k. (d) VC(k-KLAUSEL-KNF n ) = VC(k-Term-DNF n ) = Θ(k n) für k 2 n/2. (e) VC(BOOLEAN n ) = 2 n. (f) VC(SYM n ) = n + 1. (g) VC(AUTOMAT n,σ ) = Θ(n Σ log 2 n). (h) VC(RECHTECK n ) = 2n. (i) VC(HALBRAUM n ) = n + 1. Die VC-Dimension Eigenschaften der VC-Dimension 89 / 159

90 Die VC-Dimension von SYM n Eine boolesche Funktion f : {0, 1} n {0, 1} heißt symmetrisch, wenn der Wert f (x) nur von der Anzahl der Einsen in x abhängt. SYM n besitzt für jede symmetrische Funktion f das Konzept c f = {x f (x) = 1}. Behauptung: VC(SYM n ) = n + 1. Die Anzahl der symmetrischen Funktionen f stimmt mit der Anzahl der Funktionen g : {0,..., n} {0, 1} überein. = SYM n = 2 n+1 und VC(SYM n ) n + 1 folgt. Der Vektor e i habe Einsen in den Positionen 1,..., i und sonst nur Nullen. Wir zertrümmern S = {e 0,..., e n } mit e 0 = 0. Für T S definiere die symmetrische Funktion f mit { 1 ei T f (e i ) = 0 sonst, Dann ist S cf = T. Die VC-Dimension Eigenschaften der VC-Dimension 90 / 159

91 Konsistente Hypothesen: Untere Schranken für die Beispielzahl Wieviele Beispiele sind notwendig? 91 / 159

92 Wieviele Beispiele sind notwendig: Intervalle Die Konzeptklasse INTERVALL besteht aus allen Intervallen I [0, 1]. Wieviele Beispiele sind notwendig, um Intervalle mit Wahrscheinlichkeit 1 δ und Fehler höchstens ε zu lernen? - INTERVALL besteht aus überabzählbar unendlich vielen Konzepten. Unsere ln C -Schranke versagt völlig. - Angenommen, unser Lernalgorithmus gibt das kleinste Intervall, das alle positiven Beispiele enthält, als Hypothese aus. Übungen: s = Ω( ln(1/δ) ε ) Beispiele sind notwendig, um das Zielkonzept I = [0, 1] zu lernen. Wieviele Beispiele sind notwendig? Die Konzeptklasse INTERVALL 92 / 159

93 Eine weitreichende Verallgemeinerung (1/2) Nenne eine Konzeptklasse C trivial, wenn C nur aus einem Konzept oder aus disjunkten Konzepten besteht. (1) Wenn C nicht-trivial ist, dann gibt es zwei Beispiele x y und zwei Konzepte c 1, c 2 C mit {x, y} c 1 sowie x c 2, y c 2. (2) Mache x hoch-wahrscheinlich (Wahrscheinlichkeit 1 2ε) und y niedrig-wahrscheinlich (Wahrscheinlichkeit 2ε). (3) Ein deterministischer Lernalgorithmus irrt für entweder c 1 oder c 2, wenn Beispiel y nicht gesehen wird. Wenn der Lernalgorithmus y nicht sieht, dann folgt der unerlaubt große Fehler 2ε. Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 93 / 159

94 Eine weitreichende Verallgemeinerung (2/2) (1) Es muss gewährleistet sein, dass der Algorithmus Beispiel y mit Wahrscheinlichkeit höchstens δ nicht sieht. (2) Aber y wird mit Wahrscheinlichkeit (1 2ε) s = e Θ(ε s) nicht gesehen. (3) Wir müssen e Θ(ε s) δ, bzw. 1/δ e Θ(ε s) fordern. Für jede nicht-triviale Konzeptklasse C werden mindestens Beispiele benötigt. Ω( 1 ε ln(1 δ )) Wieviele Beispiele sind notwendig? Nicht-triviale Konzeptklassen 94 / 159

95 Wieviele Beispiele sind notwendig: Der allgemeine Fall Es gelte VC(C) = d + 1 und C zertrümmere die Beispielmenge S = {x 0,..., x d } (1) S wird zertrümmert: Jede Teilmenge von S entspricht einem Konzept. (2) Wir definieren eine schwierige Verteilung D auf den Beispielen: x0 ist hoch-wahrscheinlich, und wird mit Wahrscheinlichkeit 1 4ε gewählt. Jedes andere xi erhält die Wahrscheinlichkeit 4ε/d. Beispiele außerhalb S erhalten die Wahrscheinlichkeit 0. (3) x 0 wird sehr häufig gewählt: Wann sieht ein Lernalgorithmus genügend viele verschiedene klassifizierte Beispiele in S? Wieviele Beispiele sind notwendig? Der allgemeine Fall 95 / 159

96 Wieviele Beispiele sind notwendig: Der allgemeine Fall Wenn s Beispiele angefordert werden und wenn d = VC(C): (1) Die erwartete Häufigkeit von x 0 ist s (1 4ε). (2) Der Algorithmus sieht nur s 4ε Beispiele aus {x 1,..., x d }. (3) Angenommen s d 8ε. Der Algorithmus sieht nur d/2 verschiedene Beispiele aus S. Die Klassifikation der nicht gesehenen Beispiele ist beliebig (denn S wird zertrümmert) und damit nicht prognostizierbar. Der Algorithmus muss die Klassifikation der nicht gesehenen d/2 Beispiele raten und wird sich für ein Zielkonzept irren. = der erwartete Fehler ist (d/2) (4ε/d) = 2ε. Mindestens Ω( VC(C) ) ε Beispiele müssen angefordert werden. Wieviele Beispiele sind notwendig? Der allgemeine Fall 96 / 159

97 Zusammenfassung Wir kombinieren die untere Schranke bei großer VC-Dimension mit der unteren Schranke für kleines δ: Für jede nicht-triviale Konzeptklasse C sind mindestens Ω( 1 [ ( )] 1 ε VC(C) + ln ) δ Beispiele notwendig bzw der Fehler beträgt mindestens Ω( 1 [ ( )] 1 s VC(C) + ln ). δ Diese untere Schranke ist in vielen Fällen asymptotisch exakt! Wieviele Beispiele sind notwendig? Der allgemeine Fall 97 / 159

98 Konsequenzen der unteren Schranke Da Ω( 1 ε (VC(C n) + ln( 1 δ ))) = Beispiel(C n) = O( 1 ε (ln( C n ) + ln( 1 δ ))), kann die Beispielzahl exakt vorausgesagt werden, wenn VC(C n ) = Θ(ln( C n )). (a) Beispiel(MONOTON-MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (b) Beispiel(MONOM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (c) Beispiel(k-KNF n ) = Beispiel(k-DNF n ) = Θ( nk ε + 1 ε ln ( ) 1 δ ). (e) Beispiel(k-KLAUSEL-KNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (f) Beispiel(k-TERM-DNF n ) = Θ( k n ε + 1 ε ln ( ) 1 δ ). (g) Beispiel(BOOLEAN n ) = Θ( 1 ε 2n + 1 ε ln ( ) 1 δ ). (h) Beispiel(SYM n ) = Θ( n ε + 1 ε ln ( ) 1 δ ). (i) Beispiel(AUTOMAT n,σ ) = Θ( 1 ε n log 2 n + 1 ε ln ( ) 1 δ ) für Σ = 2. Wieviele Beispiele sind notwendig? Der allgemeine Fall 98 / 159

99 No free Lunch Wieviele Beispiele sind notwendig? No free Lunch 99 / 159

100 Gibt es universelle Lernalgorithmen? Sei X = {0, 1} n.? Warum wählen wir eine Hypothesenklasse a priori aus?? Warum nicht Algorithmen bauen, die prinzipiell jede mögliche Hypothese als Antwort geben können? Dann müssen wir mit der Hypothesenklasse BOOLEAN n arbeiten, die für jede Teilmenge von X = {0, 1} n ein Konzept besitzt. No-Free-Lunch-Theorem Der Lernalgorithmus A fordere weniger als X /2 Beispiele an = Es gibt ein Konzept c X, eine Verteilung D, eine reelle Zahl µ > 0, so dass für die von A bestimmte Hypothese h c gilt: prob[ fehler D (c, h c ) µ ] µ. Wieviele Beispiele sind notwendig? No free Lunch 100 / 159

101 Konsistente Hypothesen: Wieviele Beispiele genügen? Wieviele Beispiele sind ausreichend? 101 / 159

102 Das Ziel Die Konzeptklasse C sei gegeben mit VC(C) = d. Dann gibt es einen PAC-Algorithmus für C, der höchstens 4 ( ( ) ( )) 12 2 ε d ln + ln Beispiele anfordert. ε δ - Vollständig zertrümmerte Beispielmengen S sind chaotisch, denn jede Teilmenge kann als Konzept auftreten. - Bei genügend vielen Beispielen werden aber (fast) alle Freiheitsgrade gesetzt, und wir haben kein Problem. Was passiert, wenn der Algorithmus eine Beispielmenge S mit s >> VC(C) Beispielen sieht? Wie chaotisch ist S? Wieviele Beispiele sind ausreichend? 102 / 159

103 Das partielle Zertrümmern großer Beispielmengen C zertrümmert eine Beispielmenge S mit S = VC(C). Für größere Beispielmengen: Wieviele Teilmengen produziert C höchstens? - Für eine Beispielmenge S setze - Für s N ist Π C (S) := { c S c C }. Π C (s) := max{ Π C (S) S = s }. Sauer s Lemma Für d = VC(C) und jedes s N ist Für s d ist Π C (s) ( ) e s d. d Π C (s) d i=0 ( ) s. i Der (einfache) Beweis wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Sauer s Lemma 103 / 159

104 Sauer s Lemma: Eine Diskussion (1/2) Die Beispielmenge S sei gegeben und es gelte d = VC(C). (a) Wieviele Konzepte der Konzeptklasse C unterscheiden sich auf S? Genau ΠC (S) Konzepte, denn Π C (S) = { c S c C }. Es gibt höchstens d i=0 ( ) s ( e s i d )d Konzepte aus C, die sich auf S voneinander unterscheiden. (b) Wie scharf ist die obere Schranke in Sauer s Lemma? - Für s d = VC(C) ist Π C (s) = 2 s, denn es gibt Beispielmengen der Größe s, die vollständig zertrümmert werden können. - Sauer s Lemma ist exakt für s d: s ( ) s s ( ) s 2 s = Π C (s) = 1 i 1 s i = (1 + 1) s i i denn ( s i ) = 0 für i > s. i=0 Wieviele Beispiele sind ausreichend? Sauer s Lemma 104 / 159 i=0

105 Sauer s Lemma: Eine Diskussion (2/2) (c) Es gibt höchstens endlich viele verschiedene Konzepte über S, nämlich höchstens ( e s d )d Konzepte. Reine Spekulation (?!): Und wenn wir die Schranke für endliche Konzeptklassen anwenden? Für geeignete Konstanten C, D folgt: s C ( ε d ln( e s ) d ) + ln(1 δ ) D (d ε ln( 1ε ) ) + ln(1δ ) Beispiele genügen. Genau das möchten wir zeigen! Wieviele Beispiele sind ausreichend? Sauer s Lemma 105 / 159

106 ε-netze Wieviele Beispiele sind ausreichend? Epsilon-Netze 106 / 159

107 ε-netze Die Situation: - Eine Beispielmenge S mit s Beispielen wurde zufällig gewählt. - Das (unbekannte) Zielkonzept sei c C und D sei die Verteilung. - Gefahr: Es gibt konsistentes Konzept c C mit großem Fehler. c ist genau dann mit S konsistent, wenn S (c c ) =. Der Fehler ist zu groß, falls fehlerd (c, c ) > ε. Wir nennen ε (c) = {c c c C und fehler D (c, c ) > ε } die Menge der ε-fehlerregionen für c. Wieviele Beispiele sind ausreichend? Epsilon-Netze 107 / 159

108 ε-netze Wir nennen eine Beispielmenge S ein ε-netz, wenn für jede ε-fehlerregion c ε (c). S c Angenommen, S ist ein ε-netz und c ist eine konsistente Hypothese mit zu großem Fehler: - Dann ist c c eine ε-fehlerregion = c c ε (c). - Aber S ist ein ε-netz = S (c c ). - Es gibt ein x S mit x c c = c ist nicht auf S konsistent. Ein konsistenter Lernalgorithmus ist ein PAC-Algorithmus, falls prob[ S ist ein ε-netz ] 1 δ. Wieviele Beispiele sind ausreichend? Epsilon-Netze 108 / 159

109 Wahrscheinlichkeit eines ε-netzes (1/2) Sei A s das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Was ist die Wahrscheinlichkeit von A s? prob[ A s ] = prob[ S ist kein ε-netz ] = prob[ Es gibt ein c = c c ε (c) und S c = ] prob[ S c = ] c ε(c) Aber die Anzahl der Fehlerregionen in ε (c) kann sogar unendlich groß sein. So geht es leider nicht. Wieviele Beispiele sind ausreichend? Epsilon-Netze 109 / 159

110 Wahrscheinlichkeit eines ε-netzes (2/2) Es ist prob[ A s ] = prob[ Es gibt ein c = c c ε (c) und S c = ]. Wir definieren das Ereignis [ B s c ε (c) c S 1 = c S 2 ε s ] 2 für Beispielmengen S 1, S 2 von jeweils s Beispielen. B s tritt ein, wenn eine schlechte Hypothese c mit c = c c ( ) nicht auf den ersten s, ( ) wohl aber auf den zweiten s Beispielen auffällt. Wieviele Beispiele sind ausreichend? Epsilon-Netze 110 / 159

111 Das Ereignis B s (1) B s tritt für (S 1, S 2 ) ein. die schlechte Hypothese c fällt auf S 1 nicht auf S1 ist kein ε-netz Ereignis As tritt für S 1 ein. (2) Also folgt prob[ B s ] = prob[ B s A s ] prob[ A s ]. Eine schlechte Hypothese c sollte wahrscheinlich auf S 2 inkonsistent sein = prob[ B s A s ] sollte groß sein. Wenn s 8 ε, dann ist prob[ A s ] 2 prob[ B s ]. Der Beweis (via Chernoff-Schranke) wird im Skript beschrieben. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 111 / 159

112 Zwischenfazit (1) Unser Ziel ist der Nachweis, dass eine Menge von s Beispielen hoch-wahrscheinlich ein ε-netz ist, falls s hinreichend groß ist. (2) A s ist das Ereignis, dass eine Menge von s Beispielen kein ε-netz ist. Wir wissen, dass prob[ A s ] 2 prob[ B s ] mit [ B s c ε (c) (3) Zeige, dass B s unwahrscheinlich ist. c S 1 = c S 2 ε s 2 (4) Für B s ziehe eine Beispielmenge S von 2s Beispielen: Zuerst die s Beispiele aus S1, dann die s Beispiele aus S2. ]. - Beachte, dass (c S) S 1 = c (S S 1 ) = c S 1 und (c S) S 2 = c (S S 2 ) = c S 2. - Ersetze c durch c S. Wieviele Beispiele sind ausreichend? Eine zweite Beispielmenge 112 / 159

113 Die Reduktion auf Sauer s Lemma (1/2) (1) Wir fassen die Einzelexperimente (ziehe zuerst S 1, dann S 2 ) zu Großexperimenten S zusammen: Ziehe zuerst S, dann zerlege S zufällig in S1 und S 2. (2) Fixiere ab jetzt das Großexperiment S. Wie groß ist die Wahrscheinlichkeit prob[ B s S ] des Ereignisses B s, wenn wir das Großexperiment S durchführen? prob[ B s S ] = prob[ c ε (c) : (c S) S 1 =, (c S) S 2 ε s 2 ] prob[ (c S) S 1 =, (c S) S 2 ε s 2 ]. c S,c ε(c) Wieviele Beispiele sind ausreichend? Die Reduktion auf Sauer s Lemma 113 / 159