Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Transkript

1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische Lernmethoden 21. Verstärkungslernen VII Kommunizieren, Wahrnehmen und Handeln Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

2 Allgemeines Modell lernender Agenten Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 2

3 Lernende Agenten (1) Lernende Agenten können ihr zukünftiges Verhalten verbessern. Komponenten eines lernenden Agenten: Verhaltenskomponente (bisheriger Problemlöser) Lernkomponente (Verbesserung der Verhaltenskomponente) - Wissenserwerb - Beschleunigung des Verhaltens Kritikkomponente (Bewertung des Verhaltens) Problemgenerator (Exploration) Die Lernkomponente hängt von folgenden Aspekte ab: Art der zu verbessernden Verhaltenskomponente Wissensrepräsentation der Komponenten (erfordern jeweils angepasste Lernverfahren) Verfügbares Feedback Hintergrundwissen (notwendig für fast alles Lernen) Alles Lernen kann als das Lernen der Repräsentation einer Funktion betrachtet werden. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 3

4 Lernende Agenten (2) Arten der zu verbessernden Verhaltenskomponente: Direkte Abbildung von Zustandsbedingungen auf Aktionen Herleitung von Eigenschaften der Welt aus Sensorinformationen Informationen wie sich die Welt verändert Informationen über Auswirkungen möglicher Aktionen des Agenten Nützlichkeitsinformationen über die Attraktivität von Situationen Informationen über Nützlichkeit von Aktionen in bestimmten Situationen Ziele, die nützliche Situationsklassen beschreiben Verfügbares Feedback: Geführtes Lernen (Supervised learning) Verstärkungslernen (reinforcement learning) Ungeführtes Lernen (unsupervised learning) Wissensrepräsentation: Lineare gewichtete Polynome für Nützlichkeitsfunktionen Aussagen- oder prädikatenlogische Sätze Probabilistische Beschreibungen Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 4

5 Induktives Lernen Gegeben: Ausgabewerte einer Funktion für bestimmte Eingaben, d.h. Beispiele der Art: (x, f(x)). Oft neben positiven auch negative Beispiele. Gesucht: Eine Funktion h (Hypothese), die die Funktion f approximiert. Hauptproblem: Generalisierung Wie aus verschiedenen Hypothesen auswählen (Beispiel a und b)? Ockham's razor: Bevorzuge einfache Hypothesen! Aber wie Einfachheit definieren? Wie für nicht-deterministische Funktionen den unvermeidlichen Kompromiss zwischen Komplexität der Hypothese Grad der Datenüberdeckung finden (Beispiel c)? Wie Apriori-Annahmen über Hypothesenraum formulieren (Beispiel d) Vorwissen erforderlich (Gefahr von Vorurteilen!) Wie stark den Hypothesenraum einschränken (meist sehr stark)? Vereinfachung des Lernen Vereinfachung der Nutzung des gelernten Wissens Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 5

6 Auswirkungen verschiedener Annahmen Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 6

7 Konsequenzen Für Auswahl der besten Hypothese Präferenzannahmen (bias) nötig! Kompromiss zwischen Ausdrucksstärke der zugrundeliegenden Wissensrepräsentation und Effizienz des Lernverfahrens unvermeidbar! Inkrementelle Lernverfahren zur kontinuierlichen Integration neuer Beispiele in große Fallsammlung mit akzeptablem Aufwand vorteilhaft! Beliebtes Verfahren zum Lernen aus Beispielen: Lernen von Entscheidungsbäumen (eingeschränkte Repräsentation, effizientes Verfahren, aber nicht-inkrementell) diskrete Attribute (bei kontinuierlichen Attributen: Regression) Für Menschen einfach zu verstehen Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 7

8 Lernen von Entscheidungsbäumen (1) Input: Objekt oder Situation mit einer Menge von Eigenschaften Output: Ja/Nein-Entscheidung Entscheidungsbäume repräsentieren daher Boolsche Funktionen. Satz: Die meisten Boolschen Funktionen wie z.b. Parity- oder Mehrheitsfunktionen lassen sich schlecht, d.h. mit großen Entscheidungsbäumen, und nur wenige gut, d.h. mit kleinen Entscheidungsbäumen, repräsentieren. Begründung: 1. Eine Funktion benötigt im allgemeinen 2 n bits zu ihrer Repräsentation. n 2. Da es insgesamt 2 2 verschiedene Funktionen gibt (d.h. bei n=6 ca. 2*10 19 verschiedene Funktionen), benötigt man geniale Lernalgorithmen, um eine konsistente Hypothese in einem solchen doppelt exponentiellen Suchraum zu finden. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 8

9 Lernen von Entscheidungsbäumen (2) Wenn es mehrere konsistente Hypothesen zu einer Trainingsmenge von positiven und negativen Beispielen gibt, dann wird nach Ockham's razor die kompakteste Hypothese, d.h. der kleinste Entscheidungsbaum, bevorzugt Eine wenig kompakte Hypothese wäre es, alle Beispiele auswendig zu lernen. Während das Finden des kleinsten Entscheidungsbaumes exponentiellen Aufwand erfordert, gibt es einen guten "Greedy"- Algorithmus, der meist einen ziemlich kleinen Entscheidungsbaum liefert. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 9

10 Beispiel: Restaurant-Domäne: Variablen Mögliche Hypothese: Unmöglicher Ausdruck: Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 10

11 Korrekte Hypothese Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 11

12 12 Trainingsbeispiele Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 12

13 Informeller Algorithmus für Entscheidungsbäume Die Grundidee besteht darin, immer das Attribut zu wählen, das den größten Informationsgewinn bringt, d.h. das die Fallmenge so in Untergruppen aufspaltet, dass in den Untergruppen möglichst nur positive oder nur negative Beispiele sind. Jede Untergruppe wird rekursiv durch Auswahl des für sie informativsten Attributes wieder in Untergruppen aufgespaltet, wobei 4 Fälle entstehen können: 1. Wenn alle Beispiele in einer Gruppe positiv oder alle negativ sind, dann terminiere mit der Antwort positiv oder negativ. 2. Wenn in einer Gruppe keine Beispiele enthalten sind, dann terminiere mit einer Default-Antwort, die sich aus der Mehrheit der Obergruppe ergibt. 3. Wenn in einer Gruppe sowohl positive als auch negative Beispiele enthalten sind, und es gibt noch unverbrauchte Attribute, dann wähle das beste Attribut und fahre rekursiv fort. 4. Wenn in einer Gruppe sowohl positive als auch negative Beispiele enthalten sind, und es gibt keine unverbrauchten Attribute mehr, dann sind die Beispiele inkonsistent. Terminiere mit einer Mehrheitsentscheidung oder einer probabilistischen Regel. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 13

14 Mögliche Knoten im Entscheidungsbaum (a) Aufteilen nach Restaurant-Typ bringt keine Unterscheidung zwischen positiven und negativen Beispielen (b) Aufteilen nach Gästen (Patrons) ist wesentlich besser. Hunger ist ein guter zweiter Test Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 14

15 Entscheidungsbaum-Lernalgorithmus Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 15

16 Gelernter Entscheidungsbaum zu den 12 Beispielen Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 16

17 Informationstheorie Zur Auswahl des besten Attributes kann man informationstheoretisches Wissen benutzen. Entropie: Informationsmaß für die Anzahl der notwendigen bits (Ja/nein-Fragen) um Sicherheit zu bekommen: I = - Σ p i log 2 p i wobei p i die Häufigkeit der i-ten Klasse ist, entsprechend den i Werten des Attributes. Beispiel: Münze werfen: I(1/2, 1/2) = -1/2 log 2 1/2-1/2 log 2 1/2 = 1/2 + 1/2 = 1 Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 17

18 Informationsgewinn Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 18

19 Bewertung der Leistung von Lernalgorithmen Zum Überprüfen müssen Testfälle gewählt werden, die bei der Entwicklung des Algorithmus (bzw. bei der Einstellung seiner Parameter) keine Rolle gespielt haben dürfen. Allerdings ist das in Praxis zu schwierig, sollte aber approximiert und vor allem dokumentiert werden. 1. Sammle Beispiele 2. Teile Beispiele in Trainings- und Testmenge 3. Wende Lernalgorithmus für Trainingsmenge an, generiere Hypothese h 4. Evaluiere h mit Testmenge: Prozentsatz korrekt gelöster Fälle 5. Wiederhole Schritte 1-4 mit unterschiedlichen großen und zufällig gewählten Trainingsmengen Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 19

20 Lernkurve für Entscheidungsbäume Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 20

21 Rauschen und Überanpassung Rauschen (noise) bedeutet, dass Beispiele falsche Daten oder Bewertungen enthalten, z.b. 2 gleiche Fälle mit unter-schiedlichen Bewertungen. Wenn es irrelevante Attribute gibt (Farbe der Münze, Wochentag des Werfens, usw.), dann kann der Entscheidungsbaum-Algorithmus diese zur weiteren Differenzierung nutzen (Überanpassung; overfitting). Wie kann man das verhindern? Pruning: Man berechnet, wie wahrscheinlich die Aufteilung eines Attributes durch Zufall zustande gekommen sein kann: nur wenn dies sehr unwahrscheinlich ist, dann ist das Attribut ein sinnvoller Entscheidungsknoten, ansonsten wird es eliminiert - Chi-Quadrat-Test (bei 2 x 2 Werten) oder verallgemeinerte Kontingenztests. Cross-Validation: Wie gut kann Hypothese neue Daten bewerten? - Reservierung eines Teils (1 / k) der Trainingsdaten für Validierung Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 21

22 Chi-Quadrat-Test Nullhypothese: das Attribut ist irrelevant, d.h. es teilt die Fallmenge zufällig in positive und negative Beispiele auf Die Stärke der Abweichung von zufälliger Verteilung dient als Bewertungsgrundlage. Ihre statistische Auswertung hängt auch von der Fallzahl ab. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 22

23 Cross Validation Der Lernalgorithmus verwendet nicht alle Trainingsdaten, sondern nutzt einen Teil zur Validierung Dieser Teil sollte sehr klein sein, weil sonst das Lernen beeinträchtigt wird K-fold Cross Validation es werden k Experimente gemacht, bei denen jeweils 1 / k der Trainingsdaten zur Validierung dienen. Typische Werte für k sind 5 oder 10, aber auch n, d.h. es wird pro Experiment nur mit einem Fall validiert (leave-oneout-cross-validation) Anschließend muss mit anderen Fällen (echten Testdaten) getestet werden Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 23

24 Weitere Probleme Unvollständige Daten: Was tun, wenn in einem Fall manche Attribute unbekannt sind? Problem entsteht sowohl beim Lernen als auch beim späteren Klassifizieren. Schätzen der unbekannten Attribute Attribute mit sehr vielen Werten: Diese werden von dem Entropiemaß zur Auswahl des informativsten Attributes ungerechtfertigter Weise bevorzugt (im Extrem z.b. Restaurantname). Wie kann man das vermeiden? Ähnliche Techniken wie beim Pruning Kontinuierliche Attribute: Wie wertet man sie aus? Algorithmen zur Intervallbildung Kontinuierliches Ergebnis: Regressions-Baum Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 24

25 Ensemble Lernen Idee: Statt einer Hypothese eine Menge (Ensemble) von Hypothesen generieren und diese per Mehrheit abstimmen lassen. funktioniert um so besser, je unabhängiger die Fehler bei der Generierung der Hypothesen sind. erhöht auch die Ausdrucksstärke des Hypothesenraums Verbreiteste Technik: Boosting Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 25

26 Boosting Jedes Beispiel hat ein Gewicht > 0 (z.b. entspricht ein Gewicht von 2 der Dublizierung des Beispiels) Vorgehen: Erste Hypothese wird mit normalen Gewichten gelernt. Ab der zweiten Hypothese werden iterativ jeweils die Gewichte der falsch klassifizierten Beispiele erhöht, der richtig klassifizierten entsprechend verringert h Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 26

27 Beispiel für Boosting mit Restaurant-Daten Ursprünglicher Hypothesenraum: statt Entscheidungsbäume "Entscheidungsstümpfe", d.h. Bäume mit nur einem Attribut Boosting mit 5 Hypothesen und 100 Trainingsfällen (a) Boosting mit steigender Anzahl von Hypothesen (b) Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 27

28 Grundsätzliche Überlegungen zum Lernen Warum funktioniert Lernen aus Beispielen? Die Test- und die Trainingsmenge müssen aus derselben Grundgesamtheit mit gleicher Wahrscheinlichkeitsverteilung stammen. Wie verhindert man, daß der Lernalgorithmus nur die Beispiele auswendig lernt? Durch Beschränkung der Ausdrucksstärke der dem Lernverfahren zugrundeliegenden Wissensrepräsentation. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 28

29 Wieviele Trainingsbeispiele braucht man? Sei X die Menge aller möglichen Beispiele. Sei D die Verteilung aus der die Trainingsbeispiele stammen. Sei m die Zahl der Trainingsbeispiele. n Sei H die Menge der möglichen Hypothesen (2 2, bei n Attributen) Sei f die wahre Funktion (in H enthalten) und h eine beliebige Hypothese error (h) = P (h(x) f(x) / x aus D) h ist annährend korrekt, falls error (h) ε(kleine Konstante) Aufteilung des Hypothesenraums in gute (im ε-ball um f) und schlechte Hypothesen (H bad ) Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 29

30 PAC-Lernen (Probably Approximately Correct) Eine schlechte Hypothese h b aus H bad kann trotzdem mit den ersten m Beispielen konsistent sein: P(h b ist m-konsistent) (1- ε) m P(H bad enthält konsistente Hypothese) H bad (1- ε) m H (1- ε) m Das soll kleiner sein als ein kleine Wahrscheinlichkeit δ: H (1- ε) m δ m 1/ε (ln 1/δ + ln H ), d.h. wenn ein Lernverfahren eine Hypothese liefert, die mit so vielen Beispielen konsistent ist, dann ist es annährend korrekt (probably approximately correct). Da der Hypothesenraum doppelt exponentiell ist, braucht man 2 n Beispiele. Jedoch gibt es nicht mehr als 2 n Beispiele. Annährende Korrektheit ist nicht zu erreichen. Dilemma: Falls lernbare Funktionen nicht beschränkt sind, kann nichts gelernt werden, falls doch, kann wahre Hypothese ausgeschlossen sein. Lösungen: 1. Einfachste konsistente Hypothese finden (zu schwierig). 2. Sich auf lernbare Teilmengen der Boolschen Funktionen beschränken! Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 30

31 Lernen von Entscheidungslisten (Regeln) Suche eine Regel, die aus einer Konjunktion von max. k Attributen besteht und die möglichst viele positive und keine negativen Beispiele (oder umgekehrt) abdeckt und wiederhole die Prozedur mit den nicht-klassifizierten Beispielen, bis alle positiven Beispiele überdeckt sind. Das Ergebnis ist eine Menge von Regeln in disjunktiver Normalform. Die Beschränkung auf k Literale zwingt den Algorithmus zu Generalisierungen (je stärker, je kleiner k ist), beschränkt aber auch seine Lernfähigkeit. Anzahl der Beispiele N, die nach PAC-Lernen bei max k Attributen pro Regeln und n Attributen insgesamt erforderlich sind, um eine vorgegebene Fehlerwahrscheinlichkeit zu unterschreiten: N 1/ε (ln 1/δ + O(n k log 2 (n k ))) Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 31

32 Vergleich Entscheidungslisten vs. Entscheidungsbäume Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 32