Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Ähnliche Dokumente
Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

8.1 Einführung: Maschinelles Lernen

4. Lernen von Entscheidungsbäumen

Moderne Methoden der KI: Maschinelles Lernen

Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen

Decision Tree Learning

Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen

Maschinelles Lernen: Symbolische Ansätze

Moderne Methoden der KI: Maschinelles Lernen

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

2. Lernen von Entscheidungsbäumen

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Vorlesung Wissensentdeckung

Entscheidungsbäume aus großen Datenbanken: SLIQ

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Maschinelles Lernen: Symbolische Ansätze

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

Konzepte der AI: Maschinelles Lernen

Einführung in das Maschinelle Lernen I

INTELLIGENTE DATENANALYSE IN MATLAB

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

4 Induktion von Regeln

Splitting. Impurity. c 1. c 2. c 3. c 4

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Vorlesung Wissensentdeckung

fuzzy-entscheidungsbäume

Übersicht. Nebenläufige Programmierung: Praxis und Semantik. Synchronisation (4) Eine untere Schranke für den Platzbedarf

3.3 Nächste-Nachbarn-Klassifikatoren

Algorithmen und Datenstrukturen 2

Was wissen Sie jetzt?

Inductive Logic Programming Relational Data Mining

Darstellung, Verarbeitung und Erwerb von Wissen

Maschinelles Lernen: Symbolische Ansätze

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Maschinelles Lernen: Symbolische Ansätze

Zwei-Spieler-Spiele. Einführung in die Methoden der Künstlichen Intelligenz. Suche bei Spielen. Schach. Schach (2)

Künstliche Intelligenz Maschinelles Lernen

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Hypothesenbewertungen: Übersicht

11. Übung Knowledge Discovery

Darstellung, Verarbeitung und Erwerb von Wissen

Algorithmentheorie Treaps

Darstellung, Verarbeitung und Erwerb von Wissen

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Mehrwegbäume Motivation

Einführung in die Methoden der Künstlichen Intelligenz. Suche bei Spielen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Vorlesung Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Suche bei Spielen

Greedy Algorithms - Gierige Algorithmen

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Klassische Klassifikationsalgorithmen

Beweis: Annahme: T (n) c n, wobei c = c(m) konstant ist. Die Annahme ist ok, falls T (n)

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Samuel's Checkers Program

Klassische Klassifikationsalgorithmen

Vorlesung Wissensentdeckung

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Seminar Text- und Datamining Datamining-Grundlagen

Algorithmen und Datenstrukturen 1

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

Satz 324 Sei M wie oben. Dann gibt es für ein geeignetes k Konstanten c i > 0 und Permutationsmatrizen P i, i = 1,...

Algorithmische Kryptographie

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Grundlagen: Algorithmen und Datenstrukturen

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Einführung in Heuristische Suche

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Algorithmische Bioinformatik 1

Data Mining - Wiederholung

Punktlokalisation 1. Trapez-Zerlegungen. 2. Eine Suchstruktur. 3. Randomisierter, inkrementeller Algorithmus zur Konstruktion der Trapez-Zerlegung

Population und Stichprobe Wahrscheinlichkeitstheorie II

7. Sortieren Lernziele. 7. Sortieren

3.3 Optimale binäre Suchbäume

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Aufgabe 1 Probabilistische Inferenz

Einführung in die Methoden der Künstlichen Intelligenz. Evolutionäre Algorithmen

Vorlesung Datenstrukturen

Lernmodul 7 Algorithmus von Dijkstra

{0,1} rekursive Aufteilung des Datenraums in die Quadranten NW, NE, SW und SE feste Auflösung des Datenraums in 2 p 2 p Gitterzellen

Hidden-Markov-Modelle

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Einführung in die Methoden der Künstlichen Intelligenz. Klausurvorbereitung Überblick, Fragen,...

Suchbäume. Suchbäume. Einfügen in Binären Suchbäumen. Suchen in Binären Suchbäumen. Prinzip Suchbaum. Algorithmen und Datenstrukturen

Transkript:

Einführung Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen PD Dr. David Sabel SoSe 2014 Direkte Programmierung eines intelligenten Agenten nicht möglich (bisher) Daher benötigt: Maschinelles Lernen Viele Ansichten / Begriffe, was maschinelles Lernen ist Erfolgreichste Ansätze verwenden statistische / stochastische Methoden Basieren auf Adaption von Werten / Gewichten Stand der Folien: 24. Juni 2014 D. Sabel KI SoSe 2014 Maschinelles Lernen 2/74 Lernen und Agenten Beispiele Lernen soll Performanz des Agenten verbessern: Verbesserung der internen Repräsentation Optimierung bzw. Beschleunigung der Erledigung von Aufgaben. Erweiterung des Spektrums oder der Qualität der Aufgaben, die erledigt werden können. Anpassung / Erweiterung des Lexikons eines computerlinguistischen Systems Inhalt wird angepasst, aber auch gleichzeitig die Semantik Bewertungsfunktion im Zweipersonenspiel (Adaption der Gewichte), war für Dame und Backgammon erfolgreich Lernen einer Klassifikation durch Trainingsbeispiele D. Sabel KI SoSe 2014 Maschinelles Lernen 3/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 4/74

Struktur eines lernenden Systems Lernmethoden Agent: (ausführende Einheit, performance element). Soll verbessert werden anhand von Erfahrung Lerneinheit: (learning element) Steuerung des Lernvorgangs. Vorgaben was schlecht ist. Bewertungseinheit (critic) und Problemgenerator Umwelt: Umwelt in der aggiert wird (künstlich oder real) Überwachtes Lernen (supervised learning) Es gibt einen allwissenden Lehrer Er sagt dem Agent, nach seiner Aktion, ob diese richtig / falsch wahr unmittelbares Feedback Alternative: Gebe positiv/negative Beispiele am Anfang vor Unüberwachtes Lernen (unsupervised learning) Agent, weiß nicht, was richtig ist Bewertung der Güte der Aktion z.b. Agent misst den Effekt selbst Lernen durch Belohnung/Bestrafung (reinforcement learning) Lernverfahren belohnen gute Aktion, bestrafen schlechte D.h. Aktion ist bewertbar, aber man kennt den richtigen Parameter nicht D. Sabel KI SoSe 2014 Maschinelles Lernen 5/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 6/74 Lernmethoden (2) Klassifikationsverfahren Mögliche Vorgehensweisen: inkrementell, alle Beispiele auf einmal. Mögliche Rahmenbedingungen: Beispielwerte: exakt / ungefähr (fehlerhaft) nur positive bzw. positive und negative Beispiele Klassifikation anhand von Eigenschaften (Attributen) Beispiele: Vogel: kannfliegen, hatfedern, Farbe,... Vorhersage, ob ein Auto im kommenden Jahr einen Defekt hat: Alter, Kilometerstand, letzte Reparatur, Marke,... Medizinischer Test auf Krankheit: Symptome, Blutwerte,... Kreditwürdigkeit e. Bankkunden: Einkommen, Alter, Eigentumsverhältnisse, Adresse D. Sabel KI SoSe 2014 Maschinelles Lernen 7/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 8/74

Klassifikator Abstrakte Situation Eingabe Attribute Klassifikator Gehört Objekt in Klasse? Menge M von Objekten (mit innerer Struktur) Programm P : M {0, 1} Wahre Klassifikation K : M {0, 1} Eingabe: Objekt x Wenn K(x) = P (x), dann liegt das Programm richtig richtigpositiv: Wenn P (x) = 1 und K(x) = 1 richtignegativ: Wenn P (x) = 0 und K(x) = 0 Wenn K(x) P (x), dann liegt das Programm falsch: Ausgabe Ja (1) Nein (0) falschpositiv: Wenn P (x) = 1, aber K(x) = 0 falschnegativ: Wenn P (x) = 0, aber K(x) = 1 D. Sabel KI SoSe 2014 Maschinelles Lernen 9/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 10/74 Beispiel: Schwangerschaftstest Beispieldaten: 200 durchgeführte Tests Test ergab... positiv negativ Schwangere Frauen 59 1 Nichtschwangere Frauen 15 125 Richtig positiv: Frau schwanger, Test sagt schwanger Falsch negativ: Frau schwanger, Test sagt nicht schwanger Falsch positiv: Frau nicht schwanger, Test sagt schwanger Richtig negativ: Frau nicht schwanger, Test sagt nicht schwanger Wie gut ist der Test? M Gesamtmenge aller zu untersuchenden Objekte: Recall (RichtigPositivRate, hit rate) {x M P (x) = 1 K(x) = 1} {x M K(x) = 1} D.h. Anteil richtig klassifizierter, positiver Objekte Beispiel (60 Schwangere, 59 mal positiv) 59 98, 3% 60 D. Sabel KI SoSe 2014 Maschinelles Lernen 11/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 12/74

(2) (3) RichtigNegativRate, correct rejection rate {x M P (x) = 0 K(x) = 0} {x M K(x) = 0} D.h. Anteil richtig klassifizierter, negativer Objekte Beispiel (140 NichtSchwangere, 125 mal negativ) 125 89, 3% 140 Precision (Präzision, positiver Vorhersagewert) {x M P (x) = 1 K(x) = 1} {x M P (x) = 1} D.h. Anteil der richtigen unten den als scheinbar richtig erkannten Beispiel (59 Schwangere richtig erkannt, Test positiv: 59 15 = 74) 59 79, 8% 74 D. Sabel KI SoSe 2014 Maschinelles Lernen 13/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 14/74 (4) (5) NegativeVorhersage Rate {x M P (x) = 0 K(x) = 0} {x M P (x) = 0} D.h. Anteil der richtig als falsch klassifizierten unter allen als falsch klassifizierten Beispiel (125 NichtSchwangere richtig erkannt, Test negativ: 125 1 = 126) 125 99, 2% 126 F Maß: Harmonisches Mittel aus Precision und Recall: F = 2 (precision recall) (precision recall) Beispiel (Precision = 79,8 % und Recall = 98,3 %) F = 2 0, 798 0, 983 0, 784 2 0, 88 0, 798 0, 983 1, 781 D. Sabel KI SoSe 2014 Maschinelles Lernen 15/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 16/74

Weitere Beispiele Weiteres Vorgehen Bei seltenen Krankheiten möglich: Guter Recall (Anteil der Kranken, die erkannt wurden), aber schlechte Präzision (viele falsepositives) Bsp: Klassifikator: Körpertemperatur über 38,5 C = Gelbfieber. In Deutschland haben 10.000 Menschen Fieber mit 38,5 C aber nur 1 Mensch davon hat Gelbfieber Ziel: Finde effizientes Klassifikatorprogramm Vorher: Kurzer Exkurs zu Wahrscheinlichkeiten und zur Entropie Recall = 1 1 = 1 Precision = 1 10.000 = 0, 0001 F Wert 0 Fazit: Man muss immer beide Maße betrachten! D. Sabel KI SoSe 2014 Maschinelles Lernen 17/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 18/74 Exkurs: Wahrscheinlichkeiten, Entropie Exkurs: Wahrscheinlichkeiten, Entropie (2) Sei X ein Orakel (nwertige Zufallsvariable) X liefert Wert a i aus {a 1,..., a n } p i = Wahrscheinlichkeit, dass X den Wert a i liefert Folge von Orakelausgaben: b 1,..., b m Je länger die Folge: Anteil der a i in der Folge nähert sich p i {p 1,..., p n } nennt man auch diskrete Wahrscheinlichkeitsverteilung der Menge {a 1,..., a n } bzw. des Orakels X Es gilt stets i p i = 1 Urnenmodell: X benutzt einen Eimer mit Kugeln beschriftet mit a 1,..., a n und zieht bei jeder Anfrage zufällig eine Kugel (und legt sie zurück) Dann gilt: p i = relative Häufigkeit von a i Kugeln in der Urne = a i Kugeln in der Urne Anzahl alle Kugeln in der Urne Sind a i Zahlen, dann ist der Erwartungswert E(X) = i p i a i D. Sabel KI SoSe 2014 Maschinelles Lernen 19/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 20/74

Exkurs: Wahrscheinlichkeiten, Entropie (3) Exkurs: Wahrscheinlichkeiten, Entropie (4) Gegeben: Wahrscheinlichkeitsverteilung p i, i = 1,..., n Informationsgehalt des Zeichens a k Interpretation: I(a k ) = log 2 ( 1 p k ) = log 2 (p k ) 0 Grad der Überraschung beim Ziehen des Symbols a i, oder auch: Wie oft muss man das Orakel im Mittel fragen, um a i zu erhalten D.h. Selten auftretenden Zeichen: haben hohe Überraschung Bei nur einem Zeichen:p 1 = 1, I(p 1 ) = 0 Entropie (Mittlerer Informationsgehalt) I(X) = n p i I(a i ) = n p i log 2 ( 1 p i ) = n p i log 2 (p i ) 0 i=1 i=1 entspricht in etwa, der mittleren Überraschung i=1 D. Sabel KI SoSe 2014 Maschinelles Lernen 21/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 22/74 Beispiele Beispiele 8 Objekte mit gleicher Wahrscheinlichkeit (p i = 1 8 ) Informationsgehalt jedes a i : log 2 ( 1 1 ) = log 2 8 = 3 8 Entropie 8 p i 3 = 8 1 8 3 = 3 i=1 i=1 BernoulliExperiment: p Kopf und p Zahl = 1 p Kopf 1 0.8 1000 Objekte mit gleicher Wahrscheinlichkeit (p i = 1 1000 ) Informationsgehalt jedes a i : log 2 (1/1000) = 9.966 Entropie = 9.966 8 Objekte: p 1 = 0.4994, p 2 = 0.4994, p i = 0.001 für i = 3,..., 8 Informationsgehalt a 1, a 2 : log 2 (0.04994) 1.002 a i : log 2 (0.001) 9.966 Entropie: 2 0.4994 1.002 6 0.001 9.996 1.061 Entropie 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 p Kopf D. Sabel KI SoSe 2014 Maschinelles Lernen 23/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 24/74

Entscheidungsbaumlernen Lernen von Entscheidungsbäumen (1) Objekt mit Attributen Beispiel: Es gibt eine endliche Menge A von Attributen. zu jedem Attribut a A: Menge von möglichen Werten W a. Wertebereich endlich, oder R. Ein Objekt wird beschrieben durch eine Funktion A a A W a. Alternativ: Tupel mit A Einträgen Ein Konzept K ist repräsentiert durch ein Prädikat P K auf der Menge der Objekte. P K Alle Objekte Alle Objekte: Bücher Attribute: (Autor, Titel, Seitenzahl, Preis, Erscheinungsjahr). Konzepte billiges Buch (Preis 10); umfangreiches Buch (Seitenzahl 500), altes Buch (Erscheinungjahr < 1950) D. Sabel KI SoSe 2014 Maschinelles Lernen 25/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 26/74 Entscheidungsbaum Entscheidungsbaum zu einem Konzept K: endlicher Baum innere Knoten: Abfragen eines Attributwerts Bei reellwertigen Attributen a v für v R. 2 Kinder: Für Ja und Nein Bei diskreten Attributen a mit Werten w 1,..., w n : n Kinder: Für jeden Wert eines Blätter: Markiert mit Ja oder Nein (manchmal auch mit Ja oder Nein ) Pro Pfad: Jedes Attribut (außer rellwertige) nur einmal Der Entscheidungsbaum gibt gerade an, ob ein Objekt zum Konzept gehört. Beispiel Objekte: Äpfel mit Attributen: Geschmack (süß/sauer), Farbe (rot/grün), Umfang (in cm) Konzept: guter Apfel Ja rot Farbe? süß Geschmack? Umfang 12cm? ja Nein grün nein Nein Umfang 15cm? Ja sauer ja Ist der Baum optimal?nein nein Nein D. Sabel KI SoSe 2014 Maschinelles Lernen 27/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 28/74

Entscheidungsbäume (2) Gute Entscheidungsbäume Wofür werden sie benutzt? als Klassifikator für Konzepte Woher kommt der Baum? Durch Lernen einer Trainingsmenge Was ist zu beachten? Der Baum sollte möglichst kurze Pfade haben Trainingsmenge muss positive und negative Beispiele beinhalten Ein guter Entscheidungsbaum ist ein möglichst kleiner, d.h. der eine möglichst kleine mittlere Anzahl von Anfragen bis zur Entscheidung benötigt. Wir betrachten: Algorithmen zur Konstruktion von guten Entscheidungsbäumen Ansatz: Verwende die Entropie (verwandt zur Konstruktion von HuffmanBäumen) D. Sabel KI SoSe 2014 Maschinelles Lernen 29/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 30/74 Vorgehen: Auswahl des nächsten Attributs Menge M von Objekten mit Attributen geteilt in positive und negative Beispiele. Annahme: Objekte sind gleichverteilt und spiegeln die Wirklichkeit wider. Sei p = Anzahl positiver Beispiele in M n = Anzahl negativer Beispiele in M Entropie der Menge M: I(M) = p p n log 2( p n ) n p p n log 2( p n n ) Vorgehen: Auswahl des nächsten Attributs (2) Wie verändert sie die Entropie nach Wahl von Attribut a? Sei m(a) der Wert des Attributs a des Objekts m M. Sei a ein Attribut mit Werten w 1,..., w k Dann zerlegt das Attribut a die Menge M in Mengen M i := {m M m(a) = w i } Seien p i, n i die Anzahl positiver/negativer Beispiele in M i. Gewichtete Mittelwert des entstandenen Informationsgehalt nach Auswahl des Attributs a I(M a) = k P (a = w i ) I(M i ) i=1 D. Sabel KI SoSe 2014 Maschinelles Lernen 31/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 32/74

Vorgehen: Auswahl des nächsten Attributs (3) I(M a) = k p i n ( i p n pi log p i n 2 ( p i n i ) n i log i p i p i n 2 ( p i n ) i ) i n i i=1 Wähle das Attribut a mit bestem Informationsgewinn: I(M) I(M a) Zur Wohldefiniertheit, setzen wir: 0 a log 2( a 0 ) := 0 D. Sabel KI SoSe 2014 Maschinelles Lernen 33/74 Das Verfahren ID3 (Iterative Dichotomiser 3) Algorithmus ID3Verfahren Eingabe: Menge M von Objekten mit Attributen Algorithmus: Erzeuge Wurzel als offenen Knoten mit Menge M while es gibt offene Knoten do wähle offenen Knoten K mit Menge M if M enthält nur positive Beispiele then schließe K mit Markierung Ja elseif M enthält nur negative Beispiele then schließe K mit Markierung Nein elseif M = then schließe K mit Markierung Ja oder Nein else finde Attribut a mit maximalem Informationsgewinn: I(M) I(M a) markiere K mit a und schließe K erzeuge Kinder von K: Ein Kind pro Attributausprägung w i von a mit Menge M i Füge Kinder zu den offenen Knoten hinzu endif endwhile D. Sabel KI SoSe 2014 Maschinelles Lernen 34/74 Bemerkungen Beispiel Praktische Verbesserung: Stoppe auch, wenn der Informationsgewinn zu klein Jedes diskrete Attribut wird nur einmal pro Pfad abgefragt, da beim zweiten Mal der Informationsgewinn 0 ist Wenn man eine Beispielmenge hat, die den ganzen Tupelraum abdeckt, dann wird genau das Konzept gelernt. Reellwertige Attribute: Leichte Anpassung möglich. Äpfel: Geschmack {süß, sauer} und Farbe {rot, grün}. Menge M = {(süß, rot), (süß, grün), (sauer, rot), (sauer, grün)}. Konzept: guter Apfel Positiv: {(süß, rot), (süß, grün)} Negativ: {(sauer, rot), (sauer, grün)} p = 2, n = 2 I(M) = 0.5 log 2 2 0.5 log 2 2 = 1 D. Sabel KI SoSe 2014 Maschinelles Lernen 35/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 36/74

Beispiel (Forts) Beispiel Attribut Geschmack: p süß = 2, n süß = 0 p sauer = 0, n sauer = 2 I(M Geschmack) = 2 4 ( 2 2 log 2 2 0 2 log 2 0 ) 2 4 ( 0 2 log 2 0 2 2 log 2 2 ) = 0 I(M) I(M Geschmack) = 1 Attribut Farbe: p rot = 1, n rot = 1 p grün = 1, n grün = 1 I(M Farbe) = 2 4 ( 1 2 log 2 1 1 2 log 2 1 ) 2 4 ( 1 2 log 2 1 1 2 log 2 1 ) = 1 I(M) I(M Farbe) = 0 Ergibt: I(M) = 0.8112 süß,rot süß,grün sauer,rot sauer,grün 10 20 4 6 I(M Geschmack) = 0 I(M) I(M Geschmack) = 0.8112 Attribut Farbe: I(M Farbe) = 0.8086 I(M) I(M Farbe) = 0.0026 Grund: Die Farben sind in positiv / negativ nicht relativ gleich D. Sabel KI SoSe 2014 Maschinelles Lernen 37/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 38/74 Beispiel Beispiel I(M) = 0.7793 süß,rot süß,grün sauer,rot sauer,grün 10 20 3 6 I(M Geschmack) = 0 I(M) I(M Geschmack) = 0.7793 Attribut Farbe: I(M Farbe) = 0.7793 I(M) I(M Farbe) = 0 Äpfel: Geschmack {süß, sauer} und Farbe {rot, grün}, Nr {1,..., 4} Menge M = {(süß, rot, 1), (süß, grün, 2), (sauer, rot, 3), (sauer, grün, 4)}. Dann: I(M) = 1 I(M Geschmack) = 0, Informationsgewinn: I(M) I(M Geschmack) = 1 I(M Farbe) = 1, Informationsgewinn: I(M) I(M Farbe) = 0 I(M Nr) = 0, Informationsgewinn: I(M) I(M Nr) = 1 Unfair: Apfelnr ist eindeutig, und stellt implizit mehr Ja/Nein Fragen dar. Abhilfe: Weglassen der Apfelnr Allgemein: ID3 bevorzugt Attribute mit vielen Werten Daher: C4.5 als Anpassung von ID3 D. Sabel KI SoSe 2014 Maschinelles Lernen 39/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 40/74

Beispiel: Konzept Apfel schmeckt wie er aussieht Die Variante C4.5 Äpfel: Geschmack {süß, sauer} und Farbe {rot, grün, gelb} Menge M = einmal jede Kombination positiv: (rot,süß), (grün,sauer), (gelb,süß), (gelb,sauer) I(M) = 0.9183 I(M Farbe = 0.6666 und I(M) I(M Farbe) = 0.2516 I(M Geschmack) = 0.9183 und I(M) I(M Geschmack) = 0 Wähle Farbe und dann Geschmack. ID3 bevorzugt Attribute mit vielen Ausprägungen C4.5 ändert dies, und normiert daher den Informationsgewinn Algorithmus wie ID3 mit einem Unterschied: normierter Informationsgewinn = (I(M) I(M a)) Normierungsfaktor Normierungsfaktor für Attribut a Werten w i, i = 1,..., k: 1 k 1 P (a = w i ) log 2 ( P (a = w i ) ) i=1 D. Sabel KI SoSe 2014 Maschinelles Lernen 41/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 42/74 Beispiel Übergeneralisierung Äpfel: Geschmack {süß, sauer} und Farbe {rot, grün}, Nr {1,..., 4} Menge M = {(süß, rot, 1), (süß, grün, 2), (sauer, rot, 3), (sauer, grün, 4)}. Dann: I(M) = 1 I(M Geschmack) = 0, Informationsgewinn = 1, normiert = 1 1 = 1 I(M Farbe) = 1, Informationsgewinn = 0, normiert = 0 1 = 0 I(M Nr) = 0, Informationsgewinn = 1, normiert = 1 1 2 = 1 2 Normierungsfaktoren: Geschmack: 1 2/4 log 2 (4/2)2/4 log 2 (4/2) = 1 1 = 1 Farbe: 1 2/4 log 2 (4/2)2/4 log 2 (4/2) = 1 1 = 1 Nr: 1 1/4 log 2 (4/1)1/4 log 2 (4/1)1/4 log 2 (4/1)1/4 log 2 (4/1) = 1 2 Effekt: Beispiele werden eingeordnet, aber der Entscheidungsbaum unterscheidet zu fein Grund: Beispiele nicht repräsentativ bzw. ausreichend. Beispiel: Krankheitsdiagnose: Alle positiven Beispiele sind jünger als 25 oder älter als 30 Übergeneralisierung: Alter zwischen 25 und 30 = nicht krank. D. Sabel KI SoSe 2014 Maschinelles Lernen 43/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 44/74

Übergeneralisierung (2) Lösung: Pruning des Entscheidungbaums Stoppe Aufbau des Baums ab einer gewissen Schranke, da alle weiteren Attribute vermutlich irrelevant. BlattMarkierung: Jenachdem welche Beispiele signifikant sind bisher Stoppen kann durch statistische Tests gesteuert werden Verrauschte Daten: Gleiches Verfahren, d.h. Pruning VersionenraumLernverfahren D. Sabel KI SoSe 2014 Maschinelles Lernen 45/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 46/74 Objekte Was wird gelernt? Objekte habe mehrwertige Attributsausprägungen (nur diskrete Attribute) Schreibweise als Tupel (w 1,..., w n ) wobei w i = Attributsausprägung des Attributs A i Ziel: Lerne Konzept Beispiel: Äpfel Attribut Geschmack Farbe Herkunft Größe Attributsausprägungen süß, sauer rot, grün, gelb Italien, Spanien, Deutschland S, M, L Roter, süßer Apfel aus Deutschland mittlerer Größe wird dargestellt als: (süß,rot,deutschland,m) D. Sabel KI SoSe 2014 Maschinelles Lernen 47/74 Konzepte Konzeptsprache Konzepte (und Hypothesen) entsprechen Mengen von Objekten Syntaktische Darstellung von Konzepten und Hypothesen w 1,..., w n entspricht der einelementigen Menge {(w 1,..., w n )} statt w i auch erlaubt:? oder Semantik von : Unabhängig von der Ausprägung: Objekt gehört nicht zum Konzept, d.h. w 1,...,,..., w n entspricht der leeren Menge Beispiele: Semantik von?: Jede Attributsausprägung ist erlaubt. Süße Äpfel: süß,?,?,? Rote, süße Äpfel aus Italien: süß,rot,italien,? D. Sabel KI SoSe 2014 Maschinelles Lernen 48/74

Enthaltensein und Subsumtion Konsistenz e k: Objekt e ist im Konzept k enthalten Beispiel: (süß,rot,italien,m) süß,rot,italien,? Es gibt eine (partielle) Ordnung auf Konzepten k 1 k 2 : wenn die zugehörigen Mengen die Teilmengenbeziehung erfüllen ( k 1 k 2 ) Beispiel: süß,rot,italien,? süß,?,?,? k 1 ist spezieller als k 2 bzw. k 2 ist allgemeiner als k 1 < ist der strikte Anteil (echt spezieller / allgemeiner) Sei B eine Menge von Beispielen und h eine Hypothese. h ist konsistent für B gdw. für alle e B: Wenn e ein positives Beispiel, dann gilt e h. Wenn e ein negatives Beispiel, dann gilt e h. Z.B. B = {(süß,rot,italien,m), (sauer,rot,deutschland,l) } h 1 = süß,?,?,? konsistent für B h 2 =?,?,?,M konsistent für B h 3 =?,rot,?,? nicht konsistent für B h 4 =?,?,?,? nicht konsistent für B. D. Sabel KI SoSe 2014 Maschinelles Lernen 49/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 50/74 VersionenraumLernverfahren Versionenraum Ideen: Inkrementelles Lernverfahren: Beispiele werden nach und nach abgearbeitet Verwalte die folgende Menge (= Versionenraum): Maximale Menge aller Hypothesen, die konsistent bezüglich aller bisher verarbeiteten Beispiele ist. Beispiele selbst können nach ihrer Arbeitung vergessen werden. Alte Beispiele werden nicht nochmals gelesen. bisher verarbeitete positive Beispiele bisher verarbeitete negative Beispiele Probleme / Fragen Wie wird die Menge aller konsistenter Hypothesen dargestellt? Wie wird die Menge angepasst beim nächsten Beispiel? D. Sabel KI SoSe 2014 Maschinelles Lernen 51/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 52/74

Darstellung des Versionenraums Grenzen im Bild Speichere zwei Grenzmengen S und G: S = untere Grenze des Versionenraums (die speziellsten Hypothesen): Für jede Hypothese h S gilt: h ist konsistent für die Menge der bisher gesehenen Beispiele es gibt kein h mit h < h, das konsistent für die Menge der bisher gesehenen Beispiele ist. G = obere Grenze des Versionenraums (die allgemeinsten Hypothesen): Für jede Hypothese h G gilt: h ist konsistent für die Menge der bisher gesehenen Beispiele es gibt kein h mit h > h, das konsistent für die Menge der bisher gesehenen Beispiele ist. Versionenraum = {h s S, g G : s h g} allgemeiner spezieller allgemeine Hypothesen (enthalten negative Beispiele) G S zu spezielle Hypothesen (schließen positive Beispiele aus) D. Sabel KI SoSe 2014 Maschinelles Lernen 53/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 54/74 Iteratives VersionenraumLernen Grundgerüst des Algorithmus Start des Algorithmus: Wähle die speziellsten Hypothesen für S Wähle die allgemeinsten Hypothesen für G Versionenraum: Enthält alle Hypothesen Daher starte mit: S = {,..., } G = {?,...,? } Beachte: Für jede Hypothese h gilt,..., h?,...,? Solange G und S und es noch Beispiele gibt: Für neues Beispiel e: Passe Menge S an. Passe Menge G an. Iteriere weiter. Beachte: Wenn eine der Mengen S oder G leer wird, dann ist der Versionenraum zusammengefallen und es gibt keine konsistente Hypothese zu den Beispielen passt. D. Sabel KI SoSe 2014 Maschinelles Lernen 55/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 56/74

Anpassungen bei neuen Beispielen Anpassungen bei neuen Beispielen (2) Wenn e ein positives Beispiel ist: Einfache Fälle: e ist positives Beispiel und e h (G S): keine Anpassung für h erforderlich! e ist negatives Beispiel und e h (G S): keine Anpassung erforderlich! Die Hypothesen h S G mit e h müssen nicht verändert werden. Für jedes h G mit e h: h ist zu speziell aber h kann nicht verallgemeinert werden (da h G). Daher: Lösche h aus G. Für jedes h S mit e h: h ist zu speziell und muss verallgemeinert werden. Ersetze h durch alle h wobei h ist eine minimale Verallgemeinerung von h bzgl. e, d.h. h > h, e h und es gibt keine Verallgemeinerung h von h bzgl. e mit h > h. Zudem werden nur solche h eingefügt, die nicht zu allgemein sind, d.h. es muss eine Hypothese g G geben mit g h. Schließlich (um S kompakt zu halten): Entferne alle Hypothesen aus S, die echte allgemeiner sind als andere Hypothesen aus S D. Sabel KI SoSe 2014 Maschinelles Lernen 57/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 58/74 Anpassungen bei neuen Beispielen (3) Resultat des Algorithmus Wenn e ein negatives Beispiel ist: Die Hypothesen h S G mit e h müssen nicht verändert werden. Für jedes h S mit e h: h ist zu allgemein aber h kann nicht spezialisiert werden (da h S). Daher: Lösche h aus S. Für jedes h G mit e h: h ist zu allgemein und muss spezialisiert werden. Ersetze h durch alle h wobei h ist eine minimale Spezialisierung von h bzgl. e, d.h. h < h, h < h, e h und es gibt keine Spezialisierung h von h bzgl. e mit h > h. Zudem werden nur solche h eingefügt, die nicht zu speziell sind, d.h. es muss eine Hypothese s S geben mit s h. Schließlich (um G kompakt zu halten): Entferne alle Hypothesen aus G, die echt spezieller sind als andere Hypothesen aus G Verschiedene Möglichkeiten: Wenn S = G = {h}, dann ist h das gelernte Konzept. Wenn S = oder G = : Versionenraum ist kollabiert, es gibt keine konsistente Hypothese für die vorgegebenen Trainingsbeispiele. S und G sind nicht leer aber auch nicht einelementig und gleich: Der aufgespannte Versionenraum enthält das Konzept aber dieses ist nicht eindeutig identifizierbar. D.h. alle Hypothesen im Versionenraum sind konsistent für die Beispiele. D. Sabel KI SoSe 2014 Maschinelles Lernen 59/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 60/74

Beispiel Beispiel (2) Beispielmenge: (süß,rot,italien,l) (süß,gelb,spanien,s) (süß,gelb,spanien,l) (sauer,rot,deutschland,l) Starte mit S = {,,, } G = {?,?,?,? } S = {,,, } G = {?,?,?,? } Aktuelles Beispiel: (süß,rot,italien,l) Da (süß,rot,italien,l)?,?,?,?, wird G nicht verändert. Da (süß,rot,italien,l),,, muss diese Hypothese verallgemeinert werden: Minimale Verallgemeinerung süß,rot,italien,l. D.h. S = { süß,rot,italien,l }. D. Sabel KI SoSe 2014 Maschinelles Lernen 61/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 62/74 Beispiel (3) S = { süß,rot,italien,l }. G = {?,?,?,? } Aktuelles Beispiel: (süß,gelb,spanien,s) Da (süß,gelb,spanien,s) süß,rot,italien,l, wird S nicht verändert. Da (süß,gelb,spanien,s)?,?,?,?, muss diese Hypothese spezialisiert werden. Minimale Spezialisierungen: sauer,?,?,??,rot,?,??,gruen,?,??,?,italien,??,?,deutschland,??,?,?,l?,?,?,m Kompaktifizierung: Nehme nur solche h mit: Es gibt h S und h h : Das erfüllen nur?,rot,?,??,?,italien,??,?,?,l Daher: G = {?,rot,?,?,?,?,italien,?,?,?,?,l }. D. Sabel KI SoSe 2014 Maschinelles Lernen 63/74 Beispiel (4) S G = { süß,rot,italien,l }. = {?,rot,?,?,?,?,italien,?,?,?,?,l }. Aktuelles Beispiel: (süß,gelb,spanien,l) Da (süß,gelb,spanien,l)?,rot,?,? G muss die Hypothese gelöscht werden (da G die allgemeinsten Hypothesen enthält, darf nicht verallgemeinert werden). Da (süß,gelb,spanien,l)?,?,italien,? G muss die Hypothese gelöscht werden Da (süß,gelb,spanien,l)?,?,?,l G bleibt Hypothese in G. Ergibt G = {?,?,?,L } Da (süß,gelb,spanien,l) süß,rot,italien,l S muss die Hypothese verallgemeinert werden. Minimale Verallgemeinerung: süß,?,?,l. Kompaktifizierung ändert nichts. Daher S = { süß,?,?,l } D. Sabel KI SoSe 2014 Maschinelles Lernen 64/74

Beispiel (5) S G = { süß,?,?,l } = {?,?,?,L }. Aktuelles Beispiel: (sauer,rot,deutschland,l) Da (sauer,rot,deutschland,l) süß,?,?,l, bleibt S unverändert. Da (sauer,rot,deutschland,l)?,?,?,l, muss die Hypothese spezialisiert werden. Minimale Spezialiserungen: süß,?,?,l?,gelb,?,l?,grün,?,l?,?,italien,l?,?,spanien,l Kompaktifizierung: Nur süß,?,?,l bleibt übrig Daher: G = süß,?,?,l Beispiel (6) S G = { süß,?,?,l } = { süß,?,?,l } Keine Beispiele mehr, und S = G = { süß,?,?,l }. Daher ist süß,?,?,l das gelernte Konzept. D. Sabel KI SoSe 2014 Maschinelles Lernen 65/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 66/74 Noch ein Beispiel Noch ein Beispiel (2) Beispielmenge: (süß,rot,italien,l) (süß,gelb,italien,l) Starte mit S = {,,, } G = {?,?,?,? } S = {,,, } G = {?,?,?,? } Aktuelles Beispiel: (süß,rot,italien,l) Da (süß,rot,italien,l)?,?,?,?, wird G nicht verändert. Da (süß,rot,italien,l),,, muss diese Hypothese verallgemeinert werden: Minimale Verallgemeinerung süß,rot,italien,l. D.h. S = { süß,rot,italien,l }. D. Sabel KI SoSe 2014 Maschinelles Lernen 67/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 68/74

Noch ein Beispiel (3) Noch ein Beispiel (4) S = { süß,rot,italien,l }. G = {?,?,?,? } Aktuelles Beispiel: (süß,gelb,italien,l) (süß,gelb,italien,l) süß,rot,italien,l. S wird nicht verändert (süß,gelb,italien,l)?,?,?,?, Hypothese wird spezialisiert: Minimale Spezialisierungen sauer,?,?,??,grün,?,??,rot,?,??,?,deutschland,??,?,spanien,??,?,?,s?,?,?,m Kompaktifizerung: Es verbleibt nur?,rot,?,? D.h. G = {?,rot,?,? }. S = { süß,rot,italien,l }. G = {?,rot,?,? } Keine weiteren Beispiele: Alle Hypothesen h mit süß,rot,italien,l h?,rot,?,? sind konsistent. D. Sabel KI SoSe 2014 Maschinelles Lernen 69/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 70/74 Weiteres Beispiel Wie vorher aber mit drittem Beispiel: Beispielmenge: (süß,rot,italien,l) (süß,gelb,italien,l) (süß,grün,italien,l) Beim letzten Beispiel S = { süß,rot,italien,l }. G = {?,rot,?,? } Aktuelles Beispiel: (süß,grün,italien,l) (süß,grün,italien,l)?,rot,?,?. Da?,rot,?,? nicht verallgemeinert werden darf, wird die Hypothese gelöscht. D.h. G = (süß,grün,italien,l) süß,rot,italien,l. Verallgemeinere zu süß,?,italien,l. Kompaktifizierung: Löscht alle Hypothesen in S, da es keine in G gibt. D.h. S =. G = S = : Es gibt keine konsistente Hypothese. D. Sabel KI SoSe 2014 Maschinelles Lernen 71/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 72/74

Nachteile Erweiterungen Verrauschte Daten können nicht adäquat behandelt werden Bei verrauschten Daten findet die Methode nie eine konsistente Hypothese Abhilfe: Stärke Konzeptsprachen Problem dabei: Overfitting Erlaube M a für Attribute, wobei M a eine Teilmenge der möglichen Ausprägungen von a ist ist. Erlaube Disjunktionen dieser Konzepte. Damit kann man bereits alle Konzepte darstellen, wenn die Menge der Attribute und Ausprägungen endlich ist. D. Sabel KI SoSe 2014 Maschinelles Lernen 73/74 D. Sabel KI SoSe 2014 Maschinelles Lernen 74/74