8.1 Einführung: Maschinelles Lernen

Transkript

1 Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen des Fernziels der Künstlichen Intelligenz eine Entsprechung eines Lernprozesses benötigt: Maschinelles Lernen Es gibt viele verschiedene Ansichten darüber, was Maschinelles Lernen ist, was mit Lernen erreicht werden soll usw. Hier sind erst Anfänge in der Forschung gemacht worden. Die praktisch erfolgreichsten Methoden sind solche, die auf statistisch/stochastischen Methoden basieren und mit der Adaption von Werten (Gewichten) arbeiten: Adaption von Gewichten einer Bewertungsfunktion aufgrund von Rückmeldungen. Z.B. Verarbeitung natürlicher Sprachen, Strategie-Spiele mit und ohne zufällige Ereignisse: Dame, Backgammon. künstliche neuronale Netze: Lernen durch gezielte Veränderung von internen Parametern. Deren praktischer Nutzen und Anwendbarkeit ist im wesentlichen auf praktikable automatische Lernverfahren zurückzuführen. Das Lernen von neuen Konzepten, Verfahren, logischen Zusammenhängen, usw hat bisher nur ansatzweise Erfolg gehabt. Lernen soll eine Verbesserung der Performanz eines Agenten bewirken: Verbesserung der internen Repräsentation Optimierung bzw. Beschleunigung der Erledigung von Aufgaben. Erweiterung des Spektrums oder der Qualität der Aufgaben, die erledigt werden können. Beispiel

2 KI, SS 2011, Kapitel 8, 19. Juli Erweiterung und Anpassung des Lexikons eines computerlinguistischen System durch automatische Verarbeitung von geschrieben Sätzen, wobei der Inhalt dieser Sätze gleichzeitig automatisch erfasst werden sollte. Adaption von Gewichten einer Bewertungsfunktion in einem Zweipersonenspiel, wobei man abhängig von Gewinn/Verlust Gewichte verändert: Das wurde für Dame und Backgammon mit Erfolg durchgeführt. Lernen einer Klassifikation durch Vorgabe von Trainingsbeispielen, positiv/negativ Einordnung von Lernverfahren Die Struktur eines lernenden System kann man wie folgt beschreiben: Agent (ausführende Einheit, performance element). Dieser soll verbessert werden anhand von Erfahrung; d.h. etwas lernen. Lerneinheit (learning element). Hier wird der Lernvorgang gesteuert und bewertet: Insbesondere wird hier vorgegeben, was gut, was schlecht ist. Hier kann man auch die Bewertungseinheit (critic) und den Problemgenerator einordnen. Umwelt In der Umwelt soll agiert werden. Die Rückmeldung über den Ausgang bzw. den Effekt von Aktionen kommt aus dieser Umwelt. Das kann eine künstliche, modellhafte Umwelt oder auch die reale Umwelt sein. Zum Teil wird Agent und Lerneinheit zusammen in einen erweiterten Agent verlagert. Prinzipiell sollte man diese Einheiten unterscheiden, denn die Bewertung muss außerhalb des Agenten sein, sonst wäre die Möglichkeit gegeben, die Bewertung an die schlechten Aktionen anzupassen, statt die Aktionen zu verbessern. Folgende Lernmethoden werden unterschieden: überwachtes Lernen (supervised learning) Hier wird die Situation beschrieben, in der es einen allwissenden Lehrer gibt: die Lerneinheit kann dem Agenten bei jeder Aktion sagen, ob diese richtig war und was die richtige Aktion gewesen wäre. Das entspricht einem unmittelbaren Feedback über die exakt richtige Aktion. Alternativ kann man eine feste Menge von richtigen und falschen Beispielen vorgeben und damit dann ein Lernverfahren starten. unüberwachtes Lernen (unsupervised learning) Ist der Gegensatz zum überwachten Lernen. Es gibt keine Hinweise, was richtig sein könnte. Damit Lernen möglich ist, braucht man in diesem Fall eine Bewertung der Güte der Aktion.

3 KI, SS 2011, Kapitel 8, 19. Juli Lernen durch Belohnung/Bestrafung (reinforcment learning) D.h. mit Zuckerbrot und Peitsche. Hiermit sollen Lernverfahren beschrieben werden, die gute Aktionen belohnen, schlechte bestrafen, d.h. Aktionen bewerten, aber die richtige Aktion bzw. den richtigen Parameterbereich nicht kennen. Hier kann man die Lernverfahren noch unterscheiden nach der Vorgehensweise: inkrementell, alle Beispiel auf einmal. Oder nach den Rahmenbedigungen: Beispielwerte sind exakt oder ungefähr bekannt bzw. mit Fehlern behaftet es gibt nur positive bzw. positive und negative Beispiele Einige Maßzahlen zur Bewertung von Lern- und Klassifikationsverfahren Wir beschreiben kurz Vergleichsparameter, die man zur Abschätzung der Güte von Klassifikatorprogrammen bzw Lernverfahren verwendet. Beispiel Beispiele, um sich besser zu orientieren: Klassifikation von Vogel anhand bekannter Attribute, wie kann-fliegen, hat-federn, usw. Vorhersage, dass ein Auto noch ein Jahr keinen Defekt hat aufgrund der Parameter wie Alter, gefahrene Kilometer, Marke, Kosten der letzten Reparatur, usw. Medizinischer Test auf HIV: Antikörper Vorhersage der Interessen bzw. Kaufentscheidung eines Kunden aufgrund der bisherigen Käufe und anderer Informationen (online-buchhandel). Kreditwürdigkeit eines Kunden einer Bank, aufgrund seines Einkommens, Alters, Eigentumsverhältnisse, usw (Adresse?). Ein Klassifikator ist ein Programm, das nur binäre Antworten auf Anfragen gibt: ja / nein. Die Aufgabe ist, Objekte, beschrieben durch Ihre Attribute, bzgl. einer anderen Eigenschaft zu klassifizieren, bzw eine zukünftiges Ereignis vorherzusagen. Typische Beispiele: Bestimmung von Tier- Pflanzenarten anhand eines Exemplars. Oder die Diagnose einer Krankheit anhand der Symptome. Abstrakte Situation: es gibt eine Menge M von Objekten (mit innerer Struktur), das Programm P : M {0, 1} und die wahre Klassifikation: K : M {0, 1}.

4 KI, SS 2011, Kapitel 8, 19. Juli Bei Eingabe eines Objekts x: Im Fall K(x) = P (x) liegt das Programm richtig. Im Fall K(x) P (x) liegt das Programm falsch. Hier wird noch unterschieden zwischen falsch-positiv Wenn P (x) = 1, aber K(x) = 0. falsch-negativ Wenn P (x) = 0, aber K(x) = 1. Die folgenden Werte entsprechen der Wahrscheinlichkeit mit der das Programm P eine richtige positive (bzw. negative) Klassifikation macht. Es entspricht der Wahrscheinlichkeit, mit der eine Diagnose auch zutrifft. Hierbei wird angenommen, dass es eine Gesamtmenge M aller Objekte gibt, die untersucht werden. Recall (Auch Richtig-Positiv-Rate, Sensitivität, Empfindlichkeit, Trefferquote; sensitivity, true positive rate, hit rate): Der Anteil der richtig klassifizierten Objekte bezogen auf alle tatsächlich richtigen. {x M P (x) = 1 K(x) = 1} {x M K(x) = 1} Richtig-Negativ-Rate (true negative rate oder correct rejection rate, Spezifität) Der Anteil der als falsch erkannten bezogen auf alle tatsächlich falschen: {x M P (x) = 0 K(x) = 0} {x M K(x) = 0} Die folgenden Werte entsprechen der Wahrscheinlichkeit mit der ein als positiv klassifiziertes Objekt auch tatsächlich richtig klassifiziert ist. Bzw. die Wahrscheinlichkeit mit der einer positiv Diagnose sich als richtig erweist; Oder anders herum: eine negativ Diagnose die Krankheit ausschließt. Der Wert der Präzision ist ein praktisch relevanterer Wert als der recall, da diese aussagt, wie weit man den Aussagen eines Programms in Bezug auf eine Klassifikation trauen kann. Precision (Präzision, positiver Vorhersagewert, Relevanz, Wirksamkeit, Genauigkeit, positiver prädiktiver Wert, positive predictive value) der Anteil der richtigen unten den als scheinbar richtig erkannten {x M P (x) = 1 K(x) = 1} {x M P (x) = 1}

5 KI, SS 2011, Kapitel 8, 19. Juli Negative-Vorhersage Rate der Anteil der nicht der Klassifikation entsprechenden unter den als 0 klassifizieren. {x M P (x) = 0 K(x) = 0} {x M K(x) = 0} Im medizinischen Bereich sind alle diese Werte wichtig. Bei seltenen Krankheiten kann ein guter Recall, d.h. Anteil der Kranken, die erkannt wurden, mit einer sehr schlechten Präzision verbunden sein. Zum Beispiel: Körpertemperatur über 38,5 C und Gelbfieber. In Deutschland haben Menschen Fieber mit 38,5 C aber nur 1 Mensch hat Gelbfieber, der dann auch Fieber hat. Dann ist der Recall 1, aber die Precision ist , also sehr schlecht. Hier muss man also möglichst beide Größen ermitteln, und den Test genauer machen (precision erhöhen). 8.2 Wahrscheinlichkeit und Entropie Wahrscheinlichkeit Zunächst eine kurze Wiederholung zu diskreten Wahrscheinlichkeiten. Sei X ein Orakel, das bei jeder Anfrage einen Wert aus der Menge {a 1,..., a n } ausgibt. (X ist analog zu einer Zufallsvariablen.) Man interessiert sich für die Wahrscheinlichkeit p i, dass das Orakel den Wert a i ausgibt. Macht man (sehr) viele Versuche, so kommt in der Folge der Ergebnisse b 1,..., b m, für ein festes i der Anteil der a i in der Folge dem Wert p i immer näher. Man nennt die Zahlen p i auch diskrete Wahrscheinlichkeitsverteilung (der Menge a i ), bzw. des Orakels X. Zum Beispiel ist beim Münzwurf mit den Ausgängen K, Z in einer ausreichend langen Folge in etwa die Hälfte K, die andere Hälfte Z, d.h. man würde hier Wahrscheinlichkeiten 0, 5 und 0, 5 zuordnen. Es gilt immer 0 p i 1 und i p i = 1. Sind die a i Zahlen, dann kann man auch den Erwartungswert ausrechnen: i p ia i ; das ist der Wert, dem die Mittelwerte der (Zahlen-)Folgen der Versuche immer näher kommen. Wenn man die Arbeitsweise von X kennt, dann kann man mehr Angaben machen. Z.B. das sogennante Urnenmodell: X benutzt einen Eimer in dem sich Kugeln befinden, rote, blaue und grüne. Bei jeder Anfrage wird zufällig eine Kugel gezogen, deren Farbe ist das Ergebnis, und danach wird die Kugel wieder in den Eimer gelegt. In dem Fall sind die Wahrscheinlichkeiten p rot, p blau, p grün jeweils genau die relativen Häufigkeiten der roten, blauen, bzw. grünen Kugeln unter den Kugeln, die sich in der Urne jeweils vor dem Ziehen befinden.

6 KI, SS 2011, Kapitel 8, 19. Juli Entropie Zunächst führen wir den Begriff des Informationsgehalts ein, der von einigen Lernverfahren benötigt wird. Wenn man eine diskrete Wahrscheinlichkeitsverteilung p i, i = 1,..., n hat, z.b. von Symbolen a i, i = 1,..., n, dann nennt man log 2 ( 1 p k ) = log 2 (p k ) 0 den Informationsgehalt des Zeichens a k. Das kann man interpretieren als Grad der Überraschung beim Ziehen des Symbols a i aus einer entsprechenden Urne, bzw. bei der Übermittlung von Zeichen durch einen Kommunikationskanal. D.h. das Auftreten eines seltenen Symbols hat einen hohen Informationsgehalt. Wenn man nur ein einziges Symbol hat, dann ist p 1 = 1, und der Informationsgehalt ist 0. Eine intuitive Erklärung des Informationsgehalts ist die mittlere Anzahl der Ja/Nein-Fragen, die man stellen muss, um die gleiche Information zu bekommen. Beispiel Zum Beispiel im Falle von 8 Objekten, die gleich oft vorkommen, ergibt sich log(0.125) = 3 für jedes Objekt, d.h. der mittlere Informationsgehalt, ermittelt aus der Summe ist 3. Kommen zwei davon, sagen wir mal a 1, a 2, sehr häufig vor und die anderen praktisch nie, dann ergibt sich als mittlerer Informationsgehalt in etwa 0.5 log 2 (0.5) log 2 (0.5) log 2 (0.001) 1. Die Entropie oder der mittlere Informationsgehalt der Symbole in der Wahrscheinlichkeitsverteilung wie oben kann dann berechnet werden als n p i log 2 ( 1 n ) = p i log p 2 (p i ) 0. i i=1 Bei Kompressionen eines Files oder bei Kodierung von Nachrichten über einen Kanal ist das eine untere Schranke für die mittlere Anzahl von Bits pro Symbol, die man bei bester Kompression bzw binärer Kodierung erreichen kann. Beispiel Nimmt man ein Bernoulli-Experiment, d.h. zwei Zeichen, K,Z (Kopf und Zahl)wobei K mit der Wahrscheinlichkeit p und Z mit Wahrscheinlichkeit 1 p auftritt, dann ergibt sich in etwa die Kurve: i=1 1 0,5 1 p

7 KI, SS 2011, Kapitel 8, 19. Juli D.h. die Entropie (der mittlere Informationsgehalt eines Münzwurfs) ist maximal, wenn man das Zeichen nicht vorhersagen kann. Bei einer Wahrscheinlichkeit von p = 0, 9 kann man vorhersagen, dass K sehr oft auftritt. Das ist symmetrisch zu p = 0, 1. Die Entropie ist in beiden Fällen 0, Entscheidungsbäume Lernen von Entscheidungsbäumen In diesem Szenario betrachtet man Objekte, von denen man einige Eigenschaften (Attribute) kennt. Diese Eigenschaften kann man darstellen mit einer fest vorgegebenen Menge von n Attributen. D.h. man kann jedes Objekt durch ein n-tupel der Attributwerte darstellen. Definition Objekte mit Attributen. Es gibt eine endliche Menge A von Attributen. zu jedem Attribut a A gibt es eine Menge von möglichen Werten W a. Die Wertemengen seien entweder endlich, oder die reellen Zahlen: IR. Ein Objekt wird beschrieben durch eine Funktion A a A W a. Eine alternative Darstellung wäre ein Tupel mit A Einträgen, bzw. ein Record, in dem zu jedem Attribut a A der Wert notiert wird. Ein Konzept K ist repräsentiert durch eine Boolesche Funktion P K auf der Menge der Objekte. D.h. ein Konzept entspricht einer Teilmenge aller Objekte, nämlich der Objekte o, für die P K (o) = True ergibt. Beispiel Bücher könnte man beschreiben durch die Attribute: (Autor, Titel, Seitenzahl, Preis, Erscheinungsjahr). Das Konzept billiges Buch könnte man durch Preis 10 beschreiben. Das Konzept umfangreiches Buch durch Seitenzahl 500. Für die Lernverfahren nimmt man im allgemeinen an, dass jedes Objekt zu jedem Attribut einen Wert hat, und der Wert unbekannt nicht vorkommt. Im Fall unbekannter Attributwerte muss man diese Verfahren adaptieren. Definition Ein Entscheidungsbaum zu einem Konzept K ist ein endlicher Baum, der an inneren Knoten zum Wert eines Attributes folgende Abfragen machen kann: bei reellwertigen Attributen gibt es die Alternativen a v oder a > v für einen Wert v IR, Es gibt einen Teilbaum für Ja und einen für Nein. bei diskreten Attributen wird der exakte Wert abgefragt. Es gibt pro möglichem Attributwert einen Teilbaum

8 KI, SS 2011, Kapitel 8, 19. Juli Die Blätter des Baumes sind mit Ja oder Nein markiert. Das entspricht der Antwort auf die Frage, ob das eingegebene Objekte zum Konzept gehört oder nicht. Diskrete Attribute sollten pro Pfad im Baum nur einmal vorkommen, stetige Attribute können im Pfad mehrmals geprüft werden. D.h. ein Entscheidungsbaum B K ist die Darstellung eines Algorithmus zum Erkennen, ob ein vorgelegtes Objekt O zum Konzept K gehört. Jeder Entscheidungsbaum definiert ein Konzept auf den Objekten. Die Entscheidungsbäume sind so definiert, dass für jedes Objekt nach Durchlauf des Entscheidungsbaumes ein Blatt mit Ja oder Nein erreicht wird. Die Mengen der Objekte, bei denen der Pfad mit einem Ja endet, sind in diesem Konzept, die anderen Objekte nicht. Wenn es nur diskrete Attribute gibt, dann entsprechen die Konzepte genau den Entscheidungsbäumen: Zu jedem Konzept kann man offenbar eine (aussagenlogische) Formel in DNF angeben: die a 1 = v 1... a n = v n als Konjunktion enthält, wenn das Tupel (v 1,..., v n ) im Konzept enthalten ist. Diese kann man leicht in einen Entscheidungsbaum überführen. Bei Verwendung von reellwertigen Attributen kann nicht jedes Konzept durch einen endlichen Entscheidungsbaum beschrieben werden: z.b. alle geraden Zahlen. Auch in einfachen Fällen, in denen das Konzept durch Ii, d.h. als Vereinigung von unendlich vielen reellen Intervallen, dargestellt ist, gilt das. Beispiel Als praktische Anwendung kann man reale Konzepte mittels einer endlichen Menge von Attributwerten bezüglich einer vorher gewählten Menge von Attributen beschreiben. Das ist i.a. eine Approximation des realen Konzepts. Tiere könnte man z.b. durch folgende Attribute beschreiben: Größe reell Gewicht reell Kann fliegen Boolesch Nahrung pflanzlich / tierisch / Allesfresser Körpertemperatur reell Für die Menge der Insekten könnte man aufgrund dieser Attribute einen Entscheidungsbaum hinschreiben, allerdings würden dann auch Nichtinsekten mit Ja klassifiziert. Es gibt verschiedene Algorithmen, die die Aufgabe lösen sollen, einen Entscheidungsbaum für ein Konzept zu lernen, wobei man beispielsweise eine Menge von positiven Beispielen und eine Menge von negativen Beispielen vorgibt. Ein guter Entscheidungsbaum ist zb. ein möglichst kleiner, d.h. mit wenigen Fragen.

9 KI, SS 2011, Kapitel 8, 19. Juli Der Entropie-Ansatz bewirkt, dass das Verfahren einen Entscheidungsbaum erzeugt der eine möglichst kleine mittlere Anzahl von Anfragen bis zur Entscheidung benötigt. Ein Beweis dazu lassen wir weg. Das Verfahren ist verwandt zur Konstruktion von Huffman-Bäumen bei Kodierungen Lernverfahren ID3 und C4.5 Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es eine Menge von positiven Beispielen und eine Menge von negativen Beispielen für ein zu lernendes Konzept gibt, die möglichst gut die echte Verteilung abbilden. Für rein positive Beispielmengen funktionieren diese Verfahren nicht. Wichtig für die Lernverfahren ist es, herauszufinden, welche Attribute für das Konzept irrelevant bzw. relevant sind. Nachdem ein Teil des Entscheidungsbaumes aufgebaut ist, prüfen die Lernverfahren die Relevanz weiterer Attribute bzw. Attributintervalle. Das Lernverfahren ID3 verwendet den Informationsgehalt der Attribute bezogen auf die Beispielmenge. Der Informationsgehalt entspricht der mittleren Anzahl der Ja/Nein-Fragen, um ein einzelnes Objekt einer Klasse zuzuordnen. Das Lernverfahren versucht herauszufinden, welche Frage den größten Informationsgewinn bringt, wobei man sich genau auf die in einem Entscheidungsbaum erlaubten Fragen beschränkt. (D.h mittlere Anzahl der Fragen möglichst klein.) Wir berechnen den Informationsgehalt der Frage, ob ein Beispiel positiv/negativ ist in der Menge aller positiven / negativen Beispiele, wenn p die Anzahl der positiven, n die Anzahl der negativen Beispiele für das Konzept ist, und man eine Gleichverteilung unter den Beispielen annimmt. D.h. wir nehmen an, dass die relative Häufigkeit die reale Verteilung in den Beispielen widerspiegelt. Die Entropie bzw. der Informationsgehalt ist: p p + n log 2( p + n ) + n p p + n log 2( p + n n ) Hat man ein mehrwertiges Attribut a mit den Werten w 1,..., w n abgefragt, dann zerlegt sich die Menge M der Beispiele in die Mengen M i := {m M m(a) = w i }, wobei w i, i = 1,..., k die möglichen Werte des Attributes sind. Seien p i, n i für i = 1,..., k die jeweilige Anzahl positiver (negativer) Beispiele in M i, dann ergibt sich nach Abfragen des Attributs an Informationsgehalt (bzgl positiv/negativ), wobei I(M i ) der Informationsgehalt (bzgl positiv/negativ) der jeweiligen Menge M i ist. Es gilt k I(M a) = P (a = w i ) I(M i ) i=1 I(M i ) = p i p i + n i log 2 ( p i + n i p i ) + n i p i + n i log 2 ( p i + n i n i )

10 KI, SS 2011, Kapitel 8, 19. Juli Das ergibt: I(M a) = k p i + n ( i p + n p i log p i + n 2 ( p i + n i ) + n i log i p i p i + n 2 ( p i + n ) i ) i n i i=1 Im Falle, dass M i = ist, nehmen wir an, dass der Beitrag zur Summe 0 ist. Um Fallunterscheidungen zu vermeiden, nehmen wir an, dass Produkte der Form 0 a log 2( a ) als 0 zählen. Das ist berechtigt, da der Grenzwert von 0 lim x 0 x log 2 (x) = 0 ist. Definition (ID3: Entscheidungsbaum Lernen) ID3 startet mit einem leeren Baum und als Eingabe einer Menge von positiven und negativen Beispielen. Für jeden offenen Knoten werden die zugehörigen Beispiele berechnet. Dann wird jeweils an dem offenen Knoten das Attribut ausgewählt, das den größten Informationsgewinn bietet. D.h. dasjenige a, für das der Informationsgewinn I(M) I(M a) maximal ist. Der Baum wird dann um die entsprechenden Abfragen an diesem Knoten erweitert. Dies wird für die neuen offenen Knoten solange wiederholt, bis eine Abbruchbedingung eintritt. Die Beispielmengen an den neuen Knoten bestehen nur aus denjenigen, die nach den bisher durchgeführten Abfragen auf dem Pfad die Tests bestanden haben. Ist der Informationsgehalt am Blatt 0, dann: Gibt es nur positive Beispiele, so wird das Blatt mit Ja markiert. Gibt es nur noch negative am Blatt, dann wird das Blatt mit Nein markiert. Gibt es keine Beispiele mehr, dann hat man beide Möglichkeiten: Ja bzw. Nein. Normalerweise gibt es eine Abbruchschranke: wenn der Informationsgewinn zu klein ist für alle Attribute, dann wird der weitere Aufbau des Entscheidungsbaum an diesem Knoten abgebrochen. Anmerkungen: Durch diese Vorgehensweise wird in keinem Ast ein diskretes Attribut zweimal abgefragt, da der Informationsgewinn 0 ist. Der Algorithmus basiert auf der Annahme, dass die vorgegebenen Beispiele repräsentativ sind. Wenn dies nicht der Fall ist, dann weicht das durch den Entscheidungsbaum definierte Konzept evtl. vom intendierten Konzept ab. Wenn man eine Beispielmenge hat, die den ganzen Tupelraum abdeckt, dann wird genau das Konzept gelernt. Beispiel Wir nehmen als einfaches überschaubares Beispiel Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, grün}. Das Konzept sei guter Apfel.

11 KI, SS 2011, Kapitel 8, 19. Juli Es gibt vier Varianten von Äpfeln, {(süß, rot), (süß, grün), (sauer, rot), (sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel genau {(süß, rot), (süß, grün)} sind. Wir nehmen mal an, dass pro Apfelvariante genau ein Apfel vorhanden ist. Es ist offensichtlich, dass die guten genau die süßen Äpfel sind, und die Farbe egal ist. Das kann man auch nachrechnen, indem man den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2)+0, 5log 2 (2))+0, 5 (0, 5log 2 (2)+0, 5log 2 (2)) = 0, 5 1+0, 5 1 = 1, d.h. man gewinnt nichts. Als Variation des Beispiels nehmen wir irgendeine Anzahl der Äpfeln in jeder Kategorie an: süß,rot süß,grün sauer,rot sauer,grün D.h. es gibt 30 gute und 10 schlechte Äpfel. Der Informationsgehalt ist vor dem Testen: 0.75log 2 (1, 333) log 2 (4) 0, , 5 = 0, 811 Nach dem Testen des Attributs Geschmack ergibt sich: ( log 2(1) log 2(0) ) ( log 2(1) log 2(0) ) = 0 d.h. Der Informationsgewinn ist maximal. Im Falle, dass die Farbe getestet wird, ergibt sich: , , 7793) 0, D.h. ein minimaler Informationsgewinn ist vorhanden. Der kommt nur aus der leicht unterschiedlichen Verteilung der guten Äpfel innerhalb der roten und grünen Äpfel und innerhalb aller Äpfel. Genauer gesagt: der Gewinn kommt daher, dass die Beispielmenge der 40 Äpfel nicht genau die Wahrheit abbildet. Wird die Wahrheit richtig abgebildet, d.h. sind die Verteilungen gleich, dann:

12 KI, SS 2011, Kapitel 8, 19. Juli süß,rot süß,grün sauer,rot sauer,grün Dann ergibt sich als Entropie danach, d.h. keinen Informationsgewinn. Beispiel Wir erweitern das Beispiel der einfachen Äpfel um eine Apfelnummer. Der Einfachheit halber gehen die Nummern gehen von 1 bis 4. Zu beachten ist, dass dieses Attribut eine Besonderheit hat: es kann nicht der ganze Tupelraum ausgeschöpft werden, da es ja zu jeder Nummer nur einen Apfel geben soll. Das spiegelt sich auch in den prototypischen Beispielen: Es gibt vier Äpfel, {(1, süß, rot), (2, süß, grün), (3, sauer, rot), (4, sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade {(1, süß, rot), (2, süß, grün)} sind. Wir rechnen den Informationsgewinn der drei Attribute aus. Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Nach dem Testen des Attributs Nummer ergibt sich 1 log(1), somit insgesamt 0. Der Informationsgewinn ist ebenfalls maximal. Weiter unten werden wie sehen, dass der Informationsgewinn in diesen sinnlosen Fällen durch Normierung kleiner wird. Beispiel Wir nehmen als erweitertes Beispiel für Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, gelb, grün}. Das Konzept sei schmeckt-wie-er-aussieht. Es gibt sechs Kombinationen der Attribute: {(süß, rot), (süß, grün), (süß, gelb), (sauer, rot), (sauer, grün), (sauer, gelb)}. Wir geben als Beispiel die Menge {(süß, rot), (sauer, grün), (süß, gelb), (sauer, gelb)} vor. Wir berechnen den Informationsgewinn bei beiden Attributen: Der Informationsgehalt I(M) vor dem Testen irgendeines Attributs ist: 4/6 log 2 (6/4) + 1/3log 2 (3) = Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt I(süss) = I(sauer) Die Gesamtinformation nach Abfrage des Attributs Geschmack ist: = d.h. Der Informationsgewinn ist null. Nach dem Testen des Attributes Farbe ergibt sich als I(grün) = I(rot) = 1, I(gelb) = 0. Die Gesamtinformation nach Abfrage der Farbe ist: 1/3 1+1/3 1 = 2/ D.h. man hat Information gewonnen. Im Endeffekt muss man bei diesem Beispiel doch beide Attribute abfragen

13 KI, SS 2011, Kapitel 8, 19. Juli Man kann das Verfahren auch für reellwertige Attribute verwenden, wobei man als Grenzabfrage > w? nur endlich viele Werte ausprobieren muss, die sich aus den Werten der entsprechenden Attribute in den Beispielen ergeben. Es ist klar, dass ein Konzept wie Fieber aus den aktuell gegebenen Temperaturen und der Klassifizierung Fieber j/n nur annähernd gelernt werden kann. Die Methode ID3 funktioniert recht gut, aber wenn ein Attribut zuviele Ausprägungen hat, wird die Frage nach diesem Attribut bevorzugt, da es im Extremfall (Personalnummer. o.ä.) dazu kommen kann, dass die Mengen {m M m(a) = v} einelementig werden, und somit der Informationsgewinn maximal ist. C4.5 als verbesserte Variante von ID3 Das von Quinlan vorgeschlagene System C4.5 benutzt statt des Informationsgewinns einen normierten Informationsgewinn, wobei der obige Wert durch die Entropie des Attributs (d.h. der Verteilung bzgl. der Attributwerte) dividiert wird. Somit vergleicht man Attribute anhand Informationsgewinn Normierungsfaktor D.h. ( I(M) I(M a) ) Normierungsfaktor Das bewirkt, dass Attribute mit mehreren Werten nicht mehr bevorzugt werden, sondern fair mit den zweiwertigen Attributen verglichen werden. Ohne diese Normierung werden mehrwertige Attribute bevorzugt, da diese implizit mehrere Ja/Nein-Fragen stellen dürfen, während ein zweiwertiges Attribut nur einer Ja/Nein-Frage entspricht. Dieser Vorteil wird durch den Normierungsfaktor ausgeglichen, der den Informationsgewinn auf binäre Fragestellung normiert, d.h. dass man den Informationsgewinn durch ein Attribut mit 4 Werten durch 2 dividiert, da man 2 binäre Fragen dazu braucht. Der Normierungsfaktor für ein Attribut a mit den Werten w i, i = 1,..., k ist: 1 k 1 P (a = w i ) log 2 ( P (a = w i ) ) i=1 Bei einem Booleschen Attribut, das gleichverteilt ist, ergibt sich als Normierungsfaktor 0, 5 1+0, 5 1 = 1, während sich bei einem Attribut mit n Werten, die alle gleichverteilt sind, der Wert ergibt. 1 n 1 n log 2(n) = 1 log 2 (n) Durch diese Vorgehensweise wird die Personalnummer und auch die Apfelnummer als irrelevantes Attribut erkannt. Allerdings ist es besser, diese Attribute von vorneherein als irrelevant zu kennzeichnen, bzw. erst gar nicht in die Methode einfließen zu lassen.

14 KI, SS 2011, Kapitel 8, 19. Juli Beispiel Im Apfelbeispiel s.o. ergibt sich bei Hinzufügen eines Attributes Apfelnummer mit den Ausprägungen 1, 2, 3, 4, als Normierungsfaktor für Apfelnummer: = 0.5 Damit wird die Abfrage nach dem Geschmack vor der Apfelnummer bevorzugt. Übergeneralisierung (Overfitting) Tritt auf, wenn die Beispiele nicht repräsentativ sind, oder nicht ausreichend. Der Effekt ist, dass zwar die Beispiele richtig eingeordnet werden, aber der Entscheidungsbaum zu fein unterscheidet, nur weil die Beispiele (zufällig) bestimmte Regelmäßigkeiten aufweisen. Beispiel Angenommen, man will eine Krankheit als Konzept definieren und beschreibt dazu die Symptome als Attribute: Fieber: Temperatur, Flecken: j/n, Erbrechen: j/n, Durchfall: j/n, Dauer der krankheit: Zeit, Alter des Patienten, Geschlecht des Patienten,.... Es kann dabei passieren, dass das Lernverfahren ein Konzept findet, dass beinhaltet, dass Frauen zwischen 25 und 30 Jahren diese Krankheit nicht haben, nur weil es keine Beispiele dafür gibt. Auch das ist ein Fall von overfitting. Besser wäre es in diesem Fall, ein Datenbank aller Fälle zu haben. Die Erfahrung zeigt aber, dass selbst diese Datenbank aller Krankheiten für zukünftige Fragen oft nicht ausreicht, da nicht jede Frage geklärt werden kann: z.b. Einfluss des Gendefektes XXXXX auf Fettsucht. Abschneiden des Entscheidungsbaumes: Pruning Beheben kann man das dadurch, dass man ab einer gewissen Schranke den Entscheidungsbaum nicht weiter aufbaut, und den weiteren Aufbau an diesem Knoten stoppt: Abschneiden des Entscheidungsbaumes (Pruning). Wenn kein Attribut mehr einen guten Informationsgewinn bringt, dann besteht der Verdacht, dass alle weiteren Attribute eigentlich irrelevant sind, und man das Verfahren an dem Blatt stoppen sollte. Dies kann man bei bekannter Verteilung mittels eines statistischen Test abschätzen. Hierbei ist es i.a. so, dass es an dem Blatt, an dem abgebrochen wird, noch positive und negative Beispiele gibt. Die Markierung des Knoten wählt man als Ja, wenn es signifikant mehr positive als negative Beispiel gibt, und als Nein, wenn es signifikant mehr negative als positive Beispiel gibt. Das ist natürlich nur sinnvoll, wenn man weiß, das es falsche Beispiele geben kann. Hat man verrauschte Daten, z.b. mit Messfehler behaftete Beispiele, dann ist Lernen von Entscheidungsbäumen mit Pruning die Methode der Wahl.

15 KI, SS 2011, Kapitel 8, 19. Juli Induktives Lernen: Funktionen Nicht Stoff im Sommersemester 2011/12 Das Lernen einer Funktion aus Funktionswerten soll als Standardbeispiel dienen, da man die meisten Lernverfahren auch als Lernen einer Funktion deuten kann. Auch das Lernen einer Mengenbeschreibung (eines Konzeptes) kann man als Lernen der charakteristischen Funktion ansehen. Bei reellen Funktionen ist dieses Problem mit der Approximation verwandt, für die es mehrere Methoden gibt: Polynome, Splines, usw. Eine Funktion f ist zu lernen, wobei wir den Definitions- und Wertebereich offen lassen. Ein Beispiel, Beobachtung ist ein Paar (x, f(x)) aus Argument und Funktionswert. Die Aufgabe des induktiven Lernens ist die Berechnung einer Funktion h, die die unbekannte Funktion f möglichst gut annähert, wobei man als Eingabe bzw als Wissen über die Funktion nur die Beispiele verwenden darf. Die Ausgabe des Lernverfahrens h nennt man Hypothese. Da es meistens mehrere (oft unendliche viele) denkbare Hypothesen h gibt, gibt es meist eine Bevorzugung von bestimmten Hypothesen. Diese Bevorzugung nennt man Vorwissen bzw. Vorurteil (engl: bias). Dies kann bei reellen Funktionen z.b. die Bevorzugung von Polynomen von möglichst kleinem Grad und dabei mit geringer Abweichung der h-werte von den Beispielwerten sein. Man unterscheidet die Beispiele oft noch in Trainingsmenge Testmenge Das wird oft so gemacht, dass man die bekannten Beispiele nach einem Schema zerlegt in Trainings- und Testmenge. Diese Partitionierung kann auch zufällig sein. Damit kann man verschiedene Lernverfahren vergleichen, oder die Stabilität eines Lernverfahrens abschätzen: Man macht mehrere Testläufe auf Basis von verschiedenen Trainingsmengen und vergleicht dann die Hypothese mit den Werten der jeweiligen Testmenge PAC-Lernen Eine theoretische Untersuchung zum Lernen und Lernbarkeit von Funktionen ist das sogenannte PAC-Lernen (probably almost correct-learning, Valiant), bei dem die Lernbarkeit bzw. die Komplexität des Lernens von Funktionen aus Folgen von Beispielwerten untersucht wird, wobei stochastische Methoden verwendet werden. Eine grundlegende Idee ist das zufällige Ziehen einer Trainingsund Testmenge aus der Menge der Beispiele.

16 KI, SS 2011, Kapitel 8, 19. Juli Vereinfacht kann man das PAC-Lernverfahren so beschreiben: Es gibt 0 < ε, δ < 1, ε die Genauigkeit, δ die Konfidenz. Ziel ist das Erlernen einer Funktion (eines Konzeptes) aufgrund einer Anzahl m von (zufälligen) Beispielen, so dass nur mit Wahrscheinlichkeit < δ der Fehler > ε ist. X sei Definitionsbereich von f. D eine Verteilung auf dem Definitionsbereich. Diese ist dem Lernverfahren nicht bekannt. Zudem ist die Verteilung statisch, d.h. sie ändert sich nicht. H die (endliche) Menge der möglichen Hypothesen. m die Anzahl der Beispiele in der Trainingsmenge. Es gibt einen Lehrer, der auf Anfrage m (zufällige) Beispiele vorgeben kann. Wir nehmen an, es gibt einen Test OK(.), der sagt, ob eine Hypothese mit einem Beispiel (x, f(x)) konsistent ist. Das kann z.b. Gleichheit sein, d.h. h(x) = f(x), oder eine Annäherung h(x) f(x) < d. Definition Eine Hypothese h ist konsistent mit m Beispielen (x i, f(x i )), wenn für alle i = 1,..., m: OK(h, x i, f(x i )) gilt. Der Fehler einer Hypothese h wird definiert als error(h) := P {x X OK(h, x, f(x))} Hier wird die Verteilung D angenommen. h ist annähernd korrekt, wenn error(h) < ε für das vorgegebene ε. Wir analysieren die Wahrscheinlichkeit für eine Hypothese h, die konsistent mit m zufällig gewählten Beispielen ist, aber einen zu großen Fehler hat: D.h. error( h) > ε. Die Wahrscheinlichkeit wird gemessen gegen die Verteilung D auf dem Definitionsbereich. Das Lernverfahren gibt normalerweise eine Hypothese aus, die konsistent mit m Beispielen ist, so dass hiermit die Güte bzw. der Fehler dieser Hypothese analysiert wird. Damit ist die Wahrscheinlichkeit, dass h ein Beispiel annähert : P {x X OK(h, x, f(x))} < 1 ε Da das Ziehen der Beispiele randomisiert ist, kann man Unabhängigkeit annehmen und erhält für die Wahrscheinlichkeit, dass h alle m Beispiele annähert, die Abschätzung: P ( h konsistent mit m Beispielen) < (1 ε) m Da es H schlechte Hypothesen h geben kann, erhält man: P (schlechte Hypothese) < H (1 ε) m

17 KI, SS 2011, Kapitel 8, 19. Juli Bzgl der Konfidenz δ für das Eintreten dieses Ereignisses soll gelten: dann ergibt sich für m: H (1 ε) m δ ln H + m ln(1 ε) ln(δ) Für kleine, positive ε gilt die Abschätzung ln(1 ε) < ε. Deshalb: m 1 ε (ln1 δ + ln H ) Diese Rechnung kann man auch rückwärts durchführen. Wenn ein Lernalgorithmus eine konsistente Hypothese h ausgibt, hat man bei m zufälligen Beispielen mit Wahrscheinlichkeit 1 δ eine Hypothese mit einem Fehler kleiner als ε. D.h. wenn man mehrere Läufe des Lernalgorithmus durchführt, hat man nur einen Anteil δ von Läufen, in denen eine Hypothese mit einem Fehler größer als ε ausgegeben wird. Die Formel sagt, dass man eine Anzahl Beispiele in O(ln H ) benötigt. D.h. eine wichtige Größe in der obigen Abschätzung ist H, die Größe des Hypothesenraumes. Dies kann auch sehr schlecht sein: Will man z.b. Boolesche Funktionen von {0, 1} n {0, 1} lernen, kann man als OK die Gleichheit nehmen, und als Hypothesenraum H Bool die Menge aller Booleschen Funktionen. Dann ist H Bool = 2 (2n), und damit muss m exponentiell groß sein, genauer O(2 n ). Die Menge aller Beispiele ist ebenfalls O(2 n ), so dass Lernen keinen echten Vorteil gegenüber dem Speichern der Beispiele bringt. Um gute Ergebnisse zu erzielen, benötigt man i.a. eine Einschränkung des Hypothesenraumes, damit die Kenntnis der m Beispielwerte überhaupt etwas über die gesuchte Funktion aussagt, das über die Information der Beispiele hinausgeht Lernen von Entscheidungslisten Eine Entscheidungsliste ist eine Liste von Konjunktionen, wobei jede Konjunktion aus Attribut-Tests der Form a = w? besteht. Gegeben ein Objekt o und eine Entscheidungsliste L. Dann ist L(o) = 1, wenn mindestens eine Konjunktion wahr (d.h. = 1) ist. Eine Entscheidungsliste entspricht einem logischen Ausdruck der aus Disjunktionen von Konjunktionen besteht. Er ist von der Abarbeitung her sequentiell im Gegensatz zu Entscheidungsbäumen, aber die Abfragen an den Knoten sind komplexer. Beispiel Eine Entscheidungstabelle für das Beispiel oder kleine, süße Äpfel ist: entweder große,

18 KI, SS 2011, Kapitel 8, 19. Juli Größe = L? 2. Größe = S Geschmack = süß? Mit Entscheidungslisten kann man alle Mengen beschreiben, allerdings werden die Listen dann sehr lang. Eine Einschränkung sind die k-entscheidungslisten, bei denen die Konjunktionen maximal k Einzelabfragen enthalten dürfen. Um die Abschätzung der Anzahl notwendiger Beispiele zum Erreichen einer hinreichenden Konfidenz des PAC-Lernens auf k-entscheidungslisten anzuwenden, müssen wir nur die Anzahl der Entscheidungslisten abschätzen. Wir nehmen an, dass es n Attribute mit jeweils maximal h Werten gibt. Es gibt maximal n h + 2 (n h) (n h) k Konjunktionen. Das sind O((n h) k ). Die Anzahl der Entscheidungslisten kann man nach oben abschätzen durch: 2 O((n h)k) O((n h) k )! Da in der PAC-Formel nur der Logarithmus vorkommt, können wir logarithmieren. Wir nutzen x! x x aus und erhalten als obere Abschätzung für den lnder Anzahl der k-entscheidungslisten: O((n h) k ) + O((n h) k ln(n h) k ) = O((n h) k ln((n h) k )) Damit ergibt sich bei Fehlerschranke ε und Konfidenz δ als Anzahl der benötigten Beispiele: m 1 (ln ε 1 ) δ + O((n h)k ln((n h) k )) D.h. die Anzahl der notwendigen Beispiele ist polynomiell. 8.5 Lernen von Konzepten einer Konzeptbeschreibungssprache Der allgemeine Fall in dieser Lernaufgabe sieht so aus: Man hat eine Objektbeschreibungssprache, in der Objekte beschrieben werden. Man hat eine Konzeptbeschreibungssprache, deren Ausdrücke (Konzepte) als Semantik eine Menge von Objekten haben. Gegeben ist eine Menge von Objekten (Beispielmenge), wobei man positive und negative Beispiele haben kann. Oder eine Folge von Beispielen oder einen Lehrer, der auf Anfrage Beispiele präsentiert. Gesucht ist ein Konzept, das die Beispielmenge repräsentiert und möglichst einfach ist.

19 KI, SS 2011, Kapitel 8, 19. Juli Online-Lernen Diese Lernmethode ist ein überwachtes, inkrementelles, Lernverfahren, bei dem ein Konzept gelernt werden soll. Es gibt einen Dialog zwischen Lernalgorithmus und Lehrer. Man nimmt an, dass die Sprache der Objekte vorgegeben ist, ebenso die Sprache der Konzepte (= potentielle Hypothesen). Das Verfahren zum Lernen eines vorgegebenen Konzeptes K besteht aus mehreren Runden. In jeder Runde präsentiert der Lernalgorithmus seine Hypothese H, beim erstenmal irgendeine Hypothese. Der Lehrer gibt daraufhin, falls die Hypothese H dem Konzept K nicht entspricht, ein Gegenbeispiel an, d.h. ein Objekt aus H K = (H \ K) (K \ H), der symmetrischen Differenz von H und K. Wenn es keine Gegenbeispiele mehr gibt, ist das Lernen erfolgreich beendet. Normalerweise kann es vier Arten von Beispielen geben: 1. Beispiel ist schon im Hypothesenkonzept. 2. Beispiel ist im Hypothesenkonzept, nicht im zu lernenden Konzept K 3. Beispiel ist nicht im Hypothesenkonzept, aber in K 4. Beispiel ist nicht im Hypothesenkonzept, auch nicht in K. Beispieltypen 2. und 3. sind hilfreich, während 1. und 4. bestätigend sind und keine Aktion beim inkrementellen Lernen erfordern. Zur Illustration nehmen wir folgendes an: Die Objekte sind durch n Boolesche Attribute beschrieben. D.h. jedes Objekt entspricht einem binären Tupel der Länge n. Varianten für Konzeptsprachen sind: 1. Es gibt n primitive Konzepte P 1,..., P n, die Konzeptsprache besteht aus P i, P i (Komplemente), und allen Schnitten dieser Konzepte (Monome). Dies entspricht einer Grundmenge der binären Tupel der Länge n, die Hypothesen entsprechen den Monomen, (z.b. P 1 P 2 P 4 ) die aus Konjunktionen von Literalen bestehen. 2. Wie 1, nur sind Komplemente verboten: (monotone Monome). 3. Alle aussagenlogischen Formeln der n primitiven Konzepte. 4. Alle positiven aussagenlogischen Formeln der n primitiven Konzepte. Die (hilfreichen) Gegenbeispiele in H K = (H \ K) (K \ H) kann man in positive Gegenbeispiele K \ H und negative Gegenbeispiele H \ K unterscheiden. Die hier interessierende Fragestellung ist die nach der Anzahl der Runden, bzw. Anzahl der Gegenbeispiele, die der Lehrer angeben muss, bis das Konzept gelernt ist.

20 KI, SS 2011, Kapitel 8, 19. Juli Aussage Die maximale Anzahl benötigter Gegenbeispiele beim optimalen Lernen ist: Für die Monom-Klasse mit n primitiven Konzepten: n + 1. Für die Menge der aussagenlogischen Formeln: 2 n. Das entspricht dem Lernen einer beliebigen Menge in {0, 1} n : da jede Menge als Konzept erlaubt ist, muss man für jedes der 2 n Element sagen, ob es dazu gehört oder nicht. Das optimale, inkrementelle Verfahren funktioniert folgendermaßen: 1. Lernverfahren gibt Hypothese P 1 P 1 aus. (ist leer) 2. Lehrer präsentiert Gegenbeispiel, das man als binäres n-tupel angeben kann. Eine 1 an der i-ten Stelle entspricht der Angabe: Objekt ist im Konzept P i, eine 0 bedeutet ist nicht im Konzept P i. 3. Lernverfahren gibt als Hypothese einen Schnitt von n Literalen aus. Das entspricht dem kleinsten Konzept, das genau dieses Objekt enthält. 4. Falls K H: Lehrer präsentiert Gegenbeispiel. Ansonsten akzeptiert der Lehrer die Hypothese H. 5. Das Lernverfahren eliminiert mindestens ein Literal aus dem aktuellen Hypothese entsprechend dem Gegenbeispiel, so dass eine minimale Hypothese erzeugt wird und gibt die neue Hypothese aus. Danach weiter mit 4. Das vom Lehrer präsentierte Gegenbeispiel muss ein positives sein, denn das Lernverfahren versucht möglichst Hypothesen mit minimalen Objektmengen zu erzeugen Konzeptlernen über Objekten mit mehrwertigen Attributen Ein etwas allgemeinerer Fall des Konzeptlernen ist, dass Objekte durch diskrete Attribute und deren Werte beschrieben werden, und die Konzeptsprache noch Subsumtionsalgorithmen (d.h. Alg. für Teilmengenbeziehungen) auf den Konzeptbeschreibungen hat. Man nennt die inkrementellen Lernverfahren in diesem Szenario auch Versionenraum-Lernverfahren. Wir betrachten jetzt eine einfache Konzeptsprache, die neben den Attributwerten noch? zulässt. Das entspricht primitiven Konzepten der Form a i = w i, und deren Schnitten (keine Komplemente). Zusätzlich erlaubt man noch als Zeichen für das leere Konzept.

21 KI, SS 2011, Kapitel 8, 19. Juli Im Apfelbeispiel wäre dann F arbe =?, Geschmack = sauer das Konzept, dessen Semantik die Menge der Objekte ist, die alle sauren Äpfel unabhängig von deren Farbe enthält. Auf den Konzepten ist eine Ordnung definiert, die Spezialisierung bzw. Generalisierung ausdrückt. z.b. gilt < Farbe =?, Geschmack = sauer < Farbe =?, Geschmack =? Diese Ordnung ist i.a. nicht linear. I.a. sind die Lernverfahren zur Erzeugung eines Konzepts darauf ausgelegt, inkrementell zu arbeiten. Das Versionenraum-Lernverfahren ist inkrementell, und hat als Zustand die Menge der Hypothesen, die konsistent mit den bisher gesehenen Beispielen sind: {H Hist konsistent mit bisherigen Beispielen} Dies nennt man auch den Versionenraum. D.h. die gesehenen Beispiele werden vergessen. Eine kompaktere Repräsentation des Versionenraums ist die Angabe der unteren S und oberen Grenzen G des Versionenraums, der speziellsten Hypothesen und der allgemeinsten Hypothesen. Wenn S = {S 1,..., S n } und G = {G 1,..., G m }, dann ist der Versionenraum genau: {H i, j : S i H G j }. Bei Eingabe eines neuen Beispiels werden die Mengen S und G neu berechnet. Man kann die Mengen G, S minimieren, wenn man die Bedingung prüft, ob zu jedem G i noch ein S j existiert mit S j G i. Auch umgekehrt ist zu testen, allerdings ist dieser Fall praktisch kaum relevant. Wenn S = G und S, G einelementig sind, war das Verfahren erfolgreich. Im Falle der?-konzepte kann man die Menge S immer einelementig halten: Man startet mit, dann mit dem jeweils kleinsten Hypothese, die alle positiven Beispiele enthält. Bei einem neuen Gegenbeispiel wird eine Hypothese berechnet, die allgemeiner als die alte Hypothese ist, und gerade noch dieses Beispiel enthält. Die Menge G kann mehrere Elemente enthalten, im Extremfall exponentiell viele. In diesem Fall ist es einfacher und effizienter, sich die (negativen) Beispiele zu speichern. Ein negatives Gegenbeispiel zu S führt zu einem Abbruch des Verfahrens, da das nur bedeuten kann: es gibt falsch klassifizierte Beispiele, oder die Konzeptsprache ist nicht ausdrucksstark genug. Beispiel Betrachte die Äpfel-Konzepte: Attribute und Werte seien: Geschmack süß, sauer Farbe rot, gelb, grün Herkunft Deutschland, Italien, Argentinien Größe S,M,L Gelernt werden soll das Konzept: große (L), süße Äpfel.

22 KI, SS 2011, Kapitel 8, 19. Juli Hypothese = Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Italien, L. 3. S = süß,?, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G =?,?,?,?. Alternativer Ablauf: 1. Hypothese = positives Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G = {?,?,?,? }. negatives Beispiel: süß, gelb, Argentinien, S. 3. S = süß, rot, Italien, L, Kandidaten für G: sauer,?,?,?,?, rot,?,?,?, grün,?,?,?,?, Deutschland,?,?,?, Italien,?,?,?,?, M,?,?,?, L. Davon bleiben wegen der Bedingung S G i : G = {?, rot,?,?,?,?, Italien,?,?,?,?, L }. positives Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G = {?,?,?, L }. negatives Beispiel: sauer, rot, Deutschland, L. 5. Unter Beachtung der Bedingungen ergibt sich jetzt ein neues G = { süß,?,?, L }. Da S = G 1, ist das Konzept gefunden Batchverfahren zum Erzeugen einer Hypothese Hat man eine Menge von positiven und negativen Beispielen, dann kann man direkt eine minimale Hypothese konstruieren, die alle positiven Beispiele enthält, und kein negatives: Erzeugung eines Konzepts als Hypothese Für jedes Attribut a:

23 KI, SS 2011, Kapitel 8, 19. Juli Haben alle positiven Beispiele genau die Ausprägung w a, dann gilt für das allgemeine Konzept K min : a = w a. Hat das Attribut a zwei verschiedene Ausprägungen in der Menge der positiven Beispiele, dann hat das allgemeine Konzept die Ausprägung?. Damit hat man eine minimale Hypothese konstruiert, die alle positiven Beispiele enthält. Nun ist die Hypothese gegen die negativen Beispiele zu testen, Enthält die Hypothese ein negatives Beispiel, dann ergibt sich ein Fehler: Entweder sind die Beispiele inkonsistent, oder die aktuelle Konzeptsprache ist nicht ausdrucksstark genug. Das zu lernende Konzept kann allgemeiner als K min sein. Man kann versuchen, attributweise allgemeinere Konzepte zu erzeugen, indem man z.b. K min,1,... K min,n aus K min erzeugt, indem man jeweils das i-te Attribut, falls es nicht schon? ist, auf? setzt. Danach kann man wieder gegen die Menge der negativen Beispiele testen. Verallgemeinerungen der Konzeptsprachen Eine ausdrucksstärkere Konzeptsprache ist: Erlaube a = M a für Attribute a, wobei M a eine Teilmenge der möglichen Ausprägungen von a ist ist. Damit kann man Quader im Objektraum erzeugen. Diese Sprache nennen wir Quader-Konzepte. Erlaube Disjunktionen der Quader-Konzepte. Damit kann man bereits alle Konzepte darstellen, wenn die Menge der Attribute und Ausprägungen endlich ist. Erzeugung eines Konzepts als Hypothese: Variante Wir geben ein alternatives Verfahren zum Erzeugen einer Hypothese an. Die Suchrichtung sei jetzt allgemein nach speziell. Damit man etwas sinnvolles machen kann, erlauben wir die Quader-Konzept- Sprache: Starte mit dem allgemeinsten Konzept?,...,?. Wenn es negative Beispiele gibt, dann erzeuge alle Konzepte :?,...,?, M i,?,...,? wobei M i alle Mengen durchläuft, die zum Attribut a i genau einen Attributwert nicht enthalten. Danach teste, welche K alle positiven Beispiele enthalten. Setzt man dieses Verfahren fort, dann erhält man schließlich Konzepte, die alle positiven Beispiele enthalten, aber kein negatives Beispiel. Leider ist dieses Verfahren exponentiell, da die Menge der zu betrachtenden Konzepte sehr schnell ansteigt.

24 KI, SS 2011, Kapitel 8, 19. Juli Die Gefahr der Übergeneralisierung (overfitting) ist bei dieser Konzeptsprache sehr hoch, da sich durch die Allgemeinheit der Quaderkonzepte die Hypothese zu sehr an der aktuellen Menge der Beispiele orientiert Diskussion Die Wahl einer Konzeptbeschreibungssprache kann das Lernverfahren sehr stark beeinflussen. Diese Wahl gehört zum Vorwissen bzw. Vorurteil (Bias) über die Umgebung. Eigentlich müsste auch die Konzeptbeschreibungssprache erst aufgrund der Beispiele gelernt werden. Probleme mit der Versionenraum-Methode sind: sie kann nicht mit verrauschten Daten umgehen. erlaubt man eine zu ausdrucksstarke Konzeptbeschreibungssprache, dann erhält man meist eine zu genaue Beschreibung der Beispiele, und keine Generalisierung.