Maschinelles Lernen. Kapitel Einführung: Maschinelles Lernen

Transkript

1 Kapitel 8 Maschinelles Lernen 8.1 Einführung: Maschinelles Lernen Da die direkte Programmierung eines intelligenten Agenten sich als nicht möglich herausgestellt hat, ist es klar, dass man zum Erreichen des Fernziels der Künstlichen Intelligenz eine Entsprechung eines Lernprozesses benötigt: Maschinelles Lernen Es gibt viele verschiedene Ansichten darüber, was Maschinelles Lernen ist, was mit Lernen erreicht werden soll usw. Hier sind erst Anfänge in der Forschung gemacht worden. Die praktisch erfolgreichsten Methoden sind solche, die auf statistisch/stochastischen Methoden basieren und mit der Adaption von Werten (Gewichten) arbeiten: Adaption von Gewichten einer Bewertungsfunktion aufgrund von Rückmeldungen. Z.B. Verarbeitung natürlicher Sprachen, Strategie-Spiele mit und ohne zufällige Ereignisse: Dame, Backgammon. künstliche neuronale Netze: Lernen durch gezielte Veränderung von internen Parametern. Deren praktischer Nutzen und Anwendbarkeit ist im wesentlichen auf praktikable automatische Lernverfahren zurückzuführen. Das Lernen von neuen Konzepten, Verfahren, logischen Zusammenhängen, usw hat bisher nur ansatzweise Erfolg gehabt. Lernen soll eine Verbesserung der Performanz eines Agenten bewirken: Verbesserung der internen Repräsentation Optimierung bzw. Beschleunigung der Erledigung von Aufgaben. Erweiterung des Spektrums oder der Qualität der Aufgaben, die erledigt werden können. Beispiel

2 KI 1, WS 2002/03, Kapitel 8, 4. Juli Erweiterung und Anpassung des Lexikons eines computerlinguistischen System durch automatische Verarbeitung von geschrieben Sätzen, wobei der Inhalt dieses Sätze gleichzeitig automatisch erfasst werden sollte. Adaption von Gewichten einer Bewertungsfunktion in einem Zweipersonenspiel, wobei man abhängig von Gewinn/Verlust Gewichte verändert: Das wurde für Dame und Backgammon mit Erfolg durchgeführt. Lernen einer Klassifikation durch Vorgabe von Trainingsbeispielen, positiv/negativ Einordnung von Lernverfahren Die Struktur eines lernenden System kann man wie folgt beschreiben: Agent (ausführende Einheit, performance element). Dieser soll verbessert werden: d.h. etwas lernen. Lerneinheit (learning element). Hier wird der Lernvorgang gesteuert und bewertet: Insbesondere wird hier vorgegeben, was gut, was schlecht ist. Hier kann man auch die Bewertungseinheit (critic) und den Problemgenerator einordnen. Umwelt In der Umwelt soll agiert werden. Die Rückmeldung über den Ausgang bzw. den Effekt von Aktionen kommt aus dieser Umwelt. Das kann eine künstliche, modellhafte Umwelt oder auch die reale Umwelt sein. Zum Teil wird Agent und Lerneinheit zusammen in einen erweiterten Agent verlagert. Prinzipiell sollte man die Dinge unterscheiden, denn die Bewertung muss außerhalb des Agenten sein, sonst wäre die Möglichkeit gegeben, die Bewertung an die schlechten Aktionen anzupassen, statt die Aktionen zu verbessern. Folgende Lernmethoden werden unterschieden: überwachtes Lernen (supervised learning) Hier wird die Situation beschrieben, in der es einen allwissenden Lehrer gibt: die Lerneinheit kann dem Agenten bei jeder Aktion sagen, ob diese richtig war und was die richtige Aktion gewesen wäre. Das entspricht einem unmittelbaren Feedback über die exakt richtige Aktion. unüberwachtes Lernen (unsupervised learning) Ist der Gegensatz zum überwachten Lernen. Es gibt keine Hinweise, was richtig sein könnte. Damit Lernen möglich ist, braucht man in diesem Fall eine Bewertung der Güte der Aktion. Lernen durch Belohnung/Bestrafung (reinforcment learning) D.h. mit Zuckerbrot und Peitsche. Hiermit sollen Lernverfahren beschrieben werden, die gute Aktionen belohnen, schlechte bestrafen, d.h. Aktionen bewerten, aber die richtige Aktion nicht kennen bzw. verraten.

3 KI 1, WS 2002/03, Kapitel 8, 4. Juli Hier kann man die Lernverfahren noch unterscheiden nach der Vorgehensweise: inkrementell, alle Beispiel auf einmal. Oder nach den Rahmenbedigungen: Beispielwerte sind exakt / mit Fehlern behaftet es gibt positive bzw. positive und negative Beispiele 8.2 Entscheidungsbäume Zunächst führen wir den Begriff des Informationsgehalts ein, der von den Lernverfahren benötigt wird Entropie Wenn man eine diskrete Wahrscheinlichkeitsverteilung p i, i = 1,..., n hat, z.b. von Symbolen a i, i = 1,..., n, dann nennt man log 2 ( 1 p k ) den Informationsgehalt des Zeichens a k. Das kann man interpretieren als Grad der Überraschung beim Ziehen von Symbolen aus einer entsprechenden Urne, bzw. bei der Übermittlung von Zeichen durch einen Kommunikationskanal. D.h. das Auftreten eines seltenen Symbols hat einen hohen Informationsgehalt. Wenn man nur ein einziges Symbol hat, dann ist p 1 = 1, und der Informationsgehalt ist 0. Eine intuitive Erklärung des Informationsgehalts ist die Anzahl der Ja/Nein-Fragen, die man stellen muss, um die gleiche Information zu bekommen. Die Entropie oder der mittlere Informationsgehalt eines Symbols in der Wahrscheinlichkeitsverteilung wie oben kann dann berechnet werden als n p i log 2 ( 1 n ) = p i log p 2 (p i ). i i=1 Bei Kompressionen eines Files oder bei Kodierung von Nachrichten über einen Kanal ist das die minimale mittlere Anzahl von Bits pro Symbol, die man bei bester Kompression bzw Kodierung erreichen kann. Beispiel Nimmt man ein Bernoulli-Experiment, d.h. zwei Zeichen, K,Z wobei K mit der Wahrscheinlichkeit p und Z mit Wahrscheinlichkeit 1 p auftritt, dann ergibt sich in etwa die Kurve: i=1

4 KI 1, WS 2002/03, Kapitel 8, 4. Juli ,5 1 D.h. die Entropie (der Informationsgehalt eines Wurfs) ist maximal, wenn man das Zeichen nicht vorhersagen kann. Bei einer Wahrscheinlichkeit von p = 0, 9 kann man vorhersagen, dass K sehr oft auftritt Lernen von Entscheidungsbäumen In diesem Szenario betrachtet man Objekte, von denen man einige Eigenschaften (Attribute) kennt. Diese Eigenschaften kann man darstellen mit einer fest vorgegebenen Menge von Attributen. Definition Es gibt eine Menge A von Attributen. zu jedem Attribut a A gibt es eine Menge von möglichen Werten W a. Die Wertemengen seien entweder endlich, oder die reellen Zahlen. IR. Ein Objekt wird beschrieben durch eine Funktion A a A W a. Eine alternative Darstellung wäre ein Tupel mit A Einträgen, bzw. ein Record, in dem zu jedem Attribut a A, der Wert notiert wird. Ein Konzept K ist repräsentiert durch eine Boolesche Funktion P K auf der Menge der Objekte. D.h. ein Konzept entspricht einer Menge von Objekten, nämlich der Objekte o, für die P K (o) = True ergibt. Beispiel Bücher könnte man beschreiben durch die Attribute: Autor, Titel, Seitenzahl, Preis, Erscheinungsjahr. Das Konzept billiges Buch könnte man durch Preis 10 beschreiben. Das Konzept umfangreiches Buch durch Seitenzahl 500. Für die Lernverfahren nimmt man an, dass jedes Objekt zu jedem Attribut einen Wert hat, und der Wert unbekannt nicht vorkommt. Definition Ein Entscheidungsbaum zu einem Konzept K ist ein endlicher Baum, der an inneren Knoten zum Wert eines Attributes folgende Abfragen machen kann: p

5 KI 1, WS 2002/03, Kapitel 8, 4. Juli bei reellwertigen Attributen gibt es die Alternativen a v oder a > v für einen Wert v IR, Es gibt einen Teilbaum für Ja und einen für Nein. bei diskreten Attributen wird der exakte Wert abgefragt. Es gibt pro möglichem Attributwert einen Teilbaum Die Blätter des Baumes sind mit Ja oder Nein markiert. Das entspricht der Antwort auf die Frage, ob das eingegebene Objekte zum Konzept gehört oder nicht. Diskrete Attribute sollten pro Pfad im Baum nur einmal vorkommen, stetige Attribute können im Pfad mehrmals geprüft werden. D.h. ein Entscheidungsbaum B K ist die Darstellung eines Algorithmus zum Erkennen, ob ein vorgelegtes Objekt O zum Konzept K gehört. Jeder Entscheidungsbaum definiert ein Konzept auf den Objekten. Die Entscheidungsbäume sind so definiert, dass für jedes Objekt nach Durchlauf des Entscheidungsbaumes ein Blatt mit Ja oder Nein erreicht wird. Die Mengen der Objekte, bei denen der Pfad mit einem Ja endet, sind in diesem Konzept, die anderen Objekte nicht. Wenn es keine reellen Attribute gibt, kann man offenbar zu jedem Konzept einen Entscheidungsbaum angeben. Es ist aber klar, dass bei Verwendung von reellwertigen Attributen nicht jedes Konzept durch einen endlichen Entscheidungsbaum beschrieben werden kann. Beispiel Tiere könnte man durch folgenden Attribute beschreiben: Größe reell Gewicht reell Kann fliegen Boolesch Nahrung pflanzlich / tierisch / Allesfresser Körpertemperatur reell Für die Menge der Insekten könnte man aufgrund dieser Attribute einen Entscheidungsbaum hinschreiben, allerdings würden dann auch Nichtinsekten mit Ja klassifiziert. Es gibt verschiedene Algorithmen, die die Aufgabe lösen sollen, einen Entscheidungsbaum für ein Konzept zu lernen (einen guten Entscheidungsbaum zu erstellen), wobei man beispielsweise eine Menge von positiven Beispielen und eine Menge von negativen Beispielen vorgibt Lernverfahren ID3 und C4.5 Es wird angenommen, dass alle Objekte vollständige Attributwerte haben, und dass es eine Menge von positiven Beispielen und eine Menge von negativen Beispielen für ein zu lernendes Konzept gibt. Für rein positive Beispielmengen funktioniert das Verfahren nicht.

6 KI 1, WS 2002/03, Kapitel 8, 4. Juli Wichtig für die Lernverfahren ist es, herauszufinden, welche Attribute für das Konzept irrelevant bzw. relevant sind. Nachdem ein Teil des Entscheidungsbaumes aufgebaut ist, prüfen die Lernverfahren die Relevanz weiterer Attribute bzw. Attributintervalle. Das Lernverfahren ID3 verwendet den Informationsgehalt der Attribute bezogen auf die Beispielmenge. Der Informationsgehalt entspricht der mittleren Anzahl der Ja/Nein-Fragen, um ein einzelnes Objekt einer Klasse zuzuordnen. Das Lernverfahren versucht herauszufinden, welche Frage den größten Informationsgewinn bringt, wobei man sich genau auf die in einem Entscheidungsbaum erlaubten Fragen beschränkt. Wir berechnen den Informationsgehalt der Frage, ob ein Beispiel positiv/negativ ist in der Menge aller positiven / negativen Beispiele ist, wenn p die Anzahl der positiven, n die Anzahl der negativen Beispiele für das Konzept ist, und man eine Gleichverteilung unter den Beispielen annimmt. D.h. wir nehmen an, dass die relative Häufigkeit die reale Verteilung widerspiegelt. p p + n log 2( p + n ) + n p p + n log 2( p + n n ) Hat man ein mehrwertiges Attribut a mit den Werten w 1,..., w n abgefragt, dann zerlegt sich die Menge M der Beispiele in die Mengen M i := {m M m(a) = w i }, wobei w i, i = 1,..., k die möglichen Werte des Attributes sind. Seien p i, n i für i = 1,..., k die jeweilige Anzahl positiver (negativer) Beispiele in M i, dann ergibt sich nach Abfragen des Attributs an Informationsgehalt (bzgl positiv/negativ), wobei I(M i ) der Informationsgehalt (bzgl positiv/negativ) der jeweiligen Menge M i ist. Es gilt Das ergibt: I(M a) = I(M i ) = I(M a) = k P (a = w i ) I(M i ) i=1 p i p i + n i log 2 ( p i + n i p i ) + n i p i + n i log 2 ( p i + n i n i ) k p i + n ( i p + n p i log p i + n 2 ( p i + n i ) + n i log i p i p i + n 2 ( p i + n ) i ) i n i i=1 Im Falle. dass M i = ist, nehmen wir an, dass der Beitrag zur Summe 0 ist. Um Fallunterscheidungen zu vermeiden, nehmen wir an, dass Produkte der Form 0 a log 2( b ) als 0 zählen. Das ist berechtigt, da der Grenzwert von 0 lim x 0 x log 2 (x) = 0 ist. ID3 startet mit einem leeren Baum und als Eingabe einer Menge von positiven und negativen Beispielen.

7 KI 1, WS 2002/03, Kapitel 8, 4. Juli Für jeden offenen Knoten werden die zugehörigen Beispiele berechnet. Dann wird jeweils das Attribut ausgewählt, das den größten Informationsgewinn bietet. D.h. dasjenige a, für das der Informationsgewinn I(M) I(M a) maximal ist. Der Baum wird dann um die entsprechenden Abfragen erweitert. Dies wird für die neuen offenen Knoten solange wiederholt, bis eine Abbruchbedingung eintritt. Die Beispielmengen an den neuen Knoten besteht nur aus denjenigen, die nach den bisher durchgeführten Abfragen auf dem Pfad die Tests bestanden haben. Ist der Informationsgehalt am Blatt 0, dann: Gibt es nur positive Beispiele, so wird das Blatt mit Ja markiert. Gibt es nur noch negative am Blatt, dann wird das Blatt mit Nein markiert. Gibt es keine Beispiele mehr, dann hat man beide Möglichkeiten: Ja bzw. Nein. Durch diese Vorgehensweise wird in keinem Ast ein diskretes Attribut zweimal abgefragt, da der Informationsgewinn 0 ist. Der Algorithmus basiert auf der Annahme, dass die vorgegebenen Beispiele repräsentativ sind. Beispiel Wir nehmen als einfaches überschaubares Beispiel Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, grün}. Das Konzept sei guter Apfel Es gibt vier Äpfel, {(süß, rot), (süß, grün), (sauer, rot), (sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade {(süß, rot), (süß, grün)} sind. Es ist offensichtlich, dass die guten genau die süßen Äpfel sind, und die Farbe egal ist. Das kann man auch nachrechnen, indem man den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Beispiel Wir erweitern das Beispiel der einfachen Äpfel um eine Apfelnummer. Der Einfachheit halber gehen die Nummern gehen von 1 bis 4. Es gibt vier Äpfel, {(1, süß, rot), (2, süß, grün), (3, sauer, rot), (4, sauer, grün)}. Wir geben als Beispiel vor, dass die guten Äpfel gerade

8 KI 1, WS 2002/03, Kapitel 8, 4. Juli {(1, süß, rot), (2, süß, grün)} sind. Wir rechnen den Informationsgewinn der drei Attribut aus. Der Informationsgehalt I(M) vor dem Testen eines Attributes ist: 0.5log 2 (2) + 0.5log 2 (2) = 1 Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt 0, 5 (log 2 (1) + 0) + 0, 5 (0 + log 2 (1)) = 0, d.h. Der Informationsgewinn ist maximal. Nach dem Testen des Attributes Farbe ergibt sich als Informationsgehalt 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) + 0, 5 (0, 5log 2 (2) + 0, 5log 2 (2)) = 0, , 5 1 = 1, d.h. man gewinnt nichts. Nach dem Testen des Attributs Nummer ergibt sich 1 log(1), somit insgesamt 0. Der Informationsgewinn ist ebenfalls maximal. Weiter unten werden wie sehen, dass der Informationsgewinn in diesen sinnlosen Fällen durch Normierung kleiner wird. Beispiel Wir nehmen als erweitertes Beispiel für Äpfel und die Attribute Geschmack {süß, sauer} und Farbe {rot, gelb, grün}. Das Konzept sei schmeckt-wie-er-aussieht. Es gibt sechs Kombinationen der Attribute: {(süß, rot), (süß, grün), (süß, gelb), (sauer, rot), (sauer, grün), (sauer, gelb)}. Wir geben als Beispiel die Menge {(süß, rot), (sauer, grün), (süß, gelb), (sauer, gelb)} vor. Wir berechnen den Informationsgewinn bei beiden Attributen berechnet: Der Informationsgehalt I(M) vor dem Testen irgendeines Attributs ist: 4/6 log 2 (6/4) + 1/3log 2 (3) = Nach dem Testen des Attributes Geschmack ergibt sich als Informationsgehalt I(süss) = I(sauer) Die Gesamtinformation nach Abfrage des Attributs Geschmack ist: = d.h. Der Informationsgewinn ist null. Nach dem Testen des Attributes Farbe ergibt sich als I(grün) = I(rot) = 1, I(gelb) = 0. Die Gesamtinformation nach Abfrage der Farbe ist: 1/3 1+1/3 1 = 2/ D.h. man hat Information gewonnen. Im Endeffekt muss man bei diesem Beispiel doch beide Attribute abfragen Man kann das Verfahren auch für reellwertige Attribute verwenden, wobei man als Grenzabfrage > w? nur endlich viele Werte ausprobieren muss, die sich aus den Werten der entsprechenden Attribute in den Beispielen ergeben. Es ist klar, dass ein Konzept wie Fieber aus den aktuell gegebenen Temperaturen und der Klassifizierung Fieber j/n nur annähernd gelernt werden kann. Diese Methode ID3 funktioniert recht gut, aber wenn ein Attribut zuviele Ausprägungen hat, wird die Frage nach diesem Attribut bevorzugt, da es im Extremfall (Personalnummer. o.ä.) dazu kommen kann, dass die Mengen {m M m(a) = v} einelementig werden, und somit der Informationsgewinn maximal ist.

9 KI 1, WS 2002/03, Kapitel 8, 4. Juli C4.5 als verbesserte Variante von ID3 Das von Quinlan vorgeschlagene System C4.5 benutzt statt des Informationsgewinns einen normierten Informationsgewinn, wobei der obige Wert durch die Entropie des Attributs (d.h. der Verteilung bzgl. der Attributwerte) dividiert wird. Somit vergleicht man Attribute anhand Informationsgewinn Normierungsfaktor D.h. ( I(M) I(M a) ) Normierungsfaktor Das bewirkt, dass Attribute mit mehreren Werten nicht mehr bevorzugt werden, sondern fair mit den zweiwertigen Attributen verglichen werden. Ohne diese Normierung werden mehrwertige Attribute bevorzugt, da diese implizit mehrere Ja/Nein-Fragen stellen dürfen, während ein zweiwertiges Attribut nur einer Ja/Nein-Frage entspricht. Dieser Vorteil wird durch den Normierungsfaktor ausgeglichen, der den Informationsgewinn auf binäre Fragestellung normiert, d.h. dass ein man den Informationsgewinn durch ein Attribut mit 4 Werten durch 2 dividiert, da man 2 binäre Fragen dazu braucht. Der Normierungsfaktor für ein Attribut a mit den Werten w i, i = 1,..., k ist: 1 k 1 P (a = w i ) log 2 ( P (a = w i ) ) i=1 Bei einem Booleschen Attribut, das gleichverteilt ist, ergibt sich als Normierungsfaktor 0, 5 1+0, 5 1 = 1, während sich bei einem Attribut mit n Werten, die alle gleichverteilt sind, der Wert ergibt. 1 n 1 n log 2(n) = 1 log 2 (n) Durch diese Vorgehensweise wird die Personalnummer und auch die Apfelnummer als irrelevantes Attribut erkannt. Allerdings ist es besser, diese Attribute von vorneherein als irrelevant zu kennzeichnen. Beispiel Im Apfelbeispiel s.o. ergibt sich bei Hinzufügen eines Attributes Apfelnummer mit den Ausprägungen 1, 2, 3, 4, als Normierungsfaktor für Apfelnummer: = 0.5 Damit wird die Abfrage nach dem Geschmack vor der Apfelnummer bevorzugt.

10 KI 1, WS 2002/03, Kapitel 8, 4. Juli Übergeneralisierung (Overfitting) Tritt auf, wenn die Beispiele nicht repräsentativ sind, oder nicht ausreichend. Der Effekt ist, dass zwar die Beispiele richtig eingeordnet werden, aber der Entscheidungsbaum zu fein unterscheidet, nur weil die Beispiele (zufällig) bestimmte Regelmäßigkeiten aufweisen. Beispiel Will man eine Krankheit als Konzept definieren und beschreibt die Symptome als Attribute: Fieber: Temperatur, Flecken: j/n, Erbrechen: j/n, Durchfall: j/n, Dauer der krankheit: Zeit, Alter des Patienten, Geschlecht des Patienten,.... So kann es z.b. passieren, dass das Lernverfahren ein Konzept findet, dass Frauen zwischen 25 und 30 Jahren diese Krankheit nicht haben, nur weil es keine Beispiele dafür gibt. Abschneiden des Entscheidungsbaumes: Pruning Beheben kann man das dadurch, dass man ab einer gewissen Schranke den Entscheidungsbaum nicht weiter aufbaut, und den weiteren Aufbau an diesem Knoten stoppt: Abschneiden des Entscheidungsbaumes (Pruning) Wenn kein Attribut mehr einen guten Informationsgewinn bringt, dann besteht der Verdacht, dass alle weiteren Attribute eigentlich irrelevant sind, und man das Verfahren an dem Blatt stoppen sollte. Dies kann man bei bekannter Verteilung mittels eines statistischen Test abschätzen. Hierbei ist es i.a. so, dass an dem Blatt, an dem abgebrochen wird, noch positive und negative Beispiele gibt. Die Markierung des Knoten wählt man als Ja, wenn es signifikant mehr positive als negative Beispiel gibt, und als Nein, wenn es signifikant mehr negative als positive Beispiel gibt. Das ist natürlich nur sinnvoll, wenn man weiß, das es falsche Beispiele geben kann. Hat man verrauschte Daten, z.b. mit Messfehler behaftete Beispiele, dann ist Lernen von Entscheidungsbäumen mit Pruning die Methode der Wahl. 8.3 Induktives Lernen: Funktionen Das Lernen einer Funktion aus Funktionswerten soll als Standardbeispiel dienen, da man die meisten Lernverfahren auch als Lernen einer Funktion deuten kann. Auch das Lernen einer Mengenbeschreibung (eines Konzeptes) kann man als Lernen der charakteristischen Funktion ansehen. Bei reellen Funktionen ist dieses Problem mit der Approximation verwandt, für die es mehrere Methoden gibt: Polynome, Splines, usw. Eine Funktion f ist zu lernen, wobei wir den Definitions- und Wertebereich offen lassen. Ein Beispiel, Beobachtung ist ein Paar (x, f(x)) aus Argument und Funktionswert. Die Aufgabe des induktiven Lernens ist die Berechnung einer Funktion h, die die unbekannte Funktion f möglichst gut annähert, wobei man als Eingabe bzw als Wissen über die Funktion nur die Beispiele verwenden darf. Die Ausgabe des Lernverfahrens h nennt man Hypothese.

11 KI 1, WS 2002/03, Kapitel 8, 4. Juli Da es meistens mehrere (oft unendliche viele) denkbare Hypothesen h gibt, gibt es meist eine Bevorzugung von bestimmten Hypothesen. Diese Bevorzugung nennt man Vorwissen bzw. Vorurteil (engl: bias). Dies kann bei reellen Funktionen z.b. die Bevorzugung von Polynomen von möglichst kleinem Grad und dabei mit geringer Abweichung der h-werte von den Beispielwerten sein. Man unterscheidet die Beispiele oft noch in Trainingsmenge Testmenge Das wird oft so gemacht, dass man die bekannten Beispiele nach einem Schema zerlegt in Trainings- und Testmenge. Diese Partitionierung kann auch zufällig sein. Damit kann man verschiedene Lernverfahren vergleichen, oder die Stabilität eines Lernverfahrens abschätzen: Man macht mehrere Testläufe auf Basis von verschiedenen Trainingsmengen und vergleicht dann die Hypothese mit den Werten der jeweiligen Testmenge PAC-Lernen Eine theoretische Untersuchung zum Lernen und Lernbarkeit von Funktionen ist das sogenannte PAC-Lernen (probably almost correct-learning, Valiant), bei dem die Lernbarkeit bzw. die Komplexität des Lernens von Funktionen aus Folgen von Beispielwerten untersucht wird, wobei stochastische Methoden verwendet werden. Eine grundlegende Idee ist das zufällige Ziehen einer Trainingsund Testmenge aus der Menge der Beispiele. Vereinfacht kann man das PAC-Lernverfahren so beschreiben: Es gibt 0 < ε, δ < 1, ε die Genauigkeit, δ die Konfidenz. Ziel ist das Erlernen einer Funktion (eines Konzeptes) aufgrund einer Anzahl m von (zufälligen) Beispielen, so dass nur mit Wahrscheinlichkeit < δ der Fehler > ε ist. X sei Definitionsbereich von f. D eine Verteilung auf dem Definitionsbereich. Diese ist dem Lernverfahren nicht bekannt. Zudem ist die Verteilung statisch, d.h. sie ändert sich nicht. H die (endliche) Menge der möglichen Hypothesen. m die Anzahl der Beispiele in der Trainingsmenge. Es gibt einen Lehrer, der auf Anfrage m (zufällige) Beispiele vorgeben kann. Wir nehmen an, es gibt einen Test OK(.), der sagt, ob eine Hypothese mit einem Beispiel (x, f(x)) konsistent ist. Das kann z.b. Gleichheit sein, d.h. h(x) = f(x), oder eine Annäherung h(x) f(x) < d.

12 KI 1, WS 2002/03, Kapitel 8, 4. Juli Definition Eine Hypothese h ist konsistent mit m Beispielen (x i, f(x i )), wenn für alle i = 1,..., m: OK(h, x i, f(x i )) gilt. Der Fehler einer Hypothese h wird definiert als error(h) := P {x X OK(h, x, f(x))} Hier wird die Verteilung D angenommen. h ist annähernd korrekt, wenn error(h) < ε für das vorgegebene ε. Wir analysieren die Wahrscheinlichkeit für eine Hypothese h, die konsistent mit m zufällig gewählten Beispielen ist, aber einen zu großen Fehler hat: D.h. error( h) > ε. Die Wahrscheinlichkeit wird gemessen gegen die Verteilung D auf dem Definitionsbereich. Das Lernverfahren gibt normalerweise eine Hypothese aus, die konsistent mit m Beispielen ist, so dass hiermit die Güte bzw. der Fehler dieser Hypothese analysiert wird. Damit ist die Wahrscheinlichkeit, dass h ein Beispiel annähert : P {x X OK(h, x, f(x))} < 1 ε Da das Ziehen der Beispiele randomisiert ist, kann man Unabhängigkeit annehmen und erhält für die Wahrscheinlichkeit, dass h alle m Beispiele annähert, die Abschätzung: P ( h konsistent mit m Beispielen) < (1 ε) m Da es H schlechte Hypothesen h geben kann, erhält man: P (schlechte Hypothese) < H (1 ε) m Bzgl der Konfidenz δ für das Eintreten dieses Ereignisses soll gelten: dann ergibt sich für m: H (1 ε) m δ ln H + m ln(1 ε) ln(δ) Für kleine, positive ε gilt die Abschätzung ln(1 ε) < ε. Deshalb: m 1 ε (ln1 δ + ln H ) Diese Rechnung kann man auch rückwärts durchführen. Wenn ein Lernalgorithmus eine konsistente Hypothese h ausgibt, hat man bei m zufälligen Beispielen mit Wahrscheinlichkeit 1 δ eine Hypothese mit einem Fehler kleiner als ε.

13 KI 1, WS 2002/03, Kapitel 8, 4. Juli D.h. wenn man mehrere Läufe des Lernalgorithmus durchführt, hat man nur einen Anteil δ von Läufen, in denen eine Hypothese mit einem Fehler größer als ε ausgegeben wird. Die Formel sagt, dass man eine Anzahl Beispiele in O(ln H ) benötigt. D.h. eine wichtige Größe in der obigen Abschätzung ist H, die Größe des Hypothesenraumes. Dies kann auch sehr schlecht sein: Will man z.b. Boolesche Funktionen von {0, 1} n {0, 1} lernen, kann man als OK die Gleichheit nehmen, und als Hypothesenraum H Bool die Menge aller Booleschen Funktionen. Dann ist H Bool = 2 (2n), und damit muss m exponentiell groß sein, genauer O(2 n ). Die Menge aller Beispiele ist ebenfalls O(2 n ), so dass Lernen keinen echten Vorteil gegenüber dem Speichern der Beispiele bringt. Um gute Ergebnisse zu erzielen, benötigt man i.a. eine Einschränkung des Hypothesenraumes, damit die Kenntnis der m Beispielwerte überhaupt etwas über die gesuchte Funktion aussagt, das über die Information der Beispiele hinausgeht Lernen von Entscheidungslisten Eine Entscheidungsliste ist eine Liste von Konjunktionen, wobei jede Konjunktion aus Attribut-Tests der Form a = w? besteht. Gegeben ein Objekt o und eine Entscheidungsliste L. Dann ist L(o) = 1, wenn mindestens eine Konjunktion wahr (d.h. = 1) ist. Eine Entscheidungsliste entspricht einem logischen Ausdruck der aus Disjunktionen von Konjunktionen besteht. Er ist von der Abarbeitung her sequentiell im Gegensatz zu Entscheidungsbäumen, aber die Abfragen an den Knoten sind komplexer. Beispiel Eine Entscheidungstabelle für das Beispiel oder kleine, süße Äpfel ist: entweder große, 1. Größe = L? 2. Größe = S Geschmack = süß? Mit Entscheidungslisten kann man alle Mengen beschreiben, allerdings werden die Listen dann sehr lang. Eine Einschränkung sind die k-entscheidungslisten, bei denen die Konjunktionen maximal k Einzelabfragen enthalten dürfen. Um die Abschätzung der Anzahl notwendiger Beispiele zum Erreichen einer hinreichenden Konfidenz des PAC-Lernens auf k-entscheidungslisten anzuwenden, müssen wir nur die Anzahl der Entscheidungslisten abschätzen. Wir nehmen an, dass es n Attribute mit jeweils maximal h Werten gibt. Es gibt maximal n h + 2 (n h) (n h) k Konjunktionen. Das sind

14 KI 1, WS 2002/03, Kapitel 8, 4. Juli O((n h) k ). Die Anzahl der Entscheidungslisten kann man nach oben abschätzen durch: 2 O((n h)k) O((n h) k )! Da in der PAC-Formel nur der Logarithmus vorkommt, können wir logarithmieren. Wir nutzen x! x x aus und erhalten als obere Abschätzung für den lnder Anzahl der k-entscheidungslisten: O((n h) k ) + O((n h) k ln(n h) k ) = O((n h) k ln((n h) k )) Damit ergibt sich bei Fehlerschranke ε und Konfidenz δ als Anzahl der benötigten Beispiele: m 1 (ln ε 1 ) δ + O((n h)k ln((n h) k )) D.h. die Anzahl der notwendigen Beispiele ist polynomiell. 8.4 Lernen von Konzepten einer Konzeptbeschreibungssprache Der allgemeine Fall in dieser Lernaufgabe sieht so aus: Man hat eine Objektbeschreibungssprache, in der Objekte beschrieben werden. Man hat eine Konzeptbeschreibungssprache, deren Ausdrücke (Konzepte) als Semantik eine Menge von Objekten haben. Gegeben ist eine Menge von Objekten (Beispielmenge), wobei man positive und negative Beispiele haben kann. Oder eine Folge von Beispielen oder einen Lehrer, der auf Anfrage Beispiele präsentiert. Gesucht ist ein Konzept, das die Beispielmenge repräsentiert und möglichst einfach ist Online-Lernen Diese Lernmethode ist ein überwachtes, inkrementelles, Lernverfahren, bei dem ein Konzept gelernt werden soll. Es gibt einen Dialog zwischen Lernalgorithmus und Lehrer. Man nimmt an, dass die Sprache der Objekte vorgegeben ist, ebenso die Sprache der Konzepte (= potentielle Hypothesen). Das Verfahren zum Lernen eines vorgegebenen Konzeptes K besteht aus mehreren Runden. In jeder Runde präsentiert der Lernalgorithmus seine Hypothese H, beim erstenmal irgendeine Hypothese. Der Lehrer gibt daraufhin, falls die Hypothese

15 KI 1, WS 2002/03, Kapitel 8, 4. Juli H dem Konzept K nicht entspricht, ein Gegenbeispiel an, d.h. ein Objekt aus H K = (H \ K) (K \ H), der symmetrischen Differenz von H und K. Wenn es keine Gegenbeispiele mehr gibt, ist das Lernen erfolgreich beendet. Normalerweise kann es vier Arten von Beispielen geben: 1. Beispiel ist schon im Hypothesenkonzept. 2. Beispiel ist im Hypothesenkonzept, nicht im zu lernenden Konzept K 3. Beispiel ist nicht im Hypothesenkonzept, aber in K 4. Beispiel ist nicht im Hypothesenkonzept, auch nicht in K. Beispieltypen 2. und 3. sind hilfreich, während 1. und 4. bestätigend sind und keine Aktion beim inkrementellen Lernen erfordern. Zur Illustration nehmen wir folgendes an: Die Objekte sind durch n Boolesche Attribute beschrieben. D.h. jedes Objekt entspricht einem binären Tupel der Länge n. Varianten für Konzeptsprachen sind: 1. Es gibt n primitive Konzepte P 1,..., P n, die Konzeptsprache besteht aus P i, P i (Komplemente), und allen Schnitten dieser Konzepte (Monome). Dies entspricht einer Grundmenge der binären Tupel der Länge n, die Hypothesen entsprechen den Monomen, (z.b. P 1 P 2 P 4 ) die aus Konjunktionen von Literalen bestehen. 2. Wie 1, nur sind Komplemente verboten: (monotone Monome). 3. Alle aussagenlogischen Formeln der n primitiven Konzepte. 4. Alle positiven aussagenlogischen Formeln der n primitiven Konzepte. Die (hilfreichen) Gegenbeispiele in H K = (H \ K) (K \ H) kann man in positive Gegenbeispiele K \ H und negative Gegenbeispiele H \ K unterscheiden. Die hier interessierende Fragestellung ist die nach der Anzahl der Runden, bzw. Anzahl der Gegenbeispiele, die der Lehrer angeben muss, bis das Konzept gelernt ist. Aussage Die maximale Anzahl benötigter Gegenbeispiele beim optimalen Lernen ist: Für die Monom-Klasse mit n primitiven Konzepten: n + 1. Für die Menge der aussagenlogischen Formeln: 2 n. Das entspricht dem Lernen einer beliebigen Menge in {0, 1} n : da jede Menge als Konzept erlaubt ist, muss man für jedes der 2 n Element sagen, ob es dazu gehört oder nicht. Das optimale, inkrementelle Verfahren funktioniert folgendermaßen:

16 KI 1, WS 2002/03, Kapitel 8, 4. Juli Lernverfahren gibt Hypothese P 1 P 1 aus. (ist leer) 2. Lehrer präsentiert Gegenbeispiel, das man als binäres n-tupel angeben kann. Eine 1 an der i-ten Stelle entspricht der Angabe: Objekt ist im Konzept P i, eine 0 bedeutet ist nicht im Konzept P i. 3. Lernverfahren gibt als Hypothese einen Schnitt von n Literalen aus. Das entspricht dem kleinsten Konzept, das genau dieses Objekt enthält. 4. Falls K H: Lehrer präsentiert Gegenbeispiel. Ansonsten akzeptiert der Lehrer die Hypothese H. 5. Das Lernverfahren eliminiert mindestens ein Literal aus dem aktuellen Hypothese entsprechend dem Gegenbeispiel, so dass eine minimale Hypothese erzeugt wird und gibt die neue Hypothese aus. Danach weiter mit 4. Das vom Lehrer präsentierte Gegenbeispiel muss ein positives sein, denn das Lernverfahren versucht möglichst Hypothesen mit minimalen Objektmengen zu erzeugen Konzeptlernen über Objekten mit mehrwertigen Attributen Ein etwas allgemeinerer Fall des Konzeptlernen ist, dass Objekte durch diskrete Attribute und deren Werte beschrieben werden, und die Konzeptsprache noch Subsumtionsalgorithmen (d.h. Alg. für Teilmengenbeziehungen) auf den Konzeptbeschreibungen hat. Man nennt die inkrementellen Lernverfahren in diesem Szenario auch Versionenraum-Lernverfahren. Wir betrachten jetzt eine einfache Konzeptsprache, die neben den Attributwerten noch? zulässt. Das entspricht primitiven Konzepten der Form a i = w i, und deren Schnitten (keine Komplemente). Zusätzlich erlaubt man noch als Zeichen für das leere Konzept. Im Apfelbeispiel wäre dann F arbe =?, Geschmack = sauer das Konzept, dessen Semantik die Menge der Objekte ist, die alle sauren Äpfel unabhängig von deren Farbe enthält. Auf den Konzepten ist eine Ordnung definiert, die Spezialisierung bzw. Generalisierung ausdrückt. z.b. gilt < Farbe =?, Geschmack = sauer < Farbe =?, Geschmack =? Diese Ordnung ist i.a. nicht linear. I.a. sind die Lernverfahren zur Erzeugung eines Konzepts darauf ausgelegt, inkrementell zu arbeiten. Das Versionenraum-Lernverfahren ist inkrementell, und hat als Zustand die Menge der Hypothesen, die konsistent mit den bisher gesehenen Beispielen sind: {H Hist konsistent mit bisherigen Beispielen}

17 KI 1, WS 2002/03, Kapitel 8, 4. Juli Dies nennt man auch den Versionenraum. D.h. die gesehenen Beispiele werden vergessen. Eine kompaktere Repräsentation des Versionenraums ist die Angabe der unteren S und oberen Grenzen G des Versionenraums, der speziellsten Hypothesen und der allgemeinsten Hypothesen. Wenn S = {S 1,..., S n } und G = {G 1,..., G m }, dann ist der Versionenraum genau: {H i, j : S i H G j }. Bei Eingabe eines neuen Beispiels werden die Mengen S und G neu berechnet. Man kann die Mengen G, S minimieren, wenn man die Bedingung prüft, ob zu jedem G i noch ein S j existiert mit S j G i. Auch umgekehrt ist zu testen, allerdings ist dieser Fall praktisch kaum relevant. Wenn S = G und S, G einelementig sind, war das Verfahren erfolgreich. Im Falle der?-konzepte kann man die Menge S immer einelementig halten: Man startet mit, dann mit dem jeweils kleinsten Hypothese, die alle positiven Beispiele enthält. Bei einem neuen Gegenbeispiel wird eine Hypothese berechnet, die allgemeiner als die alte Hypothese ist, und gerade noch dieses Beispiel enthält. Die Menge G kann mehrere Elemente enthalten, im Extremfall exponentiell viele. In diesem Fall ist es einfacher und effizienter, sich die (negativen) Beispiele zu speichern. Ein negatives Gegenbeispiel zu S führt zu einem Abbruch des Verfahrens, da das nur bedeuten kann: es gibt falsch klassifizierte Beispiele, oder die Konzeptsprache ist nicht ausdrucksstark genug. Beispiel Betrachte die Äpfel-Konzepte: Attribute und Werte seien: Geschmack süß, sauer Farbe rot, gelb, grün Herkunft Deutschland, Italien, Argentinien Größe S,M,L Gelernt werden soll das Konzept: große (L), süße Äpfel. 1. Hypothese = Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Italien, L. 3. S = süß,?, Italien, L, G =?,?,?,?. neues Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G =?,?,?,?. Alternativer Ablauf:

18 KI 1, WS 2002/03, Kapitel 8, 4. Juli Hypothese = positives Beispiel: süß, rot, Italien, L 2. S = süß, rot, Italien, L, G = {?,?,?,? }. negatives Beispiel: süß, gelb, Argentinien, S. 3. S = süß, rot, Italien, L, Kandidaten für G: sauer,?,?,?,?, rot,?,?,?, grün,?,?,?,?, Deutschland,?,?,?, Italien,?,?,?,?, M,?,?,?, L. Davon bleiben wegen der Bedingung S G i : G = {?, rot,?,?,?,?, Italien,?,?,?,?, L }. positives Beispiel: süß, gelb, Argentinien, L. 4. S = süß,?,?, L, G = {?,?,?, L }. negatives Beispiel: sauer, rot, Deutschland, L. 5. Unter Beachtung der Bedingungen ergibt sich jetzt ein neues G = { süß,?,?, L }. Da S = G 1, ist das Konzept gefunden Batchverfahren zum Erzeugen einer Hypothese Hat man eine Menge von positiven und negativen Beispielen, dann kann man direkt eine minimale Hypothese konstruieren, die alle positiven Beispiele enthält, und kein negatives: Erzeugung eines Konzepts als Hypothese Für jedes Attribut a: Haben alle positiven Beispiele genau die Ausprägung w a, dann gilt für das allgemeine Konzept K min : a = w a. Hat das Attribut a zwei verschiedene Ausprägungen in der Menge der positiven Beispiele, dann hat das allgemeine Konzept die Ausprägung?. Damit hat man eine minimale Hypothese konstruiert, die alle positiven Beispiele enthält. Nun ist die Hypothese gegen die negativen Beispiele zu testen, Enthält die Hypothese ein negatives Beispiel, dann ergibt sich ein Fehler: Entweder sind die Beispiele inkonsistent, oder die aktuelle Konzeptsprache ist nicht ausdrucksstark genug. Das zu lernende Konzept kann allgemeiner als K min sein. Man kann versuchen, attributweise allgemeinere Konzepte zu erzeugen, indem man z.b.

19 KI 1, WS 2002/03, Kapitel 8, 4. Juli K min,1,... K min,n aus K min erzeugt, indem man jeweils das i-te Attribut, falls es nicht schon? ist, auf? setzt. Danach kann man wieder gegen die Menge der negativen Beispiele testen. Verallgemeinerungen der Konzeptsprachen Eine ausdrucksstärkere Konzeptsprache ist: Erlaube a = M a für Attribute a, wobei M a eine Teilmenge der möglichen Ausprägungen von a ist ist. Damit kann man Quader im Objektraum erzeugen. Diese Sprache nennen wir Quader-Konzepte. Erlaube Disjunktionen der Quader-Konzepte. Damit kann man bereits alle Konzepte darstellen, wenn die Menge der Attribute und Ausprägungen endlich ist. Erzeugung eines Konzepts als Hypothese: Variante Wir geben ein alternatives Verfahren zum Erzeugen einer Hypothese an. Die Suchrichtung sei jetzt allgemein nach speziell. Damit man etwas sinnvolles machen kann, erlauben wir die Quader-Konzept- Sprache: Starte mit dem allgemeinsten Konzept?,...,?. Wenn es negative Beispiele gibt, dann erzeuge alle Konzepte :?,...,?, M i,?,...,? wobei M i alle Mengen durchläuft, die zum Attribut a i genau einen Attributwert nicht enthalten. Danach teste, welche K alle positiven Beispiele enthalten. Setzt man dieses Verfahren fort, dann erhält man schließlich Konzepte, die alle positiven Beispiele enthalten, aber kein negatives Beispiel. Leider ist dieses Verfahren exponentiell, da die Menge der zu betrachtenden Konzepte sehr schnell ansteigt. Die Gefahr der Übergeneralisierung (overfitting) ist bei dieser Konzeptsprache sehr hoch, da sich durch die Allgemeinheit der Quaderkonzepte die Hypothese zu sehr an der aktuellen Menge der Beispiele orientiert Diskussion Die Wahl einer Konzeptbeschreibungssprache kann das Lernverfahren sehr stark beeinflussen. Diese Wahl gehört zum Vorwissen bzw. Vorurteil (Bias) über die Umgebung. Eigentlich müsste auch die Konzeptbeschreibungssprache erst aufgrund der Beispiele gelernt werden. Probleme mit der Versionenraum-Methode sind: sie kann nicht mit verrauschten Daten umgehen.

20 KI 1, WS 2002/03, Kapitel 8, 4. Juli erlaubt man eine zu ausdrucksstarke Konzeptbeschreibungssprache, dann erhält man meist eine zu genaue Beschreibung der Beispiele, und keine Generalisierung. 8.5 Lernen in Künstlichen Neuronalen Netzen Berechnung in einem künstlichen neuronalen Netz geschieht nach folgendem Muster: Es gibt Berechnungelemente (die Neuronen); diese haben mehrere reellwertige Eingänge, und eine reelle Ausgangsaktivierung, die anderen Neuronen als Eingang dient oder eine Ausgabe ist. Das Ergebnis der Berechnung ist die Aktivierung des Ausgangs. Zunächst eine schematische Darstellung einer Nervenzelle (Neuron) Schematische Nervenzelle (Neuron) Dendriten Axon Synapsen Dendriten Die Erregung fließt im Bild von links nach rechts. Die Dendriten links gehören zu verschiedenen anderen Nervenzellen. Wenn die (elektrische) Erregung in der Nervenzelle durch die anliegenden Erregungen der Dendriten, evtl. gedämpft bzw verstärkt durch die Synapsen in der Zelle ein bestimmtes Maß überschreitet, dann feuert die Nervenzelle, d.h. gibt die Erregung über ihr Axon an die Dendriten und somit an andere Nervenzellen weiter. Ein künstliches Neuron kann man beschreiben als: g( j (W j a j )) g ist die Aktivierungsfunktion; sie ist (bis auf eine additive Konstante) die gleiche für alle Neuronen eines Netzwerks. W j sind die privaten Gewichte des Neurons (reellwertig). a j sind die Eingangsaktivierungen.

21 KI 1, WS 2002/03, Kapitel 8, 4. Juli a 1 W 1 W n Σw i a i ; g a n Es gibt verschiedene Aktivierungsfunktionen g, die man verwenden kann. { 1 x t Schwellenwertfunktion: g(x) = 0 x < t { 1 x t Signum-Funktion: g(x) = 1 x < t Sigmoid-Funktion: g(x) = e x Durch Hinzufügen einer additiven Konstante W 0 pro Neuron kann man erreichen, dass die Aktivierungsfunktionen für alle Neuronen eines Netzes identisch sind Schwelle Sigmoid Für einfache Berechnungen reicht die Schwellenwertfunktion aus, während bei komplexeren Lernverfahren die Sigmoid-Funktion (oder eine ähnliche) geeignet ist, denn die Ableitung wird benötigt. Privat für jedes Neuron sind: Die Gewichte für die Eingänge.

22 KI 1, WS 2002/03, Kapitel 8, 4. Juli Die Herkunft der Eingänge: das kann eine Eingabe ins Netz sein oder der Ausgang eines anderen Neurons. Die Weitergabe der Aktivierung: kann Ausgabe des Netzes sein oder Eingang in andere Neuronen. Man kann damit bereits einfache Boolesche Gatter modellieren, ebenso Boolesche Schaltnetze: Dazu nehmen wir als Aktivierung genau 0 oder 1 an. AND zwei Eingänge x{ 1, x 2, Gewichte W 1 = W 2 = 1, W 0 = 1.5 Schwelle = 0. 1 x1 + x D.h. Ausgang = x 1 + x < 0 OR zwei Eingänge x 1,{ x 2, Gewichte W 1 = W 2 = 1, W 0 = 0.5, Schwelle = 0. 1 x1 + x D.h. Ausgang = x 1 + x < 0 NOT ein Eingang x 1,{ Gewicht W 1 = 0.5, W 0 = 0, Schwelle = x1 0 D.h. Ausgang = 0 0.5x 1 < 0 Durch Zusammenschaltung kann man beliebige Boolesche Schaltnetze erhalten, wobei man mehrere Eingänge haben kann, und bei Booleschen Funktionen einen Ausgang oder mehrere Ausgänge. Netzwerkstrukturen Künstliche neuronale Netzwerke sind gerichtete Graphen und haben (evtl. mehrere) Eingänge und Ausgänge, wobei die Knoten jeweils künstliche Neuronen sind. Wenn das Netzwerk zyklenfrei ist, dann nennt man es auch feed-forward (Schaltnetz); wenn es Zyklen enthält, dann nennt man es auch recurrent. Wir betrachten in diesem Abschnitt nur zyklenfreie und auch nicht zeitabhängige Netze, damit die Betrachtung einfacher wird. Neuronen, die mit einem Eingang verbunden sind, nennt man Input-Units (Eingangs-Neuronen), solche die mit einem Ausgang verbunden sind Output- Units, innere Neuronen nennt man hidden units. Die Eingangsneuronen geben ihre Aktivierung unverändert weiter. Netzwerke ohne innere Neuronen nennt man Perzeptrons. Man kann Schaltnetze auch als (Mehrschichten) Multi-Layer Netzwerke strukturieren.

23 KI 1, WS 2002/03, Kapitel 8, 4. Juli Berechnungen eines Netzes finden statt durch Eingabe von Werten in die Eingänge. Jedes Neuron berechnet dann seinerseits seine Aktivierung und gibt diese Aktivierung weiter. Die Berechnungen warten jeweils, bis alle Eingangswerte von Neuronen vorliegen. Am Ende kann man die Ausgaben an den Ausgangsneuronen ablesen. Da es keine Zyklen gibt, ist diese Berechnung definiert. Die Berechnung kann im Prinzip parallel erfolgen. solange die Bedingung des Wartens auf berechnete Werte erfüllt wird. Sind Gewichte auf Kanten = 0, dann kann man das auch als fehlende Verbindung werten Perzeptron (Minsky und Papert 1969) Wie oben gesagt, besteht ein Perzeptron nur aus zwei Schichten, die erste Schicht ist die der Eingangs-Neuronen, die zweite die der Ausgangs-Neuronen, und diese sind direkt verbunden, wobei allerdings die Gewichte einiges an Flexibilität erlauben. Um die Prinzipien und Fähigkeiten von Perzeptronen zu untersuchen, reicht es aus, genau ein Ausgangsneuron zu betrachten, da alle Ausgänge unabhängig voneinander sind. Weiterhin reicht es aus, als Aktivierungsfunktion eine Schwellenwertfunktion zu betrachten. Es geht nur ein rechnendes Neuron ein. Wie oben schon erwähnt, kann man beim Rechnen mit Schwellenwert- (Threshold)-Funktionen die Schwelle t auf 0 setzen, und muss dazu ein Gewicht W 0 einführen. Dieses Gewicht verbindet man mit einer extra Eingabe, die immer den Wert 1 (manchmal auch 1) hat. Ein Perzeptron hat als Ausgang: O = schwelle( n (W j I j )) wobei I j die Eingangswerte und O der Ausgabewert ist. Leider sind Perzeptrons in ihrer Ausdruckskraft doch beschränkt: Sie können nur linear trennbare Mengen von Eingängen unterscheiden. Ein Perzeptron kann ja als Ausgang nur 0 oder 1 haben, wenn die Eingänge entsprechend sind. Da die Unterscheidung nur danach geht, ob die (lineare) gewichtete Summe n j=0 j=0 (W j I j ) der Eingänge, über oder unter einem Schwellenwert liegt, kann man nicht beliebige Eingangsvekor-Mengen trennen. Im n- dimensionalen Raum müssen sich die guten und schlechten Punkte durch eine Hyperebene trennen lassen. Diese Hyperebene wird durch die Gleichung n (W j x j ) beschrieben. Z.B. kann die Funktion XOR nicht mit einem Perzep- j=0 tron dargestellt werden. Für Netzwerke mit Hidden Units ist das allerdings kein Problem: es können z.b alle Booleschen Funktionen dargestellt werden.

24 KI 1, WS 2002/03, Kapitel 8, 4. Juli Lernen von Linear Trennbaren Mengen/Funktionen durch ein Perzeptron. Das Vorgehen ist ein Batch-Lernverfahren. Es gibt eine Menge von (positiven und negativen) bereits klassifizierten Beispielen. Die Gewichte werden in mehreren Schritten adaptiert, wobei man jeweils das aktuelle Perzeptron verwendet, und die Beispiele damit klassifiziert, und aufgrund des gemachten Fehlers die Gewichte ändert. Der Start erfolgt mit zufälligen Gewichten (man kann auch mit 0 starten). Man iteriert folgenden Schritt: Wähle ein klassifiziertes Beispiel aus der Menge der vorgegebenen Beispiele. Berechne O als die Ausgabe des aktuellen Perzeptrons. Sei Err = T O der Fehler, wobei T der korrekte Wert sei. (Das kann man auf die Werte { 1, 0, 1} beschränken). Berechne neue Gewichte durch Hierbei ist α die Lernrate. W j := W j + α I j Err Es gilt, dass ein Perzeptron mit n Eingängen jede linear trennbare Menge von n Vektoren lernen kann. Dazu muss die Lernrate klein genug gewählt sein. Beispiel Wir illustrieren das Lernverfahren durch Anwendung auf die Konjunktion von drei Eingaben: a, b, c: D.h. lerne a b c. Die negativen Beispiele seien {(1, 0, 0), (0, 1, 1), (0, 0, 1)}, die positiven Beispiele seien {(1, 1, 1)}. Wir starten mit Gewichten 0, Schwellenwert 1und lassen das Gewicht W 0 weg. Die Lernrate sei α = 0.3. Gewichte Beispiel Wert Klassifikation Error 0,0,0 (1, 0, 0) ,0,0 (1, 1, 1) (0, 0, 1) (1, 1, 1) (0, 1, 1) (1, 1, 1) (0, 1, 1) Man hat bei dem Beispiel den Eindruck, dass man die Lernrate hätte kleiner wählen sollen, oder variabel. Beispiel Lernen der Disjunktion von drei Eingaben: a, b, c: D.h. lerne a b c. Die positiven Beispiele seien {(1, 1, 0), (0, 1, 1), (0, 0, 1)}, die negativen

25 KI 1, WS 2002/03, Kapitel 8, 4. Juli Beispiele seien {(0, 0, 0)}. Wir benutzen die Schwelle 0 und stattdessen einen extra Eingang, der immer den Wert 1 hat, und lassen dessen Gewicht variabel sein. Wir starten mit Gewichten 0.1, 0.1, 0.1, 0.1, und Schwellenwert 0. D.h. die aktuelle Schwelle ist konstant = 0. Die Lernrate sei α = 0.2. Gewichte Beispiel Wert Ausgabe a b c Err 0.1,-0.1,-0.1,-0.1 (1, 0, 0, 1) ,-0.1,-0.1,-0.1 (1, 0, 0, 0) ,-0.1,-0.1,-0.1 (1, 0, 0, 1) ,-0.1,-0.1,0.1 (1, 0, 0, 1) ,-0.1,-0.1,0.1 (1, 1, 1, 0) , 0.1, 0.1,0.1 (1, 0, 0, 0) , 0.1, 0.1,0.1 (1, 0, 0, 0) , 0.1, 0.1,0.1 Dieses Lernverfahren kann man als Gradientenabstieg im Raum der Gewichte ansehen. Für ein Beispiel I 1,..., I n ist die Funktion I i w i. Deren Gradient ist w ( I i w i ) = (I 1,..., I n ), so dass die Richtung gerade durch die Beispieleingabe selbst definiert wird. Durch die Angabe des Fehlers weiß man auch ob ein Maximum oder Minimum zu erreichen ist. Die Schrittweite wird durch die Lernrate festgelegt. In der Computational Learning Theorie gibt es Untersuchungen zur Geschwindigkeit und Effizienz des Lernens von Perzeptrons Mehrschichtige Feed-Forward-Netze Die Netze haben jetzt innere Knoten, die Wirkung der Eingaben geht über mehrere Berechnungsebenen, so dass der Einfluss der Gewichtsveränderungen auf die Ausgaben nicht mehr so einfach wie beim Perzeptron ist. Ein verbreitetes Lernverfahren (auch Training genannt) ist sogenanntes Backpropagation Lernen, bei dem der aufgetretene Fehler rückwärts durch das Netz propagiert wird, um Gewichte abzuändern. Das Vorgehen ist ähnlich zum Perzeptron-Lernverfahren: Es gibt eine Menge von bereits klassifizierten Beispielen, die mehrfach in ein aktuell adaptiertes Netz eingespielt werden. Die berechneten Ergebnisse werden mit den gewünschten Ergebnissen verglichen und führen dann zu entsprechenden Abänderungen. Lernregel für einen Ausgabeknoten i wobei: W j,i := W j,i + α a j Err i g (in i ) W j,i ist das Gewicht zum Link j des Knotens i. a j ist die Aktivierung auf Link j (die evtl. von einer Hidden-Unit kommt).

26 KI 1, WS 2002/03, Kapitel 8, 4. Juli Err i = T i O i : Differenz zwischen der korrekten Ausgabe T i und dem Ergebnis O i. (T i ) ist bekannt, da es eine Ausgabe ist. g ist die Ableitung der Aktivierungsfunktion. Hier nimmt man keine Schwellenfunktion, sondern eine andere, die differenzierbar ist, z.b. gilt 1 für die Sigmoid-Funktion g(x) = 1 + e x, dass g (x) = g (1 g). in i ist die gewichtete Gesamteingabe in Knoten i: d.h. j W j,i a j. Wir definieren die Abkürzung i := Err i g (in i ). Das Verfahren kann man dann auch für die Hidden-Units verwenden. Allerdings benötigt man noch einen Fehler der Hidden-Units, die aber nicht (wie bei den Ausgabeknoten) von einem Lehrer bzw. von einem bekannten Beispiel kommen kann. Man benutzt als Hypothese eine Fehlerfortpflanzung, die rückwärts geht: j := g (in j ) i W j,i i Die Update-Regel wird zu: W k,j := W k,j + α I k j Leider sind Beispiele von Hand etwas schwierig auszuführen. Die unerwünschten Effekte sind z.b., dass Fehler nur über Links rückwärts propagiert werden, die mit Gewicht 0 eingehen. Oder dass die Gewichte nicht konvergieren und nur hin- und herspringen. Ein Problem stellt auch die Symmetrie dar, denn das Verfahren ist ohne Eingriff von außen bzw. ohne eine zufällige Komponente nicht fähig, die Symmetrie zu brechen. D.h. beginnt man mit gleichen Gewichten, und ein gutes Netz ist ein asymmetrisches, dann hat das Verfahren Probleme, diese Asymmetrie zu erreichen, da die Fehlerpropagierung deterministisch ist. Im folgenden ein Versuch, ein Beispiel zu rechnen. Das soll nicht bedeuten, dass man das von Hand versuchen soll. Beispiel Für das Beispiel machen wir folgende Annahmen, damit alles zusammenpasst: Die Gewichte seien 0, wobei 0 bedeutet, dass es keine Verbindung gibt. Die Eingabe zum Gewicht W 0 wird stets als 1 angenommen, damit man einen positiven Schwellenwert hat. Wir wenden das Verfahren an, um das XOR zu lernen, wobei wir ein Netzwerk annehmen mit eine inneren Neuron (hidden unit). Als Netzwerk wählen wir