Eine Ausarbeitung von Marcel Ochel

Transkript

1 Eine Ausarbeitung von Marcel Ochel

2 2

3 3 Vorwort Diese Ausarbeitung ist im Rahmen des Proseminars Künstliche Intelligenz der RWTH- Aachen in der vorlesungsfreien Zeit des Sommersemesters 2003 entstanden. Sie beschäftigt sich mit dem Thema Lernen und Entscheidungsbäume und stützt sich dabei hauptsächlich auf die Aussagen des Werkes Artificial Intelligence, A Modern Approach von Russell & Norvig [1], insbesondere Kapitel 18: Learning from Observations, und es wurden zum Teil auch bereits bestehende Abbildungen übernommen. Jedoch wird auch ein mit diesem Text vertrauter Leser bei der Durchsicht der vorliegenden Ausarbeitung auf den ein oder anderen Gedanken stoßen, der für eine etwas andere Beleuchtung des Themas sorgt. Besonders der Aufbau von Entscheidungsbäumen und der Themenkomplex Noise/Overfitting/Pruning wird um einiges detaillierter erläutert. Bei der Ausarbeitung wurde viel Wert auf die inhaltliche Eigenständigkeit des Themas gelegt. Der Text setzt eigentlich kein spezielles Grundwissen voraus. Allerdings empfiehlt es sich, dass der Leser grob mit dem Konzept und den Termini des Agentendesigns vertraut ist. Die ersten beiden Kapitel des oben erwähnten Werkes von Russell & Norvig bieten dazu eine gute Übersicht. Bleibt eigentlich nicht mehr viel zu sagen, außer: Viel Vergnügen bei der Lektüre des folgenden Textes! Marcel Ochel

4 4 Gliederung 1. Lernen durch Beispiele S Entscheidungsbäume S Induktives Lernen S Lernen in Entscheidungsbäumen..... S Informationstheorie S Qualität der Entscheidungsbaum-Induktion... S Noise und Overfitting S Pruning S Die Performance eines Lernalgorithmus.... S Computational Learning Theory..... S. 18 Literaturverzeichnis S. 20

5 5 1. Lernen durch Beispiele Ein Agent mit der Fähigkeit zu Lernen, besitzt die Eigenschaft aus der Wahrnehmung seiner Umwelt Rückschlüsse ziehen zu können und ist in der Lage, Zusammenhänge und Hintergründe in seiner Umgebung zu erkennen. Dies erlaubt ihm das Aufstellen oder Abändern von Hypothesen und Regeln, die sein späteres Verhalten beeinflussen. Eine gute Möglichkeit, einem Menschen eine Klassifikation begreiflich zu machen, oder ihm zu vermitteln, wann genau eine Regel zutrifft, besteht darin, ihm durch genügend Beispiele ein Gefühl davon zu geben, was gemeint ist. Beispielsweise wird man einem Kind, das wissen will, was denn ein Sportwagen ist, anhand einiger Beispiele relativ rasch den Unterschied zu anderen Autos klar machen können, ohne auch nur ansatzweise eine Definition geben zu müssen. (Es genügen Kommentare wie: das ist ein Sportwagen und das ist kein Sportwagen ) Diese Art des Lernens, das Lernen unter Aufsicht (supervised learning), kann auch leicht auf Künstliche Intelligenzen übertragen werden. Anhand einer Reihe von Beispielen und dem dazugehörigen Feedback (für das Kind lag das Feedback in den Kommentaren), soll der Agent eine Hypothese entwickeln, die möglichst gut das zugrunde liegende Muster erfasst. Aber schauen wir uns dazu zunächst ein Beispiel an: 2. Entscheidungsbäume Wir nehmen an, wir wollten einem Agenten beibringen, wann er auf kurzen Strecken eher mit dem Auto fahren oder aber lieber das Fahrrad benutzen sollte. Die Entscheidung soll mithilfe der Attribute Entfernung in km (<2; 2-5; 5-10), Wetterlage (sonnig; bewölkt; regnerisch) und Parkplatz in der Nähe des Ziels (ja; nein) getroffen werden. Damit der Agent seine Entscheidungen treffen kann, geben wir ihm ein paar Beispiele vor (s. Tabelle 1). Beispiel Attribute Goal Wetter Entfernung Parkplatz Fahrrad/Auto 1 bewölkt 5-10 ja A 2 regnerisch <2 nein F 3 regnerisch 2-5 nein A 4 sonnig <2 ja F 5 bewölkt <2 nein F 6 regnerisch 5-10 nein A 7 bewölkt <2 ja F 8 sonnig 2-5 nein F 9 bewölkt 2-5 nein F Tabelle A: Beispiele zur Fahrrad/Auto-Domäne Das Mindeste, was wir nun von dem Agenten erwarten, ist, dass er sich in exakt denselben Situationen genauso verhält, wie wir es ihm durch die Beispiele vorgegeben haben (das funktioniert natürlich nur, solange sich die Beispiele nicht widersprechen). Man muss sich also erst einmal überlegen, wie denn überhaupt das Performance-Element des Agenten auszusehen hat, der unseren (niedrigen) Ansprüchen genügen soll. Eine Möglichkeit, die vorgegebenen Verhaltensweisen zu speichern, ist durch die Struktur eines Entscheidungsbaumes gegeben.

6 6 Ein Entscheidungsbaum liefert zu einem gegebenen Input in Form eines durch eine Reihe von Attributen beschriebenen Objektes bzw. einer durch Eigenschaften beschriebenen Situation als Output-Wert die zugehörige Entscheidung. Im Falle unseres Fahrrad/Auto- Beispiels kann man folgenden Entscheidungsbaum konstruieren: Abbildung 1: Entscheidungsbaum zu Tabelle A (Fahrrad/Auto-Domäne) Da diese Art der Darstellung für Menschen sehr intuitiv ist, werde ich sie nicht näher beschreiben und direkt zum eigentlichen Problem vorstoßen. Ein Agent, dessen Verhalten durch die Rückgabewerte des oben angegebenen Entscheidungsbaumes bestimmt ist, wird sich zwar gut in Situationen machen, die genau so wie die gegebenen Beispiele sind, es gelingt ihm aber nicht, Schlüsse über Situationen zu ziehen, die auch nur ein wenig von den bekannten abweichen. So wird der Agent z.b. nicht wissen, wie er sich entschieden soll, wenn er bei gutem Wetter eine Strecke über bis zu zwei Kilometer zurücklegen soll und kein Parkplatz in der Nähe des Zielortes ist. Die Antwort liegt auf der Hand, da er in der gleichen Situation mit anderer Wetterlage, sowohl bei Bewölkung als auch bei Regen, das Fahrrad nehmen würde. Jedoch vermag er nicht sein antrainiertes Verhalten auf die neue Situation zu übertragen. Noch basiert das Verhalten des Agenten also nur auf Reflexen und hat nichts mit Lernen zu tun. Wie kann man den Agenten nun dazu bringen, selbständig ein zugrunde liegendes Muster zu erkennen und Regeln für unbekannte Situationen aufzustellen? Die Antwort ist einfacher, als man zunächst annehmen mag

7 7 3. Induktives Lernen Um das oben gestellte Problem zu lösen, bringen wir es erst einmal auf eine formale Ebene. Neben dem vorgestellten supervised learning unterscheidet man natürlich auch noch zwischen anderen Arten des Lernens. So verlangen das unsupervised learning und das reinforcement learning gänzlich andere Herangehensweisen. Wir wenden uns hier jedoch ausschließlich dem Problem des supervised learning zu. Diese Art des Lernens, auch induktives Lernen genannt, ist oben dadurch vorgestellt worden, dass anhand einer Reihe von Beispielen eine Hypothese aufgestellt wird, die möglichst gut das zugrunde liegende Muster erfasst. Mathematisch gesehen ist ein Beispiel als Paar (x, f(x)) zu verstehen, wobei x der Input einer Funktion f ist, die als Output den Funktionswert f(x) ausgibt. Zur Veranschaulichung kann man sich diese Funktion als Entscheidungsbaum vorstellen, für den wir bereits geklärt haben, was unter dem jeweiligen Input und Output zu verstehen ist. Allerdings ist die Funktion im Allgemeinen abstrakt und die Art ihrer Darstellung unbekannt nicht nur das, auch die Funktion f selber ist in den meisten Fällen unbekannt (wir wollen sie ja erst durch das Lernen erfassen). Induktives Lernen ist dann wie folgt definiert: Anhand einer Reihe von Beispielen von f wird eine Funktion h aufgestellt, die f approximiert. Die Funktion h ist die gesuchte Hypothese und die Funktion f ist das, was wir zuvor das zugrunde liegende Muster genannt haben. Das Problem des induktiven Lernens ist nun, dass man im Allgemeinen nicht weiß, ob sich eine Hypothese h gut der ursprünglichen Funktion f annähert. Betrachten wir z.b. die Approximation einer reellwertigen Funktion, wobei nur einige Stützstellen bekannt sind. Ohne genaueres Wissen über die ursprüngliche Funktion f können wir nicht sagen, ob diese Funktion eher durch ein Polynom 7. Grades (Abb. 2b) oder durch eine lineare Annäherung (Abb. 2a) beschrieben werden kann. Wir könnten unendlich viele Funktionen finden, die in den gegebenen Stützstellen mit f übereinstimmen, oder anders ausgedrückt, die mit f konsistent sind. Abbildung 2: Approximation einer reellwertigen Funktion zu gegebenen Stützstellen Welche Funktion ist nun also zu wählen, wenn mehrere Hypothesen mit f konsistent sind? Eine Antwort darauf bietet Ockhams Messer: Wähle die einfachste Hypothese, die mit den gegebenen Daten konsistent ist. Im obigen Beispiel ist dies ganz klar das lineare Polynom, aber im allgemeinen Fall ist es nicht immer so leicht, die einfachste Hypothese auszuwählen.

8 8 Generell ist es wichtig, den Raum, der die möglichen Hypothesen enthält, nach Möglichkeit einzuschränken. Oben hatten wir als Hypothesenraum bereits den Raum der Polynome n-ten Grades angenommen, was aber immer noch unendlich viele Wahlmöglichkeiten ließ. Andererseits wissen wir auch nicht, ob das Auffinden der Funktion f schon allein dadurch ausgeschlossen wird, weil sie sich nicht mehr im eingeschränkten Hypothesenraum befindet. Abbildung 3: (a) Polynomielle Approximation (b) Sinusoidale Approximation Im nebenstehenden Beispiel wird die gesuchte Funktion in (Abb. 3a) einmal durch ein Polynom 6. Grades und einmal durch eine grobe lineare Annäherung approximiert. Lassen wir als Hypothesenraum nur die Polynome n-ten Grades zu, so gibt es keine einfachere mit allen Daten konsistente Hypothese als das angegebene Polynom 6. Grades. Jedoch stellt die Funktion (Abb. 3b) der Form ax + b + csinx eine viel einfachere konsistente Approximation der Funktion f dar und wäre nach Ockhams Messer wohl eher geeignet, die ursprüngliche Funktion auszudrücken. Das sollte verdeutlichen, dass das Festlegen des Hypothesenraums keineswegs ein triviales Problem ist. Nun wollen wir uns aber endlich wieder unserem Beispiel von vorhin zuwenden.

9 9 4. Lernen in Entscheidungsbäumen Vorhin hatten wir einen Entscheidungsbaum konstruiert, der zu allen gegebenen Fahrrad/Auto-Beispielen konsistent war. Es gibt aber ohne Zweifel noch viele andere Bäume, die diese Eigenschaft aufweisen. Nach Ockhams Messer ist es nun unser Ziel, den einfachsten bzw. kleinsten dieser Entscheidungsbäume zu finden. Schon durch relativ kleine Modifikationen können wir den Baum erheblich vereinfachen und dem Agenten so durch die Generalisierung seiner Verhaltensregeln auch die Reaktion auf unbekannte Situationen ermöglichen. Wenn etwa ein Teilbaum nur noch Blätter mit denselben Entscheidungen aufweist, dann können alle Pfade, welche zu diesen Blättern führen, abgekürzt werden, indem man einfach den ganzen Teilbaum streicht und an die entsprechende Stelle die Entscheidung einfügt. Abbildung 4: Reduzierter Entscheidungsbaum zur Fahrrad/Auto-Domäne (vgl. Abb.1) Erstaunlicherweise hat der Agent nun eine Antwort auf unsere Frage von vorhin und er wird bei sonnigem Wetter eine Entfernung von bis zu 2 km mit dem Fahrrad zurücklegen, egal ob ein Autoparkplatz in der Nähe ist oder nicht. Generell wird er sogar jede Strecke bis 2 km Entfernung mit dem Fahrrad zurücklegen wollen, was uns auf einen neuen Gedanken bringt: Der obige Entscheidungsbaum ist bei weitem nicht der einfachste, der mit allen Daten konsistent ist und wie es scheint ist das Attribut Entfernung sehr ausschlaggebend in der Entscheidungsfindung. Was würde passieren, wenn wir dieses Attribut als Wurzel benutzen würden? In der Tat ergibt sich ein wirklich winziger Entscheidungsbaum, der eine gute Generalisierung der Beispiele darstellt. Außerdem kann man nun zwei bemerkenswerte Eigenschaften beobachten. Der neue Entscheidungsbaum kommt vollkommen ohne das Attribut Parkplatz aus und damit wurde gleich ein weiteres Problem aus der Welt geschafft: Trotz der Abbildung 5: Stark reduzierter Entscheidungsbaum (vgl. Abb.4) Vereinfachung des obigen Entscheidungsbaumes, konnte der Agent noch immer nicht die Situation bewerten, in der ein Parkplatz in Zielnähe gegeben ist und eine Strecke von 2-5 km bewältigt werden muss. Der neue Entscheidungsbaum gibt für jede Situation eine Entscheidung zurück ob die in jedem Fall korrekt ist, ist eine andere Frage. Auf jeden Fall ist sie aber immer noch mit allen gegebenen Beispielen konsistent.

10 10 Jetzt fragt man sich natürlich: Lässt sich das auch auf andere Beispiele übertragen? Und die Antwort ist natürlich Ja! Schließlich haben wir oben schon die Grundidee eines Algorithmus angegeben, der zu kleinen und damit zu guten Entscheidungsbäumen führt. Der Trick ist es, das wichtigste Attribut zuerst in den Baum zu schreiben, also das, welches am meisten zur Klassifikation eines Beispiels beiträgt. Der Einfachheit halber werde ich im Nachfolgenden davon ausgehen, dass das Goal lediglich zwei Entscheidungsmöglichkeiten bietet (wie etwa Fahrrad/Auto oder Ja/Nein) und diese mit positiv und negativ bezeichnen. Im Grunde macht es aber keinen Unterschied, ob das Goal noch mehr Zustände unterstützt. Der unten angegebene Algorithmus ist dann nur entsprechend anzupassen. Insgesamt geht man rekursiv von der Wurzel bis zu den Blättern auf folgende Weise vor: 1. Gibt es positive und negative Beispiele, so suche man das Attribut, welches diese am besten aufteilt. 2. Sind die verbleibenden Beispiele alle positiv oder alle negativ, so kann man eine eindeutige Entscheidung geben und ist fertig. 3. Falls keine Beispiele mehr zur Verfügung stehen, bedeutet das, dass für diesen speziellen Fall kein Beispiel gegeben wurde und als Ergebnis gebe man die Entscheidung zurück, die mehrheitlich unter diesem Attribut getroffen wird. 4. Gibt es noch unterschiedliche Entscheidungsmöglichkeiten und sind keine Attribute mehr übrig, so haben wir zwei oder mehr Beispiele, die sich widersprechen (dieselbe Beschreibung durch Attribute verschiedene Rückgabewerte). Dies nennt man Noise und wir werden später noch auf diesen Fall eingehen. Im Moment soll es genügen, einfach die Mehrheitsentscheidung zurückzugeben. Dieses Verfahren stellt zwar eine gute Möglichkeit dar, kleine Entscheidungsbäume zu erzeugen, der Knackpunkt ist jedoch: Wie finde ich bei umfangreichen Beispielen mit zahlreichen Attributen heraus, welche Attribute wichtig sind bzw. ordne sie nach ihrer Wichtigkeit an? Ein solches Beispiel ist unten abgebildet. Man merkt schon, dass diese Frage eine etwas theoretischere Herangehensweise erfordert. Daher wollen wir uns ein wenig der Informationstheorie bedienen. Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X1 Yes No No Yes Some $$$ No Yes French 0-10 Yes X2 Yes No No Yes Full $ No No Thai No X3 No Yes No No Some $ No No Burger 0-10 Yes X4 Yes No Yes Yes Full $ Yes No Thai Yes X5 Yes No Yes No Full $$$ No Yes French >60 No X6 No Yes No Yes Some $$ Yes Yes Italian 0-10 Yes X7 No Yes No No None $ Yes No Burger 0-10 No X8 No No No Yes Some $$ Yes Yes Thai 0-10 Yes X9 No Yes Yes No Full $ Yes No Burger >60 No X10 Yes Yes Yes Yes Full $$$ No Yes Italian No X11 No No No No None $ No No Thai 0-10 No X12 Yes Yes Yes Yes Full $ No No Burger Yes Tabelle B: Beispiele zur Restaurant-Domäne

11 11 5. Informationstheorie In der Informationstheorie bezeichnet der Term Information bzw. Informationsgehalt eine berechenbare Größe, die in bits angegeben wird. Die Antwort auf eine Ja/Nein Frage, über die nichts bekannt ist, beinhaltet genau 1 bit an Information. Der Wert des Informationsgehalts hängt im Allgemeinen von den Wahrscheinlichkeiten der möglichen Antworten ab: Seien P(v i ) die Wahrscheinlichkeiten der n möglichen Antworten v i. Der Informationsgehalt I berechnet sich dann folgendermaßen: I ( P( v 1 ).. P( v n )) = n i = 1 ( P( v i ) log 2 ( P( v i ))) Für Antworten, bei deren Wahrscheinlichkeiten ungefähr eine Gleichverteilung vorliegt, kann man nur wenige Aussagen treffen und der Wert der benötigten Information, also der Information, die die Antwort enthalten würde, geht gegen 1. Ist die Wahrscheinlichkeit für eine bestimmte Antwort ziemlich hoch, also fast 100%, so geht der Informationsgehalt einer Antwort gegen Null. Zur Veranschaulichung, stellt man sich vor: Wenn man bereits sicher weiß, dass ein gewisses Ergebnis eintritt, bringt einem das Ergebnis selber keine zusätzliche Information mehr. Eine schöne Analogie zum informationstheoretischen Wert des Informationsgehaltes stellt die folgende Frage dar: Wie viel wäre ein Mensch vernünftigerweise bereit für eine bestimmte Information zu zahlen? Betrachten wir als Beispiel den Wurf einer gewöhnlichen Münze. Die Wahrscheinlichkeiten für Kopf und Zahl liegen jeweils bei 50% und der Informationsgehalt des Münzwurfergebnisses wäre: 1 I, = 1 2 log log Angenommen ein Spieler dürfte für 50 Cent Wetteinsatz raten, welche Seite der Münze nach einem Wurf oben liegt, und bekäme bei Erfolg 1 zurück. Für das Vorflüstern der richtigen Antwort wäre er wohl bereit, knapp 50 Cent auszugeben, da er dann in jedem Fall etwas gewinnen würde (der Gewinn wäre zwar nicht mehr sehr groß, aber immerhin ). Sei die Münze nun so präpariert, um in 99% aller Fälle Zahl anzuzeigen (und zu 1% Kopf). Der Informationsgehalt wäre diesmal I(1/100, 99/100) = 0,08 bits. Analog zum niedrigen Wert des Informationsgehaltes, würde wohl auch ein Spieler, der über die neue Wahrscheinlichkeitsverteilung von Kopf und Zahl informiert wäre, nicht mehr allzu viel für das Vorflüstern bezahlen wollen; mehr als 1 Cent wäre er wohl nicht bereit auszugeben, da er ansonsten ja immer noch eine 99%-Chance hat. = 1

12 12 Bei einem Entscheidungsbaum ist der Informationsgehalt durch das Verhältnis der positiven und negativen Beispiele gegeben. Soll ein Beispiel richtig klassifiziert, also die richtige Entscheidung zu einem gegebenen Input ausgegeben werden, benötigen wir genau diese Menge an Information. Angenommen wir haben p positive und n negative Beispiele, dann beträgt der Wert im Allgemeinen: p I, p + n n p + n = p p log 2 p + n p + n n n log 2 p + p + n n Bei unserem Fahrrad/Auto-Beispiel sind dies: 2 I, = 2 2 log log , bits Und im Restaurant-Fall mit 6 positiven und 6 negativen Beispielen benötigen wir genau 1 bit Information. Nun suchen wir das Attribut, was am meisten zur Klassifikation eines beliebigen Beispiels beiträgt. Dies können wir herausfinden, indem wir für jedes Attribut bestimmen, wie viel bit Information nach dem Test des Attributes noch benötigt werden; wir bestimmen den sog. Remainder. Da ein Attribut die gegebenen Beispiele in v Untergruppen aufteilt, wobei v die Anzahl der verschiedenen Werte ist, die das Attribut annehmen kann, können wir den Remainder dadurch bestimmen, dass wir die Werte für den Informationsgehalt der Unterbäume berechnen und diese in Verhältnis setzen. Jeder Unterbaum E i aus der Menge E 1 bis E v besitzt p i positive und n i negative Beispiele und hat somit einen Informationswert von I(p i /(p i +n i ),n i /(p i +n i )) bits. Einige dieser Unterbäume werden häufiger gebraucht und andere dienen vielleicht nur zur Klassifikation eines einzigen Beispiels, aber durchschnittlich brauchen wir noch Remainder( A) = v p i + p+ i = 1 n i n p i n i I, p i + n i p i + n i bits an Information. Daher ist der Informationsgewinn (Gain), den wir durch das Testen eines Attributes erhalten, so groß wie die Differenz aus ursprünglichem Informationsgehalt und Remainder, also Gain ( A ) = p n I, p + n p + n Remainder ( A ) Jetzt können wir den Informationsgewinn der Attribute aus unseren Beispielen berechnen. So ist z.b. im Restaurant-Fall das Attribut Patrons am wichtigsten, mit einem Informationsgewinn von 1 Gain ( Patrons ) = 1 6 I ( 0, 1) 1 3 I ( 1, 0) I 2, bits

13 13 Zusammen mit dem zuvor beschriebenen Algorithmus können wir anschließend den verkleinerten Entscheidungsbaum konstruieren: Abbildung 6: Stark reduzierter Entscheidungsbaum zur Restaurant-Domäne (s. Tabelle B) 6. Qualität der Entscheidungsbaum-Induktion Wie wir sehen können, hat der Agent ordentliche Arbeit geleistet und tatsächlich etwas aus den Beispielen gelernt. So wird er z.b. nicht in einem vollen Restaurant einkehren, wenn er keinen großen Hunger hat. Das ist eine allgemeine Verhaltensregel, die über das hinausgeht, was die einzelnen Beispiele aussagen. Damit ist es dem Agenten gelungen, eine gute Hypothese aufzustellen. Gute Hypothesen zeichnen sich dadurch aus, dass sie gut verallgemeinern und wie wir vorher schon festgestellt haben, ist ein Entscheidungsbaum um so allgemeiner, um so einfacher er strukturiert ist. Jetzt kann es natürlich vorkommen, dass der Lernalgorithmus Verallgemeinerungen trifft, die von der tatsächlichen Funktion, welche durch die Hypothese nachgebildet werden soll, abweichen. Wenn wir uns an das Fahrrad/Auto-Beispiel zurückerinnern, können wir beobachten, dass der Agent jede Strecke über 5 km mit dem Auto zurücklegt, obwohl bei strahlendem Sonneschein so eine Fahrt vielleicht eher als Möglichkeit zu einer Fahrradtour genutzt werden könnte. Immerhin trifft er aber eine Entscheidung, statt ratlos auf der Suche nach einer Antwort im Dunkeln zu tappen. Wir hatten oben festgestellt, dass unser endgültig reduzierter Entscheidungsbaum sogar zu jeder Situation eine Entscheidung zurückgibt. Nimmt man dieses Phänomen genauer unter die Lupe, so stellt man fest, dass dies zwar nicht zwangsläufig so sein muss, jedoch mit großer Wahrscheinlichkeit so ist (man kann ein Gegenbeispiel konstruieren, bei dem fast die gesamte Funktion bekannt ist wobei nur eine einzige Stützstelle fehlt und trotzdem kein Entscheidungsbaum zustande kommt, bei dem alle Situationen abgedeckt werden). Die breite Entscheidungsfähigkeit kommt daher, weil ein Großteil an unbekannten Situationen schon durch die Fallunterscheidung des Wurzelattributs abgedeckt wird dieses wurde ja bewusst so gewählt! Tatsächlich tritt der worst-case des angesprochenen Gegenbeispiels nur dann ein, wenn die einzelnen Entscheidungen von allen Attributen nahezu unabhängig sind, also quasi rein zufällig getroffen werden. Dieses Problem, genannt Overfitting, muss aber sowieso gesondert behandelt werden und steht mit dem vorher bereits erwähnten Noise in Zusammenhang.

14 14 7. Noise und Overfitting Noise tritt dann auf, wenn für den Lernalgorithmus mehrere Beispiele dieselbe Beschreibung haben, diese aber unterschiedliche Aktionen bzw. Entscheidungen erfordern. Lässt man beispielsweise bei unserer Restaurant-Tabelle die Attribute Bar, Fri und Type weg, so gleichen sich die Beispiele X2 und X12 in ihrer Beschreibung lediglich die Entscheidung für das Goal WillWait ist eine andere Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X2 Yes No No Yes Full $ No No Thai No X12 Yes Yes Yes Yes Full $ No No Burger Yes Tabelle C: (Scheinbar) widersprüchliche Beispiele zur Restaurant-Domäne (s. Tabelle B) Allgemein kann Noise verschiedene Ursachen haben. Zum einen kann es sein, dass wie oben die zu approximierende Funktion eigentlich mehr Eingabewerte besitzt, diese aber aus irgendeinem Grund nicht in den Beispielen enthalten sind. Es kann aber auch aufgrund von Messungenauigkeit auftreten oder darin begründet liegen, dass der Output zufallsbedingt ist. Haben wir es mit Messungenauigkeiten zu tun, so können wir getrost so vorgehen, wie wir es zuvor schon erwähnt haben: Führen mehrere Beschreibungen zu unterschiedlichen Ergebnissen, so nehme man das am häufigsten zurückgegebene Ergebnis. So kann man auch im Fall fehlender Attribute handeln. Ist jedoch das Ergebnis rein zufällig bedingt, wird es problematisch. Es kann durchaus sein, dass der Agent auf eigentlich irrelevante Attribute zurückgreift und anhand dieser die zufälligen Outputs zu unterscheiden versucht. Tritt dann der Fall ein, dass sich zwei Beispiele widersprechen, würde es wohl kaum Sinn machen, das mehrheitliche Ergebnis zurückzugeben, denn eigentlich stellen ja nicht die beiden widersprüchlichen Beispiele das Problem dar, sondern vielmehr die Tatsache, dass es eigentlich gar keinen Widerspruch gibt, da das Ergebnis rein zufällig ist. In diesem Fall hat man es mit Overfitting zu tun. Gehen wir mal von einem Beispiel aus: wir wollen die Ergebnisse eines Würfeltests an unterschiedlichen Tagen mit mehreren Würfeln untersuchen. Es sollen dazu die Attribute Tag (der Wochentag an dem der Würfel geworfen wurde), Monat (in welchen Monat wir das Ergebnis erhalten haben) und Farbe (die Farbe des Würfels) zur Verfügung stehen. Der Agent, der von diesen Beispielen lernen soll, wird Hypothesen darüber aufstellen, wie das Ergebnis des Wurfes mit Zeitpunkt und Farbe des Würfels zusammenhängt und daraus irgendwelche Schlüsse ziehen. Leider ist dies zum Scheitern verurteilt und der Agent kommt nicht auf die richtige Schlussfolgerung, dass jede Seite des Würfels unabhängig von den Attributen in 1/6 aller Fälle oben liegt. Wir sehen also, dass die Gefahr, falsche Schlüsse zu ziehen, tatsächlich problematisch ist. Overfitting kann sogar dann auftreten, wenn die zugrunde liegende Funktion nicht ganz zufällig ist. Allerdings kann man sich Abhilfe schaffen, indem man den Baum ein wenig zurechtstutzt, mit Hilfe des sog. decision tree pruning.

15 15 8. Pruning Durch Pruning wollen wir irrelevante Attribute herausfiltern, so dass in dem überarbeiteten Entscheidungsbaum nur noch die Attribute enthalten sind, die wirklich wichtig sind. Daraus kann man schließen, dass das pruning etwas mit unserer zuvor eingeführten Größe für die Wichtigkeit eines Attributs, dem Information-Gain zu tun hat. Tatsächlich ist es so, dass der Informationsgewinn für die irrelevanten Attribute gegen Null geht, so dass man durch Streichen aller Attribute, deren Information-Gain fast null ist, den gestutzten Baum erhalten würde bleibt nur noch die Frage, wo die Schranke für die Unterscheidung relevant/irrelevant liegen soll. Da sich die Statistik schon länger mit solchen Fragestellungen beschäftigt, bedient man sich hier altbewährter Methoden, um die Relevanz eines Merkmals zu bewerten. Dazu unterzieht man alle Attribute einem statistischen Signifikanztest. Beim Chi-Quadrat-Pruning wird die Abweichung der Daten von der statistischen Normalverteilung ermittelt. Unter Annahme einer sog. Null-Hypothese, bei der man zunächst davon ausgeht, dass ein gewähltes Attribut absolut gar keinen Einfluss auf das Ergebnis hat, wird die zu erwartende Häufigkeitsverteilung errechnet. Anschließend betrachtet man den Unterschied zu den tatsächlich vorliegenden Daten. Die Summe der Fehlerquadrate gibt dabei Aufschluss über die Wahrscheinlichkeit der beobachteten Abweichung. Ist die Abweichung so groß, dass die Wahrscheinlichkeit für die Korrektheit der Null-Hypothese eher gering ist (kleiner als 5%), so spricht gleichzeitig im Gegenzug eine sehr hohe Wahrscheinlichkeit für einen Zusammenhang zwischen Attribut und der beobachteten Häufigkeitsverteilung. Ein solches Attribut wird signifikant genannt. Betrachten wir nun anhand eines Beispiels das Vorgehen beim Chi-Quadrat-Pruning. Nehmen wir mal an, der Agent sei ein passionierter Pokerspieler und nehme regelmäßig an den Partien seiner beiden KI-Kollegen nai-v-bot und H-Inter-LIST teil. Bei diesen Partien werden jedem Spieler fünf Karten ausgeteilt und sofort aufgedeckt, um den Sieger zu ermitteln. Zur Verbesserung seines Spielverständnisses versucht der Agent, die Abhängigkeit zwischen dem jeweiligen Gewinner einer Partie und den Attributen Wochentag, Kartengeber und Einsatzhöhe zu analysieren. Angenommen, die Information-Gain-Routine gäbe Kartengeber als das Attribut mit dem höchsten Information-Gain zurück. Da der Agent natürlich sogleich Overfitting vermutet, checkt er das Ganze mit dem Chi-Quadrat-Test. Bei allen Spielen hat nai-v-bot das Austeilen ausschließlich seinen beiden Kollegen überlassen. Bezüglich der Häufigkeitsverteilung kann man die folgenden Tabellen aufstellen: Gewinner Kartengeber Agent H-Inter-LIST Agent H-Inter-LIST nai-v-bot (i) Beobachtete Häufigkeiten Gewinner Kartengeber Agent H-Inter-LIST Agent H-Inter-LIST nai-v-bot (ii) Erwartete Häufigkeiten Tabelle D: Häufigkeitstabellen zum Pokerspiel-Beispiel (Chi-Quadrat-Pruning)

16 16 Die Chi-Quadrat-Summe beträgt nun ungefähr: 0,26 + 1,71 + 1,14 + 0,26 + 1,71 + 1,14 = 6,22 Ein Blick in eine Chi-Quadrat-Tabelle verrät, dass diese Abweichung zu ca. 4,4% wahrscheinlich ist und somit das Attribut Kartengeber als signifikant eingestuft werden kann. Also wird dieses Attribut zur Wurzel des Entscheidungsbaumes für die Pokerspiel-Analyse des Agenten und die weiteren Beispiele werden entsprechend danach aufgeteilt. Bei den nachfolgenden Chi-Quadrat-Tests kann jedoch weder das Attribut Wochentag noch das Attribut Einsatzhöhe als signifikant eingestuft werden (in keinem der beiden Zweige, die von der Wurzel ausgehen). Damit ergibt sich nun jedoch ein kleines Problem: Wir können keine eindeutigen Entscheidungsblätter angeben. Dieses Problem kann auf folgende Art und Weise gelöst werden: Ausgehend von der Wurzel führen die beiden Zweige Agent gibt und H-Inter-LIST gibt jeweils zu einem Blatt. Das Blatt muss nun jedoch keine klare Entscheidung mehr enthalten, sondern kann die Häufigkeitsverteilung der entsprechenden Situation widerspiegeln. So wäre das Blatt für den Fall Agent gibt dann beispielsweise mit den Werten [17*Agent 15*H-Inter-LIST 18*nAI-V-Bot] gefüllt. Durch diese Veränderung haben wir allerdings dem Entscheidungsbaum die Möglichkeit genommen, Entscheidungen zu treffen. Dies müsste entsprechend von dem Performance-Element des Agenten abgefangen werden, der dann mit Hilfe eines Zufallsgenerators (unter Umständen unter Berücksichtigung der entsprechenden Wahrscheinlichkeitsverteilung in unserem Beispiel hat H-Inter-LIST ja ein besonderes Talent dafür, sich selber gute Karten zu geben) eine mögliche Entscheidung auswählen könnte. Insgesamt muss man sich allerdings immer fragen, ob das entsprechende Modell dem Zweck noch gerecht wird und ob damit überhaupt eine sinnvolle Interpretation der Realität gegeben werden kann. Schaut man sich nämlich mal die Häufigkeitsverteilung an, die vom Chi- Quadrat-Test bei Annahme der Null-Hypothese erwartet wird (s. Tabelle D), so ist es wohl nicht unbedingt die vernünftigste Annahme, dass H-Inter-LIST generell bessere Siegeschancen hat, obwohl die Verteilung der Karten ja als rein zufällig vorausgesetzt wird. Zum Glück gibt es außer dem Chi-Quadrat-Pruning noch andere Methoden zur Minimierung der Störungen, die durch Noise und Overfitting entstehen. Eine dieser Möglichkeiten, die Cross-Validation-Technik, basiert darauf, von den gegebenen Beispielen immer nur einige auszuwählen und dann den Lernerfolg bei den unterschiedlichen Zusammenstellungen zu messen. Mit der Frage, wie man diesen Lernerfolg bestimmen kann, wollen wir uns im Folgenden auseinandersetzen.

17 17 9. Die Performance eines Lernalgorithmus Bisher haben wir einige gute und schlechte Versionen von Lernalgorithmen kennen gelernt (die verschiedenen Entscheidungsbäume und die Maßnahmen zu ihrer Verkleinerung stellen im Grunde ja verschiedene Lernansätze dar). Wir haben einige als besser als andere erachtet und gesagt worin sich ein guter Lernalgorithmus auszeichnet. Doch um Algorithmen objektiv miteinander vergleichen zu können, brauchen wir eine Größe, mit der wir die Effizienz eines Lernalgorithmus bemessen können. Wir hatten gesagt, dass ein Lernalgorithmus dann gut ist, wenn er die gesuchte Funktion möglichst gut approximiert. Perfekt ist eine Hypothese dann, wenn sie für alle möglichen Beispiele die richtige Klassifikation vorhersagt. Dementsprechend ist ein Lernalgorithmus um so besser, um so mehr Beispiele er korrekt vorhersagen kann dies kann man messen. Will man einen Lernalgorithmus testen, so benötigt man Beispiele, die nicht zum so genannten Trainingsset gehören, also nicht unter denen waren, die der Algorithmus ursprünglich dazu gebraucht hat, seine Hypothese abzuleiten. Da es nicht immer leicht ist, neue Beispiele zu finden, behält man sich einige der bereits bekannten ausschließlich für das Testset vor. Aus den Messergebnissen mit Test- und Trainingssets unterschiedlicher Größe, kann man einen Graphen konstruieren (s. Abbildung 7). Dieser Graph wird Lernkurve oder auch happy graph genannt; happy deshalb, weil man mit wachsender Größe des Trainingssets tatsächlich eine Vergrößerung der Vorhersagegenauigkeit, also einen Lernfortschritt, beobachten kann. Anhand der Lernkurven können wir jetzt zwar sehen, ob ein Algorithmus beim Lernen erfolgreich war, aber wenn wir jede einzelne Variante eines Algorithmus erst auf ihre Richtigkeit testen müssen, Abbildung 7: Lernfortschrittskurve zur Entscheidungsbaum-Induktion mit 100 zufällig gewählten Beispielen aus der Restaurant-Domäne können wir keinerlei allgemeine Aussagen über Lernalgorithmen aufstellen. Gibt es vielleicht eine Möglichkeit die Erfolgsquote eines Algorithmus im Voraus vorherzusagen?

18 Computational Learning Theory Die Computational Learning Theory hilft mit folgendem Ansatz, die oben gestellte Frage zu beantworten: Jede Hypothese, die schwerwiegende Fehler aufweist, wird mit an Sicherheit grenzender Wahrscheinlichkeit schon nach wenigen Beispielen erkannt werden, da falsche Vorhersagen zu erwarten sind. Somit kann keine Hypothese, die mit genügend vielen Beispielen übereinstimmt, ernsthaft falsch sein und folglich ist sie wahrscheinlich annähernd korrekt (engl. probably approximately correct, kurz: PAC). Ist ein Lernalgorithmus also mit einem genügend großen Trainingsset annähernd konsistent (wie wir es bei der vorgestellten Entscheidungsbaum-Induktion ja vorausgesetzt haben), so haben wir es mit einem PAC-Lernalgorithmus zu tun. Es sollte noch dazu gesagt werden, dass die PAC-Annahme nur dann korrekt ist, wenn die Beispiele aus dem Trainingsset und die Beispiele, auf die der Algorithmus später losgelassen wird, auch der gleichen Wahrscheinlichkeitsverteilung unterliegen (sie erfüllen dann die sog. stationarity assumption). Oben sprachen wir davon, dass genügend viele Beispiele im Trainingsset enthalten sein müssen. Doch wie viele sind genügend? Wir wollen dies im Nachfolgenden berechnen. Sei die Menge aller möglichen Beispiele X und H der Hypothesenraum. Außerdem gehen wir davon aus, dass die Ursprungsfunktion f in H enthalten ist. Nun definieren wir den Fehler einer Hypothese als die Wahrscheinlichkeit, dass die Hypothese h von f in einem bestimmten Beispiel x X abweicht. Wenn der Fehler klein genug ist, so haben wir es mit einer annähernd korrekten Hypothese zu tun. Klein genug heißt in diesem Fall: Fehler(h) ε. Alle annähernd korrekten Hypothesen liegen in einer Epsilon-Umgebung um f. Entfernt man diese aus H, bleibt der Raum der unbrauchbaren Hypothesen zurück, H-. Da wir die Anzahl N der Trainingsset-Beispiele berechnen wollen, die mit Sicherheit zu einer PAC-Hypothese führen, also zu einer wahrscheinlich annähernd korrekten Hypothese führen, müssen wir die Wahrscheinlichkeit berechnen, mit der eine nicht annähernd korrekte Hypothese h- H- zu allen N Beispielen konsistent ist: P(h- ist zu allen Beispiele konsistent) (1-ε) N Die Wahrscheinlichkeit, dass mindestens eine solche Hypothese in H- enthalten ist, ist so groß wie die Summe der Einzelwahrscheinlichkeiten. P(H- enthält eine konsistente Hypothese) H- (1-ε) N Dies können wir nach oben abschätzen, denn aufgrund von H- H gilt: P(H- enthält eine konsistente Hypothese) H- (1-ε) N H (1-ε) N Ist der Wert von H (1-ε) N verschwindend gering, also kleiner als δ, so wissen wir, dass wir mit sehr großer Wahrscheinlichkeit eine annähernd korrekte Hypothese erhalten. Somit ist jede Hypothese, die daraus hervorgeht eine PAC-Hypothese.

19 19 Wir können die Wahrscheinlichkeit, dass H- eine konsistente Hypothese enthält, noch weiter nach oben abschätzen, denn für die Exponentialfunktion kennen wir die Abschätzung x e x-1 und somit 1-ε e -ε, weshalb gilt: H (1-ε) N H (e -ε ) N Die Frage von vorher, wie viele Beispiele denn notwendig sind, um eine PAC-Hypothese zu erhalten, ist also gleichbedeutend mit der Suche nach einem N, das die folgende Gleichung erfüllt. H (e -ε ) N δ Umformen ergibt: e (-ε N) H 1/δ 1 e (ε N) H 1/δ ε N log( H 1/δ) und schließlich: N 1/ε ( log(1/δ) + log( H ) ) Die Anzahl der Beispiele, die in Abhängigkeit von ε und δ benötigt werden, um eine PAC- Hypothese zu erhalten, wird Beispielkomplexität genannt. Offensichtlich hängt die Beispielkomplexität stark von der Größe des Hypothesenraums ab - je größer unser Hypothesenraum ist, desto größer ist die Beispielkomplexität. Dies ist ein weiterer Grund für den Erfolg des Ockhamschen Messers. Arbeitet man nämlich mit einem Hypothesenraum, der alle denkbaren Entscheidungsbäume abdeckt, so ist die Beispielkomplexität außerordentlich beträchtlich. In ihrem Komplexitätsverhalten sind Entscheidungsbäume mit n Attributen in etwa mit n-stelligen Booleschen Funktionen vergleichbar. Da jede n-stellige Boolesche Funktion eindeutig durch eine Funktionstabelle der Größe g = 2 n bestimmt wird, wächst die Anzahl aller möglichen n-stelligen Booleschen Funktionen mit 2 g. Damit ist aber die Beispielkomplexität wiederum durch log(2 g ) = 2 n gegeben, womit im Grunde die gesamte Funktionstabelle und die dadurch definierte Funktion vollständig bekannt sein müssen, um eine PAC-Hypothese hervorzubringen. Ockhams Messer bringt hier in den meisten Fällen eine erhebliche Verbesserung, da nur noch ein eingeschränkter Bereich an Entscheidungsbäumen betrachtet wird, indem nur noch nach der einfachsten konsistenten Hypothese gesucht wird. Einen formalen Beweis für die Effizienz der Entscheidungsbaum-Induktion mit den oben aufgezeigten Reduktionsalgorithmen kann ich an dieser Stelle leider nicht liefern (würde in der Tat wohl den Rahmen sprengen), aber es war auch gar nicht Ziel dieser Ausarbeitung, sich formal mit dem Thema Lernen und Entscheidungsbäumen auseinanderzusetzen. Ziel war es, dem Leser in aufbereiteter Form die Grundideen des induktiven Lernens näher zu bringen gerade auch anhand von Beispielen. So sollten allgemein die wichtigsten Prinzipien und ihre Funktionsweisen erörtert werden, ohne durch unnötige Detailfragen Verwirrung zu stiften. Ich hoffe, dass mir das hiermit gelungen ist.

20 20 Literaturverzeichnis [1] Stuart Russell, Peter Norvig: "Artificial Intelligence, A Modern Approach", Second Edition, Prentice Hall Series in Artificial Intelligence, 2002 ISBN