Eine Ausarbeitung von Marcel Ochel

Größe: px
Ab Seite anzeigen:

Download "Eine Ausarbeitung von Marcel Ochel"

Transkript

1 Eine Ausarbeitung von Marcel Ochel

2 2

3 3 Vorwort Diese Ausarbeitung ist im Rahmen des Proseminars Künstliche Intelligenz der RWTH- Aachen in der vorlesungsfreien Zeit des Sommersemesters 2003 entstanden. Sie beschäftigt sich mit dem Thema Lernen und Entscheidungsbäume und stützt sich dabei hauptsächlich auf die Aussagen des Werkes Artificial Intelligence, A Modern Approach von Russell & Norvig [1], insbesondere Kapitel 18: Learning from Observations, und es wurden zum Teil auch bereits bestehende Abbildungen übernommen. Jedoch wird auch ein mit diesem Text vertrauter Leser bei der Durchsicht der vorliegenden Ausarbeitung auf den ein oder anderen Gedanken stoßen, der für eine etwas andere Beleuchtung des Themas sorgt. Besonders der Aufbau von Entscheidungsbäumen und der Themenkomplex Noise/Overfitting/Pruning wird um einiges detaillierter erläutert. Bei der Ausarbeitung wurde viel Wert auf die inhaltliche Eigenständigkeit des Themas gelegt. Der Text setzt eigentlich kein spezielles Grundwissen voraus. Allerdings empfiehlt es sich, dass der Leser grob mit dem Konzept und den Termini des Agentendesigns vertraut ist. Die ersten beiden Kapitel des oben erwähnten Werkes von Russell & Norvig bieten dazu eine gute Übersicht. Bleibt eigentlich nicht mehr viel zu sagen, außer: Viel Vergnügen bei der Lektüre des folgenden Textes! Marcel Ochel

4 4 Gliederung 1. Lernen durch Beispiele S Entscheidungsbäume S Induktives Lernen S Lernen in Entscheidungsbäumen..... S Informationstheorie S Qualität der Entscheidungsbaum-Induktion... S Noise und Overfitting S Pruning S Die Performance eines Lernalgorithmus.... S Computational Learning Theory..... S. 18 Literaturverzeichnis S. 20

5 5 1. Lernen durch Beispiele Ein Agent mit der Fähigkeit zu Lernen, besitzt die Eigenschaft aus der Wahrnehmung seiner Umwelt Rückschlüsse ziehen zu können und ist in der Lage, Zusammenhänge und Hintergründe in seiner Umgebung zu erkennen. Dies erlaubt ihm das Aufstellen oder Abändern von Hypothesen und Regeln, die sein späteres Verhalten beeinflussen. Eine gute Möglichkeit, einem Menschen eine Klassifikation begreiflich zu machen, oder ihm zu vermitteln, wann genau eine Regel zutrifft, besteht darin, ihm durch genügend Beispiele ein Gefühl davon zu geben, was gemeint ist. Beispielsweise wird man einem Kind, das wissen will, was denn ein Sportwagen ist, anhand einiger Beispiele relativ rasch den Unterschied zu anderen Autos klar machen können, ohne auch nur ansatzweise eine Definition geben zu müssen. (Es genügen Kommentare wie: das ist ein Sportwagen und das ist kein Sportwagen ) Diese Art des Lernens, das Lernen unter Aufsicht (supervised learning), kann auch leicht auf Künstliche Intelligenzen übertragen werden. Anhand einer Reihe von Beispielen und dem dazugehörigen Feedback (für das Kind lag das Feedback in den Kommentaren), soll der Agent eine Hypothese entwickeln, die möglichst gut das zugrunde liegende Muster erfasst. Aber schauen wir uns dazu zunächst ein Beispiel an: 2. Entscheidungsbäume Wir nehmen an, wir wollten einem Agenten beibringen, wann er auf kurzen Strecken eher mit dem Auto fahren oder aber lieber das Fahrrad benutzen sollte. Die Entscheidung soll mithilfe der Attribute Entfernung in km (<2; 2-5; 5-10), Wetterlage (sonnig; bewölkt; regnerisch) und Parkplatz in der Nähe des Ziels (ja; nein) getroffen werden. Damit der Agent seine Entscheidungen treffen kann, geben wir ihm ein paar Beispiele vor (s. Tabelle 1). Beispiel Attribute Goal Wetter Entfernung Parkplatz Fahrrad/Auto 1 bewölkt 5-10 ja A 2 regnerisch <2 nein F 3 regnerisch 2-5 nein A 4 sonnig <2 ja F 5 bewölkt <2 nein F 6 regnerisch 5-10 nein A 7 bewölkt <2 ja F 8 sonnig 2-5 nein F 9 bewölkt 2-5 nein F Tabelle A: Beispiele zur Fahrrad/Auto-Domäne Das Mindeste, was wir nun von dem Agenten erwarten, ist, dass er sich in exakt denselben Situationen genauso verhält, wie wir es ihm durch die Beispiele vorgegeben haben (das funktioniert natürlich nur, solange sich die Beispiele nicht widersprechen). Man muss sich also erst einmal überlegen, wie denn überhaupt das Performance-Element des Agenten auszusehen hat, der unseren (niedrigen) Ansprüchen genügen soll. Eine Möglichkeit, die vorgegebenen Verhaltensweisen zu speichern, ist durch die Struktur eines Entscheidungsbaumes gegeben.

6 6 Ein Entscheidungsbaum liefert zu einem gegebenen Input in Form eines durch eine Reihe von Attributen beschriebenen Objektes bzw. einer durch Eigenschaften beschriebenen Situation als Output-Wert die zugehörige Entscheidung. Im Falle unseres Fahrrad/Auto- Beispiels kann man folgenden Entscheidungsbaum konstruieren: Abbildung 1: Entscheidungsbaum zu Tabelle A (Fahrrad/Auto-Domäne) Da diese Art der Darstellung für Menschen sehr intuitiv ist, werde ich sie nicht näher beschreiben und direkt zum eigentlichen Problem vorstoßen. Ein Agent, dessen Verhalten durch die Rückgabewerte des oben angegebenen Entscheidungsbaumes bestimmt ist, wird sich zwar gut in Situationen machen, die genau so wie die gegebenen Beispiele sind, es gelingt ihm aber nicht, Schlüsse über Situationen zu ziehen, die auch nur ein wenig von den bekannten abweichen. So wird der Agent z.b. nicht wissen, wie er sich entschieden soll, wenn er bei gutem Wetter eine Strecke über bis zu zwei Kilometer zurücklegen soll und kein Parkplatz in der Nähe des Zielortes ist. Die Antwort liegt auf der Hand, da er in der gleichen Situation mit anderer Wetterlage, sowohl bei Bewölkung als auch bei Regen, das Fahrrad nehmen würde. Jedoch vermag er nicht sein antrainiertes Verhalten auf die neue Situation zu übertragen. Noch basiert das Verhalten des Agenten also nur auf Reflexen und hat nichts mit Lernen zu tun. Wie kann man den Agenten nun dazu bringen, selbständig ein zugrunde liegendes Muster zu erkennen und Regeln für unbekannte Situationen aufzustellen? Die Antwort ist einfacher, als man zunächst annehmen mag

7 7 3. Induktives Lernen Um das oben gestellte Problem zu lösen, bringen wir es erst einmal auf eine formale Ebene. Neben dem vorgestellten supervised learning unterscheidet man natürlich auch noch zwischen anderen Arten des Lernens. So verlangen das unsupervised learning und das reinforcement learning gänzlich andere Herangehensweisen. Wir wenden uns hier jedoch ausschließlich dem Problem des supervised learning zu. Diese Art des Lernens, auch induktives Lernen genannt, ist oben dadurch vorgestellt worden, dass anhand einer Reihe von Beispielen eine Hypothese aufgestellt wird, die möglichst gut das zugrunde liegende Muster erfasst. Mathematisch gesehen ist ein Beispiel als Paar (x, f(x)) zu verstehen, wobei x der Input einer Funktion f ist, die als Output den Funktionswert f(x) ausgibt. Zur Veranschaulichung kann man sich diese Funktion als Entscheidungsbaum vorstellen, für den wir bereits geklärt haben, was unter dem jeweiligen Input und Output zu verstehen ist. Allerdings ist die Funktion im Allgemeinen abstrakt und die Art ihrer Darstellung unbekannt nicht nur das, auch die Funktion f selber ist in den meisten Fällen unbekannt (wir wollen sie ja erst durch das Lernen erfassen). Induktives Lernen ist dann wie folgt definiert: Anhand einer Reihe von Beispielen von f wird eine Funktion h aufgestellt, die f approximiert. Die Funktion h ist die gesuchte Hypothese und die Funktion f ist das, was wir zuvor das zugrunde liegende Muster genannt haben. Das Problem des induktiven Lernens ist nun, dass man im Allgemeinen nicht weiß, ob sich eine Hypothese h gut der ursprünglichen Funktion f annähert. Betrachten wir z.b. die Approximation einer reellwertigen Funktion, wobei nur einige Stützstellen bekannt sind. Ohne genaueres Wissen über die ursprüngliche Funktion f können wir nicht sagen, ob diese Funktion eher durch ein Polynom 7. Grades (Abb. 2b) oder durch eine lineare Annäherung (Abb. 2a) beschrieben werden kann. Wir könnten unendlich viele Funktionen finden, die in den gegebenen Stützstellen mit f übereinstimmen, oder anders ausgedrückt, die mit f konsistent sind. Abbildung 2: Approximation einer reellwertigen Funktion zu gegebenen Stützstellen Welche Funktion ist nun also zu wählen, wenn mehrere Hypothesen mit f konsistent sind? Eine Antwort darauf bietet Ockhams Messer: Wähle die einfachste Hypothese, die mit den gegebenen Daten konsistent ist. Im obigen Beispiel ist dies ganz klar das lineare Polynom, aber im allgemeinen Fall ist es nicht immer so leicht, die einfachste Hypothese auszuwählen.

8 8 Generell ist es wichtig, den Raum, der die möglichen Hypothesen enthält, nach Möglichkeit einzuschränken. Oben hatten wir als Hypothesenraum bereits den Raum der Polynome n-ten Grades angenommen, was aber immer noch unendlich viele Wahlmöglichkeiten ließ. Andererseits wissen wir auch nicht, ob das Auffinden der Funktion f schon allein dadurch ausgeschlossen wird, weil sie sich nicht mehr im eingeschränkten Hypothesenraum befindet. Abbildung 3: (a) Polynomielle Approximation (b) Sinusoidale Approximation Im nebenstehenden Beispiel wird die gesuchte Funktion in (Abb. 3a) einmal durch ein Polynom 6. Grades und einmal durch eine grobe lineare Annäherung approximiert. Lassen wir als Hypothesenraum nur die Polynome n-ten Grades zu, so gibt es keine einfachere mit allen Daten konsistente Hypothese als das angegebene Polynom 6. Grades. Jedoch stellt die Funktion (Abb. 3b) der Form ax + b + csinx eine viel einfachere konsistente Approximation der Funktion f dar und wäre nach Ockhams Messer wohl eher geeignet, die ursprüngliche Funktion auszudrücken. Das sollte verdeutlichen, dass das Festlegen des Hypothesenraums keineswegs ein triviales Problem ist. Nun wollen wir uns aber endlich wieder unserem Beispiel von vorhin zuwenden.

9 9 4. Lernen in Entscheidungsbäumen Vorhin hatten wir einen Entscheidungsbaum konstruiert, der zu allen gegebenen Fahrrad/Auto-Beispielen konsistent war. Es gibt aber ohne Zweifel noch viele andere Bäume, die diese Eigenschaft aufweisen. Nach Ockhams Messer ist es nun unser Ziel, den einfachsten bzw. kleinsten dieser Entscheidungsbäume zu finden. Schon durch relativ kleine Modifikationen können wir den Baum erheblich vereinfachen und dem Agenten so durch die Generalisierung seiner Verhaltensregeln auch die Reaktion auf unbekannte Situationen ermöglichen. Wenn etwa ein Teilbaum nur noch Blätter mit denselben Entscheidungen aufweist, dann können alle Pfade, welche zu diesen Blättern führen, abgekürzt werden, indem man einfach den ganzen Teilbaum streicht und an die entsprechende Stelle die Entscheidung einfügt. Abbildung 4: Reduzierter Entscheidungsbaum zur Fahrrad/Auto-Domäne (vgl. Abb.1) Erstaunlicherweise hat der Agent nun eine Antwort auf unsere Frage von vorhin und er wird bei sonnigem Wetter eine Entfernung von bis zu 2 km mit dem Fahrrad zurücklegen, egal ob ein Autoparkplatz in der Nähe ist oder nicht. Generell wird er sogar jede Strecke bis 2 km Entfernung mit dem Fahrrad zurücklegen wollen, was uns auf einen neuen Gedanken bringt: Der obige Entscheidungsbaum ist bei weitem nicht der einfachste, der mit allen Daten konsistent ist und wie es scheint ist das Attribut Entfernung sehr ausschlaggebend in der Entscheidungsfindung. Was würde passieren, wenn wir dieses Attribut als Wurzel benutzen würden? In der Tat ergibt sich ein wirklich winziger Entscheidungsbaum, der eine gute Generalisierung der Beispiele darstellt. Außerdem kann man nun zwei bemerkenswerte Eigenschaften beobachten. Der neue Entscheidungsbaum kommt vollkommen ohne das Attribut Parkplatz aus und damit wurde gleich ein weiteres Problem aus der Welt geschafft: Trotz der Abbildung 5: Stark reduzierter Entscheidungsbaum (vgl. Abb.4) Vereinfachung des obigen Entscheidungsbaumes, konnte der Agent noch immer nicht die Situation bewerten, in der ein Parkplatz in Zielnähe gegeben ist und eine Strecke von 2-5 km bewältigt werden muss. Der neue Entscheidungsbaum gibt für jede Situation eine Entscheidung zurück ob die in jedem Fall korrekt ist, ist eine andere Frage. Auf jeden Fall ist sie aber immer noch mit allen gegebenen Beispielen konsistent.

10 10 Jetzt fragt man sich natürlich: Lässt sich das auch auf andere Beispiele übertragen? Und die Antwort ist natürlich Ja! Schließlich haben wir oben schon die Grundidee eines Algorithmus angegeben, der zu kleinen und damit zu guten Entscheidungsbäumen führt. Der Trick ist es, das wichtigste Attribut zuerst in den Baum zu schreiben, also das, welches am meisten zur Klassifikation eines Beispiels beiträgt. Der Einfachheit halber werde ich im Nachfolgenden davon ausgehen, dass das Goal lediglich zwei Entscheidungsmöglichkeiten bietet (wie etwa Fahrrad/Auto oder Ja/Nein) und diese mit positiv und negativ bezeichnen. Im Grunde macht es aber keinen Unterschied, ob das Goal noch mehr Zustände unterstützt. Der unten angegebene Algorithmus ist dann nur entsprechend anzupassen. Insgesamt geht man rekursiv von der Wurzel bis zu den Blättern auf folgende Weise vor: 1. Gibt es positive und negative Beispiele, so suche man das Attribut, welches diese am besten aufteilt. 2. Sind die verbleibenden Beispiele alle positiv oder alle negativ, so kann man eine eindeutige Entscheidung geben und ist fertig. 3. Falls keine Beispiele mehr zur Verfügung stehen, bedeutet das, dass für diesen speziellen Fall kein Beispiel gegeben wurde und als Ergebnis gebe man die Entscheidung zurück, die mehrheitlich unter diesem Attribut getroffen wird. 4. Gibt es noch unterschiedliche Entscheidungsmöglichkeiten und sind keine Attribute mehr übrig, so haben wir zwei oder mehr Beispiele, die sich widersprechen (dieselbe Beschreibung durch Attribute verschiedene Rückgabewerte). Dies nennt man Noise und wir werden später noch auf diesen Fall eingehen. Im Moment soll es genügen, einfach die Mehrheitsentscheidung zurückzugeben. Dieses Verfahren stellt zwar eine gute Möglichkeit dar, kleine Entscheidungsbäume zu erzeugen, der Knackpunkt ist jedoch: Wie finde ich bei umfangreichen Beispielen mit zahlreichen Attributen heraus, welche Attribute wichtig sind bzw. ordne sie nach ihrer Wichtigkeit an? Ein solches Beispiel ist unten abgebildet. Man merkt schon, dass diese Frage eine etwas theoretischere Herangehensweise erfordert. Daher wollen wir uns ein wenig der Informationstheorie bedienen. Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X1 Yes No No Yes Some $$$ No Yes French 0-10 Yes X2 Yes No No Yes Full $ No No Thai No X3 No Yes No No Some $ No No Burger 0-10 Yes X4 Yes No Yes Yes Full $ Yes No Thai Yes X5 Yes No Yes No Full $$$ No Yes French >60 No X6 No Yes No Yes Some $$ Yes Yes Italian 0-10 Yes X7 No Yes No No None $ Yes No Burger 0-10 No X8 No No No Yes Some $$ Yes Yes Thai 0-10 Yes X9 No Yes Yes No Full $ Yes No Burger >60 No X10 Yes Yes Yes Yes Full $$$ No Yes Italian No X11 No No No No None $ No No Thai 0-10 No X12 Yes Yes Yes Yes Full $ No No Burger Yes Tabelle B: Beispiele zur Restaurant-Domäne

11 11 5. Informationstheorie In der Informationstheorie bezeichnet der Term Information bzw. Informationsgehalt eine berechenbare Größe, die in bits angegeben wird. Die Antwort auf eine Ja/Nein Frage, über die nichts bekannt ist, beinhaltet genau 1 bit an Information. Der Wert des Informationsgehalts hängt im Allgemeinen von den Wahrscheinlichkeiten der möglichen Antworten ab: Seien P(v i ) die Wahrscheinlichkeiten der n möglichen Antworten v i. Der Informationsgehalt I berechnet sich dann folgendermaßen: I ( P( v 1 ).. P( v n )) = n i = 1 ( P( v i ) log 2 ( P( v i ))) Für Antworten, bei deren Wahrscheinlichkeiten ungefähr eine Gleichverteilung vorliegt, kann man nur wenige Aussagen treffen und der Wert der benötigten Information, also der Information, die die Antwort enthalten würde, geht gegen 1. Ist die Wahrscheinlichkeit für eine bestimmte Antwort ziemlich hoch, also fast 100%, so geht der Informationsgehalt einer Antwort gegen Null. Zur Veranschaulichung, stellt man sich vor: Wenn man bereits sicher weiß, dass ein gewisses Ergebnis eintritt, bringt einem das Ergebnis selber keine zusätzliche Information mehr. Eine schöne Analogie zum informationstheoretischen Wert des Informationsgehaltes stellt die folgende Frage dar: Wie viel wäre ein Mensch vernünftigerweise bereit für eine bestimmte Information zu zahlen? Betrachten wir als Beispiel den Wurf einer gewöhnlichen Münze. Die Wahrscheinlichkeiten für Kopf und Zahl liegen jeweils bei 50% und der Informationsgehalt des Münzwurfergebnisses wäre: 1 I, = 1 2 log log Angenommen ein Spieler dürfte für 50 Cent Wetteinsatz raten, welche Seite der Münze nach einem Wurf oben liegt, und bekäme bei Erfolg 1 zurück. Für das Vorflüstern der richtigen Antwort wäre er wohl bereit, knapp 50 Cent auszugeben, da er dann in jedem Fall etwas gewinnen würde (der Gewinn wäre zwar nicht mehr sehr groß, aber immerhin ). Sei die Münze nun so präpariert, um in 99% aller Fälle Zahl anzuzeigen (und zu 1% Kopf). Der Informationsgehalt wäre diesmal I(1/100, 99/100) = 0,08 bits. Analog zum niedrigen Wert des Informationsgehaltes, würde wohl auch ein Spieler, der über die neue Wahrscheinlichkeitsverteilung von Kopf und Zahl informiert wäre, nicht mehr allzu viel für das Vorflüstern bezahlen wollen; mehr als 1 Cent wäre er wohl nicht bereit auszugeben, da er ansonsten ja immer noch eine 99%-Chance hat. = 1

12 12 Bei einem Entscheidungsbaum ist der Informationsgehalt durch das Verhältnis der positiven und negativen Beispiele gegeben. Soll ein Beispiel richtig klassifiziert, also die richtige Entscheidung zu einem gegebenen Input ausgegeben werden, benötigen wir genau diese Menge an Information. Angenommen wir haben p positive und n negative Beispiele, dann beträgt der Wert im Allgemeinen: p I, p + n n p + n = p p log 2 p + n p + n n n log 2 p + p + n n Bei unserem Fahrrad/Auto-Beispiel sind dies: 2 I, = 2 2 log log , bits Und im Restaurant-Fall mit 6 positiven und 6 negativen Beispielen benötigen wir genau 1 bit Information. Nun suchen wir das Attribut, was am meisten zur Klassifikation eines beliebigen Beispiels beiträgt. Dies können wir herausfinden, indem wir für jedes Attribut bestimmen, wie viel bit Information nach dem Test des Attributes noch benötigt werden; wir bestimmen den sog. Remainder. Da ein Attribut die gegebenen Beispiele in v Untergruppen aufteilt, wobei v die Anzahl der verschiedenen Werte ist, die das Attribut annehmen kann, können wir den Remainder dadurch bestimmen, dass wir die Werte für den Informationsgehalt der Unterbäume berechnen und diese in Verhältnis setzen. Jeder Unterbaum E i aus der Menge E 1 bis E v besitzt p i positive und n i negative Beispiele und hat somit einen Informationswert von I(p i /(p i +n i ),n i /(p i +n i )) bits. Einige dieser Unterbäume werden häufiger gebraucht und andere dienen vielleicht nur zur Klassifikation eines einzigen Beispiels, aber durchschnittlich brauchen wir noch Remainder( A) = v p i + p+ i = 1 n i n p i n i I, p i + n i p i + n i bits an Information. Daher ist der Informationsgewinn (Gain), den wir durch das Testen eines Attributes erhalten, so groß wie die Differenz aus ursprünglichem Informationsgehalt und Remainder, also Gain ( A ) = p n I, p + n p + n Remainder ( A ) Jetzt können wir den Informationsgewinn der Attribute aus unseren Beispielen berechnen. So ist z.b. im Restaurant-Fall das Attribut Patrons am wichtigsten, mit einem Informationsgewinn von 1 Gain ( Patrons ) = 1 6 I ( 0, 1) 1 3 I ( 1, 0) I 2, bits

13 13 Zusammen mit dem zuvor beschriebenen Algorithmus können wir anschließend den verkleinerten Entscheidungsbaum konstruieren: Abbildung 6: Stark reduzierter Entscheidungsbaum zur Restaurant-Domäne (s. Tabelle B) 6. Qualität der Entscheidungsbaum-Induktion Wie wir sehen können, hat der Agent ordentliche Arbeit geleistet und tatsächlich etwas aus den Beispielen gelernt. So wird er z.b. nicht in einem vollen Restaurant einkehren, wenn er keinen großen Hunger hat. Das ist eine allgemeine Verhaltensregel, die über das hinausgeht, was die einzelnen Beispiele aussagen. Damit ist es dem Agenten gelungen, eine gute Hypothese aufzustellen. Gute Hypothesen zeichnen sich dadurch aus, dass sie gut verallgemeinern und wie wir vorher schon festgestellt haben, ist ein Entscheidungsbaum um so allgemeiner, um so einfacher er strukturiert ist. Jetzt kann es natürlich vorkommen, dass der Lernalgorithmus Verallgemeinerungen trifft, die von der tatsächlichen Funktion, welche durch die Hypothese nachgebildet werden soll, abweichen. Wenn wir uns an das Fahrrad/Auto-Beispiel zurückerinnern, können wir beobachten, dass der Agent jede Strecke über 5 km mit dem Auto zurücklegt, obwohl bei strahlendem Sonneschein so eine Fahrt vielleicht eher als Möglichkeit zu einer Fahrradtour genutzt werden könnte. Immerhin trifft er aber eine Entscheidung, statt ratlos auf der Suche nach einer Antwort im Dunkeln zu tappen. Wir hatten oben festgestellt, dass unser endgültig reduzierter Entscheidungsbaum sogar zu jeder Situation eine Entscheidung zurückgibt. Nimmt man dieses Phänomen genauer unter die Lupe, so stellt man fest, dass dies zwar nicht zwangsläufig so sein muss, jedoch mit großer Wahrscheinlichkeit so ist (man kann ein Gegenbeispiel konstruieren, bei dem fast die gesamte Funktion bekannt ist wobei nur eine einzige Stützstelle fehlt und trotzdem kein Entscheidungsbaum zustande kommt, bei dem alle Situationen abgedeckt werden). Die breite Entscheidungsfähigkeit kommt daher, weil ein Großteil an unbekannten Situationen schon durch die Fallunterscheidung des Wurzelattributs abgedeckt wird dieses wurde ja bewusst so gewählt! Tatsächlich tritt der worst-case des angesprochenen Gegenbeispiels nur dann ein, wenn die einzelnen Entscheidungen von allen Attributen nahezu unabhängig sind, also quasi rein zufällig getroffen werden. Dieses Problem, genannt Overfitting, muss aber sowieso gesondert behandelt werden und steht mit dem vorher bereits erwähnten Noise in Zusammenhang.

14 14 7. Noise und Overfitting Noise tritt dann auf, wenn für den Lernalgorithmus mehrere Beispiele dieselbe Beschreibung haben, diese aber unterschiedliche Aktionen bzw. Entscheidungen erfordern. Lässt man beispielsweise bei unserer Restaurant-Tabelle die Attribute Bar, Fri und Type weg, so gleichen sich die Beispiele X2 und X12 in ihrer Beschreibung lediglich die Entscheidung für das Goal WillWait ist eine andere Example Attributes Goal Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait X2 Yes No No Yes Full $ No No Thai No X12 Yes Yes Yes Yes Full $ No No Burger Yes Tabelle C: (Scheinbar) widersprüchliche Beispiele zur Restaurant-Domäne (s. Tabelle B) Allgemein kann Noise verschiedene Ursachen haben. Zum einen kann es sein, dass wie oben die zu approximierende Funktion eigentlich mehr Eingabewerte besitzt, diese aber aus irgendeinem Grund nicht in den Beispielen enthalten sind. Es kann aber auch aufgrund von Messungenauigkeit auftreten oder darin begründet liegen, dass der Output zufallsbedingt ist. Haben wir es mit Messungenauigkeiten zu tun, so können wir getrost so vorgehen, wie wir es zuvor schon erwähnt haben: Führen mehrere Beschreibungen zu unterschiedlichen Ergebnissen, so nehme man das am häufigsten zurückgegebene Ergebnis. So kann man auch im Fall fehlender Attribute handeln. Ist jedoch das Ergebnis rein zufällig bedingt, wird es problematisch. Es kann durchaus sein, dass der Agent auf eigentlich irrelevante Attribute zurückgreift und anhand dieser die zufälligen Outputs zu unterscheiden versucht. Tritt dann der Fall ein, dass sich zwei Beispiele widersprechen, würde es wohl kaum Sinn machen, das mehrheitliche Ergebnis zurückzugeben, denn eigentlich stellen ja nicht die beiden widersprüchlichen Beispiele das Problem dar, sondern vielmehr die Tatsache, dass es eigentlich gar keinen Widerspruch gibt, da das Ergebnis rein zufällig ist. In diesem Fall hat man es mit Overfitting zu tun. Gehen wir mal von einem Beispiel aus: wir wollen die Ergebnisse eines Würfeltests an unterschiedlichen Tagen mit mehreren Würfeln untersuchen. Es sollen dazu die Attribute Tag (der Wochentag an dem der Würfel geworfen wurde), Monat (in welchen Monat wir das Ergebnis erhalten haben) und Farbe (die Farbe des Würfels) zur Verfügung stehen. Der Agent, der von diesen Beispielen lernen soll, wird Hypothesen darüber aufstellen, wie das Ergebnis des Wurfes mit Zeitpunkt und Farbe des Würfels zusammenhängt und daraus irgendwelche Schlüsse ziehen. Leider ist dies zum Scheitern verurteilt und der Agent kommt nicht auf die richtige Schlussfolgerung, dass jede Seite des Würfels unabhängig von den Attributen in 1/6 aller Fälle oben liegt. Wir sehen also, dass die Gefahr, falsche Schlüsse zu ziehen, tatsächlich problematisch ist. Overfitting kann sogar dann auftreten, wenn die zugrunde liegende Funktion nicht ganz zufällig ist. Allerdings kann man sich Abhilfe schaffen, indem man den Baum ein wenig zurechtstutzt, mit Hilfe des sog. decision tree pruning.

15 15 8. Pruning Durch Pruning wollen wir irrelevante Attribute herausfiltern, so dass in dem überarbeiteten Entscheidungsbaum nur noch die Attribute enthalten sind, die wirklich wichtig sind. Daraus kann man schließen, dass das pruning etwas mit unserer zuvor eingeführten Größe für die Wichtigkeit eines Attributs, dem Information-Gain zu tun hat. Tatsächlich ist es so, dass der Informationsgewinn für die irrelevanten Attribute gegen Null geht, so dass man durch Streichen aller Attribute, deren Information-Gain fast null ist, den gestutzten Baum erhalten würde bleibt nur noch die Frage, wo die Schranke für die Unterscheidung relevant/irrelevant liegen soll. Da sich die Statistik schon länger mit solchen Fragestellungen beschäftigt, bedient man sich hier altbewährter Methoden, um die Relevanz eines Merkmals zu bewerten. Dazu unterzieht man alle Attribute einem statistischen Signifikanztest. Beim Chi-Quadrat-Pruning wird die Abweichung der Daten von der statistischen Normalverteilung ermittelt. Unter Annahme einer sog. Null-Hypothese, bei der man zunächst davon ausgeht, dass ein gewähltes Attribut absolut gar keinen Einfluss auf das Ergebnis hat, wird die zu erwartende Häufigkeitsverteilung errechnet. Anschließend betrachtet man den Unterschied zu den tatsächlich vorliegenden Daten. Die Summe der Fehlerquadrate gibt dabei Aufschluss über die Wahrscheinlichkeit der beobachteten Abweichung. Ist die Abweichung so groß, dass die Wahrscheinlichkeit für die Korrektheit der Null-Hypothese eher gering ist (kleiner als 5%), so spricht gleichzeitig im Gegenzug eine sehr hohe Wahrscheinlichkeit für einen Zusammenhang zwischen Attribut und der beobachteten Häufigkeitsverteilung. Ein solches Attribut wird signifikant genannt. Betrachten wir nun anhand eines Beispiels das Vorgehen beim Chi-Quadrat-Pruning. Nehmen wir mal an, der Agent sei ein passionierter Pokerspieler und nehme regelmäßig an den Partien seiner beiden KI-Kollegen nai-v-bot und H-Inter-LIST teil. Bei diesen Partien werden jedem Spieler fünf Karten ausgeteilt und sofort aufgedeckt, um den Sieger zu ermitteln. Zur Verbesserung seines Spielverständnisses versucht der Agent, die Abhängigkeit zwischen dem jeweiligen Gewinner einer Partie und den Attributen Wochentag, Kartengeber und Einsatzhöhe zu analysieren. Angenommen, die Information-Gain-Routine gäbe Kartengeber als das Attribut mit dem höchsten Information-Gain zurück. Da der Agent natürlich sogleich Overfitting vermutet, checkt er das Ganze mit dem Chi-Quadrat-Test. Bei allen Spielen hat nai-v-bot das Austeilen ausschließlich seinen beiden Kollegen überlassen. Bezüglich der Häufigkeitsverteilung kann man die folgenden Tabellen aufstellen: Gewinner Kartengeber Agent H-Inter-LIST Agent H-Inter-LIST nai-v-bot (i) Beobachtete Häufigkeiten Gewinner Kartengeber Agent H-Inter-LIST Agent H-Inter-LIST nai-v-bot (ii) Erwartete Häufigkeiten Tabelle D: Häufigkeitstabellen zum Pokerspiel-Beispiel (Chi-Quadrat-Pruning)

16 16 Die Chi-Quadrat-Summe beträgt nun ungefähr: 0,26 + 1,71 + 1,14 + 0,26 + 1,71 + 1,14 = 6,22 Ein Blick in eine Chi-Quadrat-Tabelle verrät, dass diese Abweichung zu ca. 4,4% wahrscheinlich ist und somit das Attribut Kartengeber als signifikant eingestuft werden kann. Also wird dieses Attribut zur Wurzel des Entscheidungsbaumes für die Pokerspiel-Analyse des Agenten und die weiteren Beispiele werden entsprechend danach aufgeteilt. Bei den nachfolgenden Chi-Quadrat-Tests kann jedoch weder das Attribut Wochentag noch das Attribut Einsatzhöhe als signifikant eingestuft werden (in keinem der beiden Zweige, die von der Wurzel ausgehen). Damit ergibt sich nun jedoch ein kleines Problem: Wir können keine eindeutigen Entscheidungsblätter angeben. Dieses Problem kann auf folgende Art und Weise gelöst werden: Ausgehend von der Wurzel führen die beiden Zweige Agent gibt und H-Inter-LIST gibt jeweils zu einem Blatt. Das Blatt muss nun jedoch keine klare Entscheidung mehr enthalten, sondern kann die Häufigkeitsverteilung der entsprechenden Situation widerspiegeln. So wäre das Blatt für den Fall Agent gibt dann beispielsweise mit den Werten [17*Agent 15*H-Inter-LIST 18*nAI-V-Bot] gefüllt. Durch diese Veränderung haben wir allerdings dem Entscheidungsbaum die Möglichkeit genommen, Entscheidungen zu treffen. Dies müsste entsprechend von dem Performance-Element des Agenten abgefangen werden, der dann mit Hilfe eines Zufallsgenerators (unter Umständen unter Berücksichtigung der entsprechenden Wahrscheinlichkeitsverteilung in unserem Beispiel hat H-Inter-LIST ja ein besonderes Talent dafür, sich selber gute Karten zu geben) eine mögliche Entscheidung auswählen könnte. Insgesamt muss man sich allerdings immer fragen, ob das entsprechende Modell dem Zweck noch gerecht wird und ob damit überhaupt eine sinnvolle Interpretation der Realität gegeben werden kann. Schaut man sich nämlich mal die Häufigkeitsverteilung an, die vom Chi- Quadrat-Test bei Annahme der Null-Hypothese erwartet wird (s. Tabelle D), so ist es wohl nicht unbedingt die vernünftigste Annahme, dass H-Inter-LIST generell bessere Siegeschancen hat, obwohl die Verteilung der Karten ja als rein zufällig vorausgesetzt wird. Zum Glück gibt es außer dem Chi-Quadrat-Pruning noch andere Methoden zur Minimierung der Störungen, die durch Noise und Overfitting entstehen. Eine dieser Möglichkeiten, die Cross-Validation-Technik, basiert darauf, von den gegebenen Beispielen immer nur einige auszuwählen und dann den Lernerfolg bei den unterschiedlichen Zusammenstellungen zu messen. Mit der Frage, wie man diesen Lernerfolg bestimmen kann, wollen wir uns im Folgenden auseinandersetzen.

17 17 9. Die Performance eines Lernalgorithmus Bisher haben wir einige gute und schlechte Versionen von Lernalgorithmen kennen gelernt (die verschiedenen Entscheidungsbäume und die Maßnahmen zu ihrer Verkleinerung stellen im Grunde ja verschiedene Lernansätze dar). Wir haben einige als besser als andere erachtet und gesagt worin sich ein guter Lernalgorithmus auszeichnet. Doch um Algorithmen objektiv miteinander vergleichen zu können, brauchen wir eine Größe, mit der wir die Effizienz eines Lernalgorithmus bemessen können. Wir hatten gesagt, dass ein Lernalgorithmus dann gut ist, wenn er die gesuchte Funktion möglichst gut approximiert. Perfekt ist eine Hypothese dann, wenn sie für alle möglichen Beispiele die richtige Klassifikation vorhersagt. Dementsprechend ist ein Lernalgorithmus um so besser, um so mehr Beispiele er korrekt vorhersagen kann dies kann man messen. Will man einen Lernalgorithmus testen, so benötigt man Beispiele, die nicht zum so genannten Trainingsset gehören, also nicht unter denen waren, die der Algorithmus ursprünglich dazu gebraucht hat, seine Hypothese abzuleiten. Da es nicht immer leicht ist, neue Beispiele zu finden, behält man sich einige der bereits bekannten ausschließlich für das Testset vor. Aus den Messergebnissen mit Test- und Trainingssets unterschiedlicher Größe, kann man einen Graphen konstruieren (s. Abbildung 7). Dieser Graph wird Lernkurve oder auch happy graph genannt; happy deshalb, weil man mit wachsender Größe des Trainingssets tatsächlich eine Vergrößerung der Vorhersagegenauigkeit, also einen Lernfortschritt, beobachten kann. Anhand der Lernkurven können wir jetzt zwar sehen, ob ein Algorithmus beim Lernen erfolgreich war, aber wenn wir jede einzelne Variante eines Algorithmus erst auf ihre Richtigkeit testen müssen, Abbildung 7: Lernfortschrittskurve zur Entscheidungsbaum-Induktion mit 100 zufällig gewählten Beispielen aus der Restaurant-Domäne können wir keinerlei allgemeine Aussagen über Lernalgorithmen aufstellen. Gibt es vielleicht eine Möglichkeit die Erfolgsquote eines Algorithmus im Voraus vorherzusagen?

18 Computational Learning Theory Die Computational Learning Theory hilft mit folgendem Ansatz, die oben gestellte Frage zu beantworten: Jede Hypothese, die schwerwiegende Fehler aufweist, wird mit an Sicherheit grenzender Wahrscheinlichkeit schon nach wenigen Beispielen erkannt werden, da falsche Vorhersagen zu erwarten sind. Somit kann keine Hypothese, die mit genügend vielen Beispielen übereinstimmt, ernsthaft falsch sein und folglich ist sie wahrscheinlich annähernd korrekt (engl. probably approximately correct, kurz: PAC). Ist ein Lernalgorithmus also mit einem genügend großen Trainingsset annähernd konsistent (wie wir es bei der vorgestellten Entscheidungsbaum-Induktion ja vorausgesetzt haben), so haben wir es mit einem PAC-Lernalgorithmus zu tun. Es sollte noch dazu gesagt werden, dass die PAC-Annahme nur dann korrekt ist, wenn die Beispiele aus dem Trainingsset und die Beispiele, auf die der Algorithmus später losgelassen wird, auch der gleichen Wahrscheinlichkeitsverteilung unterliegen (sie erfüllen dann die sog. stationarity assumption). Oben sprachen wir davon, dass genügend viele Beispiele im Trainingsset enthalten sein müssen. Doch wie viele sind genügend? Wir wollen dies im Nachfolgenden berechnen. Sei die Menge aller möglichen Beispiele X und H der Hypothesenraum. Außerdem gehen wir davon aus, dass die Ursprungsfunktion f in H enthalten ist. Nun definieren wir den Fehler einer Hypothese als die Wahrscheinlichkeit, dass die Hypothese h von f in einem bestimmten Beispiel x X abweicht. Wenn der Fehler klein genug ist, so haben wir es mit einer annähernd korrekten Hypothese zu tun. Klein genug heißt in diesem Fall: Fehler(h) ε. Alle annähernd korrekten Hypothesen liegen in einer Epsilon-Umgebung um f. Entfernt man diese aus H, bleibt der Raum der unbrauchbaren Hypothesen zurück, H-. Da wir die Anzahl N der Trainingsset-Beispiele berechnen wollen, die mit Sicherheit zu einer PAC-Hypothese führen, also zu einer wahrscheinlich annähernd korrekten Hypothese führen, müssen wir die Wahrscheinlichkeit berechnen, mit der eine nicht annähernd korrekte Hypothese h- H- zu allen N Beispielen konsistent ist: P(h- ist zu allen Beispiele konsistent) (1-ε) N Die Wahrscheinlichkeit, dass mindestens eine solche Hypothese in H- enthalten ist, ist so groß wie die Summe der Einzelwahrscheinlichkeiten. P(H- enthält eine konsistente Hypothese) H- (1-ε) N Dies können wir nach oben abschätzen, denn aufgrund von H- H gilt: P(H- enthält eine konsistente Hypothese) H- (1-ε) N H (1-ε) N Ist der Wert von H (1-ε) N verschwindend gering, also kleiner als δ, so wissen wir, dass wir mit sehr großer Wahrscheinlichkeit eine annähernd korrekte Hypothese erhalten. Somit ist jede Hypothese, die daraus hervorgeht eine PAC-Hypothese.

19 19 Wir können die Wahrscheinlichkeit, dass H- eine konsistente Hypothese enthält, noch weiter nach oben abschätzen, denn für die Exponentialfunktion kennen wir die Abschätzung x e x-1 und somit 1-ε e -ε, weshalb gilt: H (1-ε) N H (e -ε ) N Die Frage von vorher, wie viele Beispiele denn notwendig sind, um eine PAC-Hypothese zu erhalten, ist also gleichbedeutend mit der Suche nach einem N, das die folgende Gleichung erfüllt. H (e -ε ) N δ Umformen ergibt: e (-ε N) H 1/δ 1 e (ε N) H 1/δ ε N log( H 1/δ) und schließlich: N 1/ε ( log(1/δ) + log( H ) ) Die Anzahl der Beispiele, die in Abhängigkeit von ε und δ benötigt werden, um eine PAC- Hypothese zu erhalten, wird Beispielkomplexität genannt. Offensichtlich hängt die Beispielkomplexität stark von der Größe des Hypothesenraums ab - je größer unser Hypothesenraum ist, desto größer ist die Beispielkomplexität. Dies ist ein weiterer Grund für den Erfolg des Ockhamschen Messers. Arbeitet man nämlich mit einem Hypothesenraum, der alle denkbaren Entscheidungsbäume abdeckt, so ist die Beispielkomplexität außerordentlich beträchtlich. In ihrem Komplexitätsverhalten sind Entscheidungsbäume mit n Attributen in etwa mit n-stelligen Booleschen Funktionen vergleichbar. Da jede n-stellige Boolesche Funktion eindeutig durch eine Funktionstabelle der Größe g = 2 n bestimmt wird, wächst die Anzahl aller möglichen n-stelligen Booleschen Funktionen mit 2 g. Damit ist aber die Beispielkomplexität wiederum durch log(2 g ) = 2 n gegeben, womit im Grunde die gesamte Funktionstabelle und die dadurch definierte Funktion vollständig bekannt sein müssen, um eine PAC-Hypothese hervorzubringen. Ockhams Messer bringt hier in den meisten Fällen eine erhebliche Verbesserung, da nur noch ein eingeschränkter Bereich an Entscheidungsbäumen betrachtet wird, indem nur noch nach der einfachsten konsistenten Hypothese gesucht wird. Einen formalen Beweis für die Effizienz der Entscheidungsbaum-Induktion mit den oben aufgezeigten Reduktionsalgorithmen kann ich an dieser Stelle leider nicht liefern (würde in der Tat wohl den Rahmen sprengen), aber es war auch gar nicht Ziel dieser Ausarbeitung, sich formal mit dem Thema Lernen und Entscheidungsbäumen auseinanderzusetzen. Ziel war es, dem Leser in aufbereiteter Form die Grundideen des induktiven Lernens näher zu bringen gerade auch anhand von Beispielen. So sollten allgemein die wichtigsten Prinzipien und ihre Funktionsweisen erörtert werden, ohne durch unnötige Detailfragen Verwirrung zu stiften. Ich hoffe, dass mir das hiermit gelungen ist.

20 20 Literaturverzeichnis [1] Stuart Russell, Peter Norvig: "Artificial Intelligence, A Modern Approach", Second Edition, Prentice Hall Series in Artificial Intelligence, 2002 ISBN

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Dem Anschein nach werden diese Zahlen kleiner und kleiner und streben gegen Null. Was sollen sie sonst auch tun? Aber der Begriff

Dem Anschein nach werden diese Zahlen kleiner und kleiner und streben gegen Null. Was sollen sie sonst auch tun? Aber der Begriff 47 5 Irrationales 5.1 Folgen, Konvergenz und Vollständigkeit Eine Abbildung a : N R definiert eine Folge von reellen Werten a 1 = a(1), a 2 = a(2), a 3 = a(3),... Solche Zahlenfolgen werden uns dazu dienen,

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2) Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Verfeinerungen des Bayesianischen Nash Gleichgewichts Spieltheorie Sommersemester 007 Verfeinerungen des Bayesianischen Nash Gleichgewichts Das Bayesianische Nash Gleichgewicht für Spiele mit unvollständiger Information ist das Analogon zum Nash Gleichgewicht

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy. R. Brinkmann http://brinkmann-du.de Seite 08..2009 Von der relativen Häufigkeit zur Wahrscheinlichkeit Es werden 20 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 20 Schülern

Mehr

Studienmaterial Einführung in das Rechnen mit Resten

Studienmaterial Einführung in das Rechnen mit Resten Studienmaterial Einführung in das Rechnen mit Resten H.-G. Gräbe, Institut für Informatik, http://www.informatik.uni-leipzig.de/~graebe 12. April 2000 Die folgenden Ausführungen sind aus Arbeitsmaterialien

Mehr

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 1 6. Semester ARBEITSBLATT 1 DIFFERENTIALRECHNUNG

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 1 6. Semester ARBEITSBLATT 1 DIFFERENTIALRECHNUNG ARBEITSBLATT DIFFERENTIALRECHNUNG Folgendes Problem ist gegeben. Wir haben eine gegebene Funktion und möchten in einem beliebigen Punkt dieser Funktion die Tangente legen. Die Frage ist nun natürlich:

Mehr

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Induktion und Rekursion

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Induktion und Rekursion Überblick 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Boolsche Algebra 3.3 Peer Kröger (LMU München) Einführung in die Programmierung WS 16/17 92 / 708 Beweisprinzip der vollständigen Induktion

Mehr

Polynome und ihre Nullstellen

Polynome und ihre Nullstellen Polynome und ihre Nullstellen 29. Juli 2017 Inhaltsverzeichnis 1 Einleitung 2 2 Explizite Berechnung der Nullstellen 2.1 Polynome vom Grad 0............................. 2.2 Polynome vom Grad 1.............................

Mehr

Vollständige Induktion

Vollständige Induktion Schweizer Mathematik-Olympiade smo osm Vollständige Induktion Aktualisiert: 1 Dezember 01 vers 100 Eine der wichtigsten Beweistechniken der Mathematik überhaupt ist die (vollständige) Induktion Wir nehmen

Mehr

Übungen mit dem Applet Zentraler Grenzwertsatz

Übungen mit dem Applet Zentraler Grenzwertsatz Zentraler Grenzwertsatz 1 Übungen mit dem Applet Zentraler Grenzwertsatz 1 Statistischer Hintergrund... 1.1 Zentraler Grenzwertsatz... 1. Beispiel Würfeln... 1.3 Wahrscheinlichkeit und relative Häufigkeit...3

Mehr

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Induktion und Rekursion 3.3 Boolsche Algebra

Überblick. 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 Induktion und Rekursion 3.3 Boolsche Algebra Überblick 3. Mathematische Grundlagen 3.1 Mengen und Abbildungen 3.2 3.3 Boolsche Algebra Peer Kröger (LMU München) Einführung in die Programmierung WS 14/15 72 / 179 Beweisprinzip der vollständigen Induktion

Mehr

Unabhängigkeit KAPITEL 4

Unabhängigkeit KAPITEL 4 KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Hackenbusch und Spieltheorie

Hackenbusch und Spieltheorie Hackenbusch und Spieltheorie Was sind Spiele? Definition. Ein Spiel besteht für uns aus zwei Spielern, Positionen oder Stellungen, in welchen sich das Spiel befinden kann (insbesondere eine besondere Startposition)

Mehr

Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11)

Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11) Fachrichtung 6.2 Informatik Universität des Saarlandes Tutorenteam der Vorlesung Programmierung 1 Programmierung 1 (Wintersemester 2012/13) Lösungsblatt 10 (Kapitel 11) Hinweis: Dieses Übungsblatt enthält

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung? Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße Von Florian Modler In diesem Artikel möchte ich einen kleinen weiteren Exkurs zu meiner Serie Vier Wahrscheinlichkeitsverteilungen geben

Mehr

Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls

Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls Beweisprinzip der vollständigen Induktion Ein fundamentales mathematisches Beweisprinzip p ist die vollständige Induktion: Sei p : Falls ein totales Prädikat. 1. p(0) (Induktionsanfang) und 2. für beliebiges

Mehr

Elemente in Φ werden Wurzeln genannt. Bemerkung 3.2. (a) Zu einem Wurzelsystem können wir immer eine Spiegelungsgruppe definieren

Elemente in Φ werden Wurzeln genannt. Bemerkung 3.2. (a) Zu einem Wurzelsystem können wir immer eine Spiegelungsgruppe definieren 3. Wurzelsysteme Als erstes führen wir den Begriff eines Wurzelsystems ein. Definition 3.1 (Wurzelsystem). Eine endliche Teilmenge Φ V {0} heißt Wurzelsystem falls gilt: (R1) Φ Rα = {±α} für α Φ, (R2)

Mehr

Musterlösung zu Blatt 11, Aufgabe 3

Musterlösung zu Blatt 11, Aufgabe 3 Musterlösung zu Blatt 11, Aufgabe 3 I Aufgabenstellung Wir nennen eine Teilmenge A R abgeschlossen, wenn der Grenzwert einer konvergenten Folge in A stets wieder in A liegt. Beweisen Sie: a) Für eine beliebige

Mehr

Die Unentscheidbarkeit extensionaler Eigenschaften von Turingmaschinen: der Satz von Rice

Die Unentscheidbarkeit extensionaler Eigenschaften von Turingmaschinen: der Satz von Rice Die Unentscheidbarkeit extensionaler Eigenschaften von Turingmaschinen: der Satz von Rice Holger Arnold Dieser Text befasst sich mit der Frage, unter welchen Bedingungen das Problem, zu bestimmen, ob die

Mehr

9. Polynom- und Potenzreihenringe

9. Polynom- und Potenzreihenringe 64 Andreas Gathmann 9. Polynom- und Potenzreihenringe Bevor wir mit der allgemeinen Untersuchung von Ringen fortfahren, wollen wir in diesem Kapitel kurz zwei sehr wichtige weitere Beispiele von Ringen

Mehr

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments 73 Hypothesentests 73.1 Motivation Bei Hypothesentests will man eine gewisse Annahme über eine Zufallsvariable darauf hin überprüfen, ob sie korrekt ist. Beispiele: ( Ist eine Münze fair p = 1 )? 2 Sind

Mehr

1.5.4 Quantile und Modi. Bem [Quantil, Modus]

1.5.4 Quantile und Modi. Bem [Quantil, Modus] 1.5.4 Quantile und Modi 1.5 Erwartungswert und Varianz Bem. 1.73. [Quantil, Modus] und Vertei- Analog zu Statistik I kann man auch Quantile und Modi definieren. Gegeben sei eine Zufallsvariable X mit Wahrscheinlichkeitsverteilung

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Strukturelle Rekursion und Induktion

Strukturelle Rekursion und Induktion Kapitel 2 Strukturelle Rekursion und Induktion Rekursion ist eine konstruktive Technik für die Beschreibung unendlicher Mengen (und damit insbesondere für die Beschreibung unendliche Funktionen). Induktion

Mehr

Donnerstag, 11. Dezember 03 Satz 2.2 Der Name Unterraum ist gerechtfertigt, denn jeder Unterraum U von V ist bzgl.

Donnerstag, 11. Dezember 03 Satz 2.2 Der Name Unterraum ist gerechtfertigt, denn jeder Unterraum U von V ist bzgl. Unterräume und Lineare Hülle 59 3. Unterräume und Lineare Hülle Definition.1 Eine Teilmenge U eines R-Vektorraums V heißt von V, wenn gilt: Unterraum (U 1) 0 U. (U ) U + U U, d.h. x, y U x + y U. (U )

Mehr

Zahlentheorie. Stefan Takacs Linz, am 2. Juni 2004

Zahlentheorie. Stefan Takacs Linz, am 2. Juni 2004 Zahlentheorie Anna Rieger 0355556 Stefan Takacs 0356104 Daniela Weberndorfer 0355362 Linz, am 2. Juni 2004 Zusammenfassung Die vorliegende Arbeit über die grundlegenden Sätze der Zahlentheorie beschäftigt

Mehr

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen Stichprobenverteilung bei unterschiedlichen Auswahlsätzen Begleitende Unterlagen zur Übung Induktive Statistik Michael Westermann Universität Essen Inhaltsverzeichnis 1 Einleitung.......................................................

Mehr

Kantengraphen und Planare Graphen. Seminararbeit

Kantengraphen und Planare Graphen. Seminararbeit Kantengraphen und Planare Graphen Seminararbeit in Mathematisches Seminar für LAK 621.378 SS 2018 vorgelegt von Anna Maria Gärtner bei: Baur, Karin, Univ.-Prof. Dr.phil. Graz, 2018 Inhaltsverzeichnis 1

Mehr

Zahlentheorie I - Tipps & Lösungen. Aktualisiert: 15. Oktober 2016 vers Teilbarkeit

Zahlentheorie I - Tipps & Lösungen. Aktualisiert: 15. Oktober 2016 vers Teilbarkeit Schweizer Mathematik-Olympiade smo osm Zahlentheorie I - Tipps & Lösungen Aktualisiert: 15. Oktober 2016 vers. 1.2.0 1 Teilbarkeit Einstieg 1.1 Zeige, dass 900 ein Teiler von 10! ist. Tipp: Schreibe 900

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Reduktion / Hilberts 10. Problem

Reduktion / Hilberts 10. Problem Reduktion / Hilberts 10. Problem Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen 9. November 2009 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit und

Mehr

2.4. Mehrstufige Zufallsexperimente

2.4. Mehrstufige Zufallsexperimente 2.4. Mehrstufige Zufallsexperimente Zufallsexperimente können einstufig, also einmalig, durchgeführt werden oder auch mehrstufig, also wiederholt. Wirft man einen Würfel z.b. nur einmal, dann ist das Zufallsexperiment

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Übungen zur Wahrscheinlichkeitstheorie und Statistik Übungen zur Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank Blatt 0 vom 16. April 2012 Aufgabe 1 (Wahrscheinlichkeitsräume). Welche der folgenden Aussagen sind wahr? Begründen Sie jeweils

Mehr

P, NP und NP -Vollständigkeit

P, NP und NP -Vollständigkeit P, NP und NP -Vollständigkeit Mit der Turing-Maschine haben wir einen Formalismus kennengelernt, um über das Berechenbare nachdenken und argumentieren zu können. Wie unsere bisherigen Automatenmodelle

Mehr

Elemente der Stochastik (SoSe 2016) 10. Übungsblatt

Elemente der Stochastik (SoSe 2016) 10. Übungsblatt Dr. M. Weimar 3.06.206 Elemente der Stochastik (SoSe 206) 0. Übungsblatt Aufgabe (2+2+2+2+3= Punkte) Zur zweimaligen Drehung des nebenstehenden Glücksrads (mit angenommener Gleichverteilung bei jeder Drehung)

Mehr

Ganzrationale Funktionen

Ganzrationale Funktionen Eine Dokumentation von Sandro Antoniol Klasse 3f Mai 2003 Inhaltsverzeichnis: 1. Einleitung...3 2. Grundlagen...4 2.1. Symmetrieeigenschaften von Kurven...4 2.1.1. gerade Exponenten...4 2.1.2. ungerade

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Satz über implizite Funktionen und seine Anwendungen

Satz über implizite Funktionen und seine Anwendungen Satz über implizite Funktionen und seine Anwendungen Gegeben sei eine stetig differenzierbare Funktion f : R 2 R, die von zwei Variablen und abhängt. Wir betrachten im Folgenden die Gleichung f(,) = 0.

Mehr

1. Gruppen. 1. Gruppen 7

1. Gruppen. 1. Gruppen 7 1. Gruppen 7 1. Gruppen Wie schon in der Einleitung erläutert wollen wir uns in dieser Vorlesung mit Mengen beschäftigen, auf denen algebraische Verknüpfungen mit gewissen Eigenschaften definiert sind.

Mehr

Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe

Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe Natürliche Häufigkeiten zur intuitiven Einführung der bedingten Wahrscheinlichkeiten Eine Idee für den Mathematikunterricht der gymnasialen Oberstufe Axel Müller 7. Oktober 2017 1 Der Begriff der bedingten

Mehr

Einführung in die linearen Funktionen. Autor: Benedikt Menne

Einführung in die linearen Funktionen. Autor: Benedikt Menne Einführung in die linearen Funktionen Autor: Benedikt Menne Inhaltsverzeichnis Vorwort... 3 Allgemeine Definition... 3 3 Bestimmung der Steigung einer linearen Funktion... 4 3. Bestimmung der Steigung

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Operatoren für das Fach Mathematik

Operatoren für das Fach Mathematik Operatoren für das Fach Mathematik Anforderungsbereich I Angeben, Nennen Sachverhalte, Begriffe, Daten ohne nähere Erläuterungen und Begründungen, ohne Lösungsweg aufzählen Geben Sie die Koordinaten des

Mehr

( ) Dann gilt f(x) g(x) in der Nähe von x 0, das heisst. Für den Fehler r(h) dieser Näherung erhält man unter Verwendung von ( )

( ) Dann gilt f(x) g(x) in der Nähe von x 0, das heisst. Für den Fehler r(h) dieser Näherung erhält man unter Verwendung von ( ) 64 Die Tangente in x 0 eignet sich also als lokale (lineare) Näherung der Funktion in der Nähe des Punktes P. Oder gibt es eine noch besser approximierende Gerade? Satz 4.9 Unter allen Geraden durch den

Mehr

Beschränktheit, Monotonie & Symmetrie

Beschränktheit, Monotonie & Symmetrie Beschränktheit, Monotonie & Symmetrie ein Referat Dies ist eine Beilage zum Gruppen-SOL - Projekt Potenz- & Exponentialfunktionen Ronald Balestra CH - 8046 Zürich www.ronaldbalestra.ch November 2015 Inhaltsverzeichnis

Mehr

Vorlesung. Vollständige Induktion 1

Vorlesung. Vollständige Induktion 1 WS 015/16 Vorlesung Vollständige Induktion 1 1 Einführung Bei der vollständigen Induktion handelt es sich um ein wichtiges mathematisches Beweisverfahren, mit dem man Aussagen, die für alle natürlichen

Mehr

5 Differenzialrechnung für Funktionen einer Variablen

5 Differenzialrechnung für Funktionen einer Variablen 5 Differenzialrechnung für Funktionen einer Variablen Ist f eine ökonomische Funktion, so ist oft wichtig zu wissen, wie sich die Funktion bei kleinen Änderungen verhält. Beschreibt etwa f einen Wachstumsprozess,

Mehr

5 Randwertprobleme. y = f(t, y, y ) für t J, (5.2a) y(t 0 ) = y 0, y(t) = y T (5.2b) zu gegebener Funktion f und Werten y 0, y T.

5 Randwertprobleme. y = f(t, y, y ) für t J, (5.2a) y(t 0 ) = y 0, y(t) = y T (5.2b) zu gegebener Funktion f und Werten y 0, y T. 5 Randwertprobleme Bei den bisher betrachteten Problemen handelte es sich um Anfangswertprobleme. In der Praxis treten, insbesondere bei Differentialgleichungen höherer Ordnung, auch Randwertprobleme auf.

Mehr

Die Reduktion Hilberts 10. Problem

Die Reduktion Hilberts 10. Problem Die Reduktion Hilberts 10. Problem Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen 8. November 2010 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit

Mehr

f(x) = x f 1 (x) = x. Aufgabe 2. Welche der folgenden Funktionen sind injektiv, surjektiv, bijektiv?

f(x) = x f 1 (x) = x. Aufgabe 2. Welche der folgenden Funktionen sind injektiv, surjektiv, bijektiv? Umkehrfunktionen Aufgabe 1. Sei A = {1, 2, 3, 4}. Definieren Sie eine bijektive Funktion f A A und geben Sie ihre Umkehrfunktion f 1 an. Lösung von Aufgabe 1. Zum Beispiel f, f 1 A A mit f(x) = x f 1 (x)

Mehr

Teil 1 Gleichungen und Ungleichungen

Teil 1 Gleichungen und Ungleichungen Teil 1 Gleichungen und Ungleichungen Gleichungen Eine mathematische Gleichung ist eine logische Aussage über die Gleichheit von Termen. Das, was links vom Gleichheitszeichen (=) steht, hat den gleichen

Mehr

ARBEITSBLATT 6-5. Kurvendiskussion

ARBEITSBLATT 6-5. Kurvendiskussion ARBEITSBLATT 6-5 Kurvendiskussion Die mathematische Untersuchung des Graphen einer Funktion heißt Kurvendiskussion. Die Differentialrechnung liefert dabei wichtige Dienste. Intuitive Erfassung der Begriffe

Mehr

Vorkurs: Mathematik für Informatiker

Vorkurs: Mathematik für Informatiker Vorkurs: Mathematik für Informatiker Teil 3 Wintersemester 2016/17 Steven Köhler mathe@stevenkoehler.de mathe.stevenkoehler.de 2 c 2016 Steven Köhler Wintersemester 2016/17 Inhaltsverzeichnis Teil 1 Teil

Mehr

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B

KAPITEL 5. Damit wird F n (B) selbst zu einer Booleschen Algebra und es gilt f(x) := f(x) 0(x) := 0 B 1(x) := 1 B KAPITEL 5 Boolesche Polynome Polynome über R, d.h. reelle Funktionen der Form p(x) = a 0 + a 1 x + + a n x n, x R, sind schon aus der Schulmathematik bekannt. Wir beschäftigen uns nun mit Booleschen Polynomen,

Mehr

Die Normalverteilung. Mathematik W30. Mag. Rainer Sickinger LMM, BR. v 0 Mag. Rainer Sickinger Mathematik W30 1 / 51

Die Normalverteilung. Mathematik W30. Mag. Rainer Sickinger LMM, BR. v 0 Mag. Rainer Sickinger Mathematik W30 1 / 51 Mathematik W30 Mag. Rainer Sickinger LMM, BR v 0 Mag. Rainer Sickinger Mathematik W30 1 / 51 Einführung Heute nehmen wir uns die Normalverteilung vor. Bis jetzt konnte unsere Zufallsvariable (das X in

Mehr

Allgemeines Halteproblem Hilberts 10. Problem

Allgemeines Halteproblem Hilberts 10. Problem Allgemeines Halteproblem Hilberts 10. Problem Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen November 2011 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit

Mehr

Numerische Verfahren und Grundlagen der Analysis

Numerische Verfahren und Grundlagen der Analysis Numerische Verfahren und Grundlagen der Analysis Rasa Steuding Hochschule RheinMain Wiesbaden Wintersemester 2011/12 R. Steuding (HS-RM) NumAna Wintersemester 2011/12 1 / 20 Wiederholung: Fehlerbetrachtung.

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

1. Einleitung wichtige Begriffe

1. Einleitung wichtige Begriffe 1. Einleitung wichtige Begriffe Da sich meine besondere Lernleistung mit dem graziösen Färben (bzw. Nummerieren) von Graphen (speziell von Bäumen), einem Teilgebiet der Graphentheorie, beschäftigt, und

Mehr

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung R. Brinkmann http://brinkmann-du.de Seite 5.05.0 Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung Erwartungswert binomialverteilter Zufallsgrößen Wird ein Bernoulli- Versuch, bei

Mehr

Merksatz Begriff der Funktion

Merksatz Begriff der Funktion Der Begriff Funktion Um uns klar zu machen, was eine Funktion (lateinisch functio) ist, betrachten wir uns die Gegenüberstellung nachfolgender Situationen. Die Temperatur eines Gewässers wird in verschiedenen

Mehr

Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat?

Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat? Einleitung Dr. M. Vogel Vorlesung Grundprobleme der Philosophie des Geistes Wie können wir entscheiden ob eine Person oder ein Wesen einen Geist hat? Malvin Gattinger Vor einem Antwortversuch will ich

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

5. Äquivalenzrelationen

5. Äquivalenzrelationen 36 Andreas Gathmann 5. Äquivalenzrelationen Wenn man eine große und komplizierte Menge (bzw. Gruppe) untersuchen will so kann es sinnvoll sein zunächst kleinere einfachere Mengen (bzw. Gruppen) zu betrachten

Mehr

Übung zur Vorlesung Diskrete Strukturen I

Übung zur Vorlesung Diskrete Strukturen I Technische Universität München WS 00/03 Institut für Informatik Aufgabenblatt 6 Prof. Dr. J. Csirik 18. November 00 Brandt & Stein Übung zur Vorlesung Diskrete Strukturen I Abgabetermin: Tutorübungen am

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

6 Polynomielle Gleichungen und Polynomfunktionen

6 Polynomielle Gleichungen und Polynomfunktionen 6 Polynomielle Gleichungen und Polynomfunktionen Lineare Gleichungen Eine lineare Gleichung in einer Variablen ist eine Gleichung der Form ax + b = cx + d mit festen Zahlen a und c mit a c. Dies kann man

Mehr

Grundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen

Grundlagen des Maschinellen Lernens Kapitel 4: PAC Lernen Kapitel 4:. Motivation 2. Lernmodelle Teil I 2.. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Vorwort Zufallsvariable X, Erwartungswert E(X), Varianz V(X) 1.1 Zufallsvariable oder Zufallsgröße Erwartungswert und Varianz...

Vorwort Zufallsvariable X, Erwartungswert E(X), Varianz V(X) 1.1 Zufallsvariable oder Zufallsgröße Erwartungswert und Varianz... Inhaltsverzeichnis Vorwort... 2 Zum Einstieg... 3 1 Zufallsvariable X, Erwartungswert E(X), Varianz V(X) 1.1 Zufallsvariable oder Zufallsgröße... 5 1.2 Erwartungswert und Varianz... 7 2 Wahrscheinlichkeitsverteilungen

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Die Fakultät. Thomas Peters Thomas Mathe-Seiten 13. September 2003

Die Fakultät. Thomas Peters Thomas Mathe-Seiten  13. September 2003 Die Fakultät Thomas Peters Thomas Mathe-Seiten www.mathe-seiten.de 3. September 2003 Dieser Artikel gibt die Definition der klassischen Fakultät und führt von dort aus zunächst zu der Anwendung in Taylor-Reihen

Mehr

Paare und Kartesische Produkte

Paare und Kartesische Produkte Paare und Kartesische Produkte Aufgabe 1. Stellen Sie das Tripel (a, b, c) als Paar und als Menge dar. Hinweis: Verwenden Sie Farben. Lösung von Aufgabe 1. (a, b, c) = ((a, b), c) Paar Darstellung (a,

Mehr

Gemeinsame Wahrscheinlichkeitsverteilungen

Gemeinsame Wahrscheinlichkeitsverteilungen Gemeinsame Wahrscheinlichkeitsverteilungen Worum geht es in diesem Modul? Gemeinsame Wahrscheinlichkeits-Funktion zweier Zufallsvariablen Randverteilungen Bedingte Verteilungen Unabhängigkeit von Zufallsvariablen

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

QUADRATISCHE GLEICHUNGENN

QUADRATISCHE GLEICHUNGENN Schule Bundesgymnasium für Berufstätige Salzburg Thema Mathematik Arbeitsblatt A -.: Quadratische Gleichungen LehrerInnenteam m/ Mag Wolfgang Schmid Unterlagen QUADRATISCHE GLEICHUNGENN Definition: Eine

Mehr

7 p X 3 B 7 0,4 3 0,4 0,6 0,29 3

7 p X 3 B 7 0,4 3 0,4 0,6 0,29 3 Aufgabe C1 Landesabitur Hessen 2012 GK Aufgabe 1.1 2 BE X ist die Anzahl der Regentage in einer Woche im Juni. X ist binomialverteilt mit p = 0,4 und n = 7. Die Anwendung der Binomialverteilung erfordert

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Primzahlen und Programmieren

Primzahlen und Programmieren Primzahlen Wir wollen heute gemeinsam einen (sehr grundlegenden) Zusammenhang zwischen Programmieren und Mathematik herstellen. Die Zeiten in denen Mathematiker nur mit Zettel und Stift (oder Tafel und

Mehr

So viel wie möglich Extremwertaufgaben aus Geometrie

So viel wie möglich Extremwertaufgaben aus Geometrie So viel wie möglich Extremwertaufgaben aus Geometrie Andreas Ulovec 1 Einführung Die meisten Leute sind mit Extremwertaufgaben vertraut: Was ist das flächengrößte Dreieck, das man in einen Kreis einschreiben

Mehr

Konkretes Durchführen einer Inferenzstatistik

Konkretes Durchführen einer Inferenzstatistik Konkretes Durchführen einer Inferenzstatistik Die Frage ist, welche inferenzstatistischen Schlüsse bei einer kontinuierlichen Variablen - Beispiel: Reaktionszeit gemessen in ms - von der Stichprobe auf

Mehr

Wie in der reellen Analysis üblich notiert man Folgen f in der Form

Wie in der reellen Analysis üblich notiert man Folgen f in der Form 2.1.3 Folgen und Konvergenz Viele aus der Analysisvorlesung bekannte Begriffe lassen sich in den Bereich der metrischen Räume verallgemeinern. Diese Verallgemeinerung hat sich als sehr nützliches mathematisches

Mehr

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population

Mehr

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert:

Graphen KAPITEL 3. Dieses Problem wird durch folgenden Graph modelliert: KAPITEL 3 Graphen Man kann als Ursprung der Graphentheorie ein Problem sehen, welches Euler 1736 von Studenten aus Königsberg gestellt bekam. Der Fluss Pregel wird von 7 Brücken überquert, und die Frage

Mehr

Diskrete Ereignissysteme

Diskrete Ereignissysteme Distributed Computing HS 22 Prof. C. Stamm / K.-T. Förster T. Langner J. Seidel Prof. R. Wattenhofer Diskrete Ereignissysteme Prüfung Donnerstag 3. Januar 23 9: 2: Uhr Nicht öffnen oder umdrehen bevor

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Effiziente Algorithmen Lösen NP-vollständiger Probleme 320 Approximationsalgorithmen In polynomieller Zeit lässen sich nicht exakte Lösungen von NP-harten Problemen berechnen. Approximationsalgorithmen

Mehr