Vorlesung. Machine Learning - Entscheidungsbäume

Größe: px
Ab Seite anzeigen:

Download "Vorlesung. Machine Learning - Entscheidungsbäume"

Transkript

1 Vorlesung Machine Learning - Entscheidungsbäume

2 Vorlesung Machine Learning - Entscheidungsbäume

3

4 Entscheidungsbaum Werte: diskret oder kontinuierlich? Typen von Tests (z.b. bei numerischen Werten: Test auf Gleichheit oder ob der Wert innerhalb eines Intervalls liegt usw.) Univariate vs. Multivariate Tests: Anzahl der Tests pro Knoten

5 Entscheidungsbaum Ausschließlich univariate binärwertige Entscheidungsbäume...?

6 Entscheidungsbaum Ausschließlich univariate binärwertige Entscheidungsbäume...? Ein Entscheidungsbaum mit ausschließlich univariaten binären Tests kann als aussagenlogische Formel in DNF aufgefasst werden. Disjunktion der Pfade, die von der Wurzel zu den Blättern führen die Pfade sind Konjunktionen von Tests mit ihren Resultaten

7 Entscheidungsbaum Bei Entscheidungsbäumen, die ausschließlich binäre Tests haben, unterscheiden sich die Entscheidungsbäume durch die Reihenfolge der Tests. Wenn auch numerische Werte zulässig sind, dann muss außerdem entschieden werden, welche Tests angewendet werden sollen.

8 Definition: Entscheidungsbaumlernen Lernaufgabe: Funktionslernen aus Beispielen Gegeben: eine Menge X von Instanzen Instanzen werden durch Attribute beschrieben Attribute haben numerische oder diskrete Werte Menge Y von diskreten Klassenwerten L H : Menge der aus den Attributen und Werten konstruierbaren Entscheidungsbäume

9 Komplexität Attribute können in beliebiger Reihenfolge in den Pfaden von Entscheidungsbäumen vorkommen Die Anzahl der Attribute geht als Exponent in die Anzahl der konstruierbaren Entscheidungsbäume ein Generierung aller Entscheidungsbäume nicht praktikabel

10 TDIDT Top down induction of decision trees Beginnend mit der Wurzel: Welches Attribut würde lokal die beste Klassifikationsleistung liefern?

11 Entscheidungsbaumlernen mit ID3

12 Übersicht 1. Einführung 2. Grundlegende Definitionen 3. Der ID3 Algorithmus 4. Gain Ratios verwenden 5. C4.5 und Erweiterungen 6. Entscheidungsbaum-Pruning und Ableiten von Regeln

13 1. Einführung ID3 und C4.5 Algorithmen, die Ross Quinlan für das Erzeugen von Klassifikationsmodellen (Entscheidungsbäumen) eingeführt hat. Gegeben: Satz von Beispielen, gleiches Schema, Attribut/Werte-Paare Ziel ist auch Attribut/Werte-Paar (meistens binär) Problem: Erzeugen eines Entscheidungsbaumes, der auf der Basis der Beispiele (ohne Zielattribute) den Wert des Zielattributes korrekt vorhersagt.

14 1. Einführung Beispiel: Wetterbedingungen zum Golfspielen Ziel: Golfspielen (ja/nein) Hier die nicht-ziel-attribute: Attribut mögl. Werte outlook sunny, overcast, rain temperature continuous humidity continuous windy true, false

15 1. Einführung Trainingsdaten Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play Besonderheiten: Temperature & Humidity sind kontinuierliche Werte ID3 kann das nicht ohne weiteres verarbeiten

16 Weiteres Beispiel r Patrons ( r, Full ) WaitEstima te ( r,10 30 ) Hungry ( r, N ) WillWait ( r)

17 1. Einführung Entscheidungsbäume sind nicht interessant, weil sie zusammenfassen, was wir schon wissen (Trainingsdaten), sondern weil sie neue Fälle korrekt klassifizieren können. Deswegen: Trainingsdaten Testdaten zur Güteüberprüfung Trainingsdaten braucht man, um das Modell zu konstruieren Testdaten braucht man, um das Modell zu prüfen

18 1. Einführung Die Idee von ID3 Jeder Knoten in dem Entscheidungsbaum korrespondiert zu einem Attribut (ohne das Zielattribut). Jede Kante zwischen den Knoten korrespondiert zu einem möglichen Wert des Attributes. Ein Blatt spezifiziert den Erwartungswert des Zielattributes für die Beispiele, die durch den Pfad von der Wurzel zum Blatt beschrieben werden. [Entscheidungsbaumdefinition] In dem Baum sollte an einem Knoten das Attribut assoziiert werden, das am informativsten ist (von denen, die in dem Pfad noch nicht betrachtet worden sind). [ guter Entscheidungsbaum ] Um zu messen, wie informativ ein Attribut ist, wird die Entropie verwendet. [Claude Shannon, Information Theory] C4.5 ist eine Erweiterung von ID3 Für missing values, kontinuierliche Wertebereiche, Pruning, Regelableitung, etc.

19

20

21 2. Grundlegende Definitionen Diskrete Quelle X = x 1,...,x n ein endlicher Zeichenvorrat mit n Elementarzeichen Auftrittswahrscheinlichkeit p(x 1 ) = 1/n Informationsgehalt eines Zeichens x k ist I(x k ) = log 2 (1/p(x k )) bit d.h., wenn 16 Zeichen, dann log 2 (16) = 4 4 Bits für die Identifikation eines Zeichens Da p(x 1 ) max 1 ist I(x k ) positiv. Je unwahrscheinlicher das Zeichen, desto größer I(x k ). Generell: Gegeben: Wahrscheinlichkeitsverteilung P(x 1,x 2,...,x n ) Entropie (mittlerer Informationsgehalt einer Quelle) von P I(P) = -(x 1 * log 2 (x 1 ) + x 2 * log 2 (x 2 ) x n * log 2 (x n ))

22 2. Grundlegende Definitionen Beispiele: P = (0.5,0.5) I(P) = 1 P = (0.67, 0.33) I(P) = 0.92 P = (1,0) I(P) = 0 Wichtig: Je gleichverteilter die Wahrscheinlichkeitsverteilung, desto größer ist ihre Information

23 2. Grundlegende Definitionen T sind Beispiele, die in disjunkte Klassen C 1, C 2,..., C n aufgeteilt sind (Basis: die Werte des Zielattributes). Die Information, die benötigt wird, um die Klasse eines Elementes von T zu identifizieren ist Info(T) = I(P), wobei P die Wahrscheinlichkeitsverteilung der Klassen C 1, C 2,..., C n ist. C C C n P,..., 1 2, T T T Info ( T ) I 9 14 Golfbeispiel:, Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

24 2. Grundlegende Definitionen Wenn man T in Partitionen von T 1, T 2,..., T n aufteilt (Basis: die Werte eines Nicht-Zielattributes X), dann ist die Information, die benötigt wird, um ein Element von T einer Klasse zuzuordnen das gewichtete Mittel der Information, die benötigt wird, um die Klasse eines Elementes von T i zu identifizieren, d.h., das gewichtete Mittel von Info(T i ). Info ( X, T ) i n 1 T T i Info ( T i ) Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 )

25 2. Grundlegende Definitionen Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 ) Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

26 2. Grundlegende Definitionen Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 ) Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

27 2. Grundlegende Definitionen Golfbeispiel: Info ( Outlook, T ) I (, ) I (,0) I ( 5, 2 ) Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play

28 2. Grundlegende Definitionen Gain(X,T): Die Differenz zwischen der Information, die benötigt wird, um ein Element von T zu identifizieren und der Information, die benötigt wird, um ein Element von T zu identifizieren, nachdem der Wert des Attributes X bekannt ist. Das ist der Gewinn an Informationsgehalt durch das Attribut X. Gain ( X, T ) Info ( T ) Info ( X, T ) Golfbeispiel: Gain ( Outlook, T ) Info ( T ) Info ( Outlook, T ) Aber: Info(Windy,T) = und Gain(Windy,T) = Outlook bietet mehr Zunahme an Informationsgehalt!

29 2. Grundlegende Definitionen Gain Ranking zwischen Attributen möglich Erzeugen des Baumes dadurch möglich Was will man dadurch erreichen? Möglichst kleine Entscheidungsbäume, so dass Beispiele schon nach einigen Fragen identifiziert werden können Okham s Razor: Wir suchen nach einem Muster, das eine große Anzahl von Beispielen abdeckt und das in einer kurzen und knappen Form. Dieses Beispiel des generelles Prinzips von Induktionslernen wird auch Ockham s razor genannt. Die wahrscheinlichste Hypothese ist die einfachste, die mit allen Beobachtungen konsistent ist.

30 Entscheidungsbaumalgorithmus

31 Beispiel r Patrons ( r, Full ) WaitEstima te ( r,10 30 ) Hungry ( r, N ) WillWait ( r)

32 Trainings-Set.

33 Beispiel 12 Trainingsbeispiele Positiv/negativ Klassifikation Entscheidung, welches Attribut zuerst (a) zeigt, das Patrons wichtig ist, weil für None und Some eindeutig sind (b) zeigt, das Type kein gutes Attribut ist, weil vier Optionen mit jeweils pos./neg. Werten Wir checken jedes Attribut auf diesem Weg und entscheiden uns für das beste (c) jetzt wird gesplittet. Jede Option ist ein neuer Baum mit weniger Beispielen und einem Attribut weniger

34 Beispiel 4 Fälle sind für dieses rekursive Problem zu beachten: 1) wenn pos. und neg. Bsp. vorhanden, dann wähle bestes Attribut zum Splitten (c) 2) wenn alle übrig gebliebenen Bsp. positiv (oder negativ), dann fertig (c) 3) wenn keine Beispiele mehr vorhanden sind Bsp. wurde nicht beobachtet, return default, z.b. Majority 4) wenn keine Attribute mehr, aber pos. und neg. Bsp. Problem. Gleiche Daten haben unterschiedliche Klassen. Nicht korrekte Daten NOISE, Rückgabe: z. B. Majority

35 Ergebnis aus Restaurantbeispiel Entscheidungsbaum aus Beispiel

36 Ergebnis Baum nach Algorithmus, Raining und Reservations sind nicht notwendig, um zu einer Entscheidung zu kommen, die Klassifikationen werden auch ohne sie richtig erstellt. Außerdem: Der Algorithmus hat eine Regularität entdeckt: Thai on Weekends

37 Problemfall Problem: kein Fall, wo das Restaurant voll ist, und das Warten zwischen 0 und 10 min ist. Wenn Hungry false ist, würde der Baum nicht warten, aber der Gast würde. Die Frage ist: Wie inkorrekt ist der Baum? Wenn er alle Beispiele konsistent abdeckt, heißt das nicht, dass er auch für andere Beispiele korrekt ist.

38 4. Gain Ratios verwenden Was passiert, wenn man Gain verwendet, wie wir es vorhin kennen gelernt haben? Attribute mit einer größeren Anzahl von Werten werden bevorzugt Bsp.: Attribut D hat jeweils einen Wert für die Beispiele. Info(D,T) ist 0, deswegen ist Gain(D,T) maximal. Quinlan hat deswegen folgendes vorgeschlagen: GainRatio ( D, T ) Gain ( D, T ) SplitInfo ( D, T ) SplitInfo(D,T) ist die Information durch die Aufteilung von T auf der Basis des Wertes des Zielattributes D.

39 4. Gain Ratios verwenden SplitInfo(D,T) ist die Information durch die Aufteilung von T auf der Basis des Wertes des Zielattributes D. I T1 2 T T, T,..., T m T Wobei (T 1, T 2,..., T m ) die Partition von T ist, die durch den Wert von D induziert wird

40 5. C4.5 und Erweiterungen C4.5 bietet eine Reihe von Erweiterungen in Bezug auf ID3 Bei der Konstruktion des Entscheidungsbaumes Trainingsdaten mit unbekannten Attributwerten Gain, GainRatios werden nur mit Attributwerten berechnet, die bekannt sind Beim Verwenden des Entscheidungsbaumes Klassifizieren von Beispielen mit unbekannten Attributwerten durch Wahrscheinlichkeiten Golfbsp.: Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play sunny 71 unknown TRUE?

41 5. C4.5 und Erweiterungen Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play sunny 80 unknown TRUE don't play overcast p la y <= 75 p la y su n ny h u m id ity? O u tlo ok > 75 d o n 't p lay ra in w in d y true d o n 't p lay fa lse p la y Von Outlook über sunny nach humidity? Wir kennen den Wert von humidity nicht, sehen aber, dass wenn die humidity höchstens 75% ist, wir 2x play haben

42 5. C4.5 und Erweiterungen Outlook Temperature Humidity Windy Play sunny FALSE don't play sunny TRUE don't play overcast FALSE play rain FALSE play rain FALSE play rain TRUE don't play overcast TRUE play sunny FALSE don't play sunny FALSE play rain FALSE play sunny TRUE play overcast TRUE play overcast FALSE play rain TRUE don't play sunny 80 unknown TRUE don't play overcast p la y <= 75 p la y su n ny h u m id ity? O u tlo ok > 75 d o n 't p lay ra in w in d y true d o n 't p lay fa lse p la y Wenn die humidity > 75% ist, haben wir 3x don t play Also: die Wahrscheinlichkeit ist 40% play zu 60% don t play

43 5. C4.5 und Erweiterungen Wie verhält sich das mit kontinuierlichen Attributwerten? Sei C i ein Attribut mit kontinuierlichen Werten Untersuchung der Werte des Attributes in der Trainingsmenge Es seien A 1, A 2,..., A m unterschiedliche Werte vorhanden (aufsteigende Reihenfolge) Dann wird für jeden Wert A j, j=1,...,m die Beispiele partitioniert derart, dass eine Partition A j und eine Partition > A j. Für jede Partition Gain, GainRatio ausrechnen und die Partition mit dem maximalen Gain selektieren. Golfbeispiel: Beste Partition bei 75, der Wertebereich für das Attribut Humidity ist dann {<=75,>75} Nachteil: viele Rechenschritte

44 6. Pruning und Ableiten von Regeln Entscheidungsbaum korrekt (meistens) für die Trainingsdaten Aber: Pfade manchmal sehr komplex und viel zu lang Pruning durch Abschneiden ganzer Äste Ersatz eines Astes durch ein Blatt Substitution dann, wenn der erwartete Fehler des Subbaumes größer ist, als durch ein einzelnes Blatt Vermeidung von Overfitting Vorhersagequalität des Gesamtbaumes ist besser, wenn schlechte Teilbäume abgeschnitten werden

45 6. Pruning und Ableiten von Regeln Schätzung des wahren Fehlers

46 7. Testen der Ergebnisse Baum erzeugt durch ID3 oder C4.5 Aussage nur über Trainingsdaten 14 Bsp. werden korrekt klassifiziert Überschätzung des Modells O u tlo ok Trainings- und Testset Aufsplittung der Daten in zwei Datensätze o ve rca st su n ny ra in Evaluationsmethoden? Gütetest der Vorhersage Gebräuchlich: Cross Validation Jackknifing p la y <= 75 p la y h u m id ity > 75 d o n 't p lay true d o n 't p lay w in d y fa lse p la y

47 7. Testen der Ergebnisse Evaluation Absolut unverzichtbar ist eine nachvollziehbare Prüfung der Qualität der Modelle Getestet werden dabei die prädiktiven Fähigkeiten der verschiedenen Methoden und deren unterschiedlichen Parameterausprägungen die Werte für eine Reihe von Stichprobenpunkten vorherzusagen. Cross Validation Sehr gebräuchlich Schätzt den globalen Fehler basierend auf resampling Diese Fehler werden oft dazu benutzt, um Modelle anderen Modellen vorzuziehen Bsp.: Netzwerk-Topologien bei neuronalen Netzen

48 7. Testen der Ergebnisse K-fold Cross Validation Datensatz in k gleich große Subsets splitten Modell k-mal trainieren, jedes mal einen Subset beim trainieren auslassen Diesen Subset dazu benutzen, den Fehler zu bestimmen (Vorhersagegüte) Wenn k = Anzahl der Trainingsbeispiele, dann leave-one-out cross validation Populär: k=10 Kein Replacement (wenn Bsp. für Trainings-Testset ausgewählt, dann kann es nicht noch einmal ausgewählt werden)

49 7. Testen der Ergebnisse Jackknifing Leicht verwechselbar mit leave-one-out cross validation Beide Verfahren lassen einen Subset aus und trainieren mit den restlichen Aber: Cross Validation für generellen Fehler Jackknife für das Schätzen der Abweichungen von statistischen Kennwerten Statistiken für jedes Subset, die Mittelwerte dieser Subsets werden dann mit denen des Gesamtdatensatzes verglichen

50 Prediction is very difficult, especially about the future. Niels Bohr ( )

Einführung in die Methoden der Künstlichen Intelligenz

Einführung in die Methoden der Künstlichen Intelligenz www.is.cs.uni-fra ankfurt.de Einführung in die Methoden der Künstlichen Intelligenz Vorlesung 8 Entscheidungsbaumlernen 2 19. Mai 2009 Ingo J. Timm, René Schumann Übersicht 1. Einführung 2. Grundlegende

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

4. Lernen von Entscheidungsbäumen

4. Lernen von Entscheidungsbäumen 4. Lernen von Entscheidungsbäumen Entscheidungsbäume 4. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 6. Übungsblatt Aufgabe 1 Gegeben sei eine Beispielmenge mit folgenden Eigenschaften: Jedes Beispiel ist durch 10 nominale Attribute A 1,...,

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Erstes Mathe-Tutorium am Themen können gewählt werden unter: Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

ID3 und Apriori im Vergleich

ID3 und Apriori im Vergleich ID3 und Apriori im Vergleich Lassen sich bei der Klassifikation mittels Apriori bessere Ergebnisse als durch ID3 erzielen? Sebastian Boldt, Christian Schulz, Marc Thielbeer KURZFASSUNG Das folgende Dokument

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume als Repräsentationsformalismus Semantik: Klassifikation Lernen von Entscheidungsbäumen vollst. Suche vs. TDIDT Tests, Ausdrucksfähigkeit Maße: Information

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 1. Übungsblatt Aufgabe 1: Anwendungsszenario Überlegen Sie sich ein neues Szenario des klassifizierenden Lernens (kein

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume Repräsentationsformalismus Tests Semantik: Klassifikation Ausdrucksfähigkeit Lernen von Entscheidungsbäumen Szenario vollst. Suche vs. TDIDT Maße:

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2013 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele

Einführung. Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen. Lernen und Agenten. Beispiele Einführung Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Direkte Programmierung eines intelligenten Agenten nicht möglich (bisher) Daher benötigt:

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007. Modellierung Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest Wolfgang Konen Fachhochschule Köln Oktober 2007 W. Konen DMC WS2007 Seite - 1 W. Konen DMC WS2007 Seite - 2 Inhalt Typen der Modellierung

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 1. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 1. Übungsblatt 1 1. Anwendungsszenario Überlegen

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 18. Lernen aus Beobachtungen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt Maschinelles Lernen: Symbolische Ansätze Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt 1 Aufgabe 1 Nearest Neighbour Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity

Mehr

Klassische Klassifikationsalgorithmen

Klassische Klassifikationsalgorithmen Klassische Klassifikationsalgorithmen Einführung in die Wissensverarbeitung 2 VO 708.560+ 1 UE 442.072 SS 2012 Institut für Signalverarbeitung und Sprachkommunikation TU Graz Inffeldgasse 12/1 www.spsc.tugraz.at

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

4 Induktion von Regeln

4 Induktion von Regeln 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining Clustering Ausarbeitung von Michael Speckner Proseminar Data Mining Einleitung Das Clustering wird verwendet, wenn man keine Klassen vorhersagen kann, aber die Instanzen in natürliche Gruppen einteilen

Mehr

Induktion von Assoziationsregeln. Stefan Mandl

Induktion von Assoziationsregeln. Stefan Mandl Induktion von Assoziationsregeln Stefan Mandl Inhalt Was sind Assoziationsregeln? Qualitätsbewertung Algorithmus Was sind Assoziationsregeln? Assoziationsregeln Assoziationsregeln beschreiben Korrelationen

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung Huffman-Codierung, arithmetische Codierung Theoretische Informatik RWTH-Aachen 4. April 2012 Übersicht 1 Einführung 2 3 4 5 6 Einführung Datenkompression Disziplin,die Kompressionsalgorithmen entwirft

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation Überblick 4.1 Einleitung 4.2 Clustering 4.3 Klassifikation 1 Klassifikationsproblem Gegeben: eine Menge O D von Objekten o = (o 1,..., o d ) O mit Attributen A i, 1 i d eine Menge von Klassen C = {c 1,...,c

Mehr

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2) Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Praktikum Data Warehousing und Data Mining

Praktikum Data Warehousing und Data Mining Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Naive Bayes für Regressionsprobleme

Naive Bayes für Regressionsprobleme Naive Bayes für Regressionsprobleme Vorhersage numerischer Werte mit dem Naive Bayes Algorithmus Nils Knappmeier Fachgebiet Knowledge Engineering Fachbereich Informatik Technische Universität Darmstadt

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1 Vortragsthema Klassifikation OS Data Mining SS0 Madeleine Weiand Agenda Agenda I III Begriff Klassifikation Abgrenzung Anforderungen Anwendungsgebiete Dimensionsreduktion Umsetzung in Software Vergleich

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 3. Übungsblatt 18. November 2015 1 Aufgabe 1: Version Space, Generalisierung und Spezialisierung (1) Gegeben sei folgende

Mehr

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning Kapitel ML: III III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-1 Decision Trees c STEIN/LETTMANN 2005-2011 Spezifikation von Klassifikationsproblemen

Mehr

7.11. Naïve Bayes, Entscheidungsbäume

7.11. Naïve Bayes, Entscheidungsbäume Vorlesungsplan 17.10. Einleitung 4.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 1.11. Lineare Modelle,

Mehr

Entscheidungsbaum-Lernen. im Proseminar Maschinelles Lernen

Entscheidungsbaum-Lernen. im Proseminar Maschinelles Lernen Entscheidungsbaum-Lernen im Proseminar Maschinelles Lernen Wintersemester 2003/2004 2. Dezember 2003 Gliederung: 1 Einleitung 1.1 Was sind Entscheidungsbäume? 1.2 Was ist Entscheidungsbaumlernen ( Decision

Mehr

Beispiellösungen DM. Prof. Dr. Jürgen Cleve. Das Beispiel zum Support und der Kondenz

Beispiellösungen DM. Prof. Dr. Jürgen Cleve. Das Beispiel zum Support und der Kondenz Beispiellösungen DM Prof. Dr. Jürgen Cleve Inhaltsverzeichnis 1 Einführung 1 Grundlagen 1 Anwendungsklassen 1 4 Wissensrepräsentation 1 Methoden und Verfahren 6 Vorverarbeitung 9 7 Bewertung 9 Im folgenden

Mehr

Induktion von Entscheidungsbäumen

Induktion von Entscheidungsbäumen Induktion von Entscheidungsbäumen Christian Borgelt Institut für Wissens- und Sprachverarbeitung Otto-von-Guericke-Universität Magdeburg Universitätsplatz 2, 39106 Magdeburg E-mail: borgelt@iws.cs.uni-magdeburg.de

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

Classification and Regression Trees. Markus Müller

Classification and Regression Trees. Markus Müller Classification and Regression Trees Markus Müller Gliederung Lernen Entscheidungsbäume Induktives Lernen von Bäumen ID3 Algorithmus Einfluß der Beispielmenge auf den Baum Möglichkeiten zur Verbesserung

Mehr

Darstellung, Verarbeitung und Erwerb von Wissen

Darstellung, Verarbeitung und Erwerb von Wissen Darstellung, Verarbeitung und Erwerb von Wissen Gabriele Kern-Isberner LS 1 Information Engineering TU Dortmund WiSe 2016/17 G. Kern-Isberner (TU Dortmund) DVEW WiSe 2016/17 1 / 169 Struktur der DVEW 1

Mehr

11. Übung Knowledge Discovery

11. Übung Knowledge Discovery Prof. Dr. Gerd Stumme, Robert Jäsche Fachgebiet Wissensverarbeitung. Übung Knowledge Discovery.7.7 Sommersemester 7 Informationsgewinn Im folgenden betrachten wir die Menge von n rainingsobjeten, mit den

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

5 Kontinuierliches Wachstum

5 Kontinuierliches Wachstum 5 Kontinuierliches Wachstum Kontinuierlich meßbare Größe Wir betrachten nun eine Größe a, die man kontinuierlich messen kann. Den Wert von a zum Zeitpunkt t schreiben wir nun als a(t). Wir können jedem

Mehr

i Der Informatinonsgehalt ist also intuitiv umgekehrt proportional der Auftritswahrscheimlichkeit.

i Der Informatinonsgehalt ist also intuitiv umgekehrt proportional der Auftritswahrscheimlichkeit. 1 2 Im ersten Schritt werden wir uns mit dem Begriff und der Definition der Information beschäftigen. Ferner werden die notwendigen math. Grundlagen zur Quellencodierung gelegt. Behandelt werden Huffman,

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2014/2015 Musterlösung für das 3. Übungsblatt Aufgabe 1: Version Space, Generalisierung und Spezialisierung Gegeben sei folgende Hierarchie von Begriffen:

Mehr

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =. 2. Der Blum-Floyd-Pratt-Rivest-Tarjan Selektions-Algorithmus Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche

Mehr

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen

Mehr

Kapitel 7: Optimalcodierung und Huffman Coding

Kapitel 7: Optimalcodierung und Huffman Coding Kapitel 7: codierung und Huffman Coding Ziele des Kapitels Auftreten von Fehlern bei zu starker Kompression Konstruktion optimaler Codes Huffman Coding 2 Bisher Theorem (Shannon I): Die mittlere Codewortlänge

Mehr

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch

Einführung: Bayessches Lernen. Dipl.-Inform. Martin Lösch. martin.loesch@kit.edu (0721) 608 45944. Dipl.-Inform. Martin Lösch Einführung: martin.loesch@kit.edu (0721) 608 45944 Übersicht Motivation & Hintergrund Naiver Bayes-Klassifikator Bayessche Netze EM-Algorithmus 2 Was ist eigentlich? MOTIVATION & HINTERGRUND 3 Warum Lernen

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen 5. Zwei spieltheoretische Aspekte Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2015/2016 1 / 36 Überblick

Mehr

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS)

5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) 5 BINÄRE ENTSCHEIDUNGS- DIAGRAMME (BDDS) Sommersemester 2009 Dr. Carsten Sinz, Universität Karlsruhe Datenstruktur BDD 2 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer:

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

Redundanz. Technische Informationsquelle Entropie und Redundanz Huffman Codierung. Martin Werner WS 09/10. Martin Werner, Dezember 09 1

Redundanz. Technische Informationsquelle Entropie und Redundanz Huffman Codierung. Martin Werner WS 09/10. Martin Werner, Dezember 09 1 Information, Entropie und Redundanz Technische Informationsquelle Entropie und Redundanz Huffman Codierung Martin Werner WS 9/ Martin Werner, Dezember 9 Information und Daten Informare/ Informatio (lat.)

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Kapitel 9: Informationstheorie. 2. Entropie

Kapitel 9: Informationstheorie. 2. Entropie ZHAW, NT, FS2008, Rumc, Kapitel 9: 2-1 Kapitel 9: Informationstheorie 2. Entropie Inhaltsverzeichnis 2.1. INFORATIONSQUELLEN...2 2.2. INFORATIONSGEHALT...3 2.3. INIALE ANZAHL BINÄRE FRAGEN...5 2.4. ENTROPIE

Mehr

Methoden, Chancen und Risiken beim Auswerten großer Datenmengen

Methoden, Chancen und Risiken beim Auswerten großer Datenmengen Methoden, Chancen und Risiken beim Auswerten großer Datenmengen Peter Dauscher Gymnasium am Kaiserdom, Speyer peter dauscher gak speyer de Data-Mining in der Schule - Eine Annäherung

Mehr