Splitting. Impurity. c 1. c 2. c 3. c 4

Ähnliche Dokumente
Maschinelles Lernen. Kapitel 5

Kapitel ML:IV (Fortsetzung)

Kapitel ML: III. III. Entscheidungsbäume. Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Maschinelles Lernen: Symbolische Ansätze

2. Lernen von Entscheidungsbäumen

Unabhängigkeit KAPITEL 4

htw saar 1 KAPITEL 4 BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE UNABHÄNGIGKEIT Hans-Peter Hafner WS 2016/2017

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

3.3 Nächste-Nachbarn-Klassifikatoren

Bayes sches Lernen: Übersicht

Zusammenfassung Stochastik

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Bayes sches Lernen: Übersicht

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Decision Tree Learning

Statistik I für Betriebswirte Vorlesung 14

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

Induktion von Entscheidungsbäumen

4 Induktion von Regeln

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Maschinelles Lernen: Symbolische Ansätze

Kapitel 9: Informationstheorie. 2. Entropie

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

PRAKTIKUM KÜNSTLICHE INTELLIGENZ Ausarbeitung zum 1. Meilenstein

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

Künstliche Intelligenz Maschinelles Lernen

Statistik Einführung // Wahrscheinlichkeitstheorie 3 p.2/58

Bedingte Wahrscheinlichkeiten

Satz von der totalen Wahrscheinlichkeit

Statistik I für Betriebswirte Vorlesung 2

Kapitel V. V. Ensemble Methods. Einführung Bagging Boosting Cascading

Entscheidungsbäume aus großen Datenbanken: SLIQ

Statistik für Ingenieure Vorlesung 2

(Prüfungs-)Aufgaben zur Codierungstheorie

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung

Übungsaufgaben, Statistik 1

3 Wahrscheinlichkeitstheorie

Kapitel ML: III (Fortsetzung)

Wahrscheinlichkeitsrechnung

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Einführung in die medizinische Bildverarbeitung WS 12/13

UE Statistik 1, SS 2015, letztes Update am 5. März Übungsbeispiele

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

b) P( Schüler/in ist in Sek I) c) P( Schüler/in ist in Sek II und ein Mädchen)

Übungsaufgaben zum Kapitel Baumdiagramme - Bernoulli

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Definition der Entropie unter Verwendung von supp(p XY )

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

1. Grundlagen der Wahrscheinlichkeitsrechnung

4. Lernen von Entscheidungsbäumen

Einführung in die Wahrscheinlichkeitsrechnung

P A P( A B) Definition Wahrscheinlichkeit

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

2) Welche Wahrscheinlichkeitsbegriffe kennen Sie? Charakterisieren Sie die unterschiedlichen Konzepte zur Herleitung von

15 Wahrscheinlichkeitsrechnung und Statistik

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

Statistische Kennzahlen für die Lage

Kapitel 3: Etwas Informationstheorie

Wahrscheinlichkeiten

Kapitel 2 Wahrscheinlichkeitsrechnung

Data Mining - Wiederholung

KAPITEL 5. Erwartungswert

Stochastik - Kapitel 2

Die Varianz (Streuung) Definition

Klassifikation von Signifikanztests

Satz 16 (Multiplikationssatz)

Vorlesung: Künstliche Intelligenz

Kapitel 5 Stochastische Unabhängigkeit

Aufgabe 1. Übung Wahrscheinlichkeitsrechnung Markus Kessler Seite 1 von 8. Die Ereignisse A, B und C erfüllen die Bedingungen

Naive Bayes für Regressionsprobleme

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Ereignis E: ist ein oder sind mehrere Ergebnisse zusammen genommen. Bsp. E = {2; 4; 6}

Population und Stichprobe: Wahrscheinlichkeitstheorie

Institut für Stochastik, SoSe K L A U S U R , 8:00-11:00. Aufgabe Punkte erreichte Punkte Korrektur

Künstliche Intelligenz Maschinelles Lernen

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Vorlesung. Prof. Janis Voigtländer Übungsleitung: Dennis Nolte. Mathematische Strukturen Sommersemester 2017

Minimal spannende Bäume

Wahrscheinlichkeitsverteilungen

Ziegenproblem, Monty-Hall-Problem, Wahrscheinlichkeitsrechnung. Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem

Transkript:

Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision Trees c LETTMANN/STEIN 2005-2008

Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 Der linke Split ist besser: ein guter Split minimiert die Impurity (Unreinheit) der entstehenden Teilmengen. Die Impurity ist eine Funktion auf den Teilmengen einer Lernmenge D. ML: III-30 Decision Trees c LETTMANN/STEIN 2005-2008

Splitting Impurity-Funktionen für k-klassen-fall: Entropie Definition 5 (Informationsgehalt, Entropie) Tritt ein Ereignis A mit Wahrscheinlichkeit P(A) > 0 ein, dann ist der Informationsgehalt I(A) dieses Eintretens definiert als: I(A) = log 2 (P(A)) Hat ein Versuch A die möglichen Ausgänge A 1,..., A k, so heißt der mittlere Informationsgehalt H(A) die (Shannon-) Entropie des Versuchs A: H(A) = k P(A i )log 2 (P(A i )) i=1 ML: III-45 Decision Trees c LETTMANN/STEIN 2005-2008

Bemerkungen: Der Informationsgehalt eines Ereignisses ist um so größer, je seltener das Ereignis ist. Ein absolut sicheres Ereignis hat den Informationsgehalt 0. Die Entropie (mittlerer Informationsgehalt) gewichtet den Informationsgehalt für die möglichen Werte der Klassifikation mit den jeweiligen Wahrscheinlichkeiten. Es sei 0 log 2 (0) = 0 vereinbart. ML: III-46 Decision Trees c LETTMANN/STEIN 2005-2008

Splitting Impurity-Funktionen für den 2-Klassen-Fall (Fortsetzung) Illustration der Entropie: Entropy H 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 p ι entropy (p c1, p c2 ) = p c1 log 2 (p c1 ) p c2 log 2 (p c2 ), mit p c1 = p, p c2 = 1 p ML: III-43 Decision Trees c LETTMANN/STEIN 2005-2008

Splitting Impurity-Funktionen für den k-klassen-fall: Entropie (Fortsetzung) Definition 6 (bedingte Entropie, Informationsgewinn) Hat ein zweiter Versuch B die möglichen Ausgänge B 1,..., B l, dann ist die bedingte Entropie des kombinierten Versuchs (A B) definiert als: H(A B) = l P(B j ) H(A B j ) j=1 Der Informationsgewinn durch Versuch B ist definiert als H(A) H(A B): H(A) H(A B) = H(A) l P(B j ) H(A B j ) j=1 ML: III-47 Decision Trees c LETTMANN/STEIN 2005-2008

Bemerkungen: Der Informationsgewinn entspricht der erwarteten Verkleinerung der Entropie. In der deutschen Literatur wird teilweise die englische Bezeichnung Information-Gain für den Informationsgewinn verwendet. Im Kontext der Entscheidungsbäume entspricht der Versuch A der Klassifikation eines Beispiels x hinsichtlich des Zielkonzeptes. Mögliche Frage, um festzustellen welches Ereignis aus A eingetroffen ist: Gehört x zur Klasse c? Der Versuch B entspricht der Auswertung eines Merkmals von x. Mögliche Frage, um festzustellen welches Ereignis aus B eingetroffen ist: Hat x hinsichtlich Merkmal B den Wert b? Da es sich bei Zielkonzeptklassifikation und Merkmalauswertung oft um statistisch abhängige Ereignisse handelt, ist der Informationsgehalt der (für x noch unbekannten) Zielkonzeptklasse c(x) nicht mehr so hoch, wenn man schon den Wert eines bestimmten Merkmals von x kennt. Der Informationsgewinn ist niemals negativ; im Falle statistisch unabhängiger Ereignisse ist er 0. Weil H(A) konstant ist, entspricht die Bestimmung des Merkmals mit dem höchsten Informationsgehalt der Minimierung von H(A B). Die ausgeschriebene Version von H(A B) lautet: l H(A B) = P(B j ) j=1 k P(A i B j )log 2 (P(A i B j )) i=1 ML: III-48 Decision Trees c LETTMANN/STEIN 2005-2008

Splitting Auswahlheuristik ID3: Bestimme Attribut A t, für welches H(C A t ) minimal ist. Wenn die Beispielsammlung die Wahrscheinlichkeiten der Attributausprägungen und Klassifikationen korrekt widerspiegelt, können wir alle vorkommenden Wahrscheinlichkeitswerte über die relativen Häufigkeiten berechnen: d i := { Objekte in D mit Wert a t,i für A t } p i := P (A t = a t,i ) = d i D d i,j := { Objekte in D mit Wert a t,i für A t und Klassifikation c j } Dann läßt sich die bedingte Entropie berechnen als H(C A t ) = k t i=1 p i k j=1 d i,j d i log 2 ( d i,j d i ) ML: III-58 Decision Trees c BUBECK/LETTMANN 2009

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel Beschreibung von Pilzen: Farbe Größe Punkte Verzehrbarkeit 1 rot klein ja giftig 2 braun klein nein essbar 3 braun groß ja essbar 4 grün klein nein essbar 5 rot groß nein essbar Anwendung des ID3-Algorithmus. ML: III-59 Decision Trees c LETTMANN/STEIN 2005-2008

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel (Fortsetzung) 1. Rekursionschritt, Splitting hinsichtlich des Merkmals Farbe : giftig essbar D Farbe = rot 1 1 braun 0 2 grün 0 1 D rot =2, D braun =2, D gruen =1 ML: III-60 Decision Trees c LETTMANN/STEIN 2005-2008

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel (Fortsetzung) 1. Rekursionschritt, Splitting hinsichtlich des Merkmals Farbe : giftig essbar D Farbe = rot 1 1 braun 0 2 grün 0 1 D rot =2, D braun =2, D gruen =1 Geschätzte a-priori-wahrscheinlichkeiten: p rot = 2 5 =0.4, p braun = 2 5 =0.4, p gruen = 1 5 =0.2 Bedingte Entropie : H(C Farbe) = (0.4( 1 2 log 2 1 2 + 1 2 log 2 1 2 )+ 0.4( 0 2 log 2 0 2 + 2 2 log 2 2 2 )+ 0.2( 0 1 log 2 0 1 + 1 1 log 2 1 )) = 0.4 1 H(C Groesse) 0.46 H(C Punkte) = 0.4 ML: III-61 Decision Trees c LETTMANN/STEIN 2005-2008

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel (Fortsetzung) Baum nach 1. Rekursionschritt: Punkte ja nein Farbe Größe Verzehrbarkeit rot klein giftig braun groß eßbar Farbe Größe Verzehrbarkeit braun klein eßbar grün klein eßbar rot groß eßbar Das Merkmal Punkte wurde ausgewählt (Schritt 5, ID3-Algorithmus). ML: III-63 Decision Trees c LETTMANN/STEIN 2005-2008

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel (Fortsetzung) Baum nach 2. Rekursionschritt: Punkte ja nein Farbe Farbe Größe Verzehrbarkeit rot Größe Verzehrbarkeit grün Größe Verzehrbarkeit braun Größe Verzehrbarkeit braun klein eßbar grün klein eßbar rot groß eßbar klein giftig ---- ---- groß eßbar Das Merkmal Farbe wurde ausgewählt (Schritt 5, ID3-Algorithmus). ML: III-64 Decision Trees c LETTMANN/STEIN 2005-2008

Entscheidungsbaumalgorithmen ID3-Algorithmus: Beispiel (Fortsetzung) Baum nach 2. Rekursionschritt: Punkte ja nein Farbe eßbar rot grün braun giftig giftig eßbar Endgültiger Entscheidungsbaum. (Auflösen eines Unentschieden durch Auswahl der Klasse giftig in Schritt 7 label(t )=mostcommonclass(d, Target) ) ML: III-65 Decision Trees c LETTMANN/STEIN 2005-2008