Entscheidungsbäume. Minh-Khanh Do Erlangen,

Größe: px
Ab Seite anzeigen:

Download "Entscheidungsbäume. Minh-Khanh Do Erlangen,"

Transkript

1 Entscheidungsbäume Minh-Khanh Do Erlangen,

2 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest Filter Erlangen, Minh-Khanh Do Entscheidungsbäume 2

3 Allgemeines Konzept

4 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

5 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

6 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

7 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

8 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 4

9 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Erlangen, Minh-Khanh Do Entscheidungsbäume 4

10 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Mit Testdatensatz evaluieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4

11 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 5

12 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Entscheidungsbaum age? youth middle senior student? yes credit_rating? no yes excellent fair no yes no yes Erlangen, Minh-Khanh Do Entscheidungsbäume 5

13 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Erlangen, Minh-Khanh Do Entscheidungsbäume 6

14 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Kindknoten testet auf einer Teilmenge der Daten des Vaterknotens Erlangen, Minh-Khanh Do Entscheidungsbäume 6

15 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Erlangen, Minh-Khanh Do Entscheidungsbäume 7

16 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair? Erlangen, Minh-Khanh Do Entscheidungsbäume 7

17 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair yes Erlangen, Minh-Khanh Do Entscheidungsbäume 7

18 Konstruktion

19 Algorithmus Top-down Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 9

20 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: Erlangen, Minh-Khanh Do Entscheidungsbäume 9

21 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut Erlangen, Minh-Khanh Do Entscheidungsbäume 9

22 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen Erlangen, Minh-Khanh Do Entscheidungsbäume 9

23 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen 3. Für jede Untermenge Wenn alle Daten die gleiche Klasse haben bearbeite die nächste Untermenge Sonst gehe zu 1. Erlangen, Minh-Khanh Do Entscheidungsbäume 9

24 Attributwahl

25 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 11

26 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11

27 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 11

28 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11

29 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11

30 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten möglichst viele von der selben Klasse in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11

31 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Erlangen, Minh-Khanh Do Entscheidungsbäume 12

32 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 12

33 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Erlangen, Minh-Khanh Do Entscheidungsbäume 12

34 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Info(D) = 0: Menge besteht aus einer Klasse Erlangen, Minh-Khanh Do Entscheidungsbäume 12

35 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

36 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

37 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

38 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Info(income = low) = 3 4 log log 2 1 0, Info(income = medium) = 4 6 log log 2 2 0, Info(income = high) = 2 4 log log 2 2 = 4 1 Erlangen, Minh-Khanh Do Entscheidungsbäume 13

39 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Erlangen, Minh-Khanh Do Entscheidungsbäume 14

40 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Erlangen, Minh-Khanh Do Entscheidungsbäume 14

41 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Je größer Gain(D, A), desto besser ist es die Daten mit dem Attribut A zu teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 14

42 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 15

43 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Erlangen, Minh-Khanh Do Entscheidungsbäume 15

44 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Gain(income) = Info(vor Split) 4 Info(income = low) Info(income = medium) 4 Info(income = high) 14 0, 029 Erlangen, Minh-Khanh Do Entscheidungsbäume 15

45 Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) Erlangen, Minh-Khanh Do Entscheidungsbäume 16

46 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte a) color? green Erlangen, Minh-Khanh Do Entscheidungsbäume 16

47 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

48 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

49 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen a) color? b) color {red}? c) age 20? green yes no yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16

50 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen d) Wertebereich in diskrete Werte teilen a) color? b) color {red}? c) age 20? d) age? green yes no yes no youth middle senior Erlangen, Minh-Khanh Do Entscheidungsbäume 16

51 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Erlangen, Minh-Khanh Do Entscheidungsbäume 17

52 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Erlangen, Minh-Khanh Do Entscheidungsbäume 17

53 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Erlangen, Minh-Khanh Do Entscheidungsbäume 17

54 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 17

55 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Erlangen, Minh-Khanh Do Entscheidungsbäume 17

56 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Aufwendig Erlangen, Minh-Khanh Do Entscheidungsbäume 17

57 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) Erlangen, Minh-Khanh Do Entscheidungsbäume 18

58 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein Erlangen, Minh-Khanh Do Entscheidungsbäume 18

59 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A Info(D) = m p i log 2 (p i ) i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 18

60 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

61 Gain Ratio (Beispiel) age? youth middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

62 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 GainRatio(ID) = Gain(ID) 14 ( 1 14 log ) , 940 3, 807 0, 247 Erlangen, Minh-Khanh Do Entscheidungsbäume 19

63 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Erlangen, Minh-Khanh Do Entscheidungsbäume 20

64 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

65 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

66 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D Erlangen, Minh-Khanh Do Entscheidungsbäume 20

67 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Erlangen, Minh-Khanh Do Entscheidungsbäume 20

68 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Lösung: Gain zuerst ausrechnen, dann GainRatio bei den überdurchschnittlich großen Werten ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 20

69 Probleme

70 Problem (Overfitting) Baum ist zu nah an den Datensatz Erlangen, Minh-Khanh Do Entscheidungsbäume 22

71 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Erlangen, Minh-Khanh Do Entscheidungsbäume 22

72 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 22

73 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Erlangen, Minh-Khanh Do Entscheidungsbäume 22

74 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Viele Pruning-Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 22

75 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Erlangen, Minh-Khanh Do Entscheidungsbäume 23

76 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Erlangen, Minh-Khanh Do Entscheidungsbäume 23

77 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Erlangen, Minh-Khanh Do Entscheidungsbäume 23

78 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Erlangen, Minh-Khanh Do Entscheidungsbäume 23

79 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Solange durchführen bis keine Verbesserung mehr Erlangen, Minh-Khanh Do Entscheidungsbäume 23

80 Reduced Error Pruning (Beispiel) A 1? no yes no A 2? yes no A 3? yes Yes No no A 4? yes Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24

81 Reduced Error Pruning (Beispiel) A 1? no yes A 1? A 2? A 3? no yes no Yes yes No no no A 4? yes yes Yes no Yes A 2? yes No Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24

82 Random forest

83 Konzept Viele Entscheidungsbäume (Wald) Erlangen, Minh-Khanh Do Entscheidungsbäume 26

84 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Erlangen, Minh-Khanh Do Entscheidungsbäume 26

85 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 26

86 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Die Klasse mit den meisten Stimmen wird genommen Erlangen, Minh-Khanh Do Entscheidungsbäume 26

87 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27

88 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27

89 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Zufällige Anzahl von Attributen zum Splitten nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27

90 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Zufällige Anzahl von Attributen zum Splitten nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no ID income credit_rating 1 high fair no 2 high excellent no 3 high fair yes 4 medium fair yes 5 low fair yes 6 low excellent no 7 low excellent yes 8 medium fair no 9 low fair yes 10 medium fair yes 11 medium excellent yes 12 medium excellent yes 13 high fair yes 14 medium excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27

91 Vorteile Einzelne Bäume nicht so komplex Erlangen, Minh-Khanh Do Entscheidungsbäume 28

92 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Erlangen, Minh-Khanh Do Entscheidungsbäume 28

93 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Erlangen, Minh-Khanh Do Entscheidungsbäume 28

94 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Erlangen, Minh-Khanh Do Entscheidungsbäume 28

95 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Konstruktion und Klassifikation parallelisierbar Erlangen, Minh-Khanh Do Entscheidungsbäume 28

96 Filter

97 Noch Fragen? Ok Ja Nein Ok Danke für die Aufmerksamkeit! Erlangen, Minh-Khanh Do Entscheidungsbäume 30

98 Literatur Jiawei Han Micheline Kamber Jian Pei: Data Mining Concepts and Techniques (3rd Edition) Kapitel 8 Stuart Russell Peter Norvig: Artificial Intelligence A Modern Approach (3rd Edition) Kapitel 18 Trevor Hastie Robert Tibshirani Jerome Friedman The Elements of Statistical Learning (2nd Edition) Ian H. Witten Eibe Frank Mark A. Hall Data Mining Practical Machine Learning Tools and Techniques (3rd Edition) Kapitel 4,6 Leo Breiman: Random Forests Erlangen, Minh-Khanh Do Entscheidungsbäume 31

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Vorlesung. Machine Learning - Entscheidungsbäume

Vorlesung. Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume http://de.wikipedia.org/wiki/datei:deu_tutorial_-_hochladen_von_bildern_neu%2bcommons.svg http://www.rulequest.com/personal/

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Konzepte der AI: Maschinelles Lernen

Konzepte der AI: Maschinelles Lernen Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume Repräsentationsformalismus Tests Semantik: Klassifikation Ausdrucksfähigkeit Lernen von Entscheidungsbäumen Szenario vollst. Suche vs. TDIDT Maße:

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

6.6 Vorlesung: Von OLAP zu Mining

6.6 Vorlesung: Von OLAP zu Mining 6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)

Übersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2) Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Entscheidungsbäume. Benjamin Grünebast Andreas Löcken. WiSe 2011/2012

Entscheidungsbäume. Benjamin Grünebast Andreas Löcken. WiSe 2011/2012 Carl von Ossietzky Universität Oldenburg Data Mining in Astronomy Entscheidungsbäume Benjamin Grünebast Andreas Löcken WiSe 2011/2012 Zusammenfassung Diese Ausarbeitung untersucht die Anwendung von Entscheidungsbäumen

Mehr

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Masterthesis. Entscheidungsbaumgenerierung als elearning-modul

Hochschule Wismar. Fakultät für Wirtschaftswissenschaften. Masterthesis. Entscheidungsbaumgenerierung als elearning-modul Hochschule Wismar Fakultät für Wirtschaftswissenschaften Masterthesis Entscheidungsbaumgenerierung als elearning-modul Masterthesis zur Erlangung des Grades Master of Science in Wirtschaftsinformatik der

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

Visualisierung der Imperfektion in multidimensionalen Daten

Visualisierung der Imperfektion in multidimensionalen Daten Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

Klassifikation im Bereich Musik

Klassifikation im Bereich Musik Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute

Konzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene

Mehr

Überwachtes Lernen: Klassifikation und Regression

Überwachtes Lernen: Klassifikation und Regression Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence

Data Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:

Mehr

KD-Bäume. ein Vortrag von Jan Schaefer

KD-Bäume. ein Vortrag von Jan Schaefer ein Vortrag von Jan Schaefer Überblick - Kurzer Rückblick: Quad Trees - KD-Baum bauen - Effizienz des Konstruktionsalgorithmus - Regionen - Bereichssuche - Effizienz des Suchalgorithmus - Anwendungsgebiete

Mehr

Klassifikation. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Klassifikation. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Klassifikation 0 Überblick Grundkonzepte Entscheidungsbäume Evaluierung von Klassifikatoren Lernen von Regeln Klassifikation mittels Assoziationsregeln Naïver Bayescher Klassifikator Naïve Bayes für Text

Mehr

Datenvorverarbeitung von nominalen Daten für Data Mining

Datenvorverarbeitung von nominalen Daten für Data Mining Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared

Mehr

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04. CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

9.5 Entscheidungsbäume

9.5 Entscheidungsbäume 9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Data Mining (ehem. Entscheidungsunterstützungssysteme) Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNGSBAUMVERFAHREN

Mehr

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25

Mathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25 Mathematische Grundlagen III Evaluation 16 Juli 2011 1/25 Training Set und Test Set Ein fairer Test gibt an, wie gut das Modell im Einsatz ist Resubstitution: Evaluation auf den Trainingsdaten Resubstitution

Mehr

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete

Kapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:

Mehr

Kapitel 5: Ensemble Techniken

Kapitel 5: Ensemble Techniken Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5:

Mehr

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen

Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Entscheidungsunterstützende Systeme

Entscheidungsunterstützende Systeme Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:

Mehr

Erfolgstypen & Typenerfolg

Erfolgstypen & Typenerfolg Erfolgstypen & Typenerfolg Zum Zusammenhang zwischen betriebstypologischen Merkmalen und Indikatoren des Betriebserfolgs Philipp Toscani Institut für Agrar- und Forstökonomie Methodische Aspekte und analytische

Mehr

Universität Kassel. Fachbereich Informatik/FB16. Projektarbeit. im Studiengang Informatik/Bachelor. Projekt: Data-Mining-Cup 2007

Universität Kassel. Fachbereich Informatik/FB16. Projektarbeit. im Studiengang Informatik/Bachelor. Projekt: Data-Mining-Cup 2007 Universität Kassel Fachbereich Informatik/FB16 Projektarbeit im Studiengang Informatik/Bachelor Projekt: Data-Mining-Cup 2007 eingereicht von: eingereicht von: eingereicht von: Christian Voigtmann

Mehr

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. Anwendungen von Bäumen 4.3.2 Huffman Code Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. => nutzbar für Kompression Code fester

Mehr

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel

3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel 3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36

Mehr

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih

Data Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support

Mehr

Neuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1.

Neuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1. Neuere Konzepte von Informationssystemen Teil II Kapitel : KDD & Data Mining Gliederung Diese Vorlesung gliedert sich wie folgt: Einführung: Klassische Fragestellungen Data-Mining-Aufgaben Data-Mining-Verfahren

Mehr

Fakultät für Informatik und Automatisierung. Lernen von Entscheidungsbäumen auf Datenströmen

Fakultät für Informatik und Automatisierung. Lernen von Entscheidungsbäumen auf Datenströmen Fakultät für Informatik und Automatisierung Fachgebiet Datenbanken und Informationssysteme Lernen von Entscheidungsbäumen auf Datenströmen Matrikelnr. 31386 Betreuer: Prof. Kai-Uwe Sattler Abgabedatum:

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)).

Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). 8. Untere Schranken für Sortieren Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). Werden nun gemeinsame Eigenschaften dieser Algorithmen untersuchen. Fassen gemeinsame

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Text Mining 4. Seminar Klassifikation

Text Mining 4. Seminar Klassifikation Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)

Mehr

11.1 Grundlagen - Denitionen

11.1 Grundlagen - Denitionen 11 Binärbäume 11.1 Grundlagen - Denitionen Denition: Ein Baum ist eine Menge, die durch eine sog. Nachfolgerrelation strukturiert ist. In einem Baum gilt: (I) (II) 1 Knoten w ohne VATER(w), das ist die

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Mining the Network Value of Customers

Mining the Network Value of Customers Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz

Mehr

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten)

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Wissensrepräsentation und -verarbeitung in klassischer Aussagenlogik: Entscheidungstabellen,

Mehr

6. Überblick zu Data Mining-Verfahren

6. Überblick zu Data Mining-Verfahren 6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

4 Greedy-Algorithmen (gierige Algorithmen)

4 Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine

Mehr

Überwachtes Lernen I: Klassifikation und Regression

Überwachtes Lernen I: Klassifikation und Regression Überwachtes Lernen I: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger

Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger Data Mining Seite 2 Inhalt 1. Einführung... 3 1.1. Wozu ist Data Mining gut?... 4 1.2. Der Data Mining

Mehr

Nachtrag zu binären Suchbäumen

Nachtrag zu binären Suchbäumen Nachtrag zu binären Suchbäumen (nicht notwendigerweise zu AVL Bäumen) Löschen 1 3 2 10 4 12 1. Fall: Der zu löschende Knoten ist ein Blatt: einfach löschen 2. Fall: Der zu löschende Knoten hat ein Nachfolgeelement

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung Huffman-Codierung, arithmetische Codierung Theoretische Informatik RWTH-Aachen 4. April 2012 Übersicht 1 Einführung 2 3 4 5 6 Einführung Datenkompression Disziplin,die Kompressionsalgorithmen entwirft

Mehr

Business Intelligence mit Microsoft SQL Server 2005

Business Intelligence mit Microsoft SQL Server 2005 Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr