Entscheidungsbäume. Minh-Khanh Do Erlangen,
|
|
- Laura Giese
- vor 6 Jahren
- Abrufe
Transkript
1 Entscheidungsbäume Minh-Khanh Do Erlangen,
2 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest Filter Erlangen, Minh-Khanh Do Entscheidungsbäume 2
3 Allgemeines Konzept
4 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Erlangen, Minh-Khanh Do Entscheidungsbäume 4
5 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Erlangen, Minh-Khanh Do Entscheidungsbäume 4
6 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4
7 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4
8 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 4
9 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Erlangen, Minh-Khanh Do Entscheidungsbäume 4
10 Problemstellung Datenklassifizierung Daten (Merkmale) gegeben (Alter, Geschlecht, Gewicht, Größe) Klassen gegeben (Kauft Auto / Kauft Auto nicht) Neue Daten klassifizieren Daten in Trainings- und Testdaten teilen Daten mit Regeln ( Entscheidungen ) in vorgegebene Klassen teilen (Alter 17, Geschlecht = w) Mit Testdatensatz evaluieren Erlangen, Minh-Khanh Do Entscheidungsbäume 4
11 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 5
12 Datenklassifizierung Datensatz ID age income student credit_rating buys_computer 1 youth high no fair no 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 5 senior low yes fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 8 youth medium no fair no 9 youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Entscheidungsbaum age? youth middle senior student? yes credit_rating? no yes excellent fair no yes no yes Erlangen, Minh-Khanh Do Entscheidungsbäume 5
13 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Erlangen, Minh-Khanh Do Entscheidungsbäume 6
14 Darstellung Knoten: repräsentiert einen Test Kante: Attributwert Blätter: Klasse/Klassenwahrscheinlichkeit Kindknoten testet auf einer Teilmenge der Daten des Vaterknotens Erlangen, Minh-Khanh Do Entscheidungsbäume 6
15 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Erlangen, Minh-Khanh Do Entscheidungsbäume 7
16 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair? Erlangen, Minh-Khanh Do Entscheidungsbäume 7
17 age student credit youth no fair no youth no excellent no youth no fair no youth yes fair yes youth yes excellent yes middle no fair yes middle no excellent yes middle yes excellent yes middle yes fair yes senior no excellent no senior yes excellent no senior no fair yes senior yes fair yes senior yes fair yes no = 3 5 yes = 2 5 no no student? youth yes yes no = 5 14 yes = 9 14 age? middle yes yes = 4 4 excellent no senior no = 2 5 yes = 3 5 credit_rating? fair yes yes = 2 2 yes = 3 3 no = 3 3 no = 2 2 Neues Objekt ID age income student credit buys_computer 15 senior medium no fair yes Erlangen, Minh-Khanh Do Entscheidungsbäume 7
18 Konstruktion
19 Algorithmus Top-down Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 9
20 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: Erlangen, Minh-Khanh Do Entscheidungsbäume 9
21 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut Erlangen, Minh-Khanh Do Entscheidungsbäume 9
22 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen Erlangen, Minh-Khanh Do Entscheidungsbäume 9
23 Algorithmus Top-down Verfahren Rekursiver Greedy Algorithmus: 1. Wähle ein Attribut 2. Teile die Daten entsprechend des Attributs in Untermengen 3. Für jede Untermenge Wenn alle Daten die gleiche Klasse haben bearbeite die nächste Untermenge Sonst gehe zu 1. Erlangen, Minh-Khanh Do Entscheidungsbäume 9
24 Attributwahl
25 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 11
26 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11
27 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Erlangen, Minh-Khanh Do Entscheidungsbäume 11
28 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich Erlangen, Minh-Khanh Do Entscheidungsbäume 11
29 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11
30 Attributwahl age? income? youth middle senior low medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Baum so klein wie möglich Attribute wählen, die möglichst viele Daten klassifizieren Knoten so rein wie möglich möglichst wenige Klassen in den Knoten möglichst viele von der selben Klasse in den Knoten Erlangen, Minh-Khanh Do Entscheidungsbäume 11
31 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Erlangen, Minh-Khanh Do Entscheidungsbäume 12
32 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 12
33 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Erlangen, Minh-Khanh Do Entscheidungsbäume 12
34 Entropie (Entropy) Reinheit bzw. Unreinheit einer Menge Info(D) = m p i log 2 (p i ) i=1 D: Menge m: Anzahl der Klassen p i : Wahrscheinlichkeit für die i-te Klasse m p i = 1 i=1 Je größer Info(D) ist, desto unreiner die Menge D Info(D) = 0: Menge besteht aus einer Klasse Erlangen, Minh-Khanh Do Entscheidungsbäume 12
35 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 13
36 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Erlangen, Minh-Khanh Do Entscheidungsbäume 13
37 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Erlangen, Minh-Khanh Do Entscheidungsbäume 13
38 Entropie (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Info(vor Split) = 9 14 log log , 940 Info(age = youth) = Info(age = senior) = 2 5 log log Info(age = middle) = 1 log log 2 0 = 0 0, 971 Info(income = low) = 3 4 log log 2 1 0, Info(income = medium) = 4 6 log log 2 2 0, Info(income = high) = 2 4 log log 2 2 = 4 1 Erlangen, Minh-Khanh Do Entscheidungsbäume 13
39 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Erlangen, Minh-Khanh Do Entscheidungsbäume 14
40 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Erlangen, Minh-Khanh Do Entscheidungsbäume 14
41 Informationsgewinn (Information Gain) Erwartete Entropie nach Partitionierung Gain(D, A) = Info(D) v A D v D Info(D v) D: Datensatz A: Attribut bei dem geteilt werden soll D v : Untermenge von D für die A den Wert v hat Je größer Gain(D, A), desto besser ist es die Daten mit dem Attribut A zu teilen Erlangen, Minh-Khanh Do Entscheidungsbäume 14
42 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Erlangen, Minh-Khanh Do Entscheidungsbäume 15
43 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Erlangen, Minh-Khanh Do Entscheidungsbäume 15
44 Informationsgewinn (Beispiel) youth age? middle senior yes = 9 14 no = 5 14 low income? medium high yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 yes= 3 4 no= 1 4 yes= 4 6 no= 2 6 yes= 2 4 no= 2 4 Gain(age) = Info(vor Split) 5 Info(age = youth) Info(age = middle) Info(age = senior) 0, Gain(income) = Info(vor Split) 4 Info(income = low) Info(income = medium) 4 Info(income = high) 14 0, 029 Erlangen, Minh-Khanh Do Entscheidungsbäume 15
45 Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) Erlangen, Minh-Khanh Do Entscheidungsbäume 16
46 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte a) color? green Erlangen, Minh-Khanh Do Entscheidungsbäume 16
47 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16
48 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) a) color? b) color {red}? green yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16
49 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen a) color? b) color {red}? c) age 20? green yes no yes no Erlangen, Minh-Khanh Do Entscheidungsbäume 16
50 bluered Attributarten nominale Attribute: (Farbe: rot, grün, gelb, blau) a) Aufteilung in alle Attributwerte b) Aufteilung, ob in einer bestimmten Attributmenge numerische Attribute: (Alter, Größe) c) Mit einer Konstanten vergleichen d) Wertebereich in diskrete Werte teilen a) color? b) color {red}? c) age 20? d) age? green yes no yes no youth middle senior Erlangen, Minh-Khanh Do Entscheidungsbäume 16
51 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Erlangen, Minh-Khanh Do Entscheidungsbäume 17
52 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Erlangen, Minh-Khanh Do Entscheidungsbäume 17
53 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Erlangen, Minh-Khanh Do Entscheidungsbäume 17
54 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 17
55 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Erlangen, Minh-Khanh Do Entscheidungsbäume 17
56 Informationsgewinn (numerische Attribute) Geeignete Konstante finden für numerische Attribute Vorgehen: Attributwerte sortieren Möglicher split-point zwischen jeweils zwei verschiedenen Werten Für alle split-points S, Gain(S) ausrechnen Besten split-point auswählen Aufwendig Erlangen, Minh-Khanh Do Entscheidungsbäume 17
57 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) Erlangen, Minh-Khanh Do Entscheidungsbäume 18
58 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein Erlangen, Minh-Khanh Do Entscheidungsbäume 18
59 Gain Ratio A B name? C D E yes= 1 5 no= 1 5 yes= 1 5 yes= 1 5 no= 1 5 Info bevorzugt Attribute mit großem Wertebereich (Kundennummer, Geburtsdatum, Name) die meisten/alle Kindknoten sind rein GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A Info(D) = m p i log 2 (p i ) i=1 Erlangen, Minh-Khanh Do Entscheidungsbäume 18
60 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 Erlangen, Minh-Khanh Do Entscheidungsbäume 19
61 Gain Ratio (Beispiel) age? youth middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 Erlangen, Minh-Khanh Do Entscheidungsbäume 19
62 Gain Ratio (Beispiel) youth age? middle senior ID? yes= 2 5 no= 3 5 yes= 4 4 yes= 3 5 no= 2 5 GainRatio(age) = Gain(age) 5 14 log log log , 247 1, 577 0, 157 GainRatio(ID) = Gain(ID) 14 ( 1 14 log ) , 940 3, 807 0, 247 Erlangen, Minh-Khanh Do Entscheidungsbäume 19
63 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Erlangen, Minh-Khanh Do Entscheidungsbäume 20
64 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20
65 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen Erlangen, Minh-Khanh Do Entscheidungsbäume 20
66 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D Erlangen, Minh-Khanh Do Entscheidungsbäume 20
67 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Erlangen, Minh-Khanh Do Entscheidungsbäume 20
68 Gain Ratio (Sonderfälle) 1. ID immer noch besser als age Lösung: Kundennummer nicht als Split zulassen 2. Wenn D v D GainRatio(D, A) = Gain(D, A) D v D log D v 2 D v A wird sehr groß Lösung: Gain zuerst ausrechnen, dann GainRatio bei den überdurchschnittlich großen Werten ausrechnen Erlangen, Minh-Khanh Do Entscheidungsbäume 20
69 Probleme
70 Problem (Overfitting) Baum ist zu nah an den Datensatz Erlangen, Minh-Khanh Do Entscheidungsbäume 22
71 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Erlangen, Minh-Khanh Do Entscheidungsbäume 22
72 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 22
73 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Erlangen, Minh-Khanh Do Entscheidungsbäume 22
74 Problem (Overfitting) Baum ist zu nah an den Datensatz Die Daten werden auswendiggelernt Neue Daten werden schlecht klassifiziert Lösung: Pruning (Baum verkleinern, vereinfachen) Viele Pruning-Verfahren Erlangen, Minh-Khanh Do Entscheidungsbäume 22
75 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Erlangen, Minh-Khanh Do Entscheidungsbäume 23
76 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Erlangen, Minh-Khanh Do Entscheidungsbäume 23
77 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Erlangen, Minh-Khanh Do Entscheidungsbäume 23
78 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Erlangen, Minh-Khanh Do Entscheidungsbäume 23
79 Reduced Error Pruning Daten aufteilen in Trainings- und Testdaten Aus Trainingsdaten einen Baum machen Baum auf Testdaten prüfen Einen Knoten entfernen und testen, ob man ein besseres Ergebnis mit dem neuen Baum erzielt Solange durchführen bis keine Verbesserung mehr Erlangen, Minh-Khanh Do Entscheidungsbäume 23
80 Reduced Error Pruning (Beispiel) A 1? no yes no A 2? yes no A 3? yes Yes No no A 4? yes Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24
81 Reduced Error Pruning (Beispiel) A 1? no yes A 1? A 2? A 3? no yes no Yes yes No no no A 4? yes yes Yes no Yes A 2? yes No Yes Yes No Erlangen, Minh-Khanh Do Entscheidungsbäume 24
82 Random forest
83 Konzept Viele Entscheidungsbäume (Wald) Erlangen, Minh-Khanh Do Entscheidungsbäume 26
84 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Erlangen, Minh-Khanh Do Entscheidungsbäume 26
85 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Erlangen, Minh-Khanh Do Entscheidungsbäume 26
86 Konzept Viele Entscheidungsbäume (Wald) Die Entscheidungsbäume werden mit einem bestimmten Verfahren zufällig konstruiert ( Randomisierung ) Neue Daten werden mit allen Bäumen klassifiziert Die Klasse mit den meisten Stimmen wird genommen Erlangen, Minh-Khanh Do Entscheidungsbäume 26
87 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27
88 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27
89 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no Zufällige Anzahl von Attributen zum Splitten nehmen Erlangen, Minh-Khanh Do Entscheidungsbäume 27
90 Randomisierung Zufällige Anzahl von Daten aus dem Trainingsdatensatz nehmen Zufällige Anzahl von Attributen zum Splitten nehmen ID age income student credit_rating 2 youth high no excellent no 3 middle high no fair yes 4 senior medium no fair yes 6 senior low yes excellent no 7 middle low yes excellent yes 9 youth low yes fair yes 10 senior medium yes fair yes 14 senior medium no excellent no ID income credit_rating 1 high fair no 2 high excellent no 3 high fair yes 4 medium fair yes 5 low fair yes 6 low excellent no 7 low excellent yes 8 medium fair no 9 low fair yes 10 medium fair yes 11 medium excellent yes 12 medium excellent yes 13 high fair yes 14 medium excellent no Erlangen, Minh-Khanh Do Entscheidungsbäume 27
91 Vorteile Einzelne Bäume nicht so komplex Erlangen, Minh-Khanh Do Entscheidungsbäume 28
92 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Erlangen, Minh-Khanh Do Entscheidungsbäume 28
93 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Erlangen, Minh-Khanh Do Entscheidungsbäume 28
94 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Erlangen, Minh-Khanh Do Entscheidungsbäume 28
95 Vorteile Einzelne Bäume nicht so komplex Weniger Overfitting Kein Pruning nötig Klassifiziert in der Regel besser als ein einzelner Entscheidungsbaum Konstruktion und Klassifikation parallelisierbar Erlangen, Minh-Khanh Do Entscheidungsbäume 28
96 Filter
97 Noch Fragen? Ok Ja Nein Ok Danke für die Aufmerksamkeit! Erlangen, Minh-Khanh Do Entscheidungsbäume 30
98 Literatur Jiawei Han Micheline Kamber Jian Pei: Data Mining Concepts and Techniques (3rd Edition) Kapitel 8 Stuart Russell Peter Norvig: Artificial Intelligence A Modern Approach (3rd Edition) Kapitel 18 Trevor Hastie Robert Tibshirani Jerome Friedman The Elements of Statistical Learning (2nd Edition) Ian H. Witten Eibe Frank Mark A. Hall Data Mining Practical Machine Learning Tools and Techniques (3rd Edition) Kapitel 4,6 Leo Breiman: Random Forests Erlangen, Minh-Khanh Do Entscheidungsbäume 31
Maschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
MehrData Warehousing und Data Mining
Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes
MehrData Mining und Text Mining Einführung. S2 Einfache Regellerner
Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mehr4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum
4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung
MehrSeminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens
Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 19.12.2013 Allgemeine Problemstellung
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume
MehrLernen von Entscheidungsbäumen. Volker Tresp Summer 2014
Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis
MehrVorlesung. Machine Learning - Entscheidungsbäume
Vorlesung Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume http://de.wikipedia.org/wiki/datei:deu_tutorial_-_hochladen_von_bildern_neu%2bcommons.svg http://www.rulequest.com/personal/
MehrMaschinelles Lernen. Kapitel 5
Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrSeminar Text- und Datamining Datamining-Grundlagen
Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation
Mehr3. Lernen von Entscheidungsbäumen
3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrKonzepte der AI: Maschinelles Lernen
Konzepte der AI: Maschinelles Lernen Nysret Musliu, Wolfgang Slany Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme, TU-Wien Übersicht Was ist Lernen? Wozu maschinelles
MehrAlgorithmische Modelle als neues Paradigma
Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN
MehrEntscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
MehrSeminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme
Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen
MehrEntscheidungsbaum-Lernen: Übersicht
Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume Repräsentationsformalismus Tests Semantik: Klassifikation Ausdrucksfähigkeit Lernen von Entscheidungsbäumen Szenario vollst. Suche vs. TDIDT Maße:
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
Mehr6.6 Vorlesung: Von OLAP zu Mining
6.6 Vorlesung: Von OLAP zu Mining Definition des Begriffs Data Mining. Wichtige Data Mining-Problemstellungen, Zusammenhang zu Data Warehousing,. OHO - 1 Definition Data Mining Menge von Techniken zum
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:
MehrMethoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07
Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2
MehrProjekt Maschinelles Lernen WS 06/07
Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb
MehrEinführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen
Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht
MehrVortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering
Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle
MehrÜbersicht. Allgemeines Modell lernender Agenten. Lernende Agenten (1) Lernende Agenten (2)
Übersicht Allgemeines Modell lernender Agenten I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen
MehrTextmining Klassifikation von Texten Teil 2: Im Vektorraummodell
Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil
MehrÜbungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014
Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?
MehrKnowledge Discovery. Lösungsblatt 1
Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrEntscheidungsbäume. Benjamin Grünebast Andreas Löcken. WiSe 2011/2012
Carl von Ossietzky Universität Oldenburg Data Mining in Astronomy Entscheidungsbäume Benjamin Grünebast Andreas Löcken WiSe 2011/2012 Zusammenfassung Diese Ausarbeitung untersucht die Anwendung von Entscheidungsbäumen
MehrHochschule Wismar. Fakultät für Wirtschaftswissenschaften. Masterthesis. Entscheidungsbaumgenerierung als elearning-modul
Hochschule Wismar Fakultät für Wirtschaftswissenschaften Masterthesis Entscheidungsbaumgenerierung als elearning-modul Masterthesis zur Erlangung des Grades Master of Science in Wirtschaftsinformatik der
MehrBayes sches Lernen: Übersicht
Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.
Mehr1 Predictive Analytics mit Random Forest
Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.
MehrVisualisierung der Imperfektion in multidimensionalen Daten
Visualisierung der Imperfektion in multidimensionalen Daten Horst Fortner Imperfektion und erweiterte Konzepte im Data Warehousing Betreuer: Heiko Schepperle 2 Begriffe (1) Visualisierung [Wikipedia] abstrakte
Mehr5 Data Warehouses und Data Mining
5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher
MehrKlassifikation im Bereich Musik
Klassifikation im Bereich Musik Michael Günnewig 30. Mai 2006 Michael Günnewig 1 30. Mai 2006 Inhaltsverzeichnis 1 Was ist eine Klassifikation? 3 1.1 Arten und Aufbau von Klassifikationen.................
MehrData Mining Anwendungen und Techniken
Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses
MehrProjektaufgaben Block 2
Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrKonzeptbeschreibung Ziel: Methode: Vorgehen: Entfernen von Attributen Verallgemeinerung von Attributen Relevanzanalyse der restlichen Attribute
Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene
MehrÜberwachtes Lernen: Klassifikation und Regression
Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)
MehrData Mining Bericht. Analyse der Lebenssituation der Studenten. der Hochschule Wismar. Zur Veranstaltung. Business Intelligence
Data Mining Bericht Analyse der Lebenssituation der Studenten der Hochschule Wismar Zur Veranstaltung Business Intelligence Eingereicht von: Mohamed Oukettou 108 208 Maxim Beifert 118 231 Vorgelegt von:
MehrKD-Bäume. ein Vortrag von Jan Schaefer
ein Vortrag von Jan Schaefer Überblick - Kurzer Rückblick: Quad Trees - KD-Baum bauen - Effizienz des Konstruktionsalgorithmus - Regionen - Bereichssuche - Effizienz des Suchalgorithmus - Anwendungsgebiete
MehrKlassifikation. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Klassifikation 0 Überblick Grundkonzepte Entscheidungsbäume Evaluierung von Klassifikatoren Lernen von Regeln Klassifikation mittels Assoziationsregeln Naïver Bayescher Klassifikator Naïve Bayes für Text
MehrDatenvorverarbeitung von nominalen Daten für Data Mining
Datenvorverarbeitung von nominalen Daten für Data Mining Entstanden 2004/2005 bei der T-Systems International GmbH unter Betreuung von Prof. Dr. J. Fürnkranz Seite 1 Gliederung Datenvorverarbeitung Prepared
MehrCBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.
CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation
MehrEntscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
Mehr9.5 Entscheidungsbäume
9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel
MehrWS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
MehrMining High-Speed Data Streams
Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrData Mining (ehem. Entscheidungsunterstützungssysteme)
Data Mining (ehem. Entscheidungsunterstützungssysteme) Melanie Pfoh Anja Tetzner Christian Schieder Übung WS 2014/15 AGENDA TEIL 1 Aufgabe 2 (Wiederholung OPAL / Vorlesungsinhalte) ENTSCHEIDUNGSBAUMVERFAHREN
MehrMathe III. Garance PARIS. Mathematische Grundlagen III. Evaluation. 16. Juli /25
Mathematische Grundlagen III Evaluation 16 Juli 2011 1/25 Training Set und Test Set Ein fairer Test gibt an, wie gut das Modell im Einsatz ist Resubstitution: Evaluation auf den Trainingsdaten Resubstitution
MehrKapitel 4: Dynamische Datenstrukturen. Algorithmen und Datenstrukturen WS 2012/13. Prof. Dr. Sándor Fekete
Kapitel 4: Dynamische Datenstrukturen Algorithmen und Datenstrukturen WS 2012/13 Prof. Dr. Sándor Fekete 4.4 Binäre Suche Aufgabenstellung: Rate eine Zahl zwischen 100 und 114! Algorithmus 4.1 INPUT: OUTPUT:
MehrKapitel 5: Ensemble Techniken
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Knowledge Discovery in Databases II im Sommersemester 2009 Kapitel 5:
MehrData-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen
Hausarbeit Im Rahmen des Seminars Datenanalyse Thema: Data-Mining Aufspüren von Mustern mit Hilfe von Entscheidungsbäumen Seminarleiter: Dr. Siegbert Klinke Humboldt-Universität zu Berlin Abteilung Statistik
MehrSeminar Business Intelligence (2) Data Mining & Knowledge Discovery
Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...
MehrEntscheidungsunterstützende Systeme
Entscheidungsunterstützende Systeme (WS 015/016) Klaus Berberich (klaus.berberich@htwsaar.de) Rainer Lenz (rainer.lenz@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de)
MehrBayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L
Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Bildanalyse Literatur David A. Forsyth: Computer Vision i A Modern Approach. Mark S. Nixon und Alberto S. Aguado: Feature Extraction and Image Processing. Ulrich Schwanecke:
MehrErfolgstypen & Typenerfolg
Erfolgstypen & Typenerfolg Zum Zusammenhang zwischen betriebstypologischen Merkmalen und Indikatoren des Betriebserfolgs Philipp Toscani Institut für Agrar- und Forstökonomie Methodische Aspekte und analytische
MehrUniversität Kassel. Fachbereich Informatik/FB16. Projektarbeit. im Studiengang Informatik/Bachelor. Projekt: Data-Mining-Cup 2007
Universität Kassel Fachbereich Informatik/FB16 Projektarbeit im Studiengang Informatik/Bachelor Projekt: Data-Mining-Cup 2007 eingereicht von: eingereicht von: eingereicht von: Christian Voigtmann
MehrProblem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.
Anwendungen von Bäumen 4.3.2 Huffman Code Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert. => nutzbar für Kompression Code fester
Mehr3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel
3.1 Konstruktion von minimalen Spannbäumen Es gibt zwei Prinzipien für die Konstruktion von minimalen Spannbäumen (Tarjan): blaue Regel rote Regel EADS 3.1 Konstruktion von minimalen Spannbäumen 16/36
MehrData Mining mit Rapidminer im Direktmarketing ein erster Versuch. Hasan Tercan und Hans-Peter Weih
Data Mining mit Rapidminer im Direktmarketing ein erster Versuch Hasan Tercan und Hans-Peter Weih Motivation und Ziele des Projekts Anwendung von Data Mining im Versicherungssektor Unternehmen: Standard
Mehr6. Überblick zu Data Mining-Verfahren
6. Überblick zu Data Mining-Verfahren Einführung Clusteranalse k-means-algorithmus Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalse Support
MehrNeuere Konzepte von Informationssystemen Teil II. Neuere Konzepte von Informationssystemen Teil II. Gliederung. Motivation #1.
Neuere Konzepte von Informationssystemen Teil II Kapitel : KDD & Data Mining Gliederung Diese Vorlesung gliedert sich wie folgt: Einführung: Klassische Fragestellungen Data-Mining-Aufgaben Data-Mining-Verfahren
MehrFakultät für Informatik und Automatisierung. Lernen von Entscheidungsbäumen auf Datenströmen
Fakultät für Informatik und Automatisierung Fachgebiet Datenbanken und Informationssysteme Lernen von Entscheidungsbäumen auf Datenströmen Matrikelnr. 31386 Betreuer: Prof. Kai-Uwe Sattler Abgabedatum:
MehrSeminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery
Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.
MehrAlle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)).
8. Untere Schranken für Sortieren Alle bislang betrachteten Sortieralgorithmen hatten (worst-case) Laufzeit Ω(nlog(n)). Werden nun gemeinsame Eigenschaften dieser Algorithmen untersuchen. Fassen gemeinsame
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrText Mining 4. Seminar Klassifikation
Text Mining 4. Seminar Klassifikation Stefan Bordag 1. Klassifikation Stringklassifikation (männliche-weibliche Vornamen) Dokument klassifikation Bayesian Neuronal network (Decision tree) (Rule learner)
Mehr11.1 Grundlagen - Denitionen
11 Binärbäume 11.1 Grundlagen - Denitionen Denition: Ein Baum ist eine Menge, die durch eine sog. Nachfolgerrelation strukturiert ist. In einem Baum gilt: (I) (II) 1 Knoten w ohne VATER(w), das ist die
MehrKapitel 4: Data Mining
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:
MehrMining the Network Value of Customers
Mining the Network Value of Customers Seminar in Datamining bei Prof. Fürnkranz Benjamin Herbert Technische Universität Darmstadt Sommersemester 2007 1 / 34 1 2 Werbung Netzwerkwert 3 Bezeichnungen Ansatz
MehrDaten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten)
Was bisher geschah Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Wissensrepräsentation und -verarbeitung in klassischer Aussagenlogik: Entscheidungstabellen,
Mehr6. Überblick zu Data Mining-Verfahren
6. Überblick zu Data Mining-Verfahren Einführung Clusteranalyse k-means-algorithmus Canopy Clustering Klassifikation Klassifikationsprozess Konstruktion eines Entscheidungsbaums Assoziationsregeln / Warenkorbanalyse
MehrData Mining und Knowledge Discovery in Databases
Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Dynamische Programmierung Einführung Ablaufkoordination von Montagebändern Längste gemeinsame Teilsequenz Optimale
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
Mehr4 Greedy-Algorithmen (gierige Algorithmen)
Greedy-Algorithmen (gierige Algorithmen) Greedy-Algorithmen werden oft für die exakte oder approximative Lösung von Optimierungsproblemen verwendet. Typischerweise konstruiert ein Greedy-Algorithmus eine
MehrÜberwachtes Lernen I: Klassifikation und Regression
Überwachtes Lernen I: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)
MehrFachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß
Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche
MehrData Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger
Data Mining Kompaktkurs an der Berufsakademie Mannheim Sommersemster 2005 Prof. Dr. Werner Dilger Data Mining Seite 2 Inhalt 1. Einführung... 3 1.1. Wozu ist Data Mining gut?... 4 1.2. Der Data Mining
MehrNachtrag zu binären Suchbäumen
Nachtrag zu binären Suchbäumen (nicht notwendigerweise zu AVL Bäumen) Löschen 1 3 2 10 4 12 1. Fall: Der zu löschende Knoten ist ein Blatt: einfach löschen 2. Fall: Der zu löschende Knoten hat ein Nachfolgeelement
MehrEntwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion
Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der
MehrSeminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung
Huffman-Codierung, arithmetische Codierung Theoretische Informatik RWTH-Aachen 4. April 2012 Übersicht 1 Einführung 2 3 4 5 6 Einführung Datenkompression Disziplin,die Kompressionsalgorithmen entwirft
MehrBusiness Intelligence mit Microsoft SQL Server 2005
Business Intelligence mit Microsoft SQL Server 2005 Holger Schrödl ISBN 3-446-40463-5 Leseprobe Weitere Informationen oder Bestellungen unter http://www.hanser.de/3-446-40463-5 sowie im Buchhandel 4.6
MehrTechnische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen
Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung
Mehr