Data Warehousing und Data Mining

Transkript

1 Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 2

3 Klassifikation Grundproblem Gegeben eine Menge von Objekten mit Attributen (Features) Gegeben eine Menge C von Klassen Finde eine Klassifikationsfunktion f:o C, die jedes Objekt aus O (s)einer Klasse c i zuordnet Wie soll das gehen? Zusätzlich ist eine Trainingsmenge T mit f :T C gegeben Supervised learning Klassifikation und Vorhersage Oftmals sind T Daten aus der Vergangenheit Z.B. Kunden, deren Kredite geplatzt sind O sind Daten, deren Klassenzugehörigkeit man vorhersagen will Z.B. Neue Kunden, die einen Kredit beantragen Ulf Leser: Data Warehousing und Data Mining 3

4 Manchmal ganz einfach Aufgabe: Weise Studenten ihre Note (Klasse) aufgrund ihrer Punktzahl (Feature) zu Klassenzugehörigkeit ist auf dem Attribut definiert Das ist idr leider nicht so <90 x <80 x x >=90 1 >=80 2 <70 >=70 x 3 <50 5 >=60 4 Ulf Leser: Data Warehousing und Data Mining 4

5 Etwas komplexer ID Alter Einkommen Risiko Hoch Niedrig Hoch Niedrig Niedrig Hoch Welches Risiko schätzen wir für eine Person von 45 Jahren mit 4000 Euro Einkommen? Ulf Leser: Data Warehousing und Data Mining 5

6 Beispiel: Lineare Trennung Hoch Niedrig (Lineare) Funktionen f der Attribute Z.B. SVM, Logistische Regression Klasse ergibt sich aus Lage zur Trennfunktion Finde f, die den Fehler auf Trainingsdaten minimiert Linke-über der Gerade: Risikoklasse hoch (niedrig) Rechts-unter der Gerade: Risikoklasse niedrig (hoch) Ulf Leser: Data Warehousing und Data Mining 6

7 Bewertung einer Klassifikation Precision = TP/(TP+FP) Wie viele der riskant eingeschätzten Kunden sind es wirklich? Recall = TP/(TP+FN) Wie viele der Kunden mit hohem Risiko wurden entdeckt? Accuracy = (TP+TN) / (TP+FP+FN+TN) Wie viele der Einschätzungen sind korrekt? Wenig aussagekräftig, wenn es viel mehr sichere als riskante Kunden gibt und der Klassifikator halbwegs funktioniert Klassifikator: Hoch Klassifikator: Niedrig Real: Hoch true-positive false-negative Real: Niedrig false-positive true-negative Ulf Leser: Data Warehousing und Data Mining 7

8 Beispiel Hoch Niedrig Hoch 2 0 Hoch Niedrig Niedrig Precision = TP/(TP+FP)= 2/2 Wenn wir hohes Risiko vorhersagen, haben wir immer Recht Recall = TP/(TP+FN) = 2/3 Aber wir verfehlen 33% der riskanten Kunden Ulf Leser: Data Warehousing und Data Mining 8

9 Verbesserung Hoch Niedrig Was können wir tun? Ulf Leser: Data Warehousing und Data Mining 9

10 Verbesserung Hoch Niedrig Was können wir tun? Verschieben der Gerade Nach unten: Erhöhter Recall, verringerte Precision Nach oben: Verringerter Recall, erhöhte Precision Ulf Leser: Data Warehousing und Data Mining 10

11 Verbesserung Hoch Niedrig Was können wir tun? Andere Trennfunktionen betrachten Sehr schnell viel komplexer Ulf Leser: Data Warehousing und Data Mining 11

12 Overfitting Hoch Niedrig Man lernt und evaluiert immer nur auf einem Ausschnitt der Realität Genau passende Funktionen generalisieren schlecht Oft schlechte Performanz auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 12

13 Was tun gegen Overfitting? Wenn man auf den Trainingsdaten lernt und von den Testdaten die Klassen nicht kennt wie kann man dann den Grad an Overfitting beurteilen? Cross-Validierung (Leave-one-out) Teilen der Trainingsdaten in k zufällige Partitionen k-maliges Lernen auf k-1 Partitionen und Anwendung des Modells auf der k ten Partition Die Ergebnisse (Precision, Recall) sollten sehr nahe beieinander liegen Und die Ergebnisse sollten besser sein, je größer k größere Trainingsmenge Man nimmt meist den Mittelwert als erwartete Performance des Klassifikators auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 13

14 Kategoriale Attribute ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Kategoriale Attribute kann man i.a. nicht in (numerische) Funktionen packen Welche Regeln könnte man ableiten? if Alter>50 then Risikoklasse = Niedrig elseif Alter<32 then Risikoklasse = Hoch elseif Autotyp=Sport then Risikoklasse = Hoch else Risikoklasse = Niedrig Ulf Leser: Data Warehousing und Data Mining 14

15 Entscheidungsregeln ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Geht das mit weniger Entscheidungen? if Alter>50 then Risikoklasse = Niedrig elseif Autotyp=LKW then Risikoklasse = Niedrig else Risikoklasse = Hoch Ulf Leser: Data Warehousing und Data Mining 15

16 Noch mal ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Overfitting If Alter=17 and Autotype=Sport then Risikoklasse = hoch elseif Alter=23 and Autotype=Familie then Risikoklasse = hoch elseif Alter=32 and Autotype=LKW then Risikoklasse = hoch elseif Alter=43 and Autotype=Sport then Risikoklasse = niedrig else Risikoklasse = niedrig Ulf Leser: Data Warehousing und Data Mining 16

17 Und noch mal Warum nicht ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig If ID=1 then Risikoklasse = hoch elseif ID=2 then Risikoklasse = hoch elseif ID=3 then Risikoklasse = hoch elseif ID=4 then Risikoklasse = niedrig else Risikoklasse = niedrig ID hat nichts mit dem Risiko zu tun Das wissen wir der Computer weiß es nicht Feature Auswahl ist essentiell Ulf Leser: Data Warehousing und Data Mining 17

18 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 18

19 Nearest Neighbor Klassifikator Definition Sei T die Trainingsmenge, d eine Abstandsfunktion und t ein zu klassifizierendes Objekt. Ein nearest-neighbor (NN) Klassifikator weist t der Klasse des Objekts t T zu, dass minimalen Abstand zu t hat. Ein k-nearest-neighbor (knn) Klassifikator weist t der Klasse zu, die am häufigsten unter den k zu t nächsten Objekten ist. Bemerkungen Sehr einfach, oft sehr effektiv, knn meist besser als NN Lazy learner : Es gibt kein Modell (die Daten sind das Modell) Sehr nahe zu Case-Based Reasoning Variante: Klassen der k-nächste Objekte werden mit Abstand gewichtet Ulf Leser: Data Warehousing und Data Mining 19

20 Illustration 1NN und Voronoi diagram Ein 5NN Ulf Leser: Data Warehousing und Data Mining 20

21 Nachteil Hauptproblem: Geschwindigkeit Man muss Abstand jedes Objekts zu t berechnen Abhilfen T in Indexstruktur packen, die Nachbarschaftssuche unterstützt Nicht ganz T nehmen, sondern ein zufälliges Sample T erst clustern, dann einen Vertreter pro Cluster wählen Alle Tricks führen meist zur Verschlechterung der Performanz Ulf Leser: Data Warehousing und Data Mining 21

22 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 22

23 Bayes sche Klassifikation Wahrscheinlichkeitsbasiertes, einfaches Verfahren Gegeben Klassenmenge C, Trainingsmenge T Menge F von Features mit diskretem Wertebereich Zu viele Werte sind ungünstig (Generalisierung) Ggf. Diskretisierung durchführen Wir suchen für ein Objekt t die Wahrscheinlichkeiten p(c i t) der Zugehörigkeit zu jeder Klasse c i C t wird Klasse mit höchste Wahrscheinlichkeit zugewiesen Objekte werden durch Feature F={f 1,, f n } beschrieben p ( c t) = p( c f [ t],..., fn[ t]) = p( c f1,..., 1 n f ) Ulf Leser: Data Warehousing und Data Mining 23

24 Wahrscheinlichkeiten Gesucht: p(c t) Wir haben T mit binären Features f 1,,f n Die A-Priori Wahrscheinlichkeit p(f) jedes Features f Bei vielen Objekten ist f wahr? Die A-Priori Wahrscheinlichkeiten p(c) aller Klassen c C Wie viele Objekte aus T gehören zu jeder Klasse? Die bedingten Wahrscheinlichkeiten p(f c), dass Feature f bei Klasse c wahr ist Wie oft ist f bei allen Objekten der Klasse c wahr? Wir formen um und wenden Bayes Theorem an p( f1,..., fn c)* p( c) p( c f1,..., fn) = p( f1,..., fn c)* p( c) p( f,..., f ) 1 n Ulf Leser: Data Warehousing und Data Mining 24

25 Naive Bayes Wir haben also Den ersten Term kann man für hochdimensionale Featureräume nicht vernünftig schätzen Exponentiell viele Kombinationen von Featurewerten Jede einzelne Kombination ist in jedem realen T sehr selten Zählen ergibt stark verzerrte Häufigkeiten Naive Annahme: Statistische Unabhängigkeit Dann gilt p( c t) p( f1,..., f c)* p( c) p( f,..., f c) p( f1 n c)*...* p( f 1 n = n c ) Und damit p( c o) p( c)* n i= 1 p( f i c) Ulf Leser: Data Warehousing und Data Mining 25

26 Beispiel Wir raten binäre Features ID Alter Autotyp Risiko Jung (Alter<25)? 1 23 Familie hoch Sportwagen? 2 17 Sport hoch Damit 3 43 Sport hoch P(c=hoch)=3/ Familie niedrig p(f 1 =jung)=2/ LKW niedrig P(f 2 =sportwagen)=2/5 P(jung hoch)=2/3, p(jung niedrig)=0 P(sportwagen hoch)=2/3, p(sportwagen niedrig)=0 Smoothing: p(jung niedrig)= p(sportwagen niedrig)=0,01 Neuer Kunde, 24, LKW p(hoch jung, sportwagen)=p(hoch)*p(jung hoch)*(1- p(sportwagen hoch)=3/5*2/3*1/3 = 6/45 p(niedrig jung, sportwagen)=2/5*0.01*0.01 Neuer Kunde, 35, Familienwagen p(hoch alt, sportwagen)=3/5*1/3*1/3 = 3/45 p(niedrig alt, sportwagen)=2/5*0.99*0.99 Ulf Leser: Data Warehousing und Data Mining 26

27 SQL Wir brauchen p(f i c j ), p(c j ), p(f i ) Wie kriegen wir die effizient mit SQL? Schema: obj(oid, fid, fvalue), class(oid, cid) Werte müssen noch in relative Häufigkeiten umgerechnet werden Alle p(c j ) SELECT cid, count(*) FROM class GROUP BY cid; Alle p(f i ) Alle p(f i c j ) SELECT fid, fvalue, count(*) FROM object GROUP BY fid, fvalue; SELECT cid, fid, fvalue, count(*) FROM object o, class c WHERE o.oid=c.oid GROUP BY cid, fid, fvalue; Ulf Leser: Data Warehousing und Data Mining 27

28 Fazit Vorteile Einfach, schnell Modell kann inkrementell aktualisiert werden Platzbedarf vernachlässigbar Hängt nur von der Anzahl Features und Klassen ab Oftmals schon gute Ergebnisse Nachteile Geringe Erklärungskraft Unabhängigkeitsannahme stimmt meistens nicht Klappt oft trotzdem Wenn nicht, stärkere Modelle nehmen (z.b. Bayes sche Netzwerke) Ulf Leser: Data Warehousing und Data Mining 28

29 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Skalierbarkeit: SPRINT Tree Pruning Ulf Leser: Data Warehousing und Data Mining 29

30 Entscheidungsbäume ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Autotyp = LKW LKW Risikoklasse = niedrig Alter 60 < 60 Risikoklasse = niedrig Risikoklasse = hoch Ableitung einer Menge von Regeln Hierarchische Anordnung: Bedingungen entlang eines Pfades werden ver-undet Blätter sind i.a. mit Wsk für Klassenzugehörigkeiten gelabelt Weil weitere Auftrennung nicht möglich Um Gefahr von Overfitting zu verringern (später) Ulf Leser: Data Warehousing und Data Mining 30

31 Formal Definition Ein Entscheidungsbaum ist ein binärer Baum mit Jeder innere Knoten ist mit einem Attribut beschriftet = LKW Autotyp Risikoklasse = niedrig Risikoklasse = niedrig LKW 60 < 60 Die ausgehenden Kanten eines inneren Knoten sind mit Bedingungen an die Werte des Vaterknotens beschriftet, deren Wertebereiche sich nicht überschneiden Alter Die Konjunktion der Bedingungen eines Pfades ist immer erfüllbar Blätter sind mit Wahrscheinlichkeitsverteilungen über den Klassen beschriftet Risikoklasse = hoch Ulf Leser: Data Warehousing und Data Mining 31

32 Anwendung und Berechnung Anwendung zur Klassifikation ist offensichtlich Gegeben neues Objekt t Laufe den Baum ab und beschreite an jedem Knoten der Kante, deren Bedingung in t zutrifft Wird ein Blatt erreicht: Ordne t der Klasse zu, die in diesem Blatt die höchste Wahrscheinlichkeit hat Das interessantere Problem Ableitung eines guten Entscheidungsbaums aus den Daten Decision Tree Induction (DTI) Ulf Leser: Data Warehousing und Data Mining 32

33 Partitionierung Entscheidungsbäume partitionieren den Raum rekursiv Ulf Leser: Data Warehousing und Data Mining 33

34 DT: Pro und Contra Vorteile Verständliche Darstellung Menschen lieben DT Leichte Ableitung von Regelmengen möglich Schnelle Klassifikation (Baumhöhe ist ~O(log( T ))) Effiziente Verfahren für DTI bekannt Nachteile Typische DTI-Algorithmen berechnen nur rechtwinklige Partitionierung des Raums Das entspricht lokalen linearen Trennfunktionen Gefahr des Overfitting (siehe Tree Pruning) Ulf Leser: Data Warehousing und Data Mining 34

35 DTI: Grundverfahren Gegeben Trainingsmenge T Wähle ein Attribut A und Bedingungen (Splits) B 1, B m Für binäre Entscheidungsbäume: m=2 Partitioniere T gemäß Bedingungen in m Partitionen Das erzeugt einen inneren Knoten im Baum Wende Verfahren rekursiv für jede der Partitionen an Solange nicht alle Objekte einer Partition der gleichen Klasse angehören oder ein anderes Stopp-Kriterium erfüllt ist Zentrale Frage: Welches Attribut? Welche Splits? Ulf Leser: Data Warehousing und Data Mining 35

36 Auswirkungen Tag Aussicht Temperatur Feuchtigkeit Wind Tennispielen 1 sonnig heiß hoch schwach nein 2 sonnig heiß hoch stark nein 3 bedeckt heiß hoch schwach ja 4 regnerisch mild hoch schwach ja 5 regnerisch kühl normal schwach ja 6 regnerisch kühl normal stark nein sonnig nein Aussicht bedeckt ja regnerisch Wind stark schwach stark hoch Wind Feuchtigkeit normal Wind schwach stark schwach nein ja nein Aussicht sonnig sonnig nein ja ja nein Ulf Leser: Data Warehousing und Data Mining 36

37 Wie sieht ein guter DT aus? Prinzipiell: klein ist gut Schnelle Entscheidungen Höherer Abstraktionsgrad, weniger Overfitting Mögliche konkrete Kriterien Minimale Menge innerer Knoten oder inimale Menge von Splits Minimale Baumtiefe (kürzester längster Ast) Minimale Menge von Fehlern auf Trainingsmengen Vorsicht: Overfitting Als Optimierungsproblem alle sehr komplex Riesiger Suchraum (alleine Zahl möglicher Splits eines Attributs) Abhilfe: Heuristiken, die lokale Entscheidungen treffen Meistens: Reinheit der entstehenden Partitionen maximieren Ulf Leser: Data Warehousing und Data Mining 37

38 Einschub: Entropie Wie misst man die Reinheit einer Partition? Definition Die Entropie einer Trainingsmenge T bzgl. Klassen C={c 1, c n } ist definiert als mit p i = relative Häufigkeit der Klasse c i in T Bemerkung entropy( T ) = entropy(t) = 0: homogene Menge (ein p i =1, alle anderen =0) entropy(t) >>0: Verwirrung i= 1 entropy(t) maximal 1 für zwei Klassen n p i *log( p i ) Ulf Leser: Data Warehousing und Data Mining 38

39 Beispiel T=(h,h,h,h,l,l,l,l), entropy(t)=1 T=(h,h,h,h,h,h,h,l), entropy(t)=0,54 1,2 1 0,8 0,6 0,4 0, Ulf Leser: Data Warehousing und Data Mining 39

40 Klassische DTI Algorithmen [Qui86, Qui93] ID3 / CART / C4.5 / C5.0 Ziel: Anzahl der erwarteten Vergleiche minimieren Also Baum balanciert und niedrig halten Heuristik dazu: Wähle Split lokal so, dass die Entropie der neuen Partitionen möglichst klein ist Verbesserung hängt davon ab, wie sich die Entropie beim Split verändert: Information Gain Ulf Leser: Data Warehousing und Data Mining 40

41 Information Gain Definition Der Information Gain einer Partitionierung P (also eines Splits) einer Grundmenge T mit P =m ist definiert als Der gewichtete Information Gain ist definiert als Bemerkung gain( T, P) wgain( T, P) = entropy( T ) = entropy( T ) Triviale Lösung mit m= T will man natürlich verhindern Prinzipiell ist der Information Gain je höher, je höher m ist Oft fixiert man aber m=2 (binäre Splits später) m i= 1 m i= 1 entropy( Pi T P i ) entropy( Pi ) Ulf Leser: Data Warehousing und Data Mining 41

42 Beispiel age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Quelle: [HK06] entropy T ) = log2 ( ) log ( ) = ( 2 Ulf Leser: Data Warehousing und Data Mining 42

43 Splitpunkte Wir betrachten hier nur bestimmte, sich direkt aus den Daten ergebende Splits Split bei income? Drei Partitionen high, medium, low entropy(high) = -2/4*log(2/4) 2/4*log(2/4) ~ 1 entropy(medium) = -2/6*log(2/6) 4/6*log(4/6) ~ 0.91 entropy(low) = -3/4*log(3/4) ¼*log(1/4) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(income) = 0.94 (4/14*1+6/14* /14*0.81) ~ 0.3 high Income medium low nein 2 / ja 2 nein 2/ ja 4 Nein:1 / ja 3 Ulf Leser: Data Warehousing und Data Mining 43

44 Splitpunkte Split bei student Zwei Partitionen entropy(yes) = -6/7*log(6/7) 1/7*log(1/7) ~ 0.59 entropy(no) = -3/7*log(-3/7) 4/7*log(4/7) ~ 0.98 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(student) = 0.94 (7/14* /14*0.98) ~ 0.15 Yes student No nein 1 / ja 6 nein 4/ ja 3 Ulf Leser: Data Warehousing und Data Mining 44

45 Splitpunkte Split bei credit_rating Zwei Partitionen entropy(fair) = -2/8*log(2/8) 6/8*log(6/8) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no entropy(excellent) = -3/6*log(-3/6) 3/6*log(3/6) ~ 1 wgain(rating) = 0.94 (8/14* /14*1) ~ 0.04 Yes rating No nein 2 / ja 6 nein 3/ ja 3 Ulf Leser: Data Warehousing und Data Mining 45

46 Berechnung des besten Split Gegeben Trainingsmenge T Für alle Attribute A i Für alle Partitionierungen P ij Berechne wgain(a i, P ij ) Wähle den Split (A i, P ij ), für den wgain() am größten ist Partitioniere T gemäß A i in Partitionen P ij Wende Verfahren rekursiv für jede der Partitionen an Probleme Die Doppelschleife ist extrem teuer für Attribute mit vielen Werten / numerische Attribute Man muss theoretisch jede mögliche Aufteilung der Werte in beliebig viele Partitionen betrachten Ulf Leser: Data Warehousing und Data Mining 46

47 Typischer Abhilfe: Nur binäre Splits Für total geordnete Attribute: Alle Aufteilungen des Wertebereichs in zwei disjunkte Intervalle Bei k Attributwerten sind das k-1 mögliche Splits Für andere Attribute: Alle Aufteilungen der Werte in zwei disjunkte Gruppen Bei k Attributwerten sind das 2 k mögliche Splits Zusammen: Für jeden inneren Knoten [Wenn alle z.b. Attribute numerisch sind] Sei j=max( A i ), n Attribute, T =m Alle Werte eines Attributs sortieren: n*o(j*log(j)) Pro Attribut O(j) mögliche Splits Pro Split ganze Partition scannen, um wgain() auszurechnen Zusammen: O(n*j*log(j) + n*j*m) Ulf Leser: Data Warehousing und Data Mining 47

48 Inhalt dieser Vorlesung Einführung Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Tree Pruning Ulf Leser: Data Warehousing und Data Mining 48

49 Overfitting Trainingsmenge T, Objektmenge O Ein DT T 1 overfittet, wenn es einen Baum T 2 gibt mit T 1 ist auf T besser als T 2 T 2 ist auf O besser als T 1 Dann ist T 1 zu spezifisch für T und nicht mehr geeignet für O Overfitting passiert typischerweise in den unteren Knoten eines DT Betrachtung immer kleinerer, speziellerer Tupelmengen Entscheidungen haben bzgl. O nur noch geringe oder keine Aussagekraft mehr Abhilfe: Tree Pruning Unterbäume abschneiden, die nur wenig zur Reduktion der Fehlerrate auf T beitragen Ulf Leser: Data Warehousing und Data Mining 49

50 Varianten Diverse Vorschläge, DTI effizienter zu implementieren SPRINT, BOAT, Gegen Overfitting: RainForest Berechne viele DT, aber immer nur auf einem Sample der Daten Klassifikation als Majority Voting Oft sehr gut abschneidendes Verfahren Ulf Leser: Data Warehousing und Data Mining 50

51 Literatur Quinlan, J. (1986). "Induction of decision trees." Machine Learning 11(1): Quinlan, J. (1993). "C4. 5: Programs for Machine Learning". San Francisco, Morgan Kaufmann. Shafer, J. C., Agrawal, R. and Mehta, M. (1996). "SPRINT: A Scalable Parallel Classifier for Data Mining". 22th Conference on Very Large Databases, Mumbai, India. Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Ulf Leser: Data Warehousing und Data Mining 51