Data Warehousing und Data Mining

Größe: px
Ab Seite anzeigen:

Download "Data Warehousing und Data Mining"

Transkript

1 Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 2

3 Klassifikation Grundproblem Gegeben eine Menge von Objekten mit Attributen (Features) Gegeben eine Menge C von Klassen Finde eine Klassifikationsfunktion f:o C, die jedes Objekt aus O (s)einer Klasse c i zuordnet Wie soll das gehen? Zusätzlich ist eine Trainingsmenge T mit f :T C gegeben Supervised learning Klassifikation und Vorhersage Oftmals sind T Daten aus der Vergangenheit Z.B. Kunden, deren Kredite geplatzt sind O sind Daten, deren Klassenzugehörigkeit man vorhersagen will Z.B. Neue Kunden, die einen Kredit beantragen Ulf Leser: Data Warehousing und Data Mining 3

4 Manchmal ganz einfach Aufgabe: Weise Studenten ihre Note (Klasse) aufgrund ihrer Punktzahl (Feature) zu Klassenzugehörigkeit ist auf dem Attribut definiert Das ist idr leider nicht so <90 x <80 x x >=90 1 >=80 2 <70 >=70 x 3 <50 5 >=60 4 Ulf Leser: Data Warehousing und Data Mining 4

5 Etwas komplexer ID Alter Einkommen Risiko Hoch Niedrig Hoch Niedrig Niedrig Hoch Welches Risiko schätzen wir für eine Person von 45 Jahren mit 4000 Euro Einkommen? Ulf Leser: Data Warehousing und Data Mining 5

6 Beispiel: Lineare Trennung Hoch Niedrig (Lineare) Funktionen f der Attribute Z.B. SVM, Logistische Regression Klasse ergibt sich aus Lage zur Trennfunktion Finde f, die den Fehler auf Trainingsdaten minimiert Linke-über der Gerade: Risikoklasse hoch (niedrig) Rechts-unter der Gerade: Risikoklasse niedrig (hoch) Ulf Leser: Data Warehousing und Data Mining 6

7 Bewertung einer Klassifikation Precision = TP/(TP+FP) Wie viele der riskant eingeschätzten Kunden sind es wirklich? Recall = TP/(TP+FN) Wie viele der Kunden mit hohem Risiko wurden entdeckt? Accuracy = (TP+TN) / (TP+FP+FN+TN) Wie viele der Einschätzungen sind korrekt? Wenig aussagekräftig, wenn es viel mehr sichere als riskante Kunden gibt und der Klassifikator halbwegs funktioniert Klassifikator: Hoch Klassifikator: Niedrig Real: Hoch true-positive false-negative Real: Niedrig false-positive true-negative Ulf Leser: Data Warehousing und Data Mining 7

8 Beispiel Hoch Niedrig Hoch 2 0 Hoch Niedrig Niedrig Precision = TP/(TP+FP)= 2/2 Wenn wir hohes Risiko vorhersagen, haben wir immer Recht Recall = TP/(TP+FN) = 2/3 Aber wir verfehlen 33% der riskanten Kunden Ulf Leser: Data Warehousing und Data Mining 8

9 Verbesserung Hoch Niedrig Was können wir tun? Ulf Leser: Data Warehousing und Data Mining 9

10 Verbesserung Hoch Niedrig Was können wir tun? Verschieben der Gerade Nach unten: Erhöhter Recall, verringerte Precision Nach oben: Verringerter Recall, erhöhte Precision Ulf Leser: Data Warehousing und Data Mining 10

11 Verbesserung Hoch Niedrig Was können wir tun? Andere Trennfunktionen betrachten Sehr schnell viel komplexer Ulf Leser: Data Warehousing und Data Mining 11

12 Overfitting Hoch Niedrig Man lernt und evaluiert immer nur auf einem Ausschnitt der Realität Genau passende Funktionen generalisieren schlecht Oft schlechte Performanz auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 12

13 Was tun gegen Overfitting? Wenn man auf den Trainingsdaten lernt und von den Testdaten die Klassen nicht kennt wie kann man dann den Grad an Overfitting beurteilen? Cross-Validierung (Leave-one-out) Teilen der Trainingsdaten in k zufällige Partitionen k-maliges Lernen auf k-1 Partitionen und Anwendung des Modells auf der k ten Partition Die Ergebnisse (Precision, Recall) sollten sehr nahe beieinander liegen Und die Ergebnisse sollten besser sein, je größer k größere Trainingsmenge Man nimmt meist den Mittelwert als erwartete Performance des Klassifikators auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 13

14 Kategoriale Attribute ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Kategoriale Attribute kann man i.a. nicht in (numerische) Funktionen packen Welche Regeln könnte man ableiten? if Alter>50 then Risikoklasse = Niedrig elseif Alter<32 then Risikoklasse = Hoch elseif Autotyp=Sport then Risikoklasse = Hoch else Risikoklasse = Niedrig Ulf Leser: Data Warehousing und Data Mining 14

15 Entscheidungsregeln ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Geht das mit weniger Entscheidungen? if Alter>50 then Risikoklasse = Niedrig elseif Autotyp=LKW then Risikoklasse = Niedrig else Risikoklasse = Hoch Ulf Leser: Data Warehousing und Data Mining 15

16 Noch mal ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Overfitting If Alter=17 and Autotype=Sport then Risikoklasse = hoch elseif Alter=23 and Autotype=Familie then Risikoklasse = hoch elseif Alter=32 and Autotype=LKW then Risikoklasse = hoch elseif Alter=43 and Autotype=Sport then Risikoklasse = niedrig else Risikoklasse = niedrig Ulf Leser: Data Warehousing und Data Mining 16

17 Und noch mal Warum nicht ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig If ID=1 then Risikoklasse = hoch elseif ID=2 then Risikoklasse = hoch elseif ID=3 then Risikoklasse = hoch elseif ID=4 then Risikoklasse = niedrig else Risikoklasse = niedrig ID hat nichts mit dem Risiko zu tun Das wissen wir der Computer weiß es nicht Feature Auswahl ist essentiell Ulf Leser: Data Warehousing und Data Mining 17

18 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 18

19 Nearest Neighbor Klassifikator Definition Sei T die Trainingsmenge, d eine Abstandsfunktion und t ein zu klassifizierendes Objekt. Ein nearest-neighbor (NN) Klassifikator weist t der Klasse des Objekts t T zu, dass minimalen Abstand zu t hat. Ein k-nearest-neighbor (knn) Klassifikator weist t der Klasse zu, die am häufigsten unter den k zu t nächsten Objekten ist. Bemerkungen Sehr einfach, oft sehr effektiv, knn meist besser als NN Lazy learner : Es gibt kein Modell (die Daten sind das Modell) Sehr nahe zu Case-Based Reasoning Variante: Klassen der k-nächste Objekte werden mit Abstand gewichtet Ulf Leser: Data Warehousing und Data Mining 19

20 Illustration 1NN und Voronoi diagram Ein 5NN Ulf Leser: Data Warehousing und Data Mining 20

21 Nachteil Hauptproblem: Geschwindigkeit Man muss Abstand jedes Objekts zu t berechnen Abhilfen T in Indexstruktur packen, die Nachbarschaftssuche unterstützt Nicht ganz T nehmen, sondern ein zufälliges Sample T erst clustern, dann einen Vertreter pro Cluster wählen Alle Tricks führen meist zur Verschlechterung der Performanz Ulf Leser: Data Warehousing und Data Mining 21

22 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 22

23 Bayes sche Klassifikation Wahrscheinlichkeitsbasiertes, einfaches Verfahren Gegeben Klassenmenge C, Trainingsmenge T Menge F von Features mit diskretem Wertebereich Zu viele Werte sind ungünstig (Generalisierung) Ggf. Diskretisierung durchführen Wir suchen für ein Objekt t die Wahrscheinlichkeiten p(c i t) der Zugehörigkeit zu jeder Klasse c i C t wird Klasse mit höchste Wahrscheinlichkeit zugewiesen Objekte werden durch Feature F={f 1,, f n } beschrieben p ( c t) = p( c f [ t],..., fn[ t]) = p( c f1,..., 1 n f ) Ulf Leser: Data Warehousing und Data Mining 23

24 Wahrscheinlichkeiten Gesucht: p(c t) Wir haben T mit binären Features f 1,,f n Die A-Priori Wahrscheinlichkeit p(f) jedes Features f Bei vielen Objekten ist f wahr? Die A-Priori Wahrscheinlichkeiten p(c) aller Klassen c C Wie viele Objekte aus T gehören zu jeder Klasse? Die bedingten Wahrscheinlichkeiten p(f c), dass Feature f bei Klasse c wahr ist Wie oft ist f bei allen Objekten der Klasse c wahr? Wir formen um und wenden Bayes Theorem an p( f1,..., fn c)* p( c) p( c f1,..., fn) = p( f1,..., fn c)* p( c) p( f,..., f ) 1 n Ulf Leser: Data Warehousing und Data Mining 24

25 Naive Bayes Wir haben also Den ersten Term kann man für hochdimensionale Featureräume nicht vernünftig schätzen Exponentiell viele Kombinationen von Featurewerten Jede einzelne Kombination ist in jedem realen T sehr selten Zählen ergibt stark verzerrte Häufigkeiten Naive Annahme: Statistische Unabhängigkeit Dann gilt p( c t) p( f1,..., f c)* p( c) p( f,..., f c) p( f1 n c)*...* p( f 1 n = n c ) Und damit p( c o) p( c)* n i= 1 p( f i c) Ulf Leser: Data Warehousing und Data Mining 25

26 Beispiel Wir raten binäre Features ID Alter Autotyp Risiko Jung (Alter<25)? 1 23 Familie hoch Sportwagen? 2 17 Sport hoch Damit 3 43 Sport hoch P(c=hoch)=3/ Familie niedrig p(f 1 =jung)=2/ LKW niedrig P(f 2 =sportwagen)=2/5 P(jung hoch)=2/3, p(jung niedrig)=0 P(sportwagen hoch)=2/3, p(sportwagen niedrig)=0 Smoothing: p(jung niedrig)= p(sportwagen niedrig)=0,01 Neuer Kunde, 24, LKW p(hoch jung, sportwagen)=p(hoch)*p(jung hoch)*(1- p(sportwagen hoch)=3/5*2/3*1/3 = 6/45 p(niedrig jung, sportwagen)=2/5*0.01*0.01 Neuer Kunde, 35, Familienwagen p(hoch alt, sportwagen)=3/5*1/3*1/3 = 3/45 p(niedrig alt, sportwagen)=2/5*0.99*0.99 Ulf Leser: Data Warehousing und Data Mining 26

27 SQL Wir brauchen p(f i c j ), p(c j ), p(f i ) Wie kriegen wir die effizient mit SQL? Schema: obj(oid, fid, fvalue), class(oid, cid) Werte müssen noch in relative Häufigkeiten umgerechnet werden Alle p(c j ) SELECT cid, count(*) FROM class GROUP BY cid; Alle p(f i ) Alle p(f i c j ) SELECT fid, fvalue, count(*) FROM object GROUP BY fid, fvalue; SELECT cid, fid, fvalue, count(*) FROM object o, class c WHERE o.oid=c.oid GROUP BY cid, fid, fvalue; Ulf Leser: Data Warehousing und Data Mining 27

28 Fazit Vorteile Einfach, schnell Modell kann inkrementell aktualisiert werden Platzbedarf vernachlässigbar Hängt nur von der Anzahl Features und Klassen ab Oftmals schon gute Ergebnisse Nachteile Geringe Erklärungskraft Unabhängigkeitsannahme stimmt meistens nicht Klappt oft trotzdem Wenn nicht, stärkere Modelle nehmen (z.b. Bayes sche Netzwerke) Ulf Leser: Data Warehousing und Data Mining 28

29 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Skalierbarkeit: SPRINT Tree Pruning Ulf Leser: Data Warehousing und Data Mining 29

30 Entscheidungsbäume ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Autotyp = LKW LKW Risikoklasse = niedrig Alter 60 < 60 Risikoklasse = niedrig Risikoklasse = hoch Ableitung einer Menge von Regeln Hierarchische Anordnung: Bedingungen entlang eines Pfades werden ver-undet Blätter sind i.a. mit Wsk für Klassenzugehörigkeiten gelabelt Weil weitere Auftrennung nicht möglich Um Gefahr von Overfitting zu verringern (später) Ulf Leser: Data Warehousing und Data Mining 30

31 Formal Definition Ein Entscheidungsbaum ist ein binärer Baum mit Jeder innere Knoten ist mit einem Attribut beschriftet = LKW Autotyp Risikoklasse = niedrig Risikoklasse = niedrig LKW 60 < 60 Die ausgehenden Kanten eines inneren Knoten sind mit Bedingungen an die Werte des Vaterknotens beschriftet, deren Wertebereiche sich nicht überschneiden Alter Die Konjunktion der Bedingungen eines Pfades ist immer erfüllbar Blätter sind mit Wahrscheinlichkeitsverteilungen über den Klassen beschriftet Risikoklasse = hoch Ulf Leser: Data Warehousing und Data Mining 31

32 Anwendung und Berechnung Anwendung zur Klassifikation ist offensichtlich Gegeben neues Objekt t Laufe den Baum ab und beschreite an jedem Knoten der Kante, deren Bedingung in t zutrifft Wird ein Blatt erreicht: Ordne t der Klasse zu, die in diesem Blatt die höchste Wahrscheinlichkeit hat Das interessantere Problem Ableitung eines guten Entscheidungsbaums aus den Daten Decision Tree Induction (DTI) Ulf Leser: Data Warehousing und Data Mining 32

33 Partitionierung Entscheidungsbäume partitionieren den Raum rekursiv Ulf Leser: Data Warehousing und Data Mining 33

34 DT: Pro und Contra Vorteile Verständliche Darstellung Menschen lieben DT Leichte Ableitung von Regelmengen möglich Schnelle Klassifikation (Baumhöhe ist ~O(log( T ))) Effiziente Verfahren für DTI bekannt Nachteile Typische DTI-Algorithmen berechnen nur rechtwinklige Partitionierung des Raums Das entspricht lokalen linearen Trennfunktionen Gefahr des Overfitting (siehe Tree Pruning) Ulf Leser: Data Warehousing und Data Mining 34

35 DTI: Grundverfahren Gegeben Trainingsmenge T Wähle ein Attribut A und Bedingungen (Splits) B 1, B m Für binäre Entscheidungsbäume: m=2 Partitioniere T gemäß Bedingungen in m Partitionen Das erzeugt einen inneren Knoten im Baum Wende Verfahren rekursiv für jede der Partitionen an Solange nicht alle Objekte einer Partition der gleichen Klasse angehören oder ein anderes Stopp-Kriterium erfüllt ist Zentrale Frage: Welches Attribut? Welche Splits? Ulf Leser: Data Warehousing und Data Mining 35

36 Auswirkungen Tag Aussicht Temperatur Feuchtigkeit Wind Tennispielen 1 sonnig heiß hoch schwach nein 2 sonnig heiß hoch stark nein 3 bedeckt heiß hoch schwach ja 4 regnerisch mild hoch schwach ja 5 regnerisch kühl normal schwach ja 6 regnerisch kühl normal stark nein sonnig nein Aussicht bedeckt ja regnerisch Wind stark schwach stark hoch Wind Feuchtigkeit normal Wind schwach stark schwach nein ja nein Aussicht sonnig sonnig nein ja ja nein Ulf Leser: Data Warehousing und Data Mining 36

37 Wie sieht ein guter DT aus? Prinzipiell: klein ist gut Schnelle Entscheidungen Höherer Abstraktionsgrad, weniger Overfitting Mögliche konkrete Kriterien Minimale Menge innerer Knoten oder inimale Menge von Splits Minimale Baumtiefe (kürzester längster Ast) Minimale Menge von Fehlern auf Trainingsmengen Vorsicht: Overfitting Als Optimierungsproblem alle sehr komplex Riesiger Suchraum (alleine Zahl möglicher Splits eines Attributs) Abhilfe: Heuristiken, die lokale Entscheidungen treffen Meistens: Reinheit der entstehenden Partitionen maximieren Ulf Leser: Data Warehousing und Data Mining 37

38 Einschub: Entropie Wie misst man die Reinheit einer Partition? Definition Die Entropie einer Trainingsmenge T bzgl. Klassen C={c 1, c n } ist definiert als mit p i = relative Häufigkeit der Klasse c i in T Bemerkung entropy( T ) = entropy(t) = 0: homogene Menge (ein p i =1, alle anderen =0) entropy(t) >>0: Verwirrung i= 1 entropy(t) maximal 1 für zwei Klassen n p i *log( p i ) Ulf Leser: Data Warehousing und Data Mining 38

39 Beispiel T=(h,h,h,h,l,l,l,l), entropy(t)=1 T=(h,h,h,h,h,h,h,l), entropy(t)=0,54 1,2 1 0,8 0,6 0,4 0, Ulf Leser: Data Warehousing und Data Mining 39

40 Klassische DTI Algorithmen [Qui86, Qui93] ID3 / CART / C4.5 / C5.0 Ziel: Anzahl der erwarteten Vergleiche minimieren Also Baum balanciert und niedrig halten Heuristik dazu: Wähle Split lokal so, dass die Entropie der neuen Partitionen möglichst klein ist Verbesserung hängt davon ab, wie sich die Entropie beim Split verändert: Information Gain Ulf Leser: Data Warehousing und Data Mining 40

41 Information Gain Definition Der Information Gain einer Partitionierung P (also eines Splits) einer Grundmenge T mit P =m ist definiert als Der gewichtete Information Gain ist definiert als Bemerkung gain( T, P) wgain( T, P) = entropy( T ) = entropy( T ) Triviale Lösung mit m= T will man natürlich verhindern Prinzipiell ist der Information Gain je höher, je höher m ist Oft fixiert man aber m=2 (binäre Splits später) m i= 1 m i= 1 entropy( Pi T P i ) entropy( Pi ) Ulf Leser: Data Warehousing und Data Mining 41

42 Beispiel age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Quelle: [HK06] entropy T ) = log2 ( ) log ( ) = ( 2 Ulf Leser: Data Warehousing und Data Mining 42

43 Splitpunkte Wir betrachten hier nur bestimmte, sich direkt aus den Daten ergebende Splits Split bei income? Drei Partitionen high, medium, low entropy(high) = -2/4*log(2/4) 2/4*log(2/4) ~ 1 entropy(medium) = -2/6*log(2/6) 4/6*log(4/6) ~ 0.91 entropy(low) = -3/4*log(3/4) ¼*log(1/4) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(income) = 0.94 (4/14*1+6/14* /14*0.81) ~ 0.3 high Income medium low nein 2 / ja 2 nein 2/ ja 4 Nein:1 / ja 3 Ulf Leser: Data Warehousing und Data Mining 43

44 Splitpunkte Split bei student Zwei Partitionen entropy(yes) = -6/7*log(6/7) 1/7*log(1/7) ~ 0.59 entropy(no) = -3/7*log(-3/7) 4/7*log(4/7) ~ 0.98 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(student) = 0.94 (7/14* /14*0.98) ~ 0.15 Yes student No nein 1 / ja 6 nein 4/ ja 3 Ulf Leser: Data Warehousing und Data Mining 44

45 Splitpunkte Split bei credit_rating Zwei Partitionen entropy(fair) = -2/8*log(2/8) 6/8*log(6/8) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no entropy(excellent) = -3/6*log(-3/6) 3/6*log(3/6) ~ 1 wgain(rating) = 0.94 (8/14* /14*1) ~ 0.04 Yes rating No nein 2 / ja 6 nein 3/ ja 3 Ulf Leser: Data Warehousing und Data Mining 45

46 Berechnung des besten Split Gegeben Trainingsmenge T Für alle Attribute A i Für alle Partitionierungen P ij Berechne wgain(a i, P ij ) Wähle den Split (A i, P ij ), für den wgain() am größten ist Partitioniere T gemäß A i in Partitionen P ij Wende Verfahren rekursiv für jede der Partitionen an Probleme Die Doppelschleife ist extrem teuer für Attribute mit vielen Werten / numerische Attribute Man muss theoretisch jede mögliche Aufteilung der Werte in beliebig viele Partitionen betrachten Ulf Leser: Data Warehousing und Data Mining 46

47 Typischer Abhilfe: Nur binäre Splits Für total geordnete Attribute: Alle Aufteilungen des Wertebereichs in zwei disjunkte Intervalle Bei k Attributwerten sind das k-1 mögliche Splits Für andere Attribute: Alle Aufteilungen der Werte in zwei disjunkte Gruppen Bei k Attributwerten sind das 2 k mögliche Splits Zusammen: Für jeden inneren Knoten [Wenn alle z.b. Attribute numerisch sind] Sei j=max( A i ), n Attribute, T =m Alle Werte eines Attributs sortieren: n*o(j*log(j)) Pro Attribut O(j) mögliche Splits Pro Split ganze Partition scannen, um wgain() auszurechnen Zusammen: O(n*j*log(j) + n*j*m) Ulf Leser: Data Warehousing und Data Mining 47

48 Inhalt dieser Vorlesung Einführung Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Tree Pruning Ulf Leser: Data Warehousing und Data Mining 48

49 Overfitting Trainingsmenge T, Objektmenge O Ein DT T 1 overfittet, wenn es einen Baum T 2 gibt mit T 1 ist auf T besser als T 2 T 2 ist auf O besser als T 1 Dann ist T 1 zu spezifisch für T und nicht mehr geeignet für O Overfitting passiert typischerweise in den unteren Knoten eines DT Betrachtung immer kleinerer, speziellerer Tupelmengen Entscheidungen haben bzgl. O nur noch geringe oder keine Aussagekraft mehr Abhilfe: Tree Pruning Unterbäume abschneiden, die nur wenig zur Reduktion der Fehlerrate auf T beitragen Ulf Leser: Data Warehousing und Data Mining 49

50 Varianten Diverse Vorschläge, DTI effizienter zu implementieren SPRINT, BOAT, Gegen Overfitting: RainForest Berechne viele DT, aber immer nur auf einem Sample der Daten Klassifikation als Majority Voting Oft sehr gut abschneidendes Verfahren Ulf Leser: Data Warehousing und Data Mining 50

51 Literatur Quinlan, J. (1986). "Induction of decision trees." Machine Learning 11(1): Quinlan, J. (1993). "C4. 5: Programs for Machine Learning". San Francisco, Morgan Kaufmann. Shafer, J. C., Agrawal, R. and Mehta, M. (1996). "SPRINT: A Scalable Parallel Classifier for Data Mining". 22th Conference on Very Large Databases, Mumbai, India. Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Ulf Leser: Data Warehousing und Data Mining 51

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Dominik Lahmann Tobias Scheffer Entscheidungsbäume

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen II: Klassifikation mit Entscheidungsbäumen Vera Demberg Universität des Saarlandes 12. Juli 2012 Vera Demberg (UdS) Mathe III 12. Juli 2012 1 / 38 Einleitung

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Einführung Clustergüte Ähnlichkeiten Clustermitte Hierarchisches Clustering Partitionierendes

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

Data Mining - Wiederholung

Data Mining - Wiederholung Data Mining - Wiederholung Norbert Fuhr 9. Juni 2008 Problemstellungen Problemstellungen Daten vs. Information Def. Data Mining Arten von strukturellen Beschreibungen Regeln (Klassifikation, Assoziations-)

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

3. Lernen von Entscheidungsbäumen

3. Lernen von Entscheidungsbäumen 3. Lernen von Entscheidungsbäumen Entscheidungsbäume 3. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Einführung in Data Mining Ulf Leser Wissensmanagement in der Bioinformatik Wo sind wir? Einleitung & Motivation Architektur Modellierung von Daten im DWH Umsetzung des

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Data Mining und Knowledge Discovery in Databases

Data Mining und Knowledge Discovery in Databases Data Mining und Knowledge Discovery in Databases Begriffsabgrenzungen... Phasen der KDD...3 3 Datenvorverarbeitung...4 3. Datenproblematik...4 3. Möglichkeiten der Datenvorverarbeitung...4 4 Data Mining

Mehr

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery

Seminar Business Intelligence Teil II: Data-Mining und Knowledge-Discovery Seminar usiness Intelligence Teil II: Data-Mining und Knowledge-Discovery Thema : Vortrag von Philipp reitbach. Motivation Übersicht. rundlagen. Entscheidungsbauminduktion. ayes sche Klassifikation. Regression.

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Kapitel 4: Data Mining

Kapitel 4: Data Mining LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2011 Kapitel 4: Data Mining Vorlesung:

Mehr

Überwachtes Lernen: Klassifikation und Regression

Überwachtes Lernen: Klassifikation und Regression Überwachtes Lernen: Klassifikation und Regression Praktikum: Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung)

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Anfragegraph Anfragen dieses Typs können als Graph dargestellt werden: Der

Mehr

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery

Seminar Business Intelligence (2) Data Mining & Knowledge Discovery Seminar Business Intelligence () Data Mining & Knowledge Discovery Thema: Klassifikation und Prädiktion Ausarbeitung von Philipp Breitbach AG DBIS Betreuung: Jernej Kovse Inhaltsverzeichnis INHALTSVERZEICHNIS...

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen

Einführung in die Methoden der Künstlichen Intelligenz. Maschinelles Lernen Einführung in die Methoden der Künstlichen Intelligenz Maschinelles Lernen Dr. David Sabel WS 2012/13 Stand der Folien: 14. Februar 2013 Einführung Direkte Programmierung eines intelligenten Agenten nicht

Mehr

Tutorium Algorithmen & Datenstrukturen

Tutorium Algorithmen & Datenstrukturen June 16, 2010 Binärer Baum Binärer Baum enthält keine Knoten (NIL) besteht aus drei disjunkten Knotenmengen: einem Wurzelknoten, einem binären Baum als linken Unterbaum und einem binären Baum als rechten

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Entscheidungsbäume. Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade /Niels Landwehr/Paul Prasse Silvia Makowski Tobias Scheffer Entscheidungsbäume Eine von vielen

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Kapitel 19: Datenbank-Unterstützung für Datenanalyse

Kapitel 19: Datenbank-Unterstützung für Datenanalyse Kapitel 19: Datenbank-Unterstützung für Datenanalyse Datenbank-Unterstützung für Data Mining Unterschiedliche Ebenen: Erweiterung des Datenbank-Kerns ( Datenbank-Primitive ), Erweiterungen der Anfragesprache,

Mehr

Rotation. y T 3. Abbildung 3.10: Rotation nach rechts (analog links) Doppelrotation y

Rotation. y T 3. Abbildung 3.10: Rotation nach rechts (analog links) Doppelrotation y Die AVL-Eigenschaft soll bei Einfügungen und Streichungen erhalten bleiben. Dafür gibt es zwei mögliche Operationen: -1-2 Rotation Abbildung 3.1: Rotation nach rechts (analog links) -2 +1 z ±1 T 4 Doppelrotation

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 5: Naive Bayes + IBL (V.

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Knowledge Discovery. Lösungsblatt 1

Knowledge Discovery. Lösungsblatt 1 Universität Kassel Fachbereich Mathematik/nformatik Fachgebiet Wissensverarbeitung Hertie-Stiftungslehrstuhl Wilhelmshöher Allee 73 34121 Kassel Email: hotho@cs.uni-kassel.de Tel.: ++49 561 804-6252 Dr.

Mehr

Entscheidungsbaum-Lernen: Übersicht

Entscheidungsbaum-Lernen: Übersicht Entscheidungsbaum-Lernen: Übersicht Entscheidungsbäume als Repräsentationsformalismus Semantik: Klassifikation Lernen von Entscheidungsbäumen vollst. Suche vs. TDIDT Tests, Ausdrucksfähigkeit Maße: Information

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

4 Induktion von Regeln

4 Induktion von Regeln 4 Induktion von egeln Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- aare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden. Ein Entscheidungsbaum liefert eine Entscheidung

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Wasserfall-Ansätze zur Bildsegmentierung

Wasserfall-Ansätze zur Bildsegmentierung Wasserfall-Ansätze zur Bildsegmentierung von Philipp Jester Seminar: Bildsegmentierung und Computer Vision 16.01.2006 Überblick 1. Problemstellung 2. Wiederholung: Wasserscheiden-Ansätze 3. Der Wasserfall-Ansatz

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2009 1. Einführung: Definitionen Grundbegriffe Lernsysteme Maschinelles Lernen Lernen: Grundbegriffe

Mehr

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert

1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert Inhalt Einführung 1. Arrays 1. Array unsortiert 2. Array sortiert 3. Heap 2. Listen 1. Einfach verkettete Liste unsortiert 2. Einfach verkettete Liste sortiert 3. Doppelt verkettete Liste sortiert 3. Bäume

Mehr

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini

TEXTKLASSIFIKATION. WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini TEXTKLASSIFIKATION WS 2011/12 Computerlinguistik I Deasy Sukarya & Tania Bellini GLIEDERUNG 1. Allgemeines Was ist Textklassifikation? 2. Aufbau eines Textklassifikationssystems 3. Arten von Textklassifikationssystemen

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Data Mining Anwendungen und Techniken

Data Mining Anwendungen und Techniken Data Mining Anwendungen und Techniken Knut Hinkelmann DFKI GmbH Entdecken von Wissen in banken Wissen Unternehmen sammeln ungeheure mengen enthalten wettbewerbsrelevantes Wissen Ziel: Entdecken dieses

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Übersicht. Datenstrukturen und Algorithmen. Übersicht. Divide-and-Conquer. Vorlesung 9: Quicksort (K7)

Übersicht. Datenstrukturen und Algorithmen. Übersicht. Divide-and-Conquer. Vorlesung 9: Quicksort (K7) Datenstrukturen und Algorithmen Vorlesung 9: (K7) Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://www-i2.rwth-aachen.de/i2/dsal0/ Algorithmus 8. Mai 200 Joost-Pieter

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen

INTELLIGENTE DATENANALYSE IN MATLAB. Unüberwachtes Lernen: Clustern von Attributen INTELLIGENTE DATENANALYSE IN MATLAB Unüberwachtes Lernen: Clustern von Attributen Literatur J. Han, M. Kamber: Data Mining Concepts and Techniques. J. Han et. al: Mining Frequent Patterns without Candidate

Mehr

Dokumenten-Clustering. Norbert Fuhr

Dokumenten-Clustering. Norbert Fuhr Dokumenten-Clustering Norbert Fuhr Dokumenten-Clustering (Dokumenten-)Cluster: Menge von ähnlichen Dokumenten Ausgangspunkt Cluster-Hypothese : die Ähnlichkeit der relevanten Dokumente untereinander und

Mehr

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L Inhalt Grundlagen aus der Wahrscheinlichkeitsrechnung Hypothesenwahl Optimale Bayes Klassifikator Naiver Bayes Klassifikator

Mehr

Organic Computing: Peer-to-Peer-Netzwerke

Organic Computing: Peer-to-Peer-Netzwerke Organic Computing Peer-to-Peer-Netzwerke Rolf Wanka Sommersemester 2015 rwanka@cs.fau.de Inhalte Kurze Geschichte der Peer-to-Peer- Netzwerke Das Internet: Unter dem Overlay Die ersten Peer-to-Peer-Netzwerke

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

Codierung, Codes (variabler Länge)

Codierung, Codes (variabler Länge) Codierung, Codes (variabler Länge) A = {a, b, c,...} eine endliche Menge von Nachrichten (Quellalphabet) B = {0, 1} das Kanalalphabet Eine (binäre) Codierung ist eine injektive Abbildung Φ : A B +, falls

Mehr

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011

Evaluation. Caroline Sporleder. Computational Linguistics Universität des Saarlandes. Sommersemester 2011 26.05.2011 Evaluation Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 26.05.2011 Caroline Sporleder Evaluation (1) Datensets Caroline Sporleder Evaluation (2) Warum evaluieren?

Mehr

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20 Suche in Spielbäumen Suche in Spielbäumen KI SS2011: Suche in Spielbäumen 1/20 Spiele in der KI Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche Einschränkung von Spielen auf: 2 Spieler:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Vektormodelle Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig Gliederung Vektormodelle Vector-Space-Model Suffix Tree Document Model

Mehr

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion Vortrag Seminararbeit David Pogorzelski Aachen, 22.01.2015 Agenda 1 2 3 4 5 Ziel der

Mehr

Die AI::Categorizer-Experienz

Die AI::Categorizer-Experienz Die AI::Categorizer-Experienz Steffen Schwigon webit! Gesellschaft für neue Medien mbh Übersicht Exposition Projektkontext Textkategorisierung Durchführung AI::Categorizer Hierarchische

Mehr

Data Mining-Modelle und -Algorithmen

Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining-Modelle und -Algorithmen Data Mining ist ein Prozess, bei dem mehrere Komponenten i n- teragieren. Sie greifen auf Datenquellen, um diese zum Training,

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme

Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume. von Lars-Peter Meyer. im Seminar Methoden wissensbasierter Systeme Seminarvortrag zum Thema maschinelles Lernen I - Entscheidungsbäume von Lars-Peter Meyer im Seminar Methoden wissensbasierter Systeme bei Prof. Brewka im WS 2007/08 Übersicht Überblick maschinelles Lernen

Mehr

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten

Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten Bachelorarbeit Erkennung von Fließtext in PDF-Dokumenten 16.08.2016 David Spisla Albert Ludwigs Universität Freiburg Technische Fakultät Institut für Informatik Gliederung Motivation Schwierigkeiten bei

Mehr

www.easydatamining.com Analyse-Beispiel Banken

www.easydatamining.com Analyse-Beispiel Banken Data.Mining.Fox (DMF) von Easy.Data.Mining Eine beispielhafte Analyse für den Bereich Banken [0] Der Sinn & Zweck dieser Folien für Sie Einblick in die Welt des Data-Mining bei Easy.Data.Mining: Wie sieht

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt Knowledge Engineering Group Data Mining und Maschinelles Lernen Lösungsvorschlag 7. Übungsblatt 1 Aufgabe 1a) Auffüllen von Attributen

Mehr

5 Data Warehouses und Data Mining

5 Data Warehouses und Data Mining 5 Data Warehouses und Data Mining Mittels OLAP Techniken können große Datenmengen unterschiedlich stark verdichtet und gezielt aufbereitet werden. Mittels Data Mining können große Datenmengen nach bisher

Mehr

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1

3.2 Binäre Suche. Usr/local/www/ifi/fk/menschen/schmid/folien/infovk.ppt 1 3.2 Binäre Suche Beispiel 6.5.1: Intervallschachtelung (oder binäre Suche) (Hier ist n die Anzahl der Elemente im Feld!) Ein Feld A: array (1..n) of Integer sei gegeben. Das Feld sei sortiert, d.h.: A(i)

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Probabilistisches Tracking mit dem Condensation Algorithmus

Probabilistisches Tracking mit dem Condensation Algorithmus Probabilistisches Tracking mit dem Condensation Algorithmus Seminar Medizinische Bildverarbeitung Axel Janßen Condensation - Conditional Density Propagation for Visual Tracking Michael Isard, Andrew Blake

Mehr

Grundlagen der Programmierung 2. Bäume

Grundlagen der Programmierung 2. Bäume Grundlagen der Programmierung 2 Bäume Prof. Dr. Manfred Schmidt-Schauÿ Künstliche Intelligenz und Softwaretechnologie 24. Mai 2006 Graphen Graph: Menge von Knoten undzugehörige (gerichtete oder ungerichtete)

Mehr

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit:

2.5. VERBINDUNGSNETZWERKE GESTALTUNGSKRITERIEN DER NETZWERKE TOPOLOGIE ALS GRAPH. Vorlesung 5 TOPOLOGIE: DEFINITIONEN : Sei G = (V, E) ein Graph mit: Vorlesung 5.5. VERBINDUNGSNETZWERKE Kommunikation zwischen den einzelnen Komponenten eines arallelrechners wird i.d.r. über ein Netzwerk organisiert. Dabei unterscheidet man zwei Klassen der Rechner: TOOLOGIE:

Mehr

R-Baum R + -Baum X-Baum M-Baum

R-Baum R + -Baum X-Baum M-Baum R-Baum und Varianten R-Baum R + -Baum X-Baum M-Baum staab@uni-koblenz.de 1 R-Baum R-Baum: Guttman 1984 Erweiterung B-Baum um mehrere Dimensionen Standardbaum zur Indexierung im niedrigdimensionalen Raum

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik

Ideen der Informatik. Maschinelles Lernen. Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Ideen der Informatik Maschinelles Lernen Kurt Mehlhorn Adrian Neumann Max-Planck-Institut für Informatik Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung

Mehr

Approximationsalgorithmen

Approximationsalgorithmen Makespan-Scheduling Kapitel 4: Approximationsalgorithmen (dritter Teil) (weitere Beispiele und Illustrationen an der Tafel) Hilfreiche Literatur: Vazarani: Approximation Algorithms, Springer Verlag, 2001.

Mehr

Data Warehousing und Data Mining

Data Warehousing und Data Mining Data Warehousing und Data Mining Clustering Ulf Leser Wissensmanagement in der Bioinformatik Mehr Beobachtungen Sunny Hot High False Yes Sunny Hot High False No Sunny Hot High True No.. Ulf Leser: DWH

Mehr

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP

B-Bäume I. Algorithmen und Datenstrukturen 220 DATABASE SYSTEMS GROUP B-Bäume I Annahme: Sei die Anzahl der Objekte und damit der Datensätze. Das Datenvolumen ist zu groß, um im Hauptspeicher gehalten zu werden, z.b. 10. Datensätze auf externen Speicher auslagern, z.b. Festplatte

Mehr

Definition. Gnutella. Gnutella. Kriterien für P2P-Netzwerke. Gnutella = +

Definition. Gnutella. Gnutella. Kriterien für P2P-Netzwerke. Gnutella = + Definition Gnutella Ein -to--netzwerk ist ein Kommunikationsnetzwerk zwischen Rechnern, in dem jeder Teilnehmer sowohl Client als auch Server- Aufgaben durchführt. Beobachtung: Das Internet ist (eigentlich

Mehr