Data Warehousing und Data Mining

Größe: px
Ab Seite anzeigen:

Download "Data Warehousing und Data Mining"

Transkript

1 Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik

2 Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 2

3 Klassifikation Grundproblem Gegeben eine Menge von Objekten mit Attributen (Features) Gegeben eine Menge C von Klassen Finde eine Klassifikationsfunktion f:o C, die jedes Objekt aus O (s)einer Klasse c i zuordnet Wie soll das gehen? Zusätzlich ist eine Trainingsmenge T mit f :T C gegeben Supervised learning Klassifikation und Vorhersage Oftmals sind T Daten aus der Vergangenheit Z.B. Kunden, deren Kredite geplatzt sind O sind Daten, deren Klassenzugehörigkeit man vorhersagen will Z.B. Neue Kunden, die einen Kredit beantragen Ulf Leser: Data Warehousing und Data Mining 3

4 Manchmal ganz einfach Aufgabe: Weise Studenten ihre Note (Klasse) aufgrund ihrer Punktzahl (Feature) zu Klassenzugehörigkeit ist auf dem Attribut definiert Das ist idr leider nicht so <90 x <80 x x >=90 1 >=80 2 <70 >=70 x 3 <50 5 >=60 4 Ulf Leser: Data Warehousing und Data Mining 4

5 Etwas komplexer ID Alter Einkommen Risiko Hoch Niedrig Hoch Niedrig Niedrig Hoch Welches Risiko schätzen wir für eine Person von 45 Jahren mit 4000 Euro Einkommen? Ulf Leser: Data Warehousing und Data Mining 5

6 Beispiel: Lineare Trennung Hoch Niedrig (Lineare) Funktionen f der Attribute Z.B. SVM, Logistische Regression Klasse ergibt sich aus Lage zur Trennfunktion Finde f, die den Fehler auf Trainingsdaten minimiert Linke-über der Gerade: Risikoklasse hoch (niedrig) Rechts-unter der Gerade: Risikoklasse niedrig (hoch) Ulf Leser: Data Warehousing und Data Mining 6

7 Bewertung einer Klassifikation Precision = TP/(TP+FP) Wie viele der riskant eingeschätzten Kunden sind es wirklich? Recall = TP/(TP+FN) Wie viele der Kunden mit hohem Risiko wurden entdeckt? Accuracy = (TP+TN) / (TP+FP+FN+TN) Wie viele der Einschätzungen sind korrekt? Wenig aussagekräftig, wenn es viel mehr sichere als riskante Kunden gibt und der Klassifikator halbwegs funktioniert Klassifikator: Hoch Klassifikator: Niedrig Real: Hoch true-positive false-negative Real: Niedrig false-positive true-negative Ulf Leser: Data Warehousing und Data Mining 7

8 Beispiel Hoch Niedrig Hoch 2 0 Hoch Niedrig Niedrig Precision = TP/(TP+FP)= 2/2 Wenn wir hohes Risiko vorhersagen, haben wir immer Recht Recall = TP/(TP+FN) = 2/3 Aber wir verfehlen 33% der riskanten Kunden Ulf Leser: Data Warehousing und Data Mining 8

9 Verbesserung Hoch Niedrig Was können wir tun? Ulf Leser: Data Warehousing und Data Mining 9

10 Verbesserung Hoch Niedrig Was können wir tun? Verschieben der Gerade Nach unten: Erhöhter Recall, verringerte Precision Nach oben: Verringerter Recall, erhöhte Precision Ulf Leser: Data Warehousing und Data Mining 10

11 Verbesserung Hoch Niedrig Was können wir tun? Andere Trennfunktionen betrachten Sehr schnell viel komplexer Ulf Leser: Data Warehousing und Data Mining 11

12 Overfitting Hoch Niedrig Man lernt und evaluiert immer nur auf einem Ausschnitt der Realität Genau passende Funktionen generalisieren schlecht Oft schlechte Performanz auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 12

13 Was tun gegen Overfitting? Wenn man auf den Trainingsdaten lernt und von den Testdaten die Klassen nicht kennt wie kann man dann den Grad an Overfitting beurteilen? Cross-Validierung (Leave-one-out) Teilen der Trainingsdaten in k zufällige Partitionen k-maliges Lernen auf k-1 Partitionen und Anwendung des Modells auf der k ten Partition Die Ergebnisse (Precision, Recall) sollten sehr nahe beieinander liegen Und die Ergebnisse sollten besser sein, je größer k größere Trainingsmenge Man nimmt meist den Mittelwert als erwartete Performance des Klassifikators auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 13

14 Kategoriale Attribute ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Kategoriale Attribute kann man i.a. nicht in (numerische) Funktionen packen Welche Regeln könnte man ableiten? if Alter>50 then Risikoklasse = Niedrig elseif Alter<32 then Risikoklasse = Hoch elseif Autotyp=Sport then Risikoklasse = Hoch else Risikoklasse = Niedrig Ulf Leser: Data Warehousing und Data Mining 14

15 Entscheidungsregeln ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Geht das mit weniger Entscheidungen? if Alter>50 then Risikoklasse = Niedrig elseif Autotyp=LKW then Risikoklasse = Niedrig else Risikoklasse = Hoch Ulf Leser: Data Warehousing und Data Mining 15

16 Noch mal ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Overfitting If Alter=17 and Autotype=Sport then Risikoklasse = hoch elseif Alter=23 and Autotype=Familie then Risikoklasse = hoch elseif Alter=32 and Autotype=LKW then Risikoklasse = hoch elseif Alter=43 and Autotype=Sport then Risikoklasse = niedrig else Risikoklasse = niedrig Ulf Leser: Data Warehousing und Data Mining 16

17 Und noch mal Warum nicht ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig If ID=1 then Risikoklasse = hoch elseif ID=2 then Risikoklasse = hoch elseif ID=3 then Risikoklasse = hoch elseif ID=4 then Risikoklasse = niedrig else Risikoklasse = niedrig ID hat nichts mit dem Risiko zu tun Das wissen wir der Computer weiß es nicht Feature Auswahl ist essentiell Ulf Leser: Data Warehousing und Data Mining 17

18 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 18

19 Nearest Neighbor Klassifikator Definition Sei T die Trainingsmenge, d eine Abstandsfunktion und t ein zu klassifizierendes Objekt. Ein nearest-neighbor (NN) Klassifikator weist t der Klasse des Objekts t T zu, dass minimalen Abstand zu t hat. Ein k-nearest-neighbor (knn) Klassifikator weist t der Klasse zu, die am häufigsten unter den k zu t nächsten Objekten ist. Bemerkungen Sehr einfach, oft sehr effektiv, knn meist besser als NN Lazy learner : Es gibt kein Modell (die Daten sind das Modell) Sehr nahe zu Case-Based Reasoning Variante: Klassen der k-nächste Objekte werden mit Abstand gewichtet Ulf Leser: Data Warehousing und Data Mining 19

20 Illustration 1NN und Voronoi diagram Ein 5NN Ulf Leser: Data Warehousing und Data Mining 20

21 Nachteil Hauptproblem: Geschwindigkeit Man muss Abstand jedes Objekts zu t berechnen Abhilfen T in Indexstruktur packen, die Nachbarschaftssuche unterstützt Nicht ganz T nehmen, sondern ein zufälliges Sample T erst clustern, dann einen Vertreter pro Cluster wählen Alle Tricks führen meist zur Verschlechterung der Performanz Ulf Leser: Data Warehousing und Data Mining 21

22 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 22

23 Bayes sche Klassifikation Wahrscheinlichkeitsbasiertes, einfaches Verfahren Gegeben Klassenmenge C, Trainingsmenge T Menge F von Features mit diskretem Wertebereich Zu viele Werte sind ungünstig (Generalisierung) Ggf. Diskretisierung durchführen Wir suchen für ein Objekt t die Wahrscheinlichkeiten p(c i t) der Zugehörigkeit zu jeder Klasse c i C t wird Klasse mit höchste Wahrscheinlichkeit zugewiesen Objekte werden durch Feature F={f 1,, f n } beschrieben p ( c t) = p( c f [ t],..., fn[ t]) = p( c f1,..., 1 n f ) Ulf Leser: Data Warehousing und Data Mining 23

24 Wahrscheinlichkeiten Gesucht: p(c t) Wir haben T mit binären Features f 1,,f n Die A-Priori Wahrscheinlichkeit p(f) jedes Features f Bei vielen Objekten ist f wahr? Die A-Priori Wahrscheinlichkeiten p(c) aller Klassen c C Wie viele Objekte aus T gehören zu jeder Klasse? Die bedingten Wahrscheinlichkeiten p(f c), dass Feature f bei Klasse c wahr ist Wie oft ist f bei allen Objekten der Klasse c wahr? Wir formen um und wenden Bayes Theorem an p( f1,..., fn c)* p( c) p( c f1,..., fn) = p( f1,..., fn c)* p( c) p( f,..., f ) 1 n Ulf Leser: Data Warehousing und Data Mining 24

25 Naive Bayes Wir haben also Den ersten Term kann man für hochdimensionale Featureräume nicht vernünftig schätzen Exponentiell viele Kombinationen von Featurewerten Jede einzelne Kombination ist in jedem realen T sehr selten Zählen ergibt stark verzerrte Häufigkeiten Naive Annahme: Statistische Unabhängigkeit Dann gilt p( c t) p( f1,..., f c)* p( c) p( f,..., f c) p( f1 n c)*...* p( f 1 n = n c ) Und damit p( c o) p( c)* n i= 1 p( f i c) Ulf Leser: Data Warehousing und Data Mining 25

26 Beispiel Wir raten binäre Features ID Alter Autotyp Risiko Jung (Alter<25)? 1 23 Familie hoch Sportwagen? 2 17 Sport hoch Damit 3 43 Sport hoch P(c=hoch)=3/ Familie niedrig p(f 1 =jung)=2/ LKW niedrig P(f 2 =sportwagen)=2/5 P(jung hoch)=2/3, p(jung niedrig)=0 P(sportwagen hoch)=2/3, p(sportwagen niedrig)=0 Smoothing: p(jung niedrig)= p(sportwagen niedrig)=0,01 Neuer Kunde, 24, LKW p(hoch jung, sportwagen)=p(hoch)*p(jung hoch)*(1- p(sportwagen hoch)=3/5*2/3*1/3 = 6/45 p(niedrig jung, sportwagen)=2/5*0.01*0.01 Neuer Kunde, 35, Familienwagen p(hoch alt, sportwagen)=3/5*1/3*1/3 = 3/45 p(niedrig alt, sportwagen)=2/5*0.99*0.99 Ulf Leser: Data Warehousing und Data Mining 26

27 SQL Wir brauchen p(f i c j ), p(c j ), p(f i ) Wie kriegen wir die effizient mit SQL? Schema: obj(oid, fid, fvalue), class(oid, cid) Werte müssen noch in relative Häufigkeiten umgerechnet werden Alle p(c j ) SELECT cid, count(*) FROM class GROUP BY cid; Alle p(f i ) Alle p(f i c j ) SELECT fid, fvalue, count(*) FROM object GROUP BY fid, fvalue; SELECT cid, fid, fvalue, count(*) FROM object o, class c WHERE o.oid=c.oid GROUP BY cid, fid, fvalue; Ulf Leser: Data Warehousing und Data Mining 27

28 Fazit Vorteile Einfach, schnell Modell kann inkrementell aktualisiert werden Platzbedarf vernachlässigbar Hängt nur von der Anzahl Features und Klassen ab Oftmals schon gute Ergebnisse Nachteile Geringe Erklärungskraft Unabhängigkeitsannahme stimmt meistens nicht Klappt oft trotzdem Wenn nicht, stärkere Modelle nehmen (z.b. Bayes sche Netzwerke) Ulf Leser: Data Warehousing und Data Mining 28

29 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Skalierbarkeit: SPRINT Tree Pruning Ulf Leser: Data Warehousing und Data Mining 29

30 Entscheidungsbäume ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Autotyp = LKW LKW Risikoklasse = niedrig Alter 60 < 60 Risikoklasse = niedrig Risikoklasse = hoch Ableitung einer Menge von Regeln Hierarchische Anordnung: Bedingungen entlang eines Pfades werden ver-undet Blätter sind i.a. mit Wsk für Klassenzugehörigkeiten gelabelt Weil weitere Auftrennung nicht möglich Um Gefahr von Overfitting zu verringern (später) Ulf Leser: Data Warehousing und Data Mining 30

31 Formal Definition Ein Entscheidungsbaum ist ein binärer Baum mit Jeder innere Knoten ist mit einem Attribut beschriftet = LKW Autotyp Risikoklasse = niedrig Risikoklasse = niedrig LKW 60 < 60 Die ausgehenden Kanten eines inneren Knoten sind mit Bedingungen an die Werte des Vaterknotens beschriftet, deren Wertebereiche sich nicht überschneiden Alter Die Konjunktion der Bedingungen eines Pfades ist immer erfüllbar Blätter sind mit Wahrscheinlichkeitsverteilungen über den Klassen beschriftet Risikoklasse = hoch Ulf Leser: Data Warehousing und Data Mining 31

32 Anwendung und Berechnung Anwendung zur Klassifikation ist offensichtlich Gegeben neues Objekt t Laufe den Baum ab und beschreite an jedem Knoten der Kante, deren Bedingung in t zutrifft Wird ein Blatt erreicht: Ordne t der Klasse zu, die in diesem Blatt die höchste Wahrscheinlichkeit hat Das interessantere Problem Ableitung eines guten Entscheidungsbaums aus den Daten Decision Tree Induction (DTI) Ulf Leser: Data Warehousing und Data Mining 32

33 Partitionierung Entscheidungsbäume partitionieren den Raum rekursiv Ulf Leser: Data Warehousing und Data Mining 33

34 DT: Pro und Contra Vorteile Verständliche Darstellung Menschen lieben DT Leichte Ableitung von Regelmengen möglich Schnelle Klassifikation (Baumhöhe ist ~O(log( T ))) Effiziente Verfahren für DTI bekannt Nachteile Typische DTI-Algorithmen berechnen nur rechtwinklige Partitionierung des Raums Das entspricht lokalen linearen Trennfunktionen Gefahr des Overfitting (siehe Tree Pruning) Ulf Leser: Data Warehousing und Data Mining 34

35 DTI: Grundverfahren Gegeben Trainingsmenge T Wähle ein Attribut A und Bedingungen (Splits) B 1, B m Für binäre Entscheidungsbäume: m=2 Partitioniere T gemäß Bedingungen in m Partitionen Das erzeugt einen inneren Knoten im Baum Wende Verfahren rekursiv für jede der Partitionen an Solange nicht alle Objekte einer Partition der gleichen Klasse angehören oder ein anderes Stopp-Kriterium erfüllt ist Zentrale Frage: Welches Attribut? Welche Splits? Ulf Leser: Data Warehousing und Data Mining 35

36 Auswirkungen Tag Aussicht Temperatur Feuchtigkeit Wind Tennispielen 1 sonnig heiß hoch schwach nein 2 sonnig heiß hoch stark nein 3 bedeckt heiß hoch schwach ja 4 regnerisch mild hoch schwach ja 5 regnerisch kühl normal schwach ja 6 regnerisch kühl normal stark nein sonnig nein Aussicht bedeckt ja regnerisch Wind stark schwach stark hoch Wind Feuchtigkeit normal Wind schwach stark schwach nein ja nein Aussicht sonnig sonnig nein ja ja nein Ulf Leser: Data Warehousing und Data Mining 36

37 Wie sieht ein guter DT aus? Prinzipiell: klein ist gut Schnelle Entscheidungen Höherer Abstraktionsgrad, weniger Overfitting Mögliche konkrete Kriterien Minimale Menge innerer Knoten oder inimale Menge von Splits Minimale Baumtiefe (kürzester längster Ast) Minimale Menge von Fehlern auf Trainingsmengen Vorsicht: Overfitting Als Optimierungsproblem alle sehr komplex Riesiger Suchraum (alleine Zahl möglicher Splits eines Attributs) Abhilfe: Heuristiken, die lokale Entscheidungen treffen Meistens: Reinheit der entstehenden Partitionen maximieren Ulf Leser: Data Warehousing und Data Mining 37

38 Einschub: Entropie Wie misst man die Reinheit einer Partition? Definition Die Entropie einer Trainingsmenge T bzgl. Klassen C={c 1, c n } ist definiert als mit p i = relative Häufigkeit der Klasse c i in T Bemerkung entropy( T ) = entropy(t) = 0: homogene Menge (ein p i =1, alle anderen =0) entropy(t) >>0: Verwirrung i= 1 entropy(t) maximal 1 für zwei Klassen n p i *log( p i ) Ulf Leser: Data Warehousing und Data Mining 38

39 Beispiel T=(h,h,h,h,l,l,l,l), entropy(t)=1 T=(h,h,h,h,h,h,h,l), entropy(t)=0,54 1,2 1 0,8 0,6 0,4 0, Ulf Leser: Data Warehousing und Data Mining 39

40 Klassische DTI Algorithmen [Qui86, Qui93] ID3 / CART / C4.5 / C5.0 Ziel: Anzahl der erwarteten Vergleiche minimieren Also Baum balanciert und niedrig halten Heuristik dazu: Wähle Split lokal so, dass die Entropie der neuen Partitionen möglichst klein ist Verbesserung hängt davon ab, wie sich die Entropie beim Split verändert: Information Gain Ulf Leser: Data Warehousing und Data Mining 40

41 Information Gain Definition Der Information Gain einer Partitionierung P (also eines Splits) einer Grundmenge T mit P =m ist definiert als Der gewichtete Information Gain ist definiert als Bemerkung gain( T, P) wgain( T, P) = entropy( T ) = entropy( T ) Triviale Lösung mit m= T will man natürlich verhindern Prinzipiell ist der Information Gain je höher, je höher m ist Oft fixiert man aber m=2 (binäre Splits später) m i= 1 m i= 1 entropy( Pi T P i ) entropy( Pi ) Ulf Leser: Data Warehousing und Data Mining 41

42 Beispiel age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Quelle: [HK06] entropy T ) = log2 ( ) log ( ) = ( 2 Ulf Leser: Data Warehousing und Data Mining 42

43 Splitpunkte Wir betrachten hier nur bestimmte, sich direkt aus den Daten ergebende Splits Split bei income? Drei Partitionen high, medium, low entropy(high) = -2/4*log(2/4) 2/4*log(2/4) ~ 1 entropy(medium) = -2/6*log(2/6) 4/6*log(4/6) ~ 0.91 entropy(low) = -3/4*log(3/4) ¼*log(1/4) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(income) = 0.94 (4/14*1+6/14* /14*0.81) ~ 0.3 high Income medium low nein 2 / ja 2 nein 2/ ja 4 Nein:1 / ja 3 Ulf Leser: Data Warehousing und Data Mining 43

44 Splitpunkte Split bei student Zwei Partitionen entropy(yes) = -6/7*log(6/7) 1/7*log(1/7) ~ 0.59 entropy(no) = -3/7*log(-3/7) 4/7*log(4/7) ~ 0.98 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(student) = 0.94 (7/14* /14*0.98) ~ 0.15 Yes student No nein 1 / ja 6 nein 4/ ja 3 Ulf Leser: Data Warehousing und Data Mining 44

45 Splitpunkte Split bei credit_rating Zwei Partitionen entropy(fair) = -2/8*log(2/8) 6/8*log(6/8) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no entropy(excellent) = -3/6*log(-3/6) 3/6*log(3/6) ~ 1 wgain(rating) = 0.94 (8/14* /14*1) ~ 0.04 Yes rating No nein 2 / ja 6 nein 3/ ja 3 Ulf Leser: Data Warehousing und Data Mining 45

46 Berechnung des besten Split Gegeben Trainingsmenge T Für alle Attribute A i Für alle Partitionierungen P ij Berechne wgain(a i, P ij ) Wähle den Split (A i, P ij ), für den wgain() am größten ist Partitioniere T gemäß A i in Partitionen P ij Wende Verfahren rekursiv für jede der Partitionen an Probleme Die Doppelschleife ist extrem teuer für Attribute mit vielen Werten / numerische Attribute Man muss theoretisch jede mögliche Aufteilung der Werte in beliebig viele Partitionen betrachten Ulf Leser: Data Warehousing und Data Mining 46

47 Typischer Abhilfe: Nur binäre Splits Für total geordnete Attribute: Alle Aufteilungen des Wertebereichs in zwei disjunkte Intervalle Bei k Attributwerten sind das k-1 mögliche Splits Für andere Attribute: Alle Aufteilungen der Werte in zwei disjunkte Gruppen Bei k Attributwerten sind das 2 k mögliche Splits Zusammen: Für jeden inneren Knoten [Wenn alle z.b. Attribute numerisch sind] Sei j=max( A i ), n Attribute, T =m Alle Werte eines Attributs sortieren: n*o(j*log(j)) Pro Attribut O(j) mögliche Splits Pro Split ganze Partition scannen, um wgain() auszurechnen Zusammen: O(n*j*log(j) + n*j*m) Ulf Leser: Data Warehousing und Data Mining 47

48 Inhalt dieser Vorlesung Einführung Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Tree Pruning Ulf Leser: Data Warehousing und Data Mining 48

49 Overfitting Trainingsmenge T, Objektmenge O Ein DT T 1 overfittet, wenn es einen Baum T 2 gibt mit T 1 ist auf T besser als T 2 T 2 ist auf O besser als T 1 Dann ist T 1 zu spezifisch für T und nicht mehr geeignet für O Overfitting passiert typischerweise in den unteren Knoten eines DT Betrachtung immer kleinerer, speziellerer Tupelmengen Entscheidungen haben bzgl. O nur noch geringe oder keine Aussagekraft mehr Abhilfe: Tree Pruning Unterbäume abschneiden, die nur wenig zur Reduktion der Fehlerrate auf T beitragen Ulf Leser: Data Warehousing und Data Mining 49

50 Varianten Diverse Vorschläge, DTI effizienter zu implementieren SPRINT, BOAT, Gegen Overfitting: RainForest Berechne viele DT, aber immer nur auf einem Sample der Daten Klassifikation als Majority Voting Oft sehr gut abschneidendes Verfahren Ulf Leser: Data Warehousing und Data Mining 50

51 Literatur Quinlan, J. (1986). "Induction of decision trees." Machine Learning 11(1): Quinlan, J. (1993). "C4. 5: Programs for Machine Learning". San Francisco, Morgan Kaufmann. Shafer, J. C., Agrawal, R. and Mehta, M. (1996). "SPRINT: A Scalable Parallel Classifier for Data Mining". 22th Conference on Very Large Databases, Mumbai, India. Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Ulf Leser: Data Warehousing und Data Mining 51

Data Warehousing. Klassifikation. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Klassifikation. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Clustering Finde Gruppen ähnlicher Objekte Ohne zu wissen wie viele Gruppen es geben soll Unsupervised learning (Mit der

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Mining High-Speed Data Streams

Mining High-Speed Data Streams Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes. Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

1 topologisches Sortieren

1 topologisches Sortieren Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Wasserfall-Ansätze zur Bildsegmentierung

Wasserfall-Ansätze zur Bildsegmentierung Wasserfall-Ansätze zur Bildsegmentierung von Philipp Jester Seminar: Bildsegmentierung und Computer Vision 16.01.2006 Überblick 1. Problemstellung 2. Wiederholung: Wasserscheiden-Ansätze 3. Der Wasserfall-Ansatz

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Abschnitt: Algorithmendesign und Laufzeitanalyse

Abschnitt: Algorithmendesign und Laufzeitanalyse Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

Was ist Sozial-Raum-Orientierung?

Was ist Sozial-Raum-Orientierung? Was ist Sozial-Raum-Orientierung? Dr. Wolfgang Hinte Universität Duisburg-Essen Institut für Stadt-Entwicklung und Sozial-Raum-Orientierte Arbeit Das ist eine Zusammen-Fassung des Vortrages: Sozialräume

Mehr

Tutorium Algorithmen & Datenstrukturen

Tutorium Algorithmen & Datenstrukturen June 16, 2010 Binärer Baum Binärer Baum enthält keine Knoten (NIL) besteht aus drei disjunkten Knotenmengen: einem Wurzelknoten, einem binären Baum als linken Unterbaum und einem binären Baum als rechten

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Studieren- Erklärungen und Tipps

Studieren- Erklärungen und Tipps Studieren- Erklärungen und Tipps Es gibt Berufe, die man nicht lernen kann, sondern für die man ein Studium machen muss. Das ist zum Beispiel so wenn man Arzt oder Lehrer werden möchte. Hat ihr Kind das

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage Inhaltsverzeichnis 1. Anmeldung... 2 1.1 Startbildschirm... 3 2. Die PDF-Dateien hochladen... 4 2.1 Neue PDF-Datei erstellen... 5 3. Obelix-Datei

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: If-clauses - conditional sentences - Nie mehr Probleme mit Satzbau im Englischen! Das komplette Material finden Sie hier: School-Scout.de

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Data Mining und Text Mining Einführung. S2 Einfache Regellerner

Data Mining und Text Mining Einführung. S2 Einfache Regellerner Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein

Mehr

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu. 1 Rund um das Auto Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu. 1. Zu diesem Fahrzeug sagt man auch Pkw oder Wagen. 2. kein neues Auto, aber viel billiger

Mehr

Was meinen die Leute eigentlich mit: Grexit?

Was meinen die Leute eigentlich mit: Grexit? Was meinen die Leute eigentlich mit: Grexit? Grexit sind eigentlich 2 Wörter. 1. Griechenland 2. Exit Exit ist ein englisches Wort. Es bedeutet: Ausgang. Aber was haben diese 2 Sachen mit-einander zu tun?

Mehr

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Frau Dr. Eva Douma ist Organisations-Beraterin in Frankfurt am Main Das ist eine Zusammen-Fassung des Vortrages: Busines

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18

Naive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18 Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive

Mehr

11. Rent-Seeking 117

11. Rent-Seeking 117 117 Definitionen Gewinnstreben: Vorhandene Ressourcen werden so eingesetzt, dass Einkommen entsteht und die Differenz aus Einkommen und Kosten maximal wird. Rent-Seeking: Vorhandene Ressourcen werden eingesetzt,

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Nachtrag zu binären Suchbäumen

Nachtrag zu binären Suchbäumen Nachtrag zu binären Suchbäumen (nicht notwendigerweise zu AVL Bäumen) Löschen 1 3 2 10 4 12 1. Fall: Der zu löschende Knoten ist ein Blatt: einfach löschen 2. Fall: Der zu löschende Knoten hat ein Nachfolgeelement

Mehr

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12

Folge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12 Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben

Mehr

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r ) Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen

Mehr

Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten:

Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten: Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten: Herzlich Willkommen bei der mehr-finanz24 GmbH Mit uns haben

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel. Kontextfreie Kontextfreie Motivation Formale rundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen Bisher hatten wir Automaten, die Wörter akzeptieren Frank Heitmann heitmann@informatik.uni-hamburg.de

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Überblick. Lineares Suchen

Überblick. Lineares Suchen Komplexität Was ist das? Die Komplexität eines Algorithmus sei hierbei die Abschätzung des Aufwandes seiner Realisierung bzw. Berechnung auf einem Computer. Sie wird daher auch rechnerische Komplexität

Mehr

15 Optimales Kodieren

15 Optimales Kodieren 15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK

Informatik-Sommercamp 2012. Mastermind mit dem Android SDK Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln

Mehr

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

10. Public-Key Kryptographie

10. Public-Key Kryptographie Stefan Lucks 10. PK-Krypto 274 orlesung Kryptographie (SS06) 10. Public-Key Kryptographie Analyse der Sicherheit von PK Kryptosystemen: Angreifer kennt öffentlichen Schlüssel Chosen Plaintext Angriffe

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

WS 2009/10. Diskrete Strukturen

WS 2009/10. Diskrete Strukturen WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910

Mehr

Agile Software Development

Agile Software Development Dipl. Wirtsch. Ing. Alexander Werth Methoden der Softwareentwicklung 6-1 Agile Manifest Individuen und Interaktion statt Prozessen und Tools. Funktionierende Software statt umfangreicher Dokumentation.

Mehr

Kapiteltests zum Leitprogramm Binäre Suchbäume

Kapiteltests zum Leitprogramm Binäre Suchbäume Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm

Mehr

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung

Mehr

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen

Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,

Mehr

Anmerkungen zur Übergangsprüfung

Anmerkungen zur Übergangsprüfung DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Modellbildungssysteme: Pädagogische und didaktische Ziele

Modellbildungssysteme: Pädagogische und didaktische Ziele Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und

Mehr

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer

Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Klassendiagramme Ein Klassendiagramm dient in der objektorientierten Softwareentwicklung zur Darstellung von Klassen und den Beziehungen,

Mehr

Whitebox-Tests: Allgemeines

Whitebox-Tests: Allgemeines -Tests: Allgemeines Andere Bezeichnungen Logic driven, Strukturelles Der Tester entwickelt Testfälle aus einer Betrachtung der Ablauflogik des Programms unter Berücksichtigung der Spezifikation Intuitiv

Mehr

Elementare Bildverarbeitungsoperationen

Elementare Bildverarbeitungsoperationen 1 Elementare Bildverarbeitungsoperationen - Kantenerkennung - 1 Einführung 2 Gradientenverfahren 3 Laplace-Verfahren 4 Canny-Verfahren 5 Literatur 1 Einführung 2 1 Einführung Kantenerkennung basiert auf

Mehr

Maschinelles Lernen. Kapitel 5

Maschinelles Lernen. Kapitel 5 Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders

Mehr

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.

Mehr

Das Briefträgerproblem

Das Briefträgerproblem Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................

Mehr

Mehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor!

Mehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor! Peter von Karst Mehr Geld verdienen! So gehen Sie konkret vor! Ihre Leseprobe Lesen Sie...... wie Sie mit wenigen, aber effektiven Schritten Ihre gesteckten Ziele erreichen.... wie Sie die richtigen Entscheidungen

Mehr

WEKA A Machine Learning Interface for Data Mining

WEKA A Machine Learning Interface for Data Mining WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010

Mehr

Exploration und Klassifikation von BigData

Exploration und Klassifikation von BigData Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Kostenmaße. F3 03/04 p.188/395

Kostenmaße. F3 03/04 p.188/395 Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006

!  # $  % & Nicki Wruck worldwidewruck 08.02.2006 !"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst

Mehr

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler

Mehr

Technische Analyse der Zukunft

Technische Analyse der Zukunft Technische Analyse der Zukunft Hier werden die beiden kurzen Beispiele des Absatzes auf der Homepage mit Chart und Performance dargestellt. Einfache Einstiege reichen meist nicht aus. Der ALL-IN-ONE Ultimate

Mehr

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II

Grundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II 1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume

Mehr

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes

Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes 1 Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes, Georg Füllen Institut für Biostatistik und Informatik in Medizin und Alternsforschung Universität Rostock 2 Einführung: Diabetes Diabetes

Mehr

Peer-to-Peer- Netzwerke

Peer-to-Peer- Netzwerke Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester 2006 14. Vorlesung 23.06.2006 schindel@informatik.uni-freiburg.de 1 Evaluation der Lehre im SS2006 Umfrage zur Qualitätssicherung und -verbesserung

Mehr

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der

Mehr

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche

Mehr

Updatehinweise für die Version forma 5.5.5

Updatehinweise für die Version forma 5.5.5 Updatehinweise für die Version forma 5.5.5 Seit der Version forma 5.5.0 aus 2012 gibt es nur noch eine Office-Version und keine StandAlone-Version mehr. Wenn Sie noch mit der alten Version forma 5.0.x

Mehr

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank In den ersten beiden Abschnitten (rbanken1.pdf und rbanken2.pdf) haben wir uns mit am Ende mysql beschäftigt und kennengelernt, wie man

Mehr

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht. 2 Ein wenig projektive Geometrie 2.1 Fernpunkte 2.1.1 Projektive Einführung von Fernpunkten Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden

Mehr

www.easydatamining.com Analyse-Beispiel Banken

www.easydatamining.com Analyse-Beispiel Banken Data.Mining.Fox (DMF) von Easy.Data.Mining Eine beispielhafte Analyse für den Bereich Banken [0] Der Sinn & Zweck dieser Folien für Sie Einblick in die Welt des Data-Mining bei Easy.Data.Mining: Wie sieht

Mehr

Kapitel 5: Dynamisches Programmieren Gliederung

Kapitel 5: Dynamisches Programmieren Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Media Teil III. Begriffe, Definitionen, Übungen

Media Teil III. Begriffe, Definitionen, Übungen Media Teil III. Begriffe, Definitionen, Übungen Kapitel 1 (Intermedia- Vergleich: Affinität) 1 Affinitätsbewertung als Mittel des Intermedia-Vergleichs Um die Streugenauigkeit eines Werbeträgers zu bestimmen,

Mehr

Programmieren I. Kapitel 7. Sortieren und Suchen

Programmieren I. Kapitel 7. Sortieren und Suchen Programmieren I Kapitel 7. Sortieren und Suchen Kapitel 7: Sortieren und Suchen Ziel: Varianten der häufigsten Anwendung kennenlernen Ordnung Suchen lineares Suchen Binärsuche oder Bisektionssuche Sortieren

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Anleitung über den Umgang mit Schildern

Anleitung über den Umgang mit Schildern Anleitung über den Umgang mit Schildern -Vorwort -Wo bekommt man Schilder? -Wo und wie speichert man die Schilder? -Wie füge ich die Schilder in meinen Track ein? -Welche Bauteile kann man noch für Schilder

Mehr

Alle gehören dazu. Vorwort

Alle gehören dazu. Vorwort Alle gehören dazu Alle sollen zusammen Sport machen können. In diesem Text steht: Wie wir dafür sorgen wollen. Wir sind: Der Deutsche Olympische Sport-Bund und die Deutsche Sport-Jugend. Zu uns gehören

Mehr

Berufsunfähigkeit? Da bin ich finanziell im Trockenen.

Berufsunfähigkeit? Da bin ich finanziell im Trockenen. Berufsunfähigkeit? Da bin ich finanziell im Trockenen. Unsere EinkommensSicherung schützt während des gesamten Berufslebens und passt sich an neue Lebenssituationen an. Meine Arbeitskraft für ein finanziell

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen

Mehr

Beweisbar sichere Verschlüsselung

Beweisbar sichere Verschlüsselung Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6

Mehr