Data Warehousing und Data Mining
|
|
- Jan Fiedler
- vor 8 Jahren
- Abrufe
Transkript
1 Data Warehousing und Data Mining Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik
2 Inhalt dieser Vorlesung Einführung Problemstellung Evaluation Overfitting knn Klassifikator Naive-Bayes Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 2
3 Klassifikation Grundproblem Gegeben eine Menge von Objekten mit Attributen (Features) Gegeben eine Menge C von Klassen Finde eine Klassifikationsfunktion f:o C, die jedes Objekt aus O (s)einer Klasse c i zuordnet Wie soll das gehen? Zusätzlich ist eine Trainingsmenge T mit f :T C gegeben Supervised learning Klassifikation und Vorhersage Oftmals sind T Daten aus der Vergangenheit Z.B. Kunden, deren Kredite geplatzt sind O sind Daten, deren Klassenzugehörigkeit man vorhersagen will Z.B. Neue Kunden, die einen Kredit beantragen Ulf Leser: Data Warehousing und Data Mining 3
4 Manchmal ganz einfach Aufgabe: Weise Studenten ihre Note (Klasse) aufgrund ihrer Punktzahl (Feature) zu Klassenzugehörigkeit ist auf dem Attribut definiert Das ist idr leider nicht so <90 x <80 x x >=90 1 >=80 2 <70 >=70 x 3 <50 5 >=60 4 Ulf Leser: Data Warehousing und Data Mining 4
5 Etwas komplexer ID Alter Einkommen Risiko Hoch Niedrig Hoch Niedrig Niedrig Hoch Welches Risiko schätzen wir für eine Person von 45 Jahren mit 4000 Euro Einkommen? Ulf Leser: Data Warehousing und Data Mining 5
6 Beispiel: Lineare Trennung Hoch Niedrig (Lineare) Funktionen f der Attribute Z.B. SVM, Logistische Regression Klasse ergibt sich aus Lage zur Trennfunktion Finde f, die den Fehler auf Trainingsdaten minimiert Linke-über der Gerade: Risikoklasse hoch (niedrig) Rechts-unter der Gerade: Risikoklasse niedrig (hoch) Ulf Leser: Data Warehousing und Data Mining 6
7 Bewertung einer Klassifikation Precision = TP/(TP+FP) Wie viele der riskant eingeschätzten Kunden sind es wirklich? Recall = TP/(TP+FN) Wie viele der Kunden mit hohem Risiko wurden entdeckt? Accuracy = (TP+TN) / (TP+FP+FN+TN) Wie viele der Einschätzungen sind korrekt? Wenig aussagekräftig, wenn es viel mehr sichere als riskante Kunden gibt und der Klassifikator halbwegs funktioniert Klassifikator: Hoch Klassifikator: Niedrig Real: Hoch true-positive false-negative Real: Niedrig false-positive true-negative Ulf Leser: Data Warehousing und Data Mining 7
8 Beispiel Hoch Niedrig Hoch 2 0 Hoch Niedrig Niedrig Precision = TP/(TP+FP)= 2/2 Wenn wir hohes Risiko vorhersagen, haben wir immer Recht Recall = TP/(TP+FN) = 2/3 Aber wir verfehlen 33% der riskanten Kunden Ulf Leser: Data Warehousing und Data Mining 8
9 Verbesserung Hoch Niedrig Was können wir tun? Ulf Leser: Data Warehousing und Data Mining 9
10 Verbesserung Hoch Niedrig Was können wir tun? Verschieben der Gerade Nach unten: Erhöhter Recall, verringerte Precision Nach oben: Verringerter Recall, erhöhte Precision Ulf Leser: Data Warehousing und Data Mining 10
11 Verbesserung Hoch Niedrig Was können wir tun? Andere Trennfunktionen betrachten Sehr schnell viel komplexer Ulf Leser: Data Warehousing und Data Mining 11
12 Overfitting Hoch Niedrig Man lernt und evaluiert immer nur auf einem Ausschnitt der Realität Genau passende Funktionen generalisieren schlecht Oft schlechte Performanz auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 12
13 Was tun gegen Overfitting? Wenn man auf den Trainingsdaten lernt und von den Testdaten die Klassen nicht kennt wie kann man dann den Grad an Overfitting beurteilen? Cross-Validierung (Leave-one-out) Teilen der Trainingsdaten in k zufällige Partitionen k-maliges Lernen auf k-1 Partitionen und Anwendung des Modells auf der k ten Partition Die Ergebnisse (Precision, Recall) sollten sehr nahe beieinander liegen Und die Ergebnisse sollten besser sein, je größer k größere Trainingsmenge Man nimmt meist den Mittelwert als erwartete Performance des Klassifikators auf neuen Daten Ulf Leser: Data Warehousing und Data Mining 13
14 Kategoriale Attribute ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Kategoriale Attribute kann man i.a. nicht in (numerische) Funktionen packen Welche Regeln könnte man ableiten? if Alter>50 then Risikoklasse = Niedrig elseif Alter<32 then Risikoklasse = Hoch elseif Autotyp=Sport then Risikoklasse = Hoch else Risikoklasse = Niedrig Ulf Leser: Data Warehousing und Data Mining 14
15 Entscheidungsregeln ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Geht das mit weniger Entscheidungen? if Alter>50 then Risikoklasse = Niedrig elseif Autotyp=LKW then Risikoklasse = Niedrig else Risikoklasse = Hoch Ulf Leser: Data Warehousing und Data Mining 15
16 Noch mal ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Overfitting If Alter=17 and Autotype=Sport then Risikoklasse = hoch elseif Alter=23 and Autotype=Familie then Risikoklasse = hoch elseif Alter=32 and Autotype=LKW then Risikoklasse = hoch elseif Alter=43 and Autotype=Sport then Risikoklasse = niedrig else Risikoklasse = niedrig Ulf Leser: Data Warehousing und Data Mining 16
17 Und noch mal Warum nicht ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig If ID=1 then Risikoklasse = hoch elseif ID=2 then Risikoklasse = hoch elseif ID=3 then Risikoklasse = hoch elseif ID=4 then Risikoklasse = niedrig else Risikoklasse = niedrig ID hat nichts mit dem Risiko zu tun Das wissen wir der Computer weiß es nicht Feature Auswahl ist essentiell Ulf Leser: Data Warehousing und Data Mining 17
18 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 18
19 Nearest Neighbor Klassifikator Definition Sei T die Trainingsmenge, d eine Abstandsfunktion und t ein zu klassifizierendes Objekt. Ein nearest-neighbor (NN) Klassifikator weist t der Klasse des Objekts t T zu, dass minimalen Abstand zu t hat. Ein k-nearest-neighbor (knn) Klassifikator weist t der Klasse zu, die am häufigsten unter den k zu t nächsten Objekten ist. Bemerkungen Sehr einfach, oft sehr effektiv, knn meist besser als NN Lazy learner : Es gibt kein Modell (die Daten sind das Modell) Sehr nahe zu Case-Based Reasoning Variante: Klassen der k-nächste Objekte werden mit Abstand gewichtet Ulf Leser: Data Warehousing und Data Mining 19
20 Illustration 1NN und Voronoi diagram Ein 5NN Ulf Leser: Data Warehousing und Data Mining 20
21 Nachteil Hauptproblem: Geschwindigkeit Man muss Abstand jedes Objekts zu t berechnen Abhilfen T in Indexstruktur packen, die Nachbarschaftssuche unterstützt Nicht ganz T nehmen, sondern ein zufälliges Sample T erst clustern, dann einen Vertreter pro Cluster wählen Alle Tricks führen meist zur Verschlechterung der Performanz Ulf Leser: Data Warehousing und Data Mining 21
22 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Ulf Leser: Data Warehousing und Data Mining 22
23 Bayes sche Klassifikation Wahrscheinlichkeitsbasiertes, einfaches Verfahren Gegeben Klassenmenge C, Trainingsmenge T Menge F von Features mit diskretem Wertebereich Zu viele Werte sind ungünstig (Generalisierung) Ggf. Diskretisierung durchführen Wir suchen für ein Objekt t die Wahrscheinlichkeiten p(c i t) der Zugehörigkeit zu jeder Klasse c i C t wird Klasse mit höchste Wahrscheinlichkeit zugewiesen Objekte werden durch Feature F={f 1,, f n } beschrieben p ( c t) = p( c f [ t],..., fn[ t]) = p( c f1,..., 1 n f ) Ulf Leser: Data Warehousing und Data Mining 23
24 Wahrscheinlichkeiten Gesucht: p(c t) Wir haben T mit binären Features f 1,,f n Die A-Priori Wahrscheinlichkeit p(f) jedes Features f Bei vielen Objekten ist f wahr? Die A-Priori Wahrscheinlichkeiten p(c) aller Klassen c C Wie viele Objekte aus T gehören zu jeder Klasse? Die bedingten Wahrscheinlichkeiten p(f c), dass Feature f bei Klasse c wahr ist Wie oft ist f bei allen Objekten der Klasse c wahr? Wir formen um und wenden Bayes Theorem an p( f1,..., fn c)* p( c) p( c f1,..., fn) = p( f1,..., fn c)* p( c) p( f,..., f ) 1 n Ulf Leser: Data Warehousing und Data Mining 24
25 Naive Bayes Wir haben also Den ersten Term kann man für hochdimensionale Featureräume nicht vernünftig schätzen Exponentiell viele Kombinationen von Featurewerten Jede einzelne Kombination ist in jedem realen T sehr selten Zählen ergibt stark verzerrte Häufigkeiten Naive Annahme: Statistische Unabhängigkeit Dann gilt p( c t) p( f1,..., f c)* p( c) p( f,..., f c) p( f1 n c)*...* p( f 1 n = n c ) Und damit p( c o) p( c)* n i= 1 p( f i c) Ulf Leser: Data Warehousing und Data Mining 25
26 Beispiel Wir raten binäre Features ID Alter Autotyp Risiko Jung (Alter<25)? 1 23 Familie hoch Sportwagen? 2 17 Sport hoch Damit 3 43 Sport hoch P(c=hoch)=3/ Familie niedrig p(f 1 =jung)=2/ LKW niedrig P(f 2 =sportwagen)=2/5 P(jung hoch)=2/3, p(jung niedrig)=0 P(sportwagen hoch)=2/3, p(sportwagen niedrig)=0 Smoothing: p(jung niedrig)= p(sportwagen niedrig)=0,01 Neuer Kunde, 24, LKW p(hoch jung, sportwagen)=p(hoch)*p(jung hoch)*(1- p(sportwagen hoch)=3/5*2/3*1/3 = 6/45 p(niedrig jung, sportwagen)=2/5*0.01*0.01 Neuer Kunde, 35, Familienwagen p(hoch alt, sportwagen)=3/5*1/3*1/3 = 3/45 p(niedrig alt, sportwagen)=2/5*0.99*0.99 Ulf Leser: Data Warehousing und Data Mining 26
27 SQL Wir brauchen p(f i c j ), p(c j ), p(f i ) Wie kriegen wir die effizient mit SQL? Schema: obj(oid, fid, fvalue), class(oid, cid) Werte müssen noch in relative Häufigkeiten umgerechnet werden Alle p(c j ) SELECT cid, count(*) FROM class GROUP BY cid; Alle p(f i ) Alle p(f i c j ) SELECT fid, fvalue, count(*) FROM object GROUP BY fid, fvalue; SELECT cid, fid, fvalue, count(*) FROM object o, class c WHERE o.oid=c.oid GROUP BY cid, fid, fvalue; Ulf Leser: Data Warehousing und Data Mining 27
28 Fazit Vorteile Einfach, schnell Modell kann inkrementell aktualisiert werden Platzbedarf vernachlässigbar Hängt nur von der Anzahl Features und Klassen ab Oftmals schon gute Ergebnisse Nachteile Geringe Erklärungskraft Unabhängigkeitsannahme stimmt meistens nicht Klappt oft trotzdem Wenn nicht, stärkere Modelle nehmen (z.b. Bayes sche Netzwerke) Ulf Leser: Data Warehousing und Data Mining 28
29 Inhalt dieser Vorlesung Einführung knn Klassifikator Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Skalierbarkeit: SPRINT Tree Pruning Ulf Leser: Data Warehousing und Data Mining 29
30 Entscheidungsbäume ID Alter Autotyp Risiko 1 23 Familie hoch 2 17 Sport hoch 3 43 Sport hoch 4 68 Familie niedrig 5 32 LKW niedrig Autotyp = LKW LKW Risikoklasse = niedrig Alter 60 < 60 Risikoklasse = niedrig Risikoklasse = hoch Ableitung einer Menge von Regeln Hierarchische Anordnung: Bedingungen entlang eines Pfades werden ver-undet Blätter sind i.a. mit Wsk für Klassenzugehörigkeiten gelabelt Weil weitere Auftrennung nicht möglich Um Gefahr von Overfitting zu verringern (später) Ulf Leser: Data Warehousing und Data Mining 30
31 Formal Definition Ein Entscheidungsbaum ist ein binärer Baum mit Jeder innere Knoten ist mit einem Attribut beschriftet = LKW Autotyp Risikoklasse = niedrig Risikoklasse = niedrig LKW 60 < 60 Die ausgehenden Kanten eines inneren Knoten sind mit Bedingungen an die Werte des Vaterknotens beschriftet, deren Wertebereiche sich nicht überschneiden Alter Die Konjunktion der Bedingungen eines Pfades ist immer erfüllbar Blätter sind mit Wahrscheinlichkeitsverteilungen über den Klassen beschriftet Risikoklasse = hoch Ulf Leser: Data Warehousing und Data Mining 31
32 Anwendung und Berechnung Anwendung zur Klassifikation ist offensichtlich Gegeben neues Objekt t Laufe den Baum ab und beschreite an jedem Knoten der Kante, deren Bedingung in t zutrifft Wird ein Blatt erreicht: Ordne t der Klasse zu, die in diesem Blatt die höchste Wahrscheinlichkeit hat Das interessantere Problem Ableitung eines guten Entscheidungsbaums aus den Daten Decision Tree Induction (DTI) Ulf Leser: Data Warehousing und Data Mining 32
33 Partitionierung Entscheidungsbäume partitionieren den Raum rekursiv Ulf Leser: Data Warehousing und Data Mining 33
34 DT: Pro und Contra Vorteile Verständliche Darstellung Menschen lieben DT Leichte Ableitung von Regelmengen möglich Schnelle Klassifikation (Baumhöhe ist ~O(log( T ))) Effiziente Verfahren für DTI bekannt Nachteile Typische DTI-Algorithmen berechnen nur rechtwinklige Partitionierung des Raums Das entspricht lokalen linearen Trennfunktionen Gefahr des Overfitting (siehe Tree Pruning) Ulf Leser: Data Warehousing und Data Mining 34
35 DTI: Grundverfahren Gegeben Trainingsmenge T Wähle ein Attribut A und Bedingungen (Splits) B 1, B m Für binäre Entscheidungsbäume: m=2 Partitioniere T gemäß Bedingungen in m Partitionen Das erzeugt einen inneren Knoten im Baum Wende Verfahren rekursiv für jede der Partitionen an Solange nicht alle Objekte einer Partition der gleichen Klasse angehören oder ein anderes Stopp-Kriterium erfüllt ist Zentrale Frage: Welches Attribut? Welche Splits? Ulf Leser: Data Warehousing und Data Mining 35
36 Auswirkungen Tag Aussicht Temperatur Feuchtigkeit Wind Tennispielen 1 sonnig heiß hoch schwach nein 2 sonnig heiß hoch stark nein 3 bedeckt heiß hoch schwach ja 4 regnerisch mild hoch schwach ja 5 regnerisch kühl normal schwach ja 6 regnerisch kühl normal stark nein sonnig nein Aussicht bedeckt ja regnerisch Wind stark schwach stark hoch Wind Feuchtigkeit normal Wind schwach stark schwach nein ja nein Aussicht sonnig sonnig nein ja ja nein Ulf Leser: Data Warehousing und Data Mining 36
37 Wie sieht ein guter DT aus? Prinzipiell: klein ist gut Schnelle Entscheidungen Höherer Abstraktionsgrad, weniger Overfitting Mögliche konkrete Kriterien Minimale Menge innerer Knoten oder inimale Menge von Splits Minimale Baumtiefe (kürzester längster Ast) Minimale Menge von Fehlern auf Trainingsmengen Vorsicht: Overfitting Als Optimierungsproblem alle sehr komplex Riesiger Suchraum (alleine Zahl möglicher Splits eines Attributs) Abhilfe: Heuristiken, die lokale Entscheidungen treffen Meistens: Reinheit der entstehenden Partitionen maximieren Ulf Leser: Data Warehousing und Data Mining 37
38 Einschub: Entropie Wie misst man die Reinheit einer Partition? Definition Die Entropie einer Trainingsmenge T bzgl. Klassen C={c 1, c n } ist definiert als mit p i = relative Häufigkeit der Klasse c i in T Bemerkung entropy( T ) = entropy(t) = 0: homogene Menge (ein p i =1, alle anderen =0) entropy(t) >>0: Verwirrung i= 1 entropy(t) maximal 1 für zwei Klassen n p i *log( p i ) Ulf Leser: Data Warehousing und Data Mining 38
39 Beispiel T=(h,h,h,h,l,l,l,l), entropy(t)=1 T=(h,h,h,h,h,h,h,l), entropy(t)=0,54 1,2 1 0,8 0,6 0,4 0, Ulf Leser: Data Warehousing und Data Mining 39
40 Klassische DTI Algorithmen [Qui86, Qui93] ID3 / CART / C4.5 / C5.0 Ziel: Anzahl der erwarteten Vergleiche minimieren Also Baum balanciert und niedrig halten Heuristik dazu: Wähle Split lokal so, dass die Entropie der neuen Partitionen möglichst klein ist Verbesserung hängt davon ab, wie sich die Entropie beim Split verändert: Information Gain Ulf Leser: Data Warehousing und Data Mining 40
41 Information Gain Definition Der Information Gain einer Partitionierung P (also eines Splits) einer Grundmenge T mit P =m ist definiert als Der gewichtete Information Gain ist definiert als Bemerkung gain( T, P) wgain( T, P) = entropy( T ) = entropy( T ) Triviale Lösung mit m= T will man natürlich verhindern Prinzipiell ist der Information Gain je höher, je höher m ist Oft fixiert man aber m=2 (binäre Splits später) m i= 1 m i= 1 entropy( Pi T P i ) entropy( Pi ) Ulf Leser: Data Warehousing und Data Mining 41
42 Beispiel age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no Quelle: [HK06] entropy T ) = log2 ( ) log ( ) = ( 2 Ulf Leser: Data Warehousing und Data Mining 42
43 Splitpunkte Wir betrachten hier nur bestimmte, sich direkt aus den Daten ergebende Splits Split bei income? Drei Partitionen high, medium, low entropy(high) = -2/4*log(2/4) 2/4*log(2/4) ~ 1 entropy(medium) = -2/6*log(2/6) 4/6*log(4/6) ~ 0.91 entropy(low) = -3/4*log(3/4) ¼*log(1/4) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(income) = 0.94 (4/14*1+6/14* /14*0.81) ~ 0.3 high Income medium low nein 2 / ja 2 nein 2/ ja 4 Nein:1 / ja 3 Ulf Leser: Data Warehousing und Data Mining 43
44 Splitpunkte Split bei student Zwei Partitionen entropy(yes) = -6/7*log(6/7) 1/7*log(1/7) ~ 0.59 entropy(no) = -3/7*log(-3/7) 4/7*log(4/7) ~ 0.98 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no wgain(student) = 0.94 (7/14* /14*0.98) ~ 0.15 Yes student No nein 1 / ja 6 nein 4/ ja 3 Ulf Leser: Data Warehousing und Data Mining 44
45 Splitpunkte Split bei credit_rating Zwei Partitionen entropy(fair) = -2/8*log(2/8) 6/8*log(6/8) ~ 0.81 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes medium no excellent yes high yes fair yes >40 medium no excellent no entropy(excellent) = -3/6*log(-3/6) 3/6*log(3/6) ~ 1 wgain(rating) = 0.94 (8/14* /14*1) ~ 0.04 Yes rating No nein 2 / ja 6 nein 3/ ja 3 Ulf Leser: Data Warehousing und Data Mining 45
46 Berechnung des besten Split Gegeben Trainingsmenge T Für alle Attribute A i Für alle Partitionierungen P ij Berechne wgain(a i, P ij ) Wähle den Split (A i, P ij ), für den wgain() am größten ist Partitioniere T gemäß A i in Partitionen P ij Wende Verfahren rekursiv für jede der Partitionen an Probleme Die Doppelschleife ist extrem teuer für Attribute mit vielen Werten / numerische Attribute Man muss theoretisch jede mögliche Aufteilung der Werte in beliebig viele Partitionen betrachten Ulf Leser: Data Warehousing und Data Mining 46
47 Typischer Abhilfe: Nur binäre Splits Für total geordnete Attribute: Alle Aufteilungen des Wertebereichs in zwei disjunkte Intervalle Bei k Attributwerten sind das k-1 mögliche Splits Für andere Attribute: Alle Aufteilungen der Werte in zwei disjunkte Gruppen Bei k Attributwerten sind das 2 k mögliche Splits Zusammen: Für jeden inneren Knoten [Wenn alle z.b. Attribute numerisch sind] Sei j=max( A i ), n Attribute, T =m Alle Werte eines Attributs sortieren: n*o(j*log(j)) Pro Attribut O(j) mögliche Splits Pro Split ganze Partition scannen, um wgain() auszurechnen Zusammen: O(n*j*log(j) + n*j*m) Ulf Leser: Data Warehousing und Data Mining 47
48 Inhalt dieser Vorlesung Einführung Naive-Bayes Klassifikator Entscheidungsbäume Grundprinzip ID3 und CART Tree Pruning Ulf Leser: Data Warehousing und Data Mining 48
49 Overfitting Trainingsmenge T, Objektmenge O Ein DT T 1 overfittet, wenn es einen Baum T 2 gibt mit T 1 ist auf T besser als T 2 T 2 ist auf O besser als T 1 Dann ist T 1 zu spezifisch für T und nicht mehr geeignet für O Overfitting passiert typischerweise in den unteren Knoten eines DT Betrachtung immer kleinerer, speziellerer Tupelmengen Entscheidungen haben bzgl. O nur noch geringe oder keine Aussagekraft mehr Abhilfe: Tree Pruning Unterbäume abschneiden, die nur wenig zur Reduktion der Fehlerrate auf T beitragen Ulf Leser: Data Warehousing und Data Mining 49
50 Varianten Diverse Vorschläge, DTI effizienter zu implementieren SPRINT, BOAT, Gegen Overfitting: RainForest Berechne viele DT, aber immer nur auf einem Sample der Daten Klassifikation als Majority Voting Oft sehr gut abschneidendes Verfahren Ulf Leser: Data Warehousing und Data Mining 50
51 Literatur Quinlan, J. (1986). "Induction of decision trees." Machine Learning 11(1): Quinlan, J. (1993). "C4. 5: Programs for Machine Learning". San Francisco, Morgan Kaufmann. Shafer, J. C., Agrawal, R. and Mehta, M. (1996). "SPRINT: A Scalable Parallel Classifier for Data Mining". 22th Conference on Very Large Databases, Mumbai, India. Ester, M. and Sander, J. (2000). "Knowledge Discovery in Databases". Berlin, Springer. Han, J. and Kamber, M. (2006). "Data Mining. Concepts and Techniques", Morgan Kaufmann. Ulf Leser: Data Warehousing und Data Mining 51
Data Warehousing. Klassifikation. Ulf Leser Wissensmanagement in der Bioinformatik
Data Warehousing Klassifikation Ulf Leser Wissensmanagement in der Bioinformatik Clustering Finde Gruppen ähnlicher Objekte Ohne zu wissen wie viele Gruppen es geben soll Unsupervised learning (Mit der
Mehr3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)
3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume
MehrVorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Mehr4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum
4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.
Mehr2. Lernen von Entscheidungsbäumen
2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse
MehrMining High-Speed Data Streams
Mining High-Speed Data Streams Pedro Domingos & Geoff Hulten Departement of Computer Science & Engineering University of Washington Datum : 212006 Seminar: Maschinelles Lernen und symbolische Ansätze Vortragender:
MehrSeminar Text- und Datamining Datamining-Grundlagen
Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation
MehrBegriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining
Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data
Mehr4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.
Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel
Mehr6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)
6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden
MehrMaschinelles Lernen Entscheidungsbäume
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten
Mehr1 topologisches Sortieren
Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen
MehrMethoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07
Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2
MehrSeminar Textmining SS 2015 Grundlagen des Maschinellen Lernens
Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 17.04.2015 Entscheidungsprobleme beim Textmining
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrWasserfall-Ansätze zur Bildsegmentierung
Wasserfall-Ansätze zur Bildsegmentierung von Philipp Jester Seminar: Bildsegmentierung und Computer Vision 16.01.2006 Überblick 1. Problemstellung 2. Wiederholung: Wasserscheiden-Ansätze 3. Der Wasserfall-Ansatz
MehrEntscheidungsbäume. Minh-Khanh Do Erlangen,
Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume
MehrAbschnitt: Algorithmendesign und Laufzeitanalyse
Abschnitt: Algorithmendesign und Laufzeitanalyse Definition Divide-and-Conquer Paradigma Divide-and-Conquer Algorithmen verwenden die Strategien 1 Divide: Teile das Problem rekursiv in Subproblem gleicher
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
MehrWas ist Sozial-Raum-Orientierung?
Was ist Sozial-Raum-Orientierung? Dr. Wolfgang Hinte Universität Duisburg-Essen Institut für Stadt-Entwicklung und Sozial-Raum-Orientierte Arbeit Das ist eine Zusammen-Fassung des Vortrages: Sozialräume
MehrTutorium Algorithmen & Datenstrukturen
June 16, 2010 Binärer Baum Binärer Baum enthält keine Knoten (NIL) besteht aus drei disjunkten Knotenmengen: einem Wurzelknoten, einem binären Baum als linken Unterbaum und einem binären Baum als rechten
MehrMotivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.
Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später
MehrStudieren- Erklärungen und Tipps
Studieren- Erklärungen und Tipps Es gibt Berufe, die man nicht lernen kann, sondern für die man ein Studium machen muss. Das ist zum Beispiel so wenn man Arzt oder Lehrer werden möchte. Hat ihr Kind das
MehrStatistische Thermodynamik I Lösungen zur Serie 1
Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen
MehrHandbuch zur Anlage von Turnieren auf der NÖEV-Homepage
Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage Inhaltsverzeichnis 1. Anmeldung... 2 1.1 Startbildschirm... 3 2. Die PDF-Dateien hochladen... 4 2.1 Neue PDF-Datei erstellen... 5 3. Obelix-Datei
MehrWie Google Webseiten bewertet. François Bry
Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: If-clauses - conditional sentences - Nie mehr Probleme mit Satzbau im Englischen! Das komplette Material finden Sie hier: School-Scout.de
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume
MehrProfessionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
MehrData Mining und Text Mining Einführung. S2 Einfache Regellerner
Data Mining und Text Mining Einführung S2 Einfache Regellerner Hans Hermann Weber Univ. Erlangen, Informatik 8 Wintersemester 2003 hans.hermann.weber@gmx.de Inhalt Einiges über Regeln und Bäume R1 ein
Mehr9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.
1 Rund um das Auto Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu. 1. Zu diesem Fahrzeug sagt man auch Pkw oder Wagen. 2. kein neues Auto, aber viel billiger
MehrWas meinen die Leute eigentlich mit: Grexit?
Was meinen die Leute eigentlich mit: Grexit? Grexit sind eigentlich 2 Wörter. 1. Griechenland 2. Exit Exit ist ein englisches Wort. Es bedeutet: Ausgang. Aber was haben diese 2 Sachen mit-einander zu tun?
MehrEva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit
Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit Frau Dr. Eva Douma ist Organisations-Beraterin in Frankfurt am Main Das ist eine Zusammen-Fassung des Vortrages: Busines
MehrLineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
Mehrx 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen
5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x
MehrNaive Bayes. 5. Dezember 2014. Naive Bayes 5. Dezember 2014 1 / 18
Naive Bayes 5. Dezember 2014 Naive Bayes 5. Dezember 2014 1 / 18 Inhaltsverzeichnis 1 Thomas Bayes 2 Anwendungsgebiete 3 Der Satz von Bayes 4 Ausführliche Form 5 Beispiel 6 Naive Bayes Einführung 7 Naive
Mehr11. Rent-Seeking 117
117 Definitionen Gewinnstreben: Vorhandene Ressourcen werden so eingesetzt, dass Einkommen entsteht und die Differenz aus Einkommen und Kosten maximal wird. Rent-Seeking: Vorhandene Ressourcen werden eingesetzt,
MehrInformationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
MehrNachtrag zu binären Suchbäumen
Nachtrag zu binären Suchbäumen (nicht notwendigerweise zu AVL Bäumen) Löschen 1 3 2 10 4 12 1. Fall: Der zu löschende Knoten ist ein Blatt: einfach löschen 2. Fall: Der zu löschende Knoten hat ein Nachfolgeelement
MehrFolge 19 - Bäume. 19.1 Binärbäume - Allgemeines. Grundlagen: Ulrich Helmich: Informatik 2 mit BlueJ - Ein Kurs für die Stufe 12
Grundlagen: Folge 19 - Bäume 19.1 Binärbäume - Allgemeines Unter Bäumen versteht man in der Informatik Datenstrukturen, bei denen jedes Element mindestens zwei Nachfolger hat. Bereits in der Folge 17 haben
Mehrt r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )
Definition B : Menge der binären Bäume, rekursiv definiert durch die Regeln: ist ein binärer Baum sind t l, t r binäre Bäume, so ist auch t =, t l, t r ein binärer Baum nur das, was durch die beiden vorigen
MehrDamit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten:
Damit auch Sie den richtigen Weg nehmen können die 8 wichtigsten Punkte, die Sie bei der Beantragung Ihrer Krankenversicherung beachten sollten: Herzlich Willkommen bei der mehr-finanz24 GmbH Mit uns haben
MehrEinführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)
Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff
MehrTheoretische Grundlagen der Informatik WS 09/10
Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3
MehrMotivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.
Kontextfreie Kontextfreie Motivation Formale rundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen Bisher hatten wir Automaten, die Wörter akzeptieren Frank Heitmann heitmann@informatik.uni-hamburg.de
MehrEntscheidungsbaumverfahren
Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch
MehrÜberblick. Lineares Suchen
Komplexität Was ist das? Die Komplexität eines Algorithmus sei hierbei die Abschätzung des Aufwandes seiner Realisierung bzw. Berechnung auf einem Computer. Sie wird daher auch rechnerische Komplexität
Mehr15 Optimales Kodieren
15 Optimales Kodieren Es soll ein optimaler Kodierer C(T ) entworfen werden, welcher eine Information (z.b. Text T ) mit möglichst geringer Bitanzahl eindeutig überträgt. Die Anforderungen an den optimalen
MehrEntscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?
Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum
MehrInformatik-Sommercamp 2012. Mastermind mit dem Android SDK
Mastermind mit dem Android SDK Übersicht Einführungen Mastermind und Strategien (Stefan) Eclipse und das ADT Plugin (Jan) GUI-Programmierung (Dominik) Mastermind und Strategien - Übersicht Mastermind Spielregeln
Mehr1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:
Zählen und Zahlbereiche Übungsblatt 1 1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage: Für alle m, n N gilt m + n = n + m. in den Satz umschreiben:
MehrGrundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
Mehr1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
Mehr10. Public-Key Kryptographie
Stefan Lucks 10. PK-Krypto 274 orlesung Kryptographie (SS06) 10. Public-Key Kryptographie Analyse der Sicherheit von PK Kryptosystemen: Angreifer kennt öffentlichen Schlüssel Chosen Plaintext Angriffe
MehrTutorial: Homogenitätstest
Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite
MehrWS 2009/10. Diskrete Strukturen
WS 2009/10 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws0910
MehrAgile Software Development
Dipl. Wirtsch. Ing. Alexander Werth Methoden der Softwareentwicklung 6-1 Agile Manifest Individuen und Interaktion statt Prozessen und Tools. Funktionierende Software statt umfangreicher Dokumentation.
MehrKapiteltests zum Leitprogramm Binäre Suchbäume
Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm
MehrData Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY
Data Cube On-line Analytical Processing (OLAP). Einführung Ziel: Auffinden interessanter Muster in großen Datenmengen 2. Aggregation in SQL, GROUP BY 3. Probleme mit GROUP BY 4. Der Cube-Operator! Formulierung
MehrWas bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen
Was bisher geschah Wissensrepräsentation und -verarbeitung in Zustandsübergangssystemen Constraint-Systemen Logiken Repräsentation von Mengen aussagenlogischer Regeln: Wissensbasis (Kontextwissen): Formelmenge,
MehrAnmerkungen zur Übergangsprüfung
DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung
Mehrgeben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
MehrModellbildungssysteme: Pädagogische und didaktische Ziele
Modellbildungssysteme: Pädagogische und didaktische Ziele Was hat Modellbildung mit der Schule zu tun? Der Bildungsplan 1994 formuliert: "Die schnelle Zunahme des Wissens, die hohe Differenzierung und
MehrFachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer
Fachdidaktik der Informatik 18.12.08 Jörg Depner, Kathrin Gaißer Klassendiagramme Ein Klassendiagramm dient in der objektorientierten Softwareentwicklung zur Darstellung von Klassen und den Beziehungen,
MehrWhitebox-Tests: Allgemeines
-Tests: Allgemeines Andere Bezeichnungen Logic driven, Strukturelles Der Tester entwickelt Testfälle aus einer Betrachtung der Ablauflogik des Programms unter Berücksichtigung der Spezifikation Intuitiv
MehrElementare Bildverarbeitungsoperationen
1 Elementare Bildverarbeitungsoperationen - Kantenerkennung - 1 Einführung 2 Gradientenverfahren 3 Laplace-Verfahren 4 Canny-Verfahren 5 Literatur 1 Einführung 2 1 Einführung Kantenerkennung basiert auf
MehrMaschinelles Lernen. Kapitel 5
Kapitel 5 Maschinelles Lernen Im täglichen Leben begegnet uns das Lernen meist in einer Mischung aus den Aspekten der Vergrößerung von Wissen und der Verbesserung von Fähigkeiten. Beim Erlernen einer Fremdsprache
MehrDas große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten
Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während
MehrBinäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen
Binäre Bäume 1. Allgemeines Binäre Bäume werden grundsätzlich verwendet, um Zahlen der Größe nach, oder Wörter dem Alphabet nach zu sortieren. Dem einfacheren Verständnis zu Liebe werde ich mich hier besonders
MehrStellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster
Es gibt in Excel unter anderem die so genannten Suchfunktionen / Matrixfunktionen Damit können Sie Werte innerhalb eines bestimmten Bereichs suchen. Als Beispiel möchte ich die Funktion Sverweis zeigen.
MehrDas Briefträgerproblem
Das Briefträgerproblem Paul Tabatabai 30. Dezember 2011 Inhaltsverzeichnis 1 Problemstellung und Modellierung 2 1.1 Problem................................ 2 1.2 Modellierung.............................
MehrMehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor!
Peter von Karst Mehr Geld verdienen! So gehen Sie konkret vor! Ihre Leseprobe Lesen Sie...... wie Sie mit wenigen, aber effektiven Schritten Ihre gesteckten Ziele erreichen.... wie Sie die richtigen Entscheidungen
MehrWEKA A Machine Learning Interface for Data Mining
WEKA A Machine Learning Interface for Data Mining Frank Eibe, Mark Hall, Geoffrey Holmes, Richard Kirkby, Bernhard Pfahringer, Ian H. Witten Reinhard Klaus Losse Künstliche Intelligenz II WS 2009/2010
MehrExploration und Klassifikation von BigData
Exploration und Klassifikation von BigData Inhalt Einführung Daten Data Mining: Vorbereitungen Clustering Konvexe Hülle Fragen Google: Riesige Datenmengen (2009: Prozessieren von 24 Petabytes pro Tag)
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:
MehrTextmining Klassifikation von Texten Teil 1: Naive Bayes
Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive
MehrKostenmaße. F3 03/04 p.188/395
Kostenmaße Bei der TM nur ein Kostenmaß: Ein Schritt (Konfigurationsübergang) kostet eine Zeiteinheit; eine Bandzelle kostet eine Platzeinheit. Bei der RAM zwei Kostenmaße: uniformes Kostenmaß: (wie oben);
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
Mehr! " # $ " % & Nicki Wruck worldwidewruck 08.02.2006
!"# $ " %& Nicki Wruck worldwidewruck 08.02.2006 Wer kennt die Problematik nicht? Die.pst Datei von Outlook wird unübersichtlich groß, das Starten und Beenden dauert immer länger. Hat man dann noch die.pst
MehrAbituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)
Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler
MehrTechnische Analyse der Zukunft
Technische Analyse der Zukunft Hier werden die beiden kurzen Beispiele des Absatzes auf der Homepage mit Chart und Performance dargestellt. Einfache Einstiege reichen meist nicht aus. Der ALL-IN-ONE Ultimate
MehrGrundlagen des Maschinellen Lernens Kap. 4: Lernmodelle Teil II
1. Motivation 2. Lernmodelle Teil I 2.1. Lernen im Limes 2.2. Fallstudie: Lernen von Patternsprachen 3. Lernverfahren in anderen Domänen 3.1. Automatensynthese 3.2. Entscheidungsbäume 3.3. Entscheidungsbäume
MehrInsulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes
1 Insulin Dependent Diabetes Mellitus Rats and Autoimmune Diabetes, Georg Füllen Institut für Biostatistik und Informatik in Medizin und Alternsforschung Universität Rostock 2 Einführung: Diabetes Diabetes
MehrPeer-to-Peer- Netzwerke
Peer-to-Peer- Netzwerke Christian Schindelhauer Sommersemester 2006 14. Vorlesung 23.06.2006 schindel@informatik.uni-freiburg.de 1 Evaluation der Lehre im SS2006 Umfrage zur Qualitätssicherung und -verbesserung
MehrDas RSA-Verschlüsselungsverfahren 1 Christian Vollmer
Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer Allgemein: Das RSA-Verschlüsselungsverfahren ist ein häufig benutztes Verschlüsselungsverfahren, weil es sehr sicher ist. Es gehört zu der Klasse der
MehrOutlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang
sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche
MehrUpdatehinweise für die Version forma 5.5.5
Updatehinweise für die Version forma 5.5.5 Seit der Version forma 5.5.0 aus 2012 gibt es nur noch eine Office-Version und keine StandAlone-Version mehr. Wenn Sie noch mit der alten Version forma 5.0.x
Mehrmysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank
mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank In den ersten beiden Abschnitten (rbanken1.pdf und rbanken2.pdf) haben wir uns mit am Ende mysql beschäftigt und kennengelernt, wie man
MehrWir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.
2 Ein wenig projektive Geometrie 2.1 Fernpunkte 2.1.1 Projektive Einführung von Fernpunkten Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden
Mehrwww.easydatamining.com Analyse-Beispiel Banken
Data.Mining.Fox (DMF) von Easy.Data.Mining Eine beispielhafte Analyse für den Bereich Banken [0] Der Sinn & Zweck dieser Folien für Sie Einblick in die Welt des Data-Mining bei Easy.Data.Mining: Wie sieht
MehrKapitel 5: Dynamisches Programmieren Gliederung
Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen
MehrMedia Teil III. Begriffe, Definitionen, Übungen
Media Teil III. Begriffe, Definitionen, Übungen Kapitel 1 (Intermedia- Vergleich: Affinität) 1 Affinitätsbewertung als Mittel des Intermedia-Vergleichs Um die Streugenauigkeit eines Werbeträgers zu bestimmen,
MehrProgrammieren I. Kapitel 7. Sortieren und Suchen
Programmieren I Kapitel 7. Sortieren und Suchen Kapitel 7: Sortieren und Suchen Ziel: Varianten der häufigsten Anwendung kennenlernen Ordnung Suchen lineares Suchen Binärsuche oder Bisektionssuche Sortieren
MehrData Mining und maschinelles Lernen
Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:
MehrAnleitung über den Umgang mit Schildern
Anleitung über den Umgang mit Schildern -Vorwort -Wo bekommt man Schilder? -Wo und wie speichert man die Schilder? -Wie füge ich die Schilder in meinen Track ein? -Welche Bauteile kann man noch für Schilder
MehrAlle gehören dazu. Vorwort
Alle gehören dazu Alle sollen zusammen Sport machen können. In diesem Text steht: Wie wir dafür sorgen wollen. Wir sind: Der Deutsche Olympische Sport-Bund und die Deutsche Sport-Jugend. Zu uns gehören
MehrBerufsunfähigkeit? Da bin ich finanziell im Trockenen.
Berufsunfähigkeit? Da bin ich finanziell im Trockenen. Unsere EinkommensSicherung schützt während des gesamten Berufslebens und passt sich an neue Lebenssituationen an. Meine Arbeitskraft für ein finanziell
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme 1 Zwei Gleichungen mit zwei Unbekannten Es kommt häufig vor, dass man nicht mit einer Variablen alleine auskommt, um ein Problem zu lösen. Das folgende Beispiel soll dies verdeutlichen
MehrBeweisbar sichere Verschlüsselung
Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6
Mehr