Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Größe: px
Ab Seite anzeigen:

Download "Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid"

Transkript

1 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013

2 Bäume - Einführung und Beispiele Supervised Learning Je nach Skalenniveau der abhängigen Variablen: Regressionsbaum Klassifikationsbaum Bäume partitionieren den Kovariablen-Raum in Rechtecke R m (m = 1,..., M) und fitten einfache Modelle (z.b. Konstante) in jedem Rechteck: f (x) = M c m I(x R m ), m=1 wobei c m entweder den gefitteten Wert für einen Regressionsbaum oder die gefittete Klassenverteilung bzw. die häufigste Klasse für einen Klassifikationsbaum darstellt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 1 / 49

3 Bäume - Einführung und Beispiele / 2 Beispiel: Iris-Daten Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 2 / 49

4 Bäume - Einführung und Beispiele / Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 3 / 49

5 Bäume - Einführung und Beispiele / Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 4 / 49

6 Bäume - Einführung und Beispiele / Petal.Length Petal.Width Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 5 / 49

7 Bäume - Einführung und Beispiele / 6 1 Petal.Length <= 1.9 > Petal.Width <= 1.7 > Petal.Length <= 4.8 > 4.8 Node 2 (n = 50) Node 5 (n = 46) Node 6 (n = 8) Node 7 (n = 46) setosa versicolor virginica setosa versicolor virginica setosa versicolor virginica setosa versicolor virginica Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 6 / 49

8 Algorithmen zur Baumkonstruktion CART [Breiman et al. (1984): Classification and Regression Trees, CRC Press] C4.5 [Quinlan, J. R. (1993): C4.5: Programs for Machine Learning, Morgan Kaufmann Publishers] Unverzerrtes Rekursives Partitionieren [Hothorn et al. (2006): Unbiased recursive partitioning: A conditional inference framework, Journal of Computational and Graphical Statistics, Vol. 15, pp ] Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 7 / 49

9 Bausteine der Algorithmen Greedy-Algorithmus: Auswahl der besten Kovariablen mit bestem Splitpunkt über alle Kovariablen und alle möglichen Splitpunkte pro Schritt. Binäre Splits / Mehrweg-Splits Kriterium zur Auswahl einer Variablen und des Splitpunkts / der Splitpunkte Stopp-Kriterium Umgang mit fehlenden Werten Pruning Erstellung von Vorhersageregeln Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 8 / 49

10 Vorteile Leicht verständliches Modell. Interpretierbarkeit durch graphische Veranschaulichung. Interaktionen zwischen erklärenden Variablen können gut eingefangen werden. Baumstruktur spiegelt stufenweise Entscheidungen wider. Funktioniert auch für nichtlineare Funktionen. Auch bei kleiner Stichprobengröße und vielen Prädiktoren anwendbar. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 9 / 49

11 Nachteile Hohe Instabilität (Varianz) der Bäume: kleine Änderungen in den Daten können zu völlig anderen Splits und somit zu komplett anderen Bäumen führen. Entscheidungen auf oberem Level beeinflussen Entscheidungen weiter unten ( Fehler in oberen Levels setzen sich nach unten fort) Vorhersagefunktion ist nicht glatt (es wird eine Treppenfunktion angepasst) Lineare Zusammenhänge müssen über mehrere Splits modelliert werden Einfache lineare Zusammenhänge müssen in eine komplexe Baumstruktur übersetzt werden Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 10 / 49

12 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 11 / 49

13 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 12 / 49

14 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 13 / 49

15 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 14 / 49

16 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 15 / 49

17 Nachteile / x1 x2 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 16 / 49

18 Classification and Regression Trees (CART) Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 17 / 49

19 CART (Classification and Regression Trees) Abhängige Variable kann metrisch oder kategoriell sein. Es werden nur binäre Splits betrachtet: Bei Auswahl des Splitkriteriums muss auf das Bestrafen von Mehrweg-Splits nicht geachtet werden. Interpretierbarkeit des Baums u.u. schlechter, da dies zu mehreren Splits in derselben Variablen auf verschiedenen Stufen führen kann. Gütekriterium je nach Skalenniveau der abhängigen Variablen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 18 / 49

20 CART: Gütekriterien Metrische Zielgröße: minimaler quadratischer Abstand. Aufteilung aller Daten anhand der Splivariablen X j am Splitpoint s ergibt die folgenden Halbebenen: R 1 (j, s) = {X : X j s} und R 2 (j, s) = {X : X j > s}. Ermittlung der besten Splitvariable und des dazugehörigen besten Splitpunktes: min j,s min c 1 X i R 1 (j,s) (Y i c 1 ) 2 + min c 2 X i R 2 (j,s) (Y i c 2 ) 2. Für beliebige j und s wird die innere Minimierung durch ĉ 1 = ave(y i X i R 1 (j, s)) und ĉ 2 = ave(y i X i R 2 (j, s)) gelöst. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 19 / 49

21 CART: Gütekriterien / 2 Kategorielle Zielgröße (K Kategorien): Unreinheitsmaße ( Impurity Measures ) Gini-Index: k k ˆp k ˆp k = Missklassifikationsrate: Entropie: K ˆp k (1 ˆp k ) k=1 1 arg max ˆp k k K ˆp k log ˆp k, k=1 wobei ˆp k die relative Häufigkeit von Kategorie k ist. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 20 / 49

22 CART: Gütekriterien / Gini Index Entropie Missklassifikationsfehler p Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 21 / 49

23 CART: Stopp-Kriterien Vorgegebene minimale Anzahl an Beobachtungen pro Knoten, damit ein Split versucht wird. Vorgegebene minimale Anzahl an Beobachtungen, die in einem Blatt vorhanden sein müssen. Minimale vorgegebene Verbesserung in der Anpassungsgüte wird nicht erreicht. Maximale vorgegebene Anzahl an Levels für den Baum erreicht. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 22 / 49

24 CART: Overfitting CART-Algorithmus lässt sich prinzipiell so lange fortführen, bis in jedem Blatt genau eine Beobachtung enthalten ist Komplexität (und damit die Overfitting-Gefahr) wächst mit der Zahl der Splits / Levels / Blätter Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 23 / 49

25 CART: Pruning Methode zum optimalen Trade-off zwischen Anpassungsgüte und Komplexität ( Minimal Cost Complexity Pruning ) Kriterium: Kostenfunktion R α = R(T ) + α #Blätter, wobei R(T ) der Fehler des Baums T auf den Trainingsdaten ist ( R α = Trainigsfehler + Komplexitätsterm). Für jedes α gibt es einen eindeutig bestimmten, kleinsten Unterbaum des ursprünglichen Baums, der die Kostenfunktion minimiert. ˆα kann mit Hilfe von Kreuzvalidierung bestimmt werden. Endgültiger Baum wird auf den gesamten Daten geschätzt, wobei ˆα verwendet wird, um die optimale Größe zu bestimmen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 24 / 49

26 CART: Kategorielle Prädiktoren Für eine ungeordnete, kategorielle Kovariable mit Q Ausprägungen gibt es 2 Q 1 1 mögliche Partitionen für die Q Werte. Anzahl prohibitiv groß für große Werte von Q. Effiziente Umsetzung im Fall einer binären abhängigen Variablen: Bestimme den Anteil der Erfolge der abhängigen Variablen in jeder Kategorie der Kovariablen. Sortiere die Kategorien anhand dieser Anteile. Kovariable kann dann wie eine geordnete kategorielle Variable behandelt werden. Solche Vereinfachungen sind für eine abhängige Variable mit mehr als 2 Ausprägungen nicht möglich. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 25 / 49

27 CART: Fehlende Kovariablenwerte Zwei Möglichkeiten: 1 Fehlenden Werten wird bei einer kategoriellen Variablen eine eigene Kategorie zugeordnet. 2 Für die Auswahl einer Variable mit zughörigem Splitpunkt werden nur Beobachtungen ohne fehlenden Wert betrachtet. Um Beobachtungen mit fehlenden Werten ebenfalls im Baum nach unten weiterzugeben, werden Stellvertretervariablen gesucht, die ähnliche Splits erzeugen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 26 / 49

28 C4.5 Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 27 / 49

29 C4.5 Nachfolger in einer Reihe von Entscheidungsbaumlernern, die in den späten 1950ern und frühen 1960ern entwickelt worden sind. Kovariablen: metrische und diskrete Merkmale möglich Zielgröße: kategorielle Variable mit K Ausprägungen Spezifikation 1: Wenn alle Beobachtungen im Knoten S zur selben Klasse gehören, dann handelt es sich bei dem Knoten um ein Blatt. Spezifikation 2: Ansonsten sei B ein Test (Split), der die Beobachtungen im Knoten S in eine nicht-triviale Partition von t Teilmengen unterteilt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 28 / 49

30 C4.5: Kovariablen Für jede partitionierende Kovariable X j : Wenn X j eine diskrete Variable mit Q Ausprägungen ist, dann sind mögliche Tests B: 1 jede Ausprägung definiert ein neues Blatt 2 Blätter werden durch teilweises Zusammenfassen von Ausprägungen gebildet Wenn X j eine metrische Variable ist, dann werden Schwellwerte verwendet, die die geordnete Datenliste jeweils unterschiedlich teilen. Für d verschiedene Werte von X j im Knoten S gibt es d 1 Schwellwerte, die betrachtet werden müssen. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 29 / 49

31 C4.5: Auswahlkriterien Informationszugewinn (Information Gain): Die Information (hier als Impurity Measure verwendet) des Modells im Knoten S ist gegeben durch die Entropie I(S) = K p(c k, S) log(p(c k, S)), k=1 wobei p(c k, S) gleich der relativen Häufigkeit der Fälle in S, die zur Zielgrößen-Klasse C k gehören, ist. Der Informationszugewinn einer Partition von S in S 1, S 2,..., S t durch einen Test B ist gegeben durch G(S, B) = I(S) t j=1 S j S I(S j). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 30 / 49

32 C4.5: Auswahlkriterien / 2 G(S, B) sollte möglichst groß werden Problem: Je größer t wird, desto größer wird tendenziell der Informationsgewinn. Beispiel: falls S j = 1 j, dann gilt t S j j=1 S I(S j) = 0, und der Informationsgewinn wird maximal. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 31 / 49

33 C4.5: Auswahlkriterien / 3 Ausweg: Zugewinnverhältnis (Gain Ratio): Die potentielle Information der Partition (und damit ihre Impurity) ist gegeben durch P(S, B) = t j=1 ( ) S j S log Sj. S Es wird dann der Test gewählt, der folgenden Ausdruck maximiert: G(S, B)/P(S, B). Das Zugewinnverhältnis hat im Vergleich zum Informationszugewinn den Vorteil, dass es nicht maximal wird, falls der Test B jede Beobachtung in eine eigene Gruppe einteilt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 32 / 49

34 C4.5: Fehlende Kovariablenwerte Bei fehlenden Werten ändert sich der Informationsgewinn zu G(S, B) = S\S 0 G(S\S 0, B), S wobei S 0 die Beobachtungen mit fehlenden Werten in derjenigen Kovariablen enthält, die beim Test betrachtet wird. Die potentielle Information der Partition ändert sich zu P(S, B) = S ( ) 0 S log S0 t S j S S log j=1 ( Sj S ). Beide Änderungen haben den Effekt, dass Attribute mit vielen fehlenden Werten schlechter abschneiden. Nach Wahl eines Tests werden die Beobachtungen mit fehlenden Werten zu jeder Partition mit den Gewichten S j / S\S 0 zugeordnet. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 33 / 49

35 C4.5: Vermeiden von Overfitting - Pruning Sei M die Anzahl der falsch klassifizierten Beobachtungen im Trainingsdatensatz. Eine obere Schranke U CF = U CF (M, S ) für die Fehlerrate wird bestimmt durch { (1 UCF S für M = 0 CF = M ( S ) i=0 i U i CF (1 U CF ) S i für M > 0 Der Default für CF ist Der Baum wird durch einen einzigen Durchlauf von unten nach oben zurechtgestutzt ( Post Pruning ). Hierbei werden die Schranken U CF als Abschätzungen für die Fehlerraten verwendet. Übersteigt die gewichtete Summe der Fehlerraten in den Blättern eines Knotens diejenige des Knotens, so wird der zugehörige Unterbaum entfernt. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 34 / 49

36 Vergleich CART - C4.5 Splits sind bei CART binär, bei C4.5 nicht notwendigerweise Pruning: CART verwendet Kostenfunktion + Kreuzvalidierung für Tuningparameter α C4.5 verwendet Binomialapproximation auf Basis der Lerndaten zur Fehlerratenschätzung beim Pruning Unterschiedliche Behandlung von Missing Values Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 35 / 49

37 Software in R CART: Paket rpart mit Fit-Funktion rpart(). C4.5: Im Paket RWeka steht J48() zum Fitten zur Verfügung. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 36 / 49

38 Unverzerrtes Rekursives Partitionieren Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 37 / 49

39 Unverzerrtes Rekursives Partitionieren Probleme bei klassischen Baumalgorithmen: Kein Konzept der Signifikanz Möglicherweise verzerrte Variablenselektion Idee: Führe Partitionierung anhand eines generischen Frameworks durch, das auf statistischer Inferenz beruht. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 38 / 49

40 Bedingte Inferenzbäume Nichtparametrischer Ansatz unter Verwendung eines vereinheitlichenden Frameworks von nichtparametrischen Tests. Algorithmus: 1 Assoziationsmaß ( Gütekriterium für die Variablenselektion): p-wert des Permutationstests auf Unabhängigkeit zwischen Y und X j 2 Split-Strategie nach Selektion: Maximiere Zwei-Stichproben-Kontrast von Y entlang der selektierten Kovariablen X j. 3 Stopp-Kriterium: Signifikanz des Tests in Schritt 2. Anmerkung: Sowohl Modell als auch Test bedingen auf die beobachteten Daten. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 39 / 49

41 Bedingte Inferenzbäume / 2 Assoziationsmaß: Unabhängigkeitstest abgeleitet von genereller Korrelation zwischen Y und X j, ( n ) t j = vec h(y i ) g j (X ij ), i=1 wobei g j ( ) eine m j -dimensionale Transformation und h( ) eine q-dimensionale Einflussfunktion sind (m j, q N, t j R q m j ) Die Einflussfunktion kann vom Antwortvektor (Y 1,..., Y n ) abhängen, jedoch nur auf permutationssymmetrische Art und Weise h(y i ) = h(y i, (Y 1,..., Y n )). Die Einflussfunktion darf nicht davon abhängen, in welcher Reihenfolge die Y i eingetreten sind. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 40 / 49

42 Bedingte Inferenzbäume / 3 Teststatistik: Skalare standardisierte Statistik basierend auf der bedingten Erwartung µ j und der Varianz-Kovarianzmatix Σ j (gegeben die Daten), z.b. (t µ) k s max (t, µ, Σ) = max, oder k=1,...,q m (Σ)kk s quad (t, µ, Σ) = (t µ)σ + (t µ), wobei Σ + die Moore-Penrose-Inverse von Σ ist. Unter Unabhängigkeit ergeben alle Permutationen von Y die bedingte Verteilung von t j. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 41 / 49

43 Bedingte Inferenzbäume / 4 Erwartungswertbildung ergibt den bedingten Erwartungswert (( n ) ) µ j = E(t j ) = vec g j (X ij ) E(h), E(h) = 1 n h(y i ). n i=1 Die bedingte Varianz-Kovarianzmatrix Σ j ergibt sich aus ( n ) Σ j = Var(t j ) = n n 1 Var(h) g j (X ij ) g j (X ij ) Var(h) = 1 n 1 n 1 Var(h) i=1 i=1 ( n ) ( n g j (X ij ) g j (X ij )), i=1 i=1 n (h(y i ) E(h))(h(Y i ) E(h)), i=1 wobei das Kronecker-Produkt bezeichnet. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 42 / 49

44 Bedingte Inferenzbäume / 5 Signifikanz: Verschiedene Methoden möglich, um die Signifikanz der Teststatistiken s(t j, µ j, Σ j ) zu bestimmen: Exakt: Direkte Berechnung der Statistik für alle Permutationen. Im allgemeinen sehr rechenintensiv. Approximativ: Berechne Statistik für eine genügend große Anzahl an Permutationen, die mit Hilfe von Monte-Carlo-Methoden gezogen werden. Asymptotisch: Berechne die bedingte asymptotische Verteilung von s basierend auf der asymptotischen bedingten Verteilung von t j mit t j N (µ j, Σ j ). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 43 / 49

45 Bedingte Inferenzbäume / 6 Wahl der Transformationen: Basierend auf Skalenniveau von Y und X j sowie der Art der Abhängigkeit. Kategoriell: Indikatorfunktionen für alle K Kategorien h(y) = (I 1 (y),..., I K (y)). Metrisch: Identität: h(y) = y Ränge: h(y) = rank(y). Schwellwert: h(y) = I(y > ζ). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 44 / 49

46 Bedingte Inferenzbäume / 7 Spezialfälle: Geeignete Wahl von h( ) und g( ) ergibt viele klassische Tests als Spezialfälle: Wilcoxon-Mann-Whitney Test: h( ): Ränge für metrische Variable g j ( ): Dummy-Kodierung für kategorielle Variable Teststatistik: skalar Kruskal-Wallis Rangsummentest: h( ): Ränge für metrische Variable g j ( ): Dummy-Kodierung für kategorielle Variable Teststatistik: quadratische Form Implementiert im Paket coin. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 45 / 49

47 Bedingte Inferenzbäume / 8 > airq <- subset(airquality, Month %in% c(5, 8)) > wilcox.test(ozone ~ Month, data = airq, + exact = FALSE, correct = FALSE) Wilcoxon rank sum test data: Ozone by Month W = 127.5, p-value = alternative hypothesis: true location shift is not equal to 0 > independence_test(ozone ~ Month, data = airq, + ytrafo = rank, teststat = "scalar") Asymptotic General Independence Test data: Ozone by Month Z = , p-value = alternative hypothesis: two.sided Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 46 / 49

48 Bedingte Inferenzbäume / 9 > data("alpha", package = "coin") > kruskal.test(elevel ~ alength, data = alpha) Kruskal-Wallis rank sum test data: elevel by alength Kruskal-Wallis chi-squared = , df = 2, p-value = > independence_test(elevel ~ alength, data = alpha, + ytrafo = rank, teststat = "quad") Asymptotic General Independence Test data: elevel by alength (short, intermediate, long) chi-squared = , df = 2, p-value = Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 47 / 49

49 Bedingte Inferenzbäume / 10 Split-Strategie: Maximiere Zwei-Stichprobenkontrast entlang der selektierten Kovariablen X j. Verwende Schwellwerttransformation g j (X j ) = I(X j > ζ) für alle möglichen Werte von ζ. Wähle den Split ζ, der die zugehörige Teststatistik maximiert. Stopp-Kriterium: Nicht-Signifikanz von Bonferroni-korrigierten p-werten der Permutationstests. Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 48 / 49

50 Software in R Paket party auf CRAN ctree() zum Fitten von bedingten Inferenzbäumen. Paket partykit auf CRAN / R-Forge Ein Werkzeugsatz für das rekursive Partitionieren mit einer Infrastuktur für Bäume von rpart, RWeka und party (in Entwicklung). Steffen Unkel c Sommersemester 2013 Fortgeschrittene Computerintensive Methoden: Entscheidungsbäume 49 / 49

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid

Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Fortgeschrittene Computerintensive Methoden: Assoziationsregeln Steffen Unkel Manuel Eugster, Bettina Grün, Friedrich Leisch, Matthias Schmid Institut für Statistik LMU München Sommersemester 2013 Zielsetzung

Mehr

Ü b u n g s b l a t t 15

Ü b u n g s b l a t t 15 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 2. 7. 2007 Ü b u n g s b l a t t 15 Hier ist zusätzliches Übungsmaterial zur Klausurvorbereitung quer durch die Inhalte der Vorlesung. Eine

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Einführung in die Induktive Statistik: Varianzanalyse

Einführung in die Induktive Statistik: Varianzanalyse Einführung in die Induktive Statistik: Varianzanalyse Jörg Drechsler LMU München Wintersemester 2011/2012 Varianzanalyse bisher: Vergleich der Erwartungswerte für zwei normalverteilte Variablen durch t-test

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

3.3 Nächste-Nachbarn-Klassifikatoren

3.3 Nächste-Nachbarn-Klassifikatoren 3.3 Nächste-Nachbarn-Klassifikatoren Schrauben Nägel Klammern Neues Objekt Instanzbasiertes Lernen (instance based learning) Einfachster Nächste-Nachbar-Klassifikator: Zuordnung zu der Klasse des nächsten

Mehr

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation

Rückblick. Entscheidungsunterstützende Systeme / Kapitel 4: Klassifikation Rückblick k-nächste Nachbarn als distanzbasiertes Verfahren zur Klassifikation benötigt sinnvolles Distanzmaß und weist vorher unbekanntem Datenpunkt dann die häufigste Klasse seiner k nächsten Nachbarn

Mehr

Methodik der multiplen linearen Regression

Methodik der multiplen linearen Regression Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt

Mehr

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende im Sommersemester 2012 Prof. Dr. H. Küchenhoff, J. Brandt, G. Schollmeyer, G. Walter Aufgabe 1 Betrachten

Mehr

T (n) = max. g(x)=n t(n) S(n) = max. g(x)=n s(n)

T (n) = max. g(x)=n t(n) S(n) = max. g(x)=n s(n) Beim Logarithmischen Kostenmaß wird, im Gegensatz zum EKM, die Stelligkeit der Werte berücksichtigt und mit in die Laufzeit eingerechnet. Beispiel: R1 := R2 (R3), wobei R2 den Wert 5, R3 den Wert 10 und

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen 5. Zwei spieltheoretische Aspekte Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2015/2016 1 / 36 Überblick

Mehr

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE LINEARE REGRESSION TEIL 13: DIE LINEARE REGRESSION Dozent: Dawid Bekalarczyk GLIEDERUNG Dozent: Dawid Bekalarczyk Lineare Regression Grundlagen Prognosen / Schätzungen Verbindung zwischen Prognose und Zusammenhang zwischen

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Praktikum Data Warehousing und Data Mining

Praktikum Data Warehousing und Data Mining Klassifikation I Praktikum Data Warehousing und Data Mining Klassifikationsprobleme Idee Bestimmung eines unbekannten kategorischen Attributwertes (ordinal mit Einschränkung) Unter Benutzung beliebiger

Mehr

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167 Multivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.167 Multivariate Regression Verfahren zur Prüfung des gemeinsamen linearen Einflusses mehrerer unabhängiger Variablen auf eine

Mehr

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst. Aufgabe 1 (2 + 4 + 2 + 1 Punkte) Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen X und Y : { 2x + 2y für 0.5 x 0.5, 1 y 2 f(x, y) = 3 0 sonst. a) Berechnen

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden? 1. Aufgabe: Eine Bank will die jährliche Sparleistung eines bestimmten Kundenkreises untersuchen. Eine Stichprobe von 12 Kunden ergab folgende Werte: 825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170

Mehr

Testen auf Strukturbruch - Implementierung in R und Anwendung

Testen auf Strukturbruch - Implementierung in R und Anwendung Technische Universität Wien Testen auf Strukturbruch - Implementierung in R und Anwendung Achim Zeileis Friedrich Leisch Kurt Hornik Christian Kleiber Inhalt Was ist ein Strukturbruch (im linearen Regressionsmodell)?

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Gliederung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung.6.015 1 von 33 von 33 Ausgangspunkt: Funktionsapproximation Aufteilen der

Mehr

Übungsblatt 1. f(n) = f(n) = O(g(n)) g(n) = O(f(n)) Zeigen oder widerlegen Sie: 3 n = Θ(2 n ) Aufgabe 1.2 Gegeben sei die folgende Funktion:

Übungsblatt 1. f(n) = f(n) = O(g(n)) g(n) = O(f(n)) Zeigen oder widerlegen Sie: 3 n = Θ(2 n ) Aufgabe 1.2 Gegeben sei die folgende Funktion: Übungsblatt 1 Aufgabe 1.1 Beweisen oder widerlegen Sie, dass für die im Folgenden definierte Funktion f(n) die Beziehung f(n) = Θ(n 4 ) gilt. Beachten Sie, dass zu einem vollständigen Beweis gegebenenfalls

Mehr

Unverzerrtes rekursives Partitionieren: Ein empirischer Vergleich von CHAID und CTREE

Unverzerrtes rekursives Partitionieren: Ein empirischer Vergleich von CHAID und CTREE Stephanie Thiemichen Unverzerrtes rekursives Partitionieren: Ein empirischer Vergleich von CHAID und CTREE Bachelor Thesis Betreuer: Prof. Dr. Torsten Hothorn Institut für Statistik LMU München 03. Juli

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Additive Modelle Katharina Morik Informatik LS 8 Technische Universität Dortmund 7.1.2014 1 von 34 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 34 Ausgangspunkt:

Mehr

Inferenzstatistik (=schließende Statistik)

Inferenzstatistik (=schließende Statistik) Inferenzstatistik (=schließende Statistik) Grundproblem der Inferenzstatistik: Wie kann man von einer Stichprobe einen gültigen Schluß auf di Grundgesamtheit ziehen Bzw.: Wie groß sind die Fehler, die

Mehr

Verteilungsfunktionen (in Excel) (1)

Verteilungsfunktionen (in Excel) (1) Verteilungsfunktionen (in Excel) () F(x) Veranschaulichung der Sprungstellen: Erst ab x=4 ist F(x) = 0,75! Eine Minimal kleinere Zahl als 4, bspw. 3,9999999999 gehört noch zu F(x)=0,5! 0,75 0,5 0,25 0

Mehr

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test) Spezielle Tests Test auf einen Anteilswert (Binomialtest) Vergleich zweier Anteilswerte Test auf einen Mittelwert (Ein-Stichproben Gauss bzw. t-test) Vergleich zweier Mittelwerte (t-test) Test auf einen

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Hypothesentests mit R Ashkan Taassob Andreas Reisch 21.04.09 1

Hypothesentests mit R Ashkan Taassob Andreas Reisch 21.04.09 1 Hypothesentests mit R Ashkan Taassob Andreas Reisch 21.04.09 1 Inhalt Programmiersprache R Syntax Umgang mit Dateien Tests t Test F Test Wilcoxon Test 2 Test Zusammenfassung 2 Programmiersprache R Programmiersprache

Mehr

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test) Hypothesen Tests Fragestellungen stab.glu 82 97 92 93 90 94 92 75 87 89 hdl 56 24 37 12 28 69 41 44 49 40 ratio 3.60 6.90 6.20 6.50 8.90 3.60 4.80 5.20 3.60 6.60 glyhb 4.31 4.44 4.64 4.63 7.72 4.81 4.84

Mehr

Kapitel ML: III (Fortsetzung)

Kapitel ML: III (Fortsetzung) Kapitel ML: III (Fortsetzung) III. Entscheidungsbäume Repräsentation und Konstruktion Impurity-Funktionen Entscheidungsbaumalgorithmen Pruning ML: III-87 Decision Trees c STEIN/LETTMANN 2005-2011 Missklassifikationskosten

Mehr

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter hoechstoetter@statistik.uni-karlsruhe.de Agenda 1. Untersuchung der Abhängigkeit 2.

Mehr

N 1 0 50 0.5 50 0.5 2 1 20 0.2 70 0.7 3 2 15 0.15 85 0.85 4 3 10 0.1 95 0.95 5 4+ 5 0.05 100 1-100 1.00 - -

N 1 0 50 0.5 50 0.5 2 1 20 0.2 70 0.7 3 2 15 0.15 85 0.85 4 3 10 0.1 95 0.95 5 4+ 5 0.05 100 1-100 1.00 - - 2 Deskriptive Statistik 1 Kapitel 2: Deskriptive Statistik A: Beispiele Beispiel 1: Im Rahmen einer Totalerhebung der Familien eines Dorfes (N = 100) wurde u.a. das diskrete Merkmal Kinderanzahl (X) registriert.

Mehr

Splitting. Impurity. c 1. c 2. c 3. c 4

Splitting. Impurity. c 1. c 2. c 3. c 4 Splitting Impurity Sei D(t) eine Menge von Lernbeispielen, in der X(t) auf die Klassen C = {c 1, c 2, c 3, c 4 } verteilt ist. Illustration von zwei möglichen Splits: c 1 c 2 c 3 c 4 ML: III-29 Decision

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Additive Modelle Katharina Morik, Weihs 2.6.2015 1 von 33 Gliederung 1 Merkmalsauswahl Gütemaße und Fehlerabschätzung 2 von 33 Ausgangspunkt: Funktionsapproximation Die bisher

Mehr

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Hypothese: Die Beschäftigung mit Kunst ist vom Bildungsgrad abhängig. 1. Annahmen Messniveau: Modell: Die Skala zur Erfassung der

Mehr

Mittelwertvergleiche, Teil I: Zwei Gruppen

Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Herzlich willkommen zur Vorlesung Mittelwertvergleiche, Teil I: Zwei Gruppen FB W. Ludwig-Mayerhofer Statistik II Mittelwertvergleiche Mittelwertvergleiche:

Mehr

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Versuchsplanung Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling Gliederung Grundlagen der Varianzanalyse Streuungszerlegung und Modellschätzer Modellannahmen und Transformationen

Mehr

4 Binäre Regressionsmodelle, Folien 2

4 Binäre Regressionsmodelle, Folien 2 4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden

Mehr

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember 2009 1 / 43 Gliederung 1 Einführung in CART Motivation Regressionsbäume

Mehr

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik.

STATISTIK II. Hans-Otfried Müller Institut für Mathematische Stochastik. STATISTIK II Hans-Otfried Müller Institut für Mathematische Stochastik http://www.math.tu-dresden.de/sto/mueller 1 Ausgewählte Verfahren der multivariaten Datenanalyse und Statistik Werden bei einer Analyse

Mehr

Teil VIII Hypothesentests für zwei Stichproben

Teil VIII Hypothesentests für zwei Stichproben Woche 9: Hypothesentests für zwei Stichproben Teil VIII Hypothesentests für zwei Stichproben WBL 15/17, 22.06.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Binomialverteilung und Bernoulli- Experiment Das komplette Material finden Sie hier: Download bei School-Scout.de TOSSNET Der persönliche

Mehr

Analytische Statistik II

Analytische Statistik II Analytische Statistik II Institut für Geographie 1 Schätz- und Teststatistik 2 Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben.

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Entscheidungsbäume Darstellung durch Regeln ID3 / C4.5 Bevorzugung kleiner Hypothesen Overfitting Entscheidungsbäume

Mehr

Kapitel 1: Motivation / Grundlagen Gliederung

Kapitel 1: Motivation / Grundlagen Gliederung Gliederung 1. Motivation / Grundlagen 2. Sortier- und Selektionsverfahren 3. Paradigmen des Algorithmenentwurfs 4. Ausgewählte Datenstrukturen 5. Algorithmische Geometrie 6. Umgang mit algorithmisch schwierigen

Mehr

8. Expressionsdaten: Normalisierung. Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 12.05.2009-188 -

8. Expressionsdaten: Normalisierung. Jörg Rahnenführer, Statistik in der Bioinformatik, SS09, TU Dortmund 12.05.2009-188 - 8. Expressionsdaten: ormalisierung Jörg Rahnenführer, Statistik in der Bioinformatik, SS9, TU Dortmund 1.5.9-188 - ormalisierung 1. Biologische Frage. Experimentelles Design 3. Microarray-Experiment 4.

Mehr

Gemischt-ganzzahlige und Kombinatorische Optimierung

Gemischt-ganzzahlige und Kombinatorische Optimierung 5. Präsenzaufgabenblatt, Sommersemester 2015 Übungstunde am 15.06.2015 Aufgabe J Betrachten Sie die LP-Relaxierung max c T x a T x b 0 x i 1 des 0/1-Knapsack-Problems mit n Gegenständen, c 0 und a > 0.

Mehr

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154 Bivariate lineare Regression Statistik für SozialwissenschaftlerInnen II p.154 Grundidee und Typen der Regression Die Regressionsanalyse dient zur Quantifizierung des Zusammenhangs und der statistisch

Mehr

Einführung in die Induktive Statistik: Regressionsanalyse

Einführung in die Induktive Statistik: Regressionsanalyse Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse

Mehr

fuzzy-entscheidungsbäume

fuzzy-entscheidungsbäume fuzzy-entscheidungsbäume klassische Entscheidungsbaumverfahren fuzzy Entscheidungsbaumverfahren Entscheidungsbäume Was ist ein guter Mietwagen für einen Familienurlaub auf Kreta? 27. März 23 Sebastian

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Erstes Mathe-Tutorium am Themen können gewählt werden unter:

Erstes Mathe-Tutorium am Themen können gewählt werden unter: Mathe-Tutorium Erstes Mathe-Tutorium am 07.05. Themen können gewählt werden unter: https://docs.google.com/forms/d/1lyfgke7skvql cgzspjt4mkirnrgnrfpkkn3j2vqos/iewform 1 Uniersität Potsdam Institut für

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Biostatistik, WS 2010/2011 Rangsummen-Test, Chi-Quadrat-Test

Biostatistik, WS 2010/2011 Rangsummen-Test, Chi-Quadrat-Test 1/49 Biostatistik, WS 2010/2011 Rangsummen-Test, Chi-Quadrat-Test Matthias Birkner http://www.mathematik.uni-mainz.de/~birkner/biostatistik1011/ 14.1.2011 2/49 Inhalt Wilcoxons Rangsummentest 1 Wilcoxons

Mehr

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Kategorielle Daten. Seminar für Statistik Markus Kalisch Kategorielle Daten Markus Kalisch 1 Phase 3 Studie: Wirksamer als Placebo? Medikament Placebo Total Geheilt 15 9 24 Nicht geheilt 10 11 21 Total 25 20 45 Grundfrage: Sind Heilung und Medikamentengabe unabhängig?

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 9. Dezember 2009 Bernd Klaus, Verena Zuber

Mehr

Vorlesung: Lineare Modelle

Vorlesung: Lineare Modelle Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen

Mehr

das Kleingedruckte...

das Kleingedruckte... Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Classification Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2 Classification

Mehr

W-Rechnung und Statistik für Ingenieure Übung 13

W-Rechnung und Statistik für Ingenieure Übung 13 W-Rechnung und Statistik für Ingenieure Übung 13 Nächste Woche: Probeklausur Bringen Sie sich ein leeres Exemplar der Probeklausur mit, um sich eine Musterlösung zu erstellen. Aufgabe 1 : Testproblem Testproblem:

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/

Mehr

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg . Vorlesung Grundlagen in Statistik Seite 29 Beispiel Gegeben: Termhäufigkeiten von Dokumenten Problemstellung der Sprachmodellierung Was sagen die Termhäufigkeiten über die Wahrscheinlichkeit eines Dokuments

Mehr

3 Randomisierungs-Tests

3 Randomisierungs-Tests 28 3 Randomisierungs-Tests 3.1 Einführendes Beispiel a Hagel-Experiment:( GrossversuchIV imnapfgebiet1978-1983) Verringert das Impfen von potenziellen Hagelwolken mit Silberiodid die Hagelenergie? (Einfache

Mehr

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52

a 1 < a 2 <... < a k. 2 Häufigkeitsverteilungen 52 2 Häufigkeitsverteilungen 2.0 Grundbegriffe Ziel: Darstellung bzw. Beschreibung (Exploration) einer Variablen. Ausgangssituation: An n Einheiten ω 1,..., ω n sei das Merkmal X beobachtet worden. x 1 =

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Herzlich willkommen zur Vorlesung Statistik

Herzlich willkommen zur Vorlesung Statistik FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik Zusammenhänge zwischen nominalen (und/oder ordinalen) Merkmalen: analyse und II: Signifikanztests und Maße der Assoziation

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Definition der Entropie unter Verwendung von supp(p XY )

Definition der Entropie unter Verwendung von supp(p XY ) Definition der Entropie unter Verwendung von supp(p XY ) Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße XY mit der Wahrscheinlichkeitsfunktion

Mehr

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005 Universität Bielefeld 13. Juni 2005 Einführung Einführung Wie kann die Kenntnis der Wahrscheinlichkeitsverteilung der Parameter einer Stichprobe dazu verhelfen auf die wahren Werte der Grundgesamtheit

Mehr

Kapitel 2. Weitere Beispiele Effizienter Algorithmen

Kapitel 2. Weitere Beispiele Effizienter Algorithmen Kapitel 2 Weitere Beispiele Effizienter Algorithmen Sequentielle Suche Gegeben: Array a[1..n] Suche in a nach Element x Ohne weitere Zusatzinformationen: Sequentielle Suche a[1] a[2] a[3] Laufzeit: n Schritte

Mehr

12. Rekursion Grundlagen der Programmierung 1 (Java)

12. Rekursion Grundlagen der Programmierung 1 (Java) 12. Rekursion Grundlagen der Programmierung 1 (Java) Fachhochschule Darmstadt Haardtring 100 D-64295 Darmstadt Prof. Dr. Bernhard Humm FH Darmstadt, 24. Januar 2006 Einordnung im Kontext der Vorlesung

Mehr

4 Effizienz und Komplexität 3.1 1

4 Effizienz und Komplexität 3.1 1 4 Effizienz und Komplexität 3.1 1 Effizienz (efficiency): auf den Ressourcen-Verbrauch bezogene Programmeigenschaft: hohe Effizienz bedeutet geringen Aufwand an Ressourcen. Typische Beispiele: Speichereffizienz

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Martin Hutzenthaler & Dirk Metzler 20. Mai 2010 Inhaltsverzeichnis

Mehr

Papierfalten und Algebra

Papierfalten und Algebra Arbeitsblätter zum Thema Papierfalten und Algebra en Robert Geretschläger Graz, Österreich 009 Blatt 1 Lösen quadratischer Gleichungen mit Zirkel und Lineal AUFGABE 1 Zeige, dass die x-koordinaten der

Mehr

Bayessche Netzwerke und ihre Anwendungen

Bayessche Netzwerke und ihre Anwendungen Bayessche Netzwerke und ihre Anwendungen 1. Kapitel: Grundlagen Zweiter Schwerpunktanteil einer Vorlesung im Rahmen des Moduls Systemplanung und Netzwerktheorie (Modul-Nr.: 1863) Fakultät für Informatik

Mehr

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen Kovarianzanalyse 1 metrische und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Lineare Modelle (2. Teil) Wie läßt sich die Abhängigkeit einer metrischen Variablen von

Mehr

Lineare Regression 2: Gute Vorhersagen

Lineare Regression 2: Gute Vorhersagen Lineare Regression 2: Gute Vorhersagen Markus Kalisch 23.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2,

Mehr

Die Datenmatrix für Überwachtes Lernen

Die Datenmatrix für Überwachtes Lernen Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x

Mehr

Kenngrößen von Zufallsvariablen

Kenngrößen von Zufallsvariablen Kenngrößen von Zufallsvariablen Die Wahrscheinlichkeitsverteilung kann durch die sogenannten Kenngrößen beschrieben werden, sie charakterisieren sozusagen die Verteilung. Der Erwartungswert Der Erwartungswert

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests I. Einführungsbeispiel II. Theorie: Statistische Tests III. Zwei Klassiker: t-test und Wilcoxon-Rangsummen - Test IV. t-test und Wilcoxon-Rangsummen - Test in R Eine Einführung in R: Statistische Tests

Mehr

Vorlesung. Machine Learning - Entscheidungsbäume

Vorlesung. Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume Vorlesung Machine Learning - Entscheidungsbäume http://de.wikipedia.org/wiki/datei:deu_tutorial_-_hochladen_von_bildern_neu%2bcommons.svg http://www.rulequest.com/personal/

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr