Random Forests. Angewandte Biostatistik mit R. Fabian Knorre Ein Seminar bei Prof. Dr. Jörg Rahnenführer

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer"

Transkript

1 Angewandte Biostatistik mit R Fabian Knorre Ein Seminar bei Prof. Dr. Jörg Rahnenführer 1 / 53

2 Inhaltsverzeichnis 1 Motivation und Einleitung: Was ist ein... und wozu? 2 CART - Einleitung Konstruktion Beispiel in R / 53

3 Situation Datensatz bspw. aus einer genetischen Studie enthält hochdimensionale Daten: Vielzahl an Einflussvariablen (kann die Anzahl der Individuen auch deutlich übersteigen) kategoriale oder stetige Zielvariable Ziel: Erkennung von Zusammenhängen und Strukturen zwischen den Einfluss- und der Zielvariable ohne vorher Einflussvariablen selektieren zu müssen (Erweiterung des CART-Ansatzes) 3 / 53

4 Woraus besteht ein...? Classification and Regression Tree Ein Wurzelknoten mehrere weitere Knoten und Endknoten jeder Knoten (bis auf Endknoten) teilt sich in zwei weitere Knoten auf Trennung durch Entscheidungsregel bezüglich einer Einflussvariable Jeder Endknoten repräsentiert einen Wert Jedem Individuum wird derjenige Wert des Endknotens zugewiesen, dem es zugeordnet wird 4 / 53

5 Woraus besteht ein...? Classification and Regression Tree Ein Wurzelknoten mehrere weitere Knoten und Endknoten jeder Knoten (bis auf Endknoten) teilt sich in zwei weitere Knoten auf Trennung durch Entscheidungsregel bezüglich einer Einflussvariable Jeder Endknoten repräsentiert einen Wert Random Forest Jedem Individuum wird derjenige Wert des Endknotens zugewiesen, dem es zugeordnet wird besteht aus vielen zufällig generierten Bäumen Zuweisungen eines Wertes für jedes Individuum anhand der Entscheidung der einzelnen Bäume 4 / 53

6 CART - Einleitung Konstruktion Beispiel in R 5 / 53

7 CART - Einleitung Konstruktion Beispiel in R Erstmals beschrieben von Breiman et al. (1993) und erreicht in letzter Zeit immer mehr Popularität als Methode zur Identifizierung von Struktur in hochdimensionalen Datensätzen. Unterscheidung zwischen Klassifikations- und Regressionsbäumen: Classification Trees Klassifikationsbäume für kategoriale Zielgrößen weist jedem Individuum eine Klasse zu (bspw. Wahr oder Falsch ) Regression Trees Regressionsbäume für stetige Zielgrößen weist jedem Individuum einen Wert zu 6 / 53

8 Situation CART - Einleitung Konstruktion Beispiel in R Datensatz n Objekte Zielvariable y = (y 1,..., y n) p potentielle (binäre) Einflussvariablen Beobachtungen X = (x 1,..., x n) T mit x j = (x j1,..., x jp ) Das generelle Interesse liegt darin, den Zusammenhang zwischen X und y herauszufinden 7 / 53

9 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Baumes Idee An jedem Knoten, die dem Knoten zugewiesenen Daten nach der Einflussvariable unterteilen, sodass die beiden entstehenden Gruppen in der Zielvariable jeweils möglichst der selben Klasse angehören Bei jedem Knoten: Suche diejenige Einflussvariable, die die größte Aussagekraft für die Zielvariable liefert, bspw. die j-te unterteile jedes Objekt i nun in zwei Gruppen, anhand x ij x ij = Wert 1 x ij zu linkem Knoten x ij = Wert 2 x ij zu rechtem Knoten Wähle j so, dass Heterogenität innerhalb einer Gruppe minimiert wird 8 / 53

10 CART - Einleitung Konstruktion Beispiel in R 9 / 53

11 Trennung CART - Einleitung Konstruktion Beispiel in R Frage: Wie misst man die Heterogenität? Node Impurity Bezeichne Node Impurity (Knotenunreinheit) I (Ω) als Maß der Heterogenität innerhalb der Menge Ω eines Knotens wähle die Variable, die folgenden Ausdruck maximiert minimiere Φ = I (Ω) I (Ω L ) I (Ω R ) I (Ω L ) + I (Ω R ) 10 / 53

12 Maße für Node Impurity CART - Einleitung Konstruktion Beispiel in R Classification Trees (mit zwei Klassen) Sei p Ω = P(y = 1 Ω): Misclassification error: i(ω) = min(p Ω, 1 p Ω ) Gini index: i(ω) = 2p Ω (1 p Ω ) Deviance: i(ω) = p Ω log(p Ω ) (1 p Ω ) log(1 p Ω ) Regression Trees Üblichste Maßzahl für die Knotenunreinheit ist der Mean Square Error : i(ω) = 1 n Ω i Ω (y i ȳ) 2 11 / 53

13 CART - Einleitung Konstruktion Beispiel in R IsolateName IDV.Fold NFV.Fold P1 P10 P20 P46 P82 1 CA I - I - 2 CA I - I T 3 CA I M - A 4 Hertogs-Pt I Hertogs-Pt I A 6 Hertogs-Pt I R - A 7 Hertogs-Pt A 8 Hertogs-Pt I - - A 50 LBJ10D I d X L Virco-Datensatz (Auszug) 1066 Virus-Isolate, 99 Aminosäure-Positionen Nelfinavir und Indinavir HIV-Proteaseinhibitoren zur Therapie von HIV-1-infizierten Patienten NFV.Fold und IDV.Fold geben die Resistenz gegenüber dem Medikament und dem entsprechenden Isolat (im Vergleich zum Wildtype) an 12 / 53

14 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes > vircourl <- "http://people.umass.edu/foulkes/ asg/data/virco_data.csv" > virco <- read.csv(file=vircourl, header=t, sep=",") > attach(virco) > VircoGeno <- data.frame (virco[,substr(names(virco),1,1)=="p"]!="-") > Trait <- as.factor(idv.fold > NFV.Fold) 13 / 53

15 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes > library(rpart) > ClassTree <- rpart(trait~., method="class", data=vircogeno) > ClassTree n=976 (90 observations deleted due to missingness) node), split, n, loss, yval, (yprob) * denotes terminal node 14 / 53

16 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes 1) root FALSE ( ) 2) P54< FALSE ( ) 4) P76< FALSE ( ) * 5) P76>= TRUE ( ) * 3) P54>= TRUE ( ) 6) P46< FALSE ( ) 12) P1< FALSE ( ) * 13) P1>= TRUE ( ) * 7) P46>= TRUE ( ) 14) P10< FALSE ( ) * 15) P10>= TRUE ( ) 30) P48< TRUE ( ) 60) P20< TRUE ( ) 120) P76< FALSE ( ) * 121) P76>= TRUE ( ) * 61) P20>= TRUE ( ) * 31) P48>= TRUE ( ) * 15 / 53

17 CART - Einleitung Konstruktion Beispiel in R > plot(classtree) > text(classtree) P54< 0.5 P76< 0.5 P46< 0.5 FALSE TRUE P1< 0.5 P10< 0.5 FALSE TRUE FALSE P20< 0.5 P76< 0.5 P48< 0.5 TRUE TRUE FALSE TRUE 16 / 53

18 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Regressionssbaumes > Trait <- NFV.Fold - IDV.Fold > Tree <- rpart(trait~., method="anova", data=vircogeno) > Tree n=976 (90 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root ) P54>= ) P46>= * 5) P46< ) P58< * 11) P58>= * 3) P54< ) P73< * 7) P73>= ) P35< * 15) P35>= * 17 / 53

19 18 / 53

20 Random Forest 19 / 53

21 Random Forest Verfahren zu Klassifikation und Regression von Daten Erstmals vorgestellt von Breiman in Idee Ein Random Forest besteht aus vielen Trees, daher Forest Random da die Bäume zufällig generiert werden Es wird nicht der ganze Datensatz, sondern Bootstrap Lernstichproben genutzt An jedem Knoten nur zufällige Auswahl an Einflussvariablen natürlicher Ansatz Kollinearität zu handhaben 20 / 53

22 Konstruktion Schritt 1 Beginne mit b = 1, dem ersten Baum Wähle zufällig mit zurücklegen n aus n Individuen aus (Bootstrap) und bezeichne diese als Lernstichsprobe Sei n 1 die Anzahl verschiedener Individuen der Lernstichprobe (n n ) Die übrigen n 2 = n n 1 Individuen sind die Out of Bag Daten Im Gegensatz zur Kreuzvalidierung, die verzerrt ist mit unbekantem Bias, ist die Out-of-Bag-Schätzung unverzerrt 21 / 53

23 Algorithmus Schritt 2 Benutze die Lernstichprobe um einen Baum zu generieren Nutze dabei an jedem Knoten nur eine zufällige Auswahl der p Einflussvariablen als mögliche Splitting-Variablen Klassifikation: p Regression: p 3 22 / 53

24 Algorithmus Schritt 3 Nur mit den Out-of-Bag-Daten: a Zeichne die Tree Impurity des gesamten Baumes auf und benenne sie als π b (Tree Impurity ist die Summe der Node Impurities aller Endknoten) b Permutiere x j und zeichne die Tree Impurity auf, benutze dabei die permutierten Daten für jedes j = 1,..., p. Bezeichne diese π bj und definiere die für die j-te Einflussvariable als δ bj = π bj π b 23 / 53

25 Algorithmus Schritt 4 Wiederhole die Schritte (1) bis (3) für b = 2,..., B und berechne δ 1j,..., δ Bj für jedes j 24 / 53

26 Algorithmus Schritt 4 Wiederhole die Schritte (1) bis (3) für b = 2,..., B und berechne δ 1j,..., δ Bj für jedes j Schritt 5 Berechne die Overall-Variable-Importance-Scores für die j-te Einflussvariable als ˆθ j = 1 B B b=1 δ bj 24 / 53

27 Eigenschaften eines Random Forest Random Forest Geeignet bei hochdimensionalen Daten, bei denen die Anzahl der Attribute/Einflussvariablen die Anzahl der beobachteten Objekte übersteigt dennoch robust gegen Überanpassung Quantifiziert die Wichtigkeit einzelner Variablen Gute Performance im Vergleich mit Klassifizierungsmethoden wie z.b. der Diskriminanzanalyse, Support Vector Machines und neuronalen Netzwerken Unverzerrte Schätzung der Fehlerrate Konsistente Schätzung der Zielwerte Vorteil gegenüber einem einzelnen Baum: Einzelner Baum hat hohe Varianz Fehlentscheidung in hohem Knoten zieht sich durch Folgeknoten viele Bäume reduzieren diesen Effekt 25 / 53

28 Entscheidung Klassifikation und Regression findet für jedes Objekt statt: Vorhersage Klassifikationsfall Entscheidung für diejenige Klasse, für die sich die meisten Bäume entscheiden (Bei Gleichstand zufällige Zuweisung) Vorhersage Regressionsfall Entscheidung für den Durchschnitt aller Bäume. In R können neue Daten mit dem Befehl predict(randomforest.object, newdata) klassifiziert werden 26 / 53

29 Berechnung des Outputs Regressionsfall Mean of squared Residuals Wird berechnet aus den OOB-Daten: MSE OOB = 1 n n (y i ȳi OOB ) 2 i=1 Wobei ȳi OOB ist. der Durchschnitt der OOB-Vorhersage für die i-te Beobachtung 27 / 53

30 Berechnung des Outputs Regressionsfall Mean of squared Residuals Wird berechnet aus den OOB-Daten: MSE OOB = 1 n n (y i ȳi OOB ) 2 i=1 Wobei ȳi OOB ist. der Durchschnitt der OOB-Vorhersage für die i-te Beobachtung Percent variance explained Wird berechnet aus: 1 MSE OOB ˆσ 2 y 27 / 53

31 Anwendung in R - Initalisierung der Daten > library(randomforest) > attach(virco) > Trait <- NFV.Fold - IDV.Fold > VircoGeno <- data.frame(virco[,substr(names(virco),1,1) =="P"]!="-") werden in randomforest() nicht zugelassen, daher müssen sie entfernt werden: > Trait.c <- Trait[!is.na(Trait)] > VircoGeno.c <- VircoGeno[!is.na(Trait),] Generierung des : > RegRF <- randomforest(vircogeno.c, Trait.c, importance=true) 28 / 53

32 Anwendung in R - Parametereinstellungen Innerhalb randomforest() soll berechnet werden: importance = TRUE Anzahl zu generierender Bäume: ntree = 500 Anzahl zufällig ausgewählter Variablen an jedem Knoten: mtry =.. Anzahl der Permutationen der OOB-Daten an jedem Baum für : nperm =.. Ausgabe der OOB-Fehlerrate für jeden Baum: do.trace = TRUE 29 / 53

33 Anwendung in R - Regression Random Forest Output > RegRF Call: randomforest(x = VircoGeno.c, y = Trait.c, importance = TRUE) Type of random forest: regression Number of trees: 500 No. of variables tried at each split: 33 Mean of squared residuals: % Var explained: / 53

34 31 / 53

35 Maßzahl (%IncMSE) in R Berechnet durch Permutation der OOB-Daten (Random Forest - Algorithmus Schritt (3) bis (5)): Berechnung der Tree Impurity für jeden Baum (π b ) Fehlerrate für Klassifikation MSE für Regression Tree Impurity nach einzelner Permutation jeder Einflussvariable (π bj ) Berechnung der Differenzen (δ bj = π bj π b ) B Durchschnitt der Differenzen über alle Bäume (ˆθ j = 1 δ B bj ) b=1 als %IncMSE : ˆθ j Standardabweichung der δ bj Falls Standardabweichung gleich Null setze auf Null Alternativ mit importance(regrf) tabellarische Ausgabe für alle Aminosäure-Positionen 32 / 53

36 > varimpplot(regrf,type=1, n.var=20) P35 P54 P73 P36 P84 P94 P63 P20 P72 P48 P1 P2 P15 P88 P30 P95 P14 P82 P58 P %IncMSE 33 / 53

37 Vergleich Zielfunktionswerte Position 35 und Mutation an Position 35 n= keine Mutation an Position 35 n= / 53

38 Vergleich Zielfunktionswerte Position 35 und Mutation an Position 35 n= keine Mutation an Position 35 n= Mutation an Position 57 n= keine Mutation an Position 57 n= / 53

39 35 / 53

40 Umgang mit fehlenden Daten Situation Hochdimensionaler Datensatz einer Genetik-Studie Ausprägung der Zielvariable für jedes Objekt beobachtet Unregelmäßig fehlende Einträge in den Einflussvariablen (z.b. fehlende SNP-Werte) Beispiel: Es fehlt in einem Datensatz mit 1000 Einflussvariablen bei jedem Objekt genau ein Wert Wir wollen dennoch eine Schätzung abgeben können (999 Werte sind bei jedem Objekt vorhanden) 36 / 53

41 Erster Ansatz: Objekte entfernen, die einen oder mehr fehlende Einträge bei den SNPs haben Der verwendbare Datensatz wird wohlmöglich ziemlich klein (oder gar nicht mehr existent) 37 / 53

42 Erster Ansatz: Objekte entfernen, die einen oder mehr fehlende Einträge bei den SNPs haben Der verwendbare Datensatz wird wohlmöglich ziemlich klein (oder gar nicht mehr existent) Zwei Verfahren: a Single Imputation b Multiple Imputation 37 / 53

43 Single Imputation Einschritt-Verfahren Sei x ij fehlender Genotype-Eintrag, für das i-te Individuum und den j-ten SNP Seien g jk die beobachteten Allele bei SNP j mit den relativen Häufigkeiten ˆπ jk Definiere: x ij = 3 g jk 1 { k=1 max (ˆπ jl ) l {1,2,3} } (ˆπ jk ) In R mit na.roughfix(data) Anwendung sollte innerhalb von ethnischen Gruppen oder der Rasse geschehen. 38 / 53

44 Multiple Imputation Intelligenterer Ansatz: Multiple Imputation Zielgröße wird zur Rekonstruktion der fehlenden Werte mitberücksichtigt Mehrschritt-Verfahren Algorithmus: Schritt 1 - entspricht Single Imputation Ersetze jede fehlende Variable mit der häufigsten Ausprägung ihres Genotypes 39 / 53

45 Multiple Imputation Schritt 2 Generiere einen Random Forest und berechne den Proximity Score für jedes Individuenpaar P = 1 p 1,2 p 1,3 p 1,(n 1) p 1,n p 2,1 1 p 2,3 p 2,(n 1) p 2,n p 3,1 p 3,2 1 p 3,(n 1) p 3,n p (n 1),1 p (n 1),2 p (n 1),3 1 p (n 1),n p 4n, 1 p n,2 p 2,3 p 2,(n 1) 1 n n Proximity Score zweier Individuen a und b ist der Anteil der Bäume, bei denen a und b in den selben Endknoten fallen 40 / 53

46 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) 41 / 53

47 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) Schritt 4 Wiederhole die Schritte (2) und (3) mehrfach (in R, standardmäßig 5 Iterationen) 41 / 53

48 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) Schritt 4 Wiederhole die Schritte (2) und (3) mehrfach (in R, standardmäßig 5 Iterationen) Schritt 5 Generiere einen Random Forest mit dem überarbeiteten Datensatz in R mit dem Befehl rfimpute(data, trait) 41 / 53

49 42 / 53

50 Wo werden noch eingesetzt? 43 / 53

51 Wo werden noch eingesetzt? Beispielsweise beim Kreditscoring Kreditscoring Klassifiziert jedem potentiellen Kreditnehmer eine Kreditwürdigkeit, also ob und in welchem Maße diese Person einen Kredit aufnehmen kann. Dies geschieht anhand von Merkmalen dieser Person wie z.b. Alter, Familienstand, etc.. 43 / 53

52 kredit laufkont laufzeit moral verw hoehe sparkont beszeit rate famges Auszug Datensatz Kreditscoring Lernstichprobe einer Süddeutschen Großbank 1000 ehemalige Kreditnehmer, von denen 300 nicht in der Lage waren, ihren Kredit zurückzuzahlen insgesamt 21 Einflussvariablen Zielvariable: 1 = Kredit wurde zurückgezahlt, 0 = Kredit wurde nicht zurückgezahlt 44 / 53

53 Klassifikation Kreditscoring > scoringurl<- "http://www.stat.uni-muenchen.de/service/datenarchiv/ kredit/kredit.asc" > scoring <- read.table(file=scoringurl, header=t) > attach(scoring)> ClassRF > Trait <- as.factor(kredit) > Attrib <- scoring[,2:21] > ClassRFscoring <- randomforest(attrib, Trait, importance=true) 45 / 53

54 Klassifikation Kreditscoring > ClassRFscoring Call: randomforest(x = Attrib, y = Trait, importance = TRUE) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 4 OOB estimate of error rate: 23.9% Confusion matrix: 0 1 class.error hohe Fehlklassifikation für Kunden, die ihren Kredit nicht zurückzahlen konnten niedrige Fehlklassifikation für Kunden, die ihren Kredit zurückzahlen konnten eventuell sollten Einflussvariablen ergänzt werden 46 / 53

55 > varimpplot(regrf,type=1, n.var=15) laufkont laufzeit moral hoehe sparkont buerge alter rate beszeit verm bishkred verw wohn beruf gastarb MeanDecreaseAccuracy 47 / 53

56 48 / 53

57 Geeignet für einen Überblick über hochdimensionale Daten, ohne Variablen vorher zu selektieren Bestimmung einer (nützlich für Modellreduktion) Multiple Imputation als nützliches Werkzeug fehlende Werte zu ergänzen Schnell und einfach zu implementieren 49 / 53

58 Geeignet für einen Überblick über hochdimensionale Daten, ohne Variablen vorher zu selektieren Bestimmung einer (nützlich für Modellreduktion) Multiple Imputation als nützliches Werkzeug fehlende Werte zu ergänzen Schnell und einfach zu implementieren Zitat In fact, they are considered to be one of the most accurate general-purpose learning techniques available. Gérard Biau 49 / 53

59 & Literatur 50 / 53

60 & Literatur Biau, G. (2012). Analysis of a Model. Journal of Machine Learning Research 13, Breiman, L. breiman/randomforests/. ( ) Datensatz Kreditscoring kredit/kredit.html. ( ) Foulkes, A.S. (2009). Applied Statistical Genetics with R: For Population-based Association Studies. Springer, New York. 51 / 53

61 & Literatur Hastie, T., Tibshirani, R. und Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. Auflage, Springer, New York. Liaw, A. und Wiener, M. (2002). Classification and Regression by randomforest. R News Vol 2/3, Liaw, A. und Wiener, M. (2012). Package randomforest. Breiman and Cutler s random forests for classification and regression. randomforest.pdf Core Team (2012)1. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN , URL 52 / 53

62 Nevertheless, the statistical mechanism of true random forests is not yet fully understood and is still under active investigation. Gérard Biau 53 / 53

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern Ergänzung zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Kreditscoring zur Klassifikation von Kreditnehmern Beschreibung des Datensatzes Die Vergabe von Privatkrediten wird von der Bonität der

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern A Beschreibung des Original-Datensatzes Kreditscoring Die vorliegende Datei enthält die Daten aus einer geschichteten Lernstichprobe, welche von einer süddeutschen Großbank durchgeführt wurde. Bei einer

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Seminar im Sommersemester 2012 Modellierung kategorialer Daten

Seminar im Sommersemester 2012 Modellierung kategorialer Daten LMU München, Institut für Statistik, Seminar für angewandte Stochastik Seminar im Sommersemester 2012 Modellierung kategorialer Daten Prof. Dr. G. Tutz; Dipl.-Stat. M. Oelker; Dipl.-Stat. F. Heinzl; Dipl.-Stat.

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden 1 Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Bakk. Peter Holzer peter.holzer@predictive.at

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Kybernetik Systemidentifikation

Kybernetik Systemidentifikation Kberneti Sstemidentifiation Mohamed Oubbati Institut für euroinformati Tel.: +49 73 / 50 2453 mohamed.oubbati@uni-ulm.de 2. 06. 202 Was ist Sstemidentifiation? Der Begriff Sstemidentifiation beschreibt

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Entscheidungsbäume Christoph Sawade/Niels Landwehr Jules Rasetaharison, Tobias Scheffer Entscheidungsbäume Eine von vielen Anwendungen:

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at

Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Anwendung von Ensemble Methoden für Klassifikationsaufgaben Marcus Hudec marcus.hudec@univie.ac.at Österreichische Statistiktage 2011 Graz, 7.- 9. September 2011 Vorbemerkungen Ensemble Methoden für Klassifikationsaufgaben

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Künstliche Neuronale Netze und Data Mining

Künstliche Neuronale Netze und Data Mining Künstliche Neuronale Netze und Data Mining Catherine Janson, icasus GmbH Heidelberg Abstract Der Begriff "künstliche Neuronale Netze" fasst Methoden der Informationstechnik zusammen, deren Entwicklung

Mehr

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Definiere x t = Y t Y t 1. Y t p+1 Sylvia Frühwirth-Schnatter Econometrics III WS 2012/13 1-84 Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung

Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Statistik Über statistische Probleme bei der Analyse von Daten aus dem Bereich der Kraftfahrzeugversicherung Andreas Christmann Universität Dortmund Fachbereich Statistik 44221 Dortmund christmann@statistik.uni-dortmund.de

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Oliver Kuß Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät, Martin-Luther-Universität

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2014, SS 2014 1 Data Mining: Beispiele (1) Hausnummererkennung (Klassifikation) Source: http://arxiv.org/abs/1312.6082,

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

Java Einführung Operatoren Kapitel 2 und 3

Java Einführung Operatoren Kapitel 2 und 3 Java Einführung Operatoren Kapitel 2 und 3 Inhalt dieser Einheit Operatoren (unär, binär, ternär) Rangfolge der Operatoren Zuweisungsoperatoren Vergleichsoperatoren Logische Operatoren 2 Operatoren Abhängig

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Räumliches Data Mining

Räumliches Data Mining Räumliches Data Mining Spatial Data Mining Data Mining = Suche nach "interessanten Mustern" in sehr großen Datensätzen => explorative Datenanlyse auch: Knowledge Discovery in Databases (KDD) verbreitete

Mehr

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining mit der SEMMA Methodik Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG Data Mining Data Mining: Prozeß der Selektion, Exploration und Modellierung großer Datenmengen, um Information

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung M. Kramer 1, F. Biscarini 1, B. Bapst 2, C. Stricker 3, H. Simianer 1 1 Department für Nutztierwissenschaften,

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering

Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering Vortrag zum Paper Results of the Active Learning Challenge von Guyon, et. al. Sören Schmidt Fachgebiet Knowledge Engineering 11.12.2012 Vortrag zum Paper Results of the Active Learning Challenge von Isabelle

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Transformation und Darstellung funktionaler Daten

Transformation und Darstellung funktionaler Daten Transformation und Darstellung funktionaler Daten Seminar - Statistik funktionaler Daten Jakob Bossek Fakultät für Statistik 7. Mai 2012 Übersicht Einleitung Einordnung im Seminar Motivation am Beispiel

Mehr

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden Die Varianzanalyse ohne Messwiederholung Jonathan Harrington Bi8e noch einmal datasets.zip laden Variablen, Faktoren, Stufen Eine Varianzanalyse ist die Erweiterung von einem t- test t- test oder ANOVA

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln Gliederung Bachelorseinar: Graphiken in R Visualisierung Kategorialer Daten Matthias Mitterayer betreut durch Sebastian Kaiser Einführung Institut für Statistik, LMU München 13. Januar 2011 Fazit Visualisierung

Mehr

Objektorientierte Programmierung

Objektorientierte Programmierung Objektorientierte Programmierung 1 Geschichte Dahl, Nygaard: Simula 67 (Algol 60 + Objektorientierung) Kay et al.: Smalltalk (erste rein-objektorientierte Sprache) Object Pascal, Objective C, C++ (wiederum

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

DATENSTRUKTUREN UND ZAHLENSYSTEME

DATENSTRUKTUREN UND ZAHLENSYSTEME DATENSTRUKTUREN UND ZAHLENSYSTEME RALF HINZE Institute of Information and Computing Sciences Utrecht University Email: ralf@cs.uu.nl Homepage: http://www.cs.uu.nl/~ralf/ March, 2001 (Die Folien finden

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi

Motivation. Themenblock: Data Preprocessing. Einsatzgebiete für Data Mining I. Modell von Gianotti und Pedreschi Motivation Themenblock: Data Preprocessing We are drowning in information, but starving for knowledge! (John Naisbett) Was genau ist Datenanalyse? Praktikum: Data Warehousing und Data Mining Was ist Data

Mehr

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011

Graphen: Einführung. Vorlesung Mathematische Strukturen. Sommersemester 2011 Graphen: Einführung Vorlesung Mathematische Strukturen Zum Ende der Vorlesung beschäftigen wir uns mit Graphen. Graphen sind netzartige Strukturen, bestehend aus Knoten und Kanten. Sommersemester 20 Prof.

Mehr

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH

Biostatistische Studienplanung II. Dr. Matthias Kohl SIRS-Lab GmbH Biostatistische Studienplanung II Dr. Matthias Kohl SIRS-Lab GmbH Inhalt Lineare Modelle: Definition und Beispiele KQ- und robuste Schätzer Diagnostik Ausblick: Mixed-Effects Definition des linearen Modells

Mehr

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management

Universität Dortmund Integrating Knowledge Discovery into Knowledge Management Integrating Knowledge Discovery into Knowledge Management Katharina Morik, Christian Hüppe, Klaus Unterstein Univ. Dortmund LS8 www-ai.cs.uni-dortmund.de Overview Integrating given data into a knowledge

Mehr

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen

x 2 x 1 x 3 5.1 Lernen mit Entscheidungsbäumen 5.1 Lernen mit Entscheidungsbäumen Falls zum Beispiel A = {gelb, rot, blau} R 2 und B = {0, 1}, so definiert der folgende Entscheidungsbaum eine Hypothese H : A B (wobei der Attributvektor aus A mit x

Mehr

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É.

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Tardos Janick Martinez Esturo jmartine@techfak.uni-bielefeld.de xx.08.2007 Sommerakademie Görlitz Arbeitsgruppe 5 Gliederung

Mehr

Die Beurteilung von Kreditrisiken mittels künstlicher neuronaler Netze am Beispiel österreichischer KMUs

Die Beurteilung von Kreditrisiken mittels künstlicher neuronaler Netze am Beispiel österreichischer KMUs Die Beurteilung von Kreditrisiken mittels künstlicher neuronaler Netze am Beispiel österreichischer KMUs 1. Klagenfurter KMU Tagung Tanja Schuschnig Alexander Brauneis Institut für Finanzmanagement 25.09.2009

Mehr

Studiendesign und Statistik: Interpretation publizierter klinischer Daten

Studiendesign und Statistik: Interpretation publizierter klinischer Daten Studiendesign und Statistik: Interpretation publizierter klinischer Daten Dr. Antje Jahn Institut für Medizinische Biometrie, Epidemiologie und Informatik Universitätsmedizin Mainz Hämatologie im Wandel,

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in

Mehr

PR Statistische Genetik und Bioinformatik

PR Statistische Genetik und Bioinformatik PR Statistische Genetik und Bioinformatik Johanna Bertl Institut für Statistik und OR, Universität Wien Oskar-Morgenstern-Platz 1/6.344, 1090 Wien, Tel.: 01-4277-38617 johanna.bertl@univie.ac.at, homepage.univie.ac.at/johanna.bertl

Mehr

Vorlesung 2 GRUNDLAGEN

Vorlesung 2 GRUNDLAGEN Vorlesung 2 GRUNDLAGEN Überblick Genetische Faktoren Quantitative Genetik Molekulare Genetik Untersuchungsdesigns 2 Genetische Faktoren Davey-Smith et al., 2007 Genetische Faktoren sind nicht korreliert

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

- k Maximalwerte aus Menge mit n >> k Elementen (Rangfolgebestimmung von Suchmaschinen!) Die typische Operationen:

- k Maximalwerte aus Menge mit n >> k Elementen (Rangfolgebestimmung von Suchmaschinen!) Die typische Operationen: 6 Partiell geordnete binäre Bäume: Heap (Haufen) Motivation für manchen Anwendungen nur partielle Ordnung der Elemente statt vollständiger nötig, z.b. - Prioritätsschlange: nur das minimale (oder maximale)

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt 1. Aufgabenblatt 1

COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt 1. Aufgabenblatt 1 COMMERCIAL BANKING Sommersemester 2002 Wahrenburg / Raupach Aufgabenblatt Aufgabenblatt. (Präsentation zum Kreditscoring) 2. Sie haben einen Kredit an eine börsennotierte Firma XY vergeben. Bestimmen Sie

Mehr

Berechnung von Strukturgleichungsmodellen mit Amos. Im folgenden kurze Einführung: Arbeiten mit Amos Graphics

Berechnung von Strukturgleichungsmodellen mit Amos. Im folgenden kurze Einführung: Arbeiten mit Amos Graphics Oliver Schiling Handout:: Amos 6.0 / Graphics 1 Berechnung von Strukturgleichungsmodellen mit Amos Was kann Amos? Klassische Strukturgleichungsmodelle (Kovarianzstrukturanalysen, Pfadmodelle mit/ohne latente

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002)

3. Entscheidungsbäume. Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) 3. Entscheidungsbäume Verfahren zum Begriffslernen (Klassifikation) Beispiel: weiteres Beispiel: (aus Böhm 2003) (aus Morik 2002) (aus Wilhelm 2001) Beispiel: (aus Böhm 2003) Wann sind Entscheidungsbäume

Mehr

QTL$MAPPING$OF$IMPORTANT$AGRICULTURAL$AND$LIFE$HISTORY$TRAITS$ IN$THE$PLANT$PATHOGENIC$FUNGUS!ZYMOSEPTORIA!TRITICI$ $

QTL$MAPPING$OF$IMPORTANT$AGRICULTURAL$AND$LIFE$HISTORY$TRAITS$ IN$THE$PLANT$PATHOGENIC$FUNGUS!ZYMOSEPTORIA!TRITICI$ $ DISS.ETHNO.22827 QTLMAPPINGOFIMPORTANTAGRICULTURALANDLIFEHISTORYTRAITS INTHEPLANTPATHOGENICFUNGUS!ZYMOSEPTORIA!TRITICI Athesissubmittedtoattainthedegreeof DOCTOROFSCIENCESofETHZURICH (Dr.sc.ETHZurich)

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr