Random Forests. Angewandte Biostatistik mit R. Fabian Knorre Ein Seminar bei Prof. Dr. Jörg Rahnenführer

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Random Forests. Angewandte Biostatistik mit R. Fabian Knorre 26.11.2012. Ein Seminar bei Prof. Dr. Jörg Rahnenführer"

Transkript

1 Angewandte Biostatistik mit R Fabian Knorre Ein Seminar bei Prof. Dr. Jörg Rahnenführer 1 / 53

2 Inhaltsverzeichnis 1 Motivation und Einleitung: Was ist ein... und wozu? 2 CART - Einleitung Konstruktion Beispiel in R / 53

3 Situation Datensatz bspw. aus einer genetischen Studie enthält hochdimensionale Daten: Vielzahl an Einflussvariablen (kann die Anzahl der Individuen auch deutlich übersteigen) kategoriale oder stetige Zielvariable Ziel: Erkennung von Zusammenhängen und Strukturen zwischen den Einfluss- und der Zielvariable ohne vorher Einflussvariablen selektieren zu müssen (Erweiterung des CART-Ansatzes) 3 / 53

4 Woraus besteht ein...? Classification and Regression Tree Ein Wurzelknoten mehrere weitere Knoten und Endknoten jeder Knoten (bis auf Endknoten) teilt sich in zwei weitere Knoten auf Trennung durch Entscheidungsregel bezüglich einer Einflussvariable Jeder Endknoten repräsentiert einen Wert Jedem Individuum wird derjenige Wert des Endknotens zugewiesen, dem es zugeordnet wird 4 / 53

5 Woraus besteht ein...? Classification and Regression Tree Ein Wurzelknoten mehrere weitere Knoten und Endknoten jeder Knoten (bis auf Endknoten) teilt sich in zwei weitere Knoten auf Trennung durch Entscheidungsregel bezüglich einer Einflussvariable Jeder Endknoten repräsentiert einen Wert Random Forest Jedem Individuum wird derjenige Wert des Endknotens zugewiesen, dem es zugeordnet wird besteht aus vielen zufällig generierten Bäumen Zuweisungen eines Wertes für jedes Individuum anhand der Entscheidung der einzelnen Bäume 4 / 53

6 CART - Einleitung Konstruktion Beispiel in R 5 / 53

7 CART - Einleitung Konstruktion Beispiel in R Erstmals beschrieben von Breiman et al. (1993) und erreicht in letzter Zeit immer mehr Popularität als Methode zur Identifizierung von Struktur in hochdimensionalen Datensätzen. Unterscheidung zwischen Klassifikations- und Regressionsbäumen: Classification Trees Klassifikationsbäume für kategoriale Zielgrößen weist jedem Individuum eine Klasse zu (bspw. Wahr oder Falsch ) Regression Trees Regressionsbäume für stetige Zielgrößen weist jedem Individuum einen Wert zu 6 / 53

8 Situation CART - Einleitung Konstruktion Beispiel in R Datensatz n Objekte Zielvariable y = (y 1,..., y n) p potentielle (binäre) Einflussvariablen Beobachtungen X = (x 1,..., x n) T mit x j = (x j1,..., x jp ) Das generelle Interesse liegt darin, den Zusammenhang zwischen X und y herauszufinden 7 / 53

9 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Baumes Idee An jedem Knoten, die dem Knoten zugewiesenen Daten nach der Einflussvariable unterteilen, sodass die beiden entstehenden Gruppen in der Zielvariable jeweils möglichst der selben Klasse angehören Bei jedem Knoten: Suche diejenige Einflussvariable, die die größte Aussagekraft für die Zielvariable liefert, bspw. die j-te unterteile jedes Objekt i nun in zwei Gruppen, anhand x ij x ij = Wert 1 x ij zu linkem Knoten x ij = Wert 2 x ij zu rechtem Knoten Wähle j so, dass Heterogenität innerhalb einer Gruppe minimiert wird 8 / 53

10 CART - Einleitung Konstruktion Beispiel in R 9 / 53

11 Trennung CART - Einleitung Konstruktion Beispiel in R Frage: Wie misst man die Heterogenität? Node Impurity Bezeichne Node Impurity (Knotenunreinheit) I (Ω) als Maß der Heterogenität innerhalb der Menge Ω eines Knotens wähle die Variable, die folgenden Ausdruck maximiert minimiere Φ = I (Ω) I (Ω L ) I (Ω R ) I (Ω L ) + I (Ω R ) 10 / 53

12 Maße für Node Impurity CART - Einleitung Konstruktion Beispiel in R Classification Trees (mit zwei Klassen) Sei p Ω = P(y = 1 Ω): Misclassification error: i(ω) = min(p Ω, 1 p Ω ) Gini index: i(ω) = 2p Ω (1 p Ω ) Deviance: i(ω) = p Ω log(p Ω ) (1 p Ω ) log(1 p Ω ) Regression Trees Üblichste Maßzahl für die Knotenunreinheit ist der Mean Square Error : i(ω) = 1 n Ω i Ω (y i ȳ) 2 11 / 53

13 CART - Einleitung Konstruktion Beispiel in R IsolateName IDV.Fold NFV.Fold P1 P10 P20 P46 P82 1 CA I - I - 2 CA I - I T 3 CA I M - A 4 Hertogs-Pt I Hertogs-Pt I A 6 Hertogs-Pt I R - A 7 Hertogs-Pt A 8 Hertogs-Pt I - - A 50 LBJ10D I d X L Virco-Datensatz (Auszug) 1066 Virus-Isolate, 99 Aminosäure-Positionen Nelfinavir und Indinavir HIV-Proteaseinhibitoren zur Therapie von HIV-1-infizierten Patienten NFV.Fold und IDV.Fold geben die Resistenz gegenüber dem Medikament und dem entsprechenden Isolat (im Vergleich zum Wildtype) an 12 / 53

14 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes > vircourl <- " asg/data/virco_data.csv" > virco <- read.csv(file=vircourl, header=t, sep=",") > attach(virco) > VircoGeno <- data.frame (virco[,substr(names(virco),1,1)=="p"]!="-") > Trait <- as.factor(idv.fold > NFV.Fold) 13 / 53

15 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes > library(rpart) > ClassTree <- rpart(trait~., method="class", data=vircogeno) > ClassTree n=976 (90 observations deleted due to missingness) node), split, n, loss, yval, (yprob) * denotes terminal node 14 / 53

16 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Klassifikationsbaumes 1) root FALSE ( ) 2) P54< FALSE ( ) 4) P76< FALSE ( ) * 5) P76>= TRUE ( ) * 3) P54>= TRUE ( ) 6) P46< FALSE ( ) 12) P1< FALSE ( ) * 13) P1>= TRUE ( ) * 7) P46>= TRUE ( ) 14) P10< FALSE ( ) * 15) P10>= TRUE ( ) 30) P48< TRUE ( ) 60) P20< TRUE ( ) 120) P76< FALSE ( ) * 121) P76>= TRUE ( ) * 61) P20>= TRUE ( ) * 31) P48>= TRUE ( ) * 15 / 53

17 CART - Einleitung Konstruktion Beispiel in R > plot(classtree) > text(classtree) P54< 0.5 P76< 0.5 P46< 0.5 FALSE TRUE P1< 0.5 P10< 0.5 FALSE TRUE FALSE P20< 0.5 P76< 0.5 P48< 0.5 TRUE TRUE FALSE TRUE 16 / 53

18 CART - Einleitung Konstruktion Beispiel in R Konstruktion eines Regressionssbaumes > Trait <- NFV.Fold - IDV.Fold > Tree <- rpart(trait~., method="anova", data=vircogeno) > Tree n=976 (90 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root ) P54>= ) P46>= * 5) P46< ) P58< * 11) P58>= * 3) P54< ) P73< * 7) P73>= ) P35< * 15) P35>= * 17 / 53

19 18 / 53

20 Random Forest 19 / 53

21 Random Forest Verfahren zu Klassifikation und Regression von Daten Erstmals vorgestellt von Breiman in Idee Ein Random Forest besteht aus vielen Trees, daher Forest Random da die Bäume zufällig generiert werden Es wird nicht der ganze Datensatz, sondern Bootstrap Lernstichproben genutzt An jedem Knoten nur zufällige Auswahl an Einflussvariablen natürlicher Ansatz Kollinearität zu handhaben 20 / 53

22 Konstruktion Schritt 1 Beginne mit b = 1, dem ersten Baum Wähle zufällig mit zurücklegen n aus n Individuen aus (Bootstrap) und bezeichne diese als Lernstichsprobe Sei n 1 die Anzahl verschiedener Individuen der Lernstichprobe (n n ) Die übrigen n 2 = n n 1 Individuen sind die Out of Bag Daten Im Gegensatz zur Kreuzvalidierung, die verzerrt ist mit unbekantem Bias, ist die Out-of-Bag-Schätzung unverzerrt 21 / 53

23 Algorithmus Schritt 2 Benutze die Lernstichprobe um einen Baum zu generieren Nutze dabei an jedem Knoten nur eine zufällige Auswahl der p Einflussvariablen als mögliche Splitting-Variablen Klassifikation: p Regression: p 3 22 / 53

24 Algorithmus Schritt 3 Nur mit den Out-of-Bag-Daten: a Zeichne die Tree Impurity des gesamten Baumes auf und benenne sie als π b (Tree Impurity ist die Summe der Node Impurities aller Endknoten) b Permutiere x j und zeichne die Tree Impurity auf, benutze dabei die permutierten Daten für jedes j = 1,..., p. Bezeichne diese π bj und definiere die für die j-te Einflussvariable als δ bj = π bj π b 23 / 53

25 Algorithmus Schritt 4 Wiederhole die Schritte (1) bis (3) für b = 2,..., B und berechne δ 1j,..., δ Bj für jedes j 24 / 53

26 Algorithmus Schritt 4 Wiederhole die Schritte (1) bis (3) für b = 2,..., B und berechne δ 1j,..., δ Bj für jedes j Schritt 5 Berechne die Overall-Variable-Importance-Scores für die j-te Einflussvariable als ˆθ j = 1 B B b=1 δ bj 24 / 53

27 Eigenschaften eines Random Forest Random Forest Geeignet bei hochdimensionalen Daten, bei denen die Anzahl der Attribute/Einflussvariablen die Anzahl der beobachteten Objekte übersteigt dennoch robust gegen Überanpassung Quantifiziert die Wichtigkeit einzelner Variablen Gute Performance im Vergleich mit Klassifizierungsmethoden wie z.b. der Diskriminanzanalyse, Support Vector Machines und neuronalen Netzwerken Unverzerrte Schätzung der Fehlerrate Konsistente Schätzung der Zielwerte Vorteil gegenüber einem einzelnen Baum: Einzelner Baum hat hohe Varianz Fehlentscheidung in hohem Knoten zieht sich durch Folgeknoten viele Bäume reduzieren diesen Effekt 25 / 53

28 Entscheidung Klassifikation und Regression findet für jedes Objekt statt: Vorhersage Klassifikationsfall Entscheidung für diejenige Klasse, für die sich die meisten Bäume entscheiden (Bei Gleichstand zufällige Zuweisung) Vorhersage Regressionsfall Entscheidung für den Durchschnitt aller Bäume. In R können neue Daten mit dem Befehl predict(randomforest.object, newdata) klassifiziert werden 26 / 53

29 Berechnung des Outputs Regressionsfall Mean of squared Residuals Wird berechnet aus den OOB-Daten: MSE OOB = 1 n n (y i ȳi OOB ) 2 i=1 Wobei ȳi OOB ist. der Durchschnitt der OOB-Vorhersage für die i-te Beobachtung 27 / 53

30 Berechnung des Outputs Regressionsfall Mean of squared Residuals Wird berechnet aus den OOB-Daten: MSE OOB = 1 n n (y i ȳi OOB ) 2 i=1 Wobei ȳi OOB ist. der Durchschnitt der OOB-Vorhersage für die i-te Beobachtung Percent variance explained Wird berechnet aus: 1 MSE OOB ˆσ 2 y 27 / 53

31 Anwendung in R - Initalisierung der Daten > library(randomforest) > attach(virco) > Trait <- NFV.Fold - IDV.Fold > VircoGeno <- data.frame(virco[,substr(names(virco),1,1) =="P"]!="-") werden in randomforest() nicht zugelassen, daher müssen sie entfernt werden: > Trait.c <- Trait[!is.na(Trait)] > VircoGeno.c <- VircoGeno[!is.na(Trait),] Generierung des : > RegRF <- randomforest(vircogeno.c, Trait.c, importance=true) 28 / 53

32 Anwendung in R - Parametereinstellungen Innerhalb randomforest() soll berechnet werden: importance = TRUE Anzahl zu generierender Bäume: ntree = 500 Anzahl zufällig ausgewählter Variablen an jedem Knoten: mtry =.. Anzahl der Permutationen der OOB-Daten an jedem Baum für : nperm =.. Ausgabe der OOB-Fehlerrate für jeden Baum: do.trace = TRUE 29 / 53

33 Anwendung in R - Regression Random Forest Output > RegRF Call: randomforest(x = VircoGeno.c, y = Trait.c, importance = TRUE) Type of random forest: regression Number of trees: 500 No. of variables tried at each split: 33 Mean of squared residuals: % Var explained: / 53

34 31 / 53

35 Maßzahl (%IncMSE) in R Berechnet durch Permutation der OOB-Daten (Random Forest - Algorithmus Schritt (3) bis (5)): Berechnung der Tree Impurity für jeden Baum (π b ) Fehlerrate für Klassifikation MSE für Regression Tree Impurity nach einzelner Permutation jeder Einflussvariable (π bj ) Berechnung der Differenzen (δ bj = π bj π b ) B Durchschnitt der Differenzen über alle Bäume (ˆθ j = 1 δ B bj ) b=1 als %IncMSE : ˆθ j Standardabweichung der δ bj Falls Standardabweichung gleich Null setze auf Null Alternativ mit importance(regrf) tabellarische Ausgabe für alle Aminosäure-Positionen 32 / 53

36 > varimpplot(regrf,type=1, n.var=20) P35 P54 P73 P36 P84 P94 P63 P20 P72 P48 P1 P2 P15 P88 P30 P95 P14 P82 P58 P %IncMSE 33 / 53

37 Vergleich Zielfunktionswerte Position 35 und Mutation an Position 35 n= keine Mutation an Position 35 n= / 53

38 Vergleich Zielfunktionswerte Position 35 und Mutation an Position 35 n= keine Mutation an Position 35 n= Mutation an Position 57 n= keine Mutation an Position 57 n= / 53

39 35 / 53

40 Umgang mit fehlenden Daten Situation Hochdimensionaler Datensatz einer Genetik-Studie Ausprägung der Zielvariable für jedes Objekt beobachtet Unregelmäßig fehlende Einträge in den Einflussvariablen (z.b. fehlende SNP-Werte) Beispiel: Es fehlt in einem Datensatz mit 1000 Einflussvariablen bei jedem Objekt genau ein Wert Wir wollen dennoch eine Schätzung abgeben können (999 Werte sind bei jedem Objekt vorhanden) 36 / 53

41 Erster Ansatz: Objekte entfernen, die einen oder mehr fehlende Einträge bei den SNPs haben Der verwendbare Datensatz wird wohlmöglich ziemlich klein (oder gar nicht mehr existent) 37 / 53

42 Erster Ansatz: Objekte entfernen, die einen oder mehr fehlende Einträge bei den SNPs haben Der verwendbare Datensatz wird wohlmöglich ziemlich klein (oder gar nicht mehr existent) Zwei Verfahren: a Single Imputation b Multiple Imputation 37 / 53

43 Single Imputation Einschritt-Verfahren Sei x ij fehlender Genotype-Eintrag, für das i-te Individuum und den j-ten SNP Seien g jk die beobachteten Allele bei SNP j mit den relativen Häufigkeiten ˆπ jk Definiere: x ij = 3 g jk 1 { k=1 max (ˆπ jl ) l {1,2,3} } (ˆπ jk ) In R mit na.roughfix(data) Anwendung sollte innerhalb von ethnischen Gruppen oder der Rasse geschehen. 38 / 53

44 Multiple Imputation Intelligenterer Ansatz: Multiple Imputation Zielgröße wird zur Rekonstruktion der fehlenden Werte mitberücksichtigt Mehrschritt-Verfahren Algorithmus: Schritt 1 - entspricht Single Imputation Ersetze jede fehlende Variable mit der häufigsten Ausprägung ihres Genotypes 39 / 53

45 Multiple Imputation Schritt 2 Generiere einen Random Forest und berechne den Proximity Score für jedes Individuenpaar P = 1 p 1,2 p 1,3 p 1,(n 1) p 1,n p 2,1 1 p 2,3 p 2,(n 1) p 2,n p 3,1 p 3,2 1 p 3,(n 1) p 3,n p (n 1),1 p (n 1),2 p (n 1),3 1 p (n 1),n p 4n, 1 p n,2 p 2,3 p 2,(n 1) 1 n n Proximity Score zweier Individuen a und b ist der Anteil der Bäume, bei denen a und b in den selben Endknoten fallen 40 / 53

46 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) 41 / 53

47 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) Schritt 4 Wiederhole die Schritte (2) und (3) mehrfach (in R, standardmäßig 5 Iterationen) 41 / 53

48 Multiple Imputation Schritt 3 Ersetze jeden fehlenden Wert x ij durch die Genotypausprägung mit dem höchsten durchschnittlichen Proximity Score p k = 1 n k n p il 1 {gjk} (x lj) l=1, (l i) Schritt 4 Wiederhole die Schritte (2) und (3) mehrfach (in R, standardmäßig 5 Iterationen) Schritt 5 Generiere einen Random Forest mit dem überarbeiteten Datensatz in R mit dem Befehl rfimpute(data, trait) 41 / 53

49 42 / 53

50 Wo werden noch eingesetzt? 43 / 53

51 Wo werden noch eingesetzt? Beispielsweise beim Kreditscoring Kreditscoring Klassifiziert jedem potentiellen Kreditnehmer eine Kreditwürdigkeit, also ob und in welchem Maße diese Person einen Kredit aufnehmen kann. Dies geschieht anhand von Merkmalen dieser Person wie z.b. Alter, Familienstand, etc.. 43 / 53

52 kredit laufkont laufzeit moral verw hoehe sparkont beszeit rate famges Auszug Datensatz Kreditscoring Lernstichprobe einer Süddeutschen Großbank 1000 ehemalige Kreditnehmer, von denen 300 nicht in der Lage waren, ihren Kredit zurückzuzahlen insgesamt 21 Einflussvariablen Zielvariable: 1 = Kredit wurde zurückgezahlt, 0 = Kredit wurde nicht zurückgezahlt 44 / 53

53 Klassifikation Kreditscoring > scoringurl<- " kredit/kredit.asc" > scoring <- read.table(file=scoringurl, header=t) > attach(scoring)> ClassRF > Trait <- as.factor(kredit) > Attrib <- scoring[,2:21] > ClassRFscoring <- randomforest(attrib, Trait, importance=true) 45 / 53

54 Klassifikation Kreditscoring > ClassRFscoring Call: randomforest(x = Attrib, y = Trait, importance = TRUE) Type of random forest: classification Number of trees: 500 No. of variables tried at each split: 4 OOB estimate of error rate: 23.9% Confusion matrix: 0 1 class.error hohe Fehlklassifikation für Kunden, die ihren Kredit nicht zurückzahlen konnten niedrige Fehlklassifikation für Kunden, die ihren Kredit zurückzahlen konnten eventuell sollten Einflussvariablen ergänzt werden 46 / 53

55 > varimpplot(regrf,type=1, n.var=15) laufkont laufzeit moral hoehe sparkont buerge alter rate beszeit verm bishkred verw wohn beruf gastarb MeanDecreaseAccuracy 47 / 53

56 48 / 53

57 Geeignet für einen Überblick über hochdimensionale Daten, ohne Variablen vorher zu selektieren Bestimmung einer (nützlich für Modellreduktion) Multiple Imputation als nützliches Werkzeug fehlende Werte zu ergänzen Schnell und einfach zu implementieren 49 / 53

58 Geeignet für einen Überblick über hochdimensionale Daten, ohne Variablen vorher zu selektieren Bestimmung einer (nützlich für Modellreduktion) Multiple Imputation als nützliches Werkzeug fehlende Werte zu ergänzen Schnell und einfach zu implementieren Zitat In fact, they are considered to be one of the most accurate general-purpose learning techniques available. Gérard Biau 49 / 53

59 & Literatur 50 / 53

60 & Literatur Biau, G. (2012). Analysis of a Model. Journal of Machine Learning Research 13, Breiman, L. breiman/randomforests/. ( ) Datensatz Kreditscoring kredit/kredit.html. ( ) Foulkes, A.S. (2009). Applied Statistical Genetics with R: For Population-based Association Studies. Springer, New York. 51 / 53

61 & Literatur Hastie, T., Tibshirani, R. und Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. Auflage, Springer, New York. Liaw, A. und Wiener, M. (2002). Classification and Regression by randomforest. R News Vol 2/3, Liaw, A. und Wiener, M. (2012). Package randomforest. Breiman and Cutler s random forests for classification and regression. randomforest.pdf Core Team (2012)1. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN , URL 52 / 53

62 Nevertheless, the statistical mechanism of true random forests is not yet fully understood and is still under active investigation. Gérard Biau 53 / 53

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014

Lernen von Entscheidungsbäumen. Volker Tresp Summer 2014 Lernen von Entscheidungsbäumen Volker Tresp Summer 2014 1 Anforderungen an Methoden zum Datamining Schnelle Verarbeitung großer Datenmengen Leichter Umgang mit hochdimensionalen Daten Das Lernergebnis

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Algorithms for Regression and Classification

Algorithms for Regression and Classification Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik

Mehr

Prädiktion und Klassifikation mit

Prädiktion und Klassifikation mit Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland /35 Übersicht a. Probleme mit Decision Tree b. Der Random Forests RF c. Implementation

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Kreditscoring zur Klassifikation von Kreditnehmern. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern Ergänzung zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Kreditscoring zur Klassifikation von Kreditnehmern Beschreibung des Datensatzes Die Vergabe von Privatkrediten wird von der Bonität der

Mehr

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining Gliederung 1. Einführung 2. Grundlagen Data Mining Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining 3. Ausgewählte Methoden des Data

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes "Kreditscoring zur Klassifikation von Kreditnehmern"

Datei Kredit.sav, Variablenbeschreibung und Umkodierungen. Variablenübersicht des Datensatzes Kreditscoring zur Klassifikation von Kreditnehmern A Beschreibung des Original-Datensatzes Kreditscoring Die vorliegende Datei enthält die Daten aus einer geschichteten Lernstichprobe, welche von einer süddeutschen Großbank durchgeführt wurde. Bei einer

Mehr

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009

Boosting für Bäume. Seminar Modellwahlkriterien. Holger Rettig. 18. Dezember 2009 Boosting für Bäume Seminar Modellwahlkriterien Holger Rettig 18. Dezember 2009 Holger Rettig (Vortrag 15) Boosting für Bäume 18. Dezember 2009 1 / 43 Gliederung 1 Einführung in CART Motivation Regressionsbäume

Mehr

Imputation (Ersetzen fehlender Werte)

Imputation (Ersetzen fehlender Werte) Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Statistische Matching-Verfahren

Statistische Matching-Verfahren Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Explorative Datenanalyse EDA Auffinden von Strukturen

Mehr

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume

Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer. *Entscheidungsbäume Decision Trees* von Julia Heise, Philipp Thoms, Hans-Martin Wulfmeyer *Entscheidungsbäume Gliederung 1. Einführung 2. Induktion 3. Beispiel 4. Fazit Einführung 1. Einführung a. Was sind Decision Trees?

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

Bioinformatik I (Einführung)

Bioinformatik I (Einführung) Kay Diederichs, Sommersemester 2015 Bioinformatik I (Einführung) Algorithmen Sequenzen Strukturen PDFs unter http://strucbio.biologie.unikonstanz.de/~dikay/bioinformatik/ Klausur: Fr 17.7. 10:00-11:00

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Logistische Regression

Logistische Regression Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation

Mehr

Analytics Entscheidungsbäume

Analytics Entscheidungsbäume Analytics Entscheidungsbäume Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Regression Klassifikation Quellen Regression Beispiel Baseball-Gehälter Gehalt: gering

Mehr

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07

Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Regression Trees Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec marcus.hudec@univie.ac.at Institut für Scientific Computing, Universität Wien 2

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

Data Mining und maschinelles Lernen

Data Mining und maschinelles Lernen Data Mining und maschinelles Lernen Einführung und Anwendung mit WEKA Caren Brinckmann 16. August 2000 http://www.coli.uni-sb.de/~cabr/vortraege/ml.pdf http://www.cs.waikato.ac.nz/ml/weka/ Inhalt Einführung:

Mehr

Objektorientierte Programmierung

Objektorientierte Programmierung Objektorientierte Programmierung 1 Geschichte Dahl, Nygaard: Simula 67 (Algol 60 + Objektorientierung) Kay et al.: Smalltalk (erste rein-objektorientierte Sprache) Object Pascal, Objective C, C++ (wiederum

Mehr

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden Die Varianzanalyse ohne Messwiederholung Jonathan Harrington Bi8e noch einmal datasets.zip laden Variablen, Faktoren, Stufen Eine Varianzanalyse ist die Erweiterung von einem t- test t- test oder ANOVA

Mehr

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

PPC und Data Mining. Seminar aus Informatik LV-911.039. Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28. PPC und Data Mining Seminar aus Informatik LV-911.039 Michael Brugger Fachbereich der Angewandten Informatik Universität Salzburg 28. Mai 2010 M. Brugger () PPC und Data Mining 28. Mai 2010 1 / 14 Inhalt

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert Sommersemester 2009 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen

Mehr

Lineare Regression in R, Teil 1

Lineare Regression in R, Teil 1 Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus

Mehr

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum

4. Lernen von Entscheidungsbäumen. Klassifikation mit Entscheidungsbäumen. Entscheidungsbaum 4. Lernen von Entscheidungsbäumen Klassifikation mit Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch /Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse zugeordnet werden.

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining. Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später

Mehr

Entscheidungsbäume. Minh-Khanh Do Erlangen,

Entscheidungsbäume. Minh-Khanh Do Erlangen, Entscheidungsbäume Minh-Khanh Do Erlangen, 11.07.2013 Übersicht Allgemeines Konzept Konstruktion Attributwahl Probleme Random forest E-Mail Filter Erlangen, 11.07.2013 Minh-Khanh Do Entscheidungsbäume

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Entscheidungsbäume Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen? Definition Entscheidungsbaum Sei T ein Binärbaum und A = {a 1,..., a n } eine zu sortierenden Menge. T ist ein Entscheidungsbaum

Mehr

Statistisches Lernen

Statistisches Lernen Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28

Mehr

3 Quellencodierung. 3.1 Einleitung

3 Quellencodierung. 3.1 Einleitung Source coding is what Alice uses to save money on her telephone bills. It is usually used for data compression, in other words, to make messages shorter. John Gordon 3 Quellencodierung 3. Einleitung Im

Mehr

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion

Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Big Data als neuer Partner von Six Sigma Optimierung der diskreten Produktion Frank Effenberger, Marco Fischer, 22.06.2015, München Agenda Firmenpräsentation Einführung Anwendungsfall Fazit Zahlen und

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Maschinelles Lernen Entscheidungsbäume

Maschinelles Lernen Entscheidungsbäume Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen Entscheidungsbäume Paul Prasse Entscheidungsbäume Eine von vielen Anwendungen: Kreditrisiken Kredit - Sicherheiten

Mehr

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß

Fachgruppe Statistik, Risikoanalyse & Computing. STAT672 Data Mining. Sommersemester 2007. Prof. Dr. R. D. Reiß Fachgruppe Statistik, Risikoanalyse & Computing STAT672 Data Mining Sommersemester 2007 Prof. Dr. R. D. Reiß Überblick Data Mining Begrifflichkeit Unter Data Mining versteht man die Computergestützte Suche

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden

Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden 1 Data Mining im Online Condition Monitoring: Vergleich gängiger statistischer Methoden Bakk. Peter Holzer peter.holzer@predictive.at

Mehr

2. Lernen von Entscheidungsbäumen

2. Lernen von Entscheidungsbäumen 2. Lernen von Entscheidungsbäumen Entscheidungsbäume 2. Lernen von Entscheidungsbäumen Gegeben sei eine Menge von Objekten, die durch Attribut/Wert- Paare beschrieben sind. Jedes Objekt kann einer Klasse

Mehr

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess Definiere x t = Y t Y t 1. Y t p+1 Sylvia Frühwirth-Schnatter Econometrics III WS 2012/13 1-84 Darstellung eines VAR(p)-Prozesses als VAR(1)-Prozess

Mehr

Definition von domänenspezifischen Sprachen mit Xtext: Einführung. 19. November 2014

Definition von domänenspezifischen Sprachen mit Xtext: Einführung. 19. November 2014 Definition von domänenspezifischen Sprachen mit Xtext: Einführung 19. November 2014 Überblick Was ist zu tun, wenn wir selbst einen Ansatz für modellgetriebenen Entwicklung definieren wollen? Anforderungserfassung

Mehr

Einführung in die Computerlinguistik Statistische Grundlagen

Einführung in die Computerlinguistik Statistische Grundlagen Statistik 1 Sommer 2015 Einführung in die Computerlinguistik Statistische Grundlagen Laura Heinrich-Heine-Universität Düsseldorf Sommersemester 2015 Statistik 2 Sommer 2015 Überblick 1. Diskrete Wahrscheinlichkeitsräume

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS

Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS Birgit Hay Silvia Sander Schwabstraße 13 Schwabstraße 13 89070 Ulm 89070 Ulm Birgit.Hay@uni-ulm.de Silvia.Sander@uni-ulm.de

Mehr

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein:

a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: 1 Aufgabe 8.1 (P) (2, 3)-Baum a) Fügen Sie die Zahlen 39, 38, 37 und 36 in folgenden (2, 3)-Baum ein: Zeichnen Sie, was in jedem Schritt passiert. b) Löschen Sie die Zahlen 65, 70 und 100 aus folgendem

Mehr

Kybernetik Systemidentifikation

Kybernetik Systemidentifikation Kberneti Sstemidentifiation Mohamed Oubbati Institut für euroinformati Tel.: +49 73 / 50 2453 mohamed.oubbati@uni-ulm.de 2. 06. 202 Was ist Sstemidentifiation? Der Begriff Sstemidentifiation beschreibt

Mehr

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung

Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten am Beispiel der Kreditwürdigkeitsprüfung Prof. Dr. Gerhard Arminger Dipl.-Ök. Alexandra Schwarz Bergische Universität Wuppertal Fachbereich Wirtschaftswissenschaft Fach Statistik Automatische Mustererkennung zur Klassifikation von Konsumentenverhalten

Mehr

6.2 Scan-Konvertierung (Scan Conversion)

6.2 Scan-Konvertierung (Scan Conversion) 6.2 Scan-Konvertierung (Scan Conversion) Scan-Konvertierung ist die Rasterung von einfachen Objekten (Geraden, Kreisen, Kurven). Als Ausgabemedium dient meist der Bildschirm, der aus einem Pixelraster

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Seminar im Sommersemester 2012 Modellierung kategorialer Daten

Seminar im Sommersemester 2012 Modellierung kategorialer Daten LMU München, Institut für Statistik, Seminar für angewandte Stochastik Seminar im Sommersemester 2012 Modellierung kategorialer Daten Prof. Dr. G. Tutz; Dipl.-Stat. M. Oelker; Dipl.-Stat. F. Heinzl; Dipl.-Stat.

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É.

Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Scheduling und Lineare ProgrammierungNach J. K. Lenstra, D. B. Shmoys und É. Tardos Janick Martinez Esturo jmartine@techfak.uni-bielefeld.de xx.08.2007 Sommerakademie Görlitz Arbeitsgruppe 5 Gliederung

Mehr

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung

Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung Einfluss der genetischen Architektur auf die empirische Genauigkeit der genomischen Zuchtwertschätzung M. Kramer 1, F. Biscarini 1, B. Bapst 2, C. Stricker 3, H. Simianer 1 1 Department für Nutztierwissenschaften,

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume? Bernhard Ganter Institut für Algebra TU Dresden D-01062 Dresden bernhard.ganter@tu-dresden.de WS 2013/14 Isomorphie Zwei Graphen (V 1, E 1 ) und (V

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln Gliederung Bachelorseinar: Graphiken in R Visualisierung Kategorialer Daten Matthias Mitterayer betreut durch Sebastian Kaiser Einführung Institut für Statistik, LMU München 13. Januar 2011 Fazit Visualisierung

Mehr

Item-based Collaborative Filtering

Item-based Collaborative Filtering Item-based Collaborative Filtering Paper presentation Martin Krüger, Sebastian Kölle 28.04.2011 Seminar Collaborative Filtering KDD Cup 2011: Aufgabenbeschreibung Track 1 Item-based Collaborative Filtering

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Aufgabe 2: Anzahl Erdbeben als Funktion der Zeit

Aufgabe 2: Anzahl Erdbeben als Funktion der Zeit Übung 2 Analyse von Zeitreihen in der Umweltphysik und Geophysik 1 Aufgabe 2: Anzahl Erdbeben als Funktion der Zeit In dieser Übung wollen wir der Frage nachgehen, was war die Anzahl Erdbeben mit M>1 pro

Mehr

Komplexe Analyse von Wahldaten am Beispiel der Wahlen in Deutschland zwischen 1924 und 1933

Komplexe Analyse von Wahldaten am Beispiel der Wahlen in Deutschland zwischen 1924 und 1933 Komplexe Analyse von Wahldaten am Beispiel der Wahlen in Deutschland zwischen 1924 und 1933 André Klima1, Helmut Küchenhoff1, Paul W. Thurner2 1 Statistisches Beratungslabor, Institut für Statistik 2 Geschwister-Scholl-Institut

Mehr

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt

Rekursionen. Georg Anegg 25. November 2009. Methoden und Techniken an Beispielen erklärt Methoden und Techniken an Beispielen erklärt Georg Anegg 5. November 009 Beispiel. Die Folge {a n } sei wie folgt definiert (a, d, q R, q ): a 0 a, a n+ a n q + d (n 0) Man bestimme eine explizite Darstellung

Mehr

Kaplan-Meier-Schätzer

Kaplan-Meier-Schätzer Kaplan-Meier-Schätzer Ausgangssituation Zwei naive Ansätze zur Schätzung der Survivalfunktion Unverzerrte Schätzung der Survivalfunktion Der Kaplan-Meier-Schätzer Standardfehler und Konfidenzintervall

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode? Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2

Mehr

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten Teil

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Methoden zur Cluster - Analyse

Methoden zur Cluster - Analyse Kapitel 4 Spezialvorlesung Modul 10-202-2206 (Fortgeschrittene Methoden in der Bioinformatik) Jana Hertel Professur für Bioinformatik Institut für Informatik Universität Leipzig Machine learning in bioinformatics

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Der Verhältnisschätzer - Ratio estimator Beispiel: Schätzung der Anzahl Objekte (Bäume) in einem bestimmten Gebiet. Situation: Die Fläche ist unterteilt in Streifen / Transekte. Man wählt zufällig n =

Mehr

Null-Werte in Relationalen Datenbanken

Null-Werte in Relationalen Datenbanken Seminar: Imperfektion in Datenbanken WS03/04 Null-Werte in Relationalen Datenbanken Thomas Bierhance Einführung Null-Werte in DBen sind notwendiges Übel, da... (1) das Wissen über die tatsächliche Welt

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

riskkv Scorenalyse riskkv Scoring Seite 1 von 9 riskkv Scorenalyse riskkv Scoring Seite 1 von 9 Das Modul dient der flexiblen Erstellung, Auswertung und Verwendung von Scores. Durch vordefinierte Templates können in einer Einklicklösung bspw. versichertenbezogene

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Data Mining Approaches for Instrusion Detection Espen Jervidalo WS05/06 KI - WS05/06 - Espen Jervidalo 1 Overview Motivation Ziel IDS (Intrusion Detection System) HIDS NIDS Data

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric

Mehr

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014

Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Übungsblatt LV Künstliche Intelligenz, Data Mining (1), 2014 Aufgabe 1. Data Mining a) Mit welchen Aufgabenstellungen befasst sich Data Mining? b) Was versteht man unter Transparenz einer Wissensrepräsentation?

Mehr