6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Größe: px
Ab Seite anzeigen:

Download "6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression"

Transkript

1 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell: yi = x i β + ɛi mit E(ɛ) = 0, ɛi, ɛj unabhängig für i j. Für die binäre Zielgröße Y gilt dann: Die logistische Regression ist ein Spezialfall des Generalisierten Linearen Modells (GLM), ist ein spezielles Klassifikationsverfahren, wird in der Praxis sehr häufig verwendet, obwohl andere Verfahren oft (aber nicht immer) verständlicher, theoretisch einfacher oder performanter sind. πi := P(yi = 1 xi) = E(yi xi) = x i β. Leider kann x i β auch Werte außerhalb von [0, 1] annehmen. Deshalb wird die Wahrscheinlichkeit P(Y = 1 x, β) mit Hilfe einer Verteilungsfunktion F (η) modelliert, da die Werte von F in [0, 1] liegen: π1 = P(Y = 1 x, β) = F (x β) (3) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Das binäre Modell 6.1 Das binäre Modell 6.1 Das binäre Modell Ziel ist zunächst die Erklärung einer binären Zielgröße Y {0, 1} mit Hilfe eines Vektors von Einflussgrößen X R p, d.h. wir beschränken uns hier auf 2 Klassen. 6.1 Das binäre Modell 6.1 Das binäre Modell Bemerkung 1: Dies stellt einen Sonderfall der generalisierten linearen Modelle (GLM) dar (vgl. Fahrmeir und Hamerle, 1983), bei denen anstelle von F (η) eine beliebige umkehrbare Funktion h(η) (inverse Link-Funktion) verwendet wird. und π1 auch eine metrische Zielgröße sein darf. Bemerkung 2: Wählt man für F (η) die Verteilungsfunktion der Standardnormalverteilung Φ(η), dann erhält man das binäre Probit-Modell. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

2 6.1 Das binäre Modell 6.1 Das binäre Modell Beim binären Logit wird für F (η) die Verteilungsfunktion der standardisierten logistischen Verteilung Logist(η) = exp(η) 1 + exp(η) verwendet. Man erhält dann als Modell: (4) π1 = P(Y = 1 x, β) = exp(x β) 1 + exp(x β). (5) Hier wird die a posteriori Eintrittswahrscheinlichkeit direkt modelliert und daher müssen die a priori-wahrscheinlichkeiten der Klassen nicht geschätzt werden, wie z.b. bei der linearen Diskriminanzanalyse. 6.2 Eigenschaften 6.2 Eigenschaften 6.2 Eigenschaften Mit der Wahrscheinlichkeit für das Eintreten eines Ereignisses ist der Begriff der Chance (odds) eng verbunden (Tutz, 2000). Die Chance 1. Ordnung ist das Verhältnis der Eintrittswahrscheinlichkeit zu ihrer Gegenwahrscheinlichkeit P(Y = 1 x) γ(x) = P(Y = 0 x) = π(x) 1 π(x) Eine Chance von 3:1 entspricht γ(x) = 3, π(x) = 0.75 und 1 π(x) = (6) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Das binäre Modell 6.1 Das binäre Modell 6.2 Eigenschaften 6.2 Eigenschaften Üblicherweise erfolgt die Klassifikation über einen Schwellenwert τ: Ist ˆπ1 > τ, dann wird Kategorie 1 prognostiziert, ansonsten Kategorie 0. Verwendet man den Schwellenwert 0.5, dann ist dies äquivalent zur Auswahl der Kategorie mit der größten Eintrittswahrscheinlichkeit. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Im binären Logit-Modell ist die Chance γ(x) = π1 = 1 π1 exp(x β) 1+exp(x β) 1 1+exp(x β) = exp(x β) (7) Logarithmiert man die Chance, dann erhält man die so genannten Logits ( ) π1 Logit(x) = ln = x β (8) 1 π1 Im Wesentlichen wird also durch das binäre Logit-Modell eine Regression der logarithmierten Chancen auf die unabhängigen Variablen beschrieben. Problem: Da die Eintrittswahrscheinlichkeiten π1 = P(Y = 1 x, β) nicht beobachtet werden, kann der von der Regression bekannte Kleinste-Quadrate-Schätzer nicht direkt angewandt werden. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

3 6.3 Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip 6.3 Einschub: ML Prinzip Erläuterung des Maximum Likelihood Prinzips am Beispiel einer diskreten Verteilung: Gesucht: Schätzung für Parameter θ einer diskreten Verteilung Bestimme Wahrscheinlichkeit für das Auftreten der Stichprobe x1,..., xn unter der Annahme einer jeden der in Frage kommenden Verteilungen. ML-Schätzer := derjenige Parameter der Verteilung, der die größte Wahrscheinlichkeit für die beobachtete Stichprobe liefert (maximale Mutmaßlichkeit). Bei dieser Verteilung ist die beobachtete Stichprobe also am ehesten zu erwarten. 6.3 Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip Beispiel: Fortsetzung Das ist schwierig zu maximieren, daher nehmen wir den Logarithmus, der zur log-likelihood führt, die leichter differenzierbar ist. Die erste Ableitung wird gleich Null gesetzt, um ˆp zu bestimmen: ( ) n log L(p) = log + k log p + (n k) log(1 p) k (log L(ˆp)) = (n k) kˆp (1 ˆp) = 0 (n k) (1 ˆp) = kˆp nˆp kˆp = k kˆp ˆp = k/n = 2475/16386 Anschließend wird überprüft, ob die zweite Ableitung negativ ist. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip Beispiel: Bei der Stichprobe der Personen (davon 2475 Raucher) im Blutdruckdatensatz wird untersucht, ob sie rauchen. Es soll nun das p der Bernoulliverteilung (Binomialverteilung mit einer Wiederholung, B(1,p)) geschätzt werden. Annahme: Die Xi sind u.i.v. B(1, p). Die Likelihood für p ist gegeben durch die Wahrscheinlichkeit, dass x1,..., xn auftritt, wenn Parameter p vorliegt: ( ) n L(p) := P(x1,..., xn p) = p x (1 p) n x x n mit x = xi = 2475, n = i=1 6.4 Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood 6.4 Parameter-Schätzung Likelihood und Log-Likelihood-Funktion Die Schätzung des Parametervektors β erfolgt in der Regel mit Hilfe der Maximum-Likelihood-Methode (ML-Methode). Beim zugrunde liegenden Bernoulli-Experiment gilt: P(Y = y) = π y 1 (1 π1)1 y (9) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

4 6.4 Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood Die Likelihood-Funktion bei einer Stichprobe (yi, x i ), i = 1,..., n, unter der Annahme der unabhängigen identischen Verteilung ergibt sich damit als: mit πi1 = Logist(x i β). n L(β) = π yi i1 (1 πi1)1 yi (10) i=1 Die Log-Likelihood-Funktion ist dann n ln L(β) = yi ln(πi1) + (1 yi) ln(1 πi1). (11) i=1 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Einschub: Nichtlineare Optimierung: Wir verwenden ein iteratives Verfahren zur Maximierung einer nichtlinearen Zielfunktion S(θ). Gegeben sei ein Punkt θn im Koeffizientenraum. Dann suchen wir eine Richtung δ, in der S(θ) steigt (uphill). Dabei müssen wir allerdings einerseits darauf achten, dass wir in einer solchen Richtung nicht zu weit vorangehen, weil uns das u. U. über den Maximalpunkt in dieser Richtung hinausführt, d.h. wieder den Berg hinab (downhill). Andererseits wären zu kleine Schritte natürlich ineffizient. Mit anderen Worten, wir müssen eine angemessene Schrittlänge t und eine Schrittrichtung δ finden, so dass S(θn + tδ) > S(θn). (13) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood Zur Maximierung muss als notwendige (nicht hinreichende!) Bedingung der Vektor der ersten Ableitungen (Gradient) gleich dem Nullvektor gesetzt werden: ln L(β) β! = 0. (12) Da πi1 eine nichtlineare Funktion von β ist, muss dies mit Hilfe einer numerische Maximierungsmethode erfolgen. Bei ML-Schätzungen von GLM verwendet man üblicherweise dazu das Fisher-Scoring-Verfahren (vgl. Fahrmeir und Hamerle, 1983) oder den IWLS (Iterative Weighted Least Squares) Algorithmus. 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Wenn δ eine uphill Richtung ist, wird ein kleiner Schritt in dieser Richtung sicher zu einer Vergrößerung der Zielfunktion führen. Wir suchen also nach einem δ, so dass S(θn + tδ) eine steigende Funktion von t ist für t genügend nahe bei Null, d.h. d[s(θn + tδ)] dt t=0 = [ S θ θn ] [ d(θ + tδ) dt t=0 ] = [ S θ θn ] δ > 0. (14) Wenn wir den Gradienten der Zielfunktion S θ durch γn θn abkürzen, dann ist es klar, dass wir δ = Pnγn wählen können, wobei Pn irgendeine positiv definite Matrix ist, d.h. γ Pnγ > 0 für alle Vektoren γ 0, also γ n = γ npγn > 0, wenn γn 0. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

5 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Für γn = 0 können wir hoffen, dass wir das Maximum in dieser Richtung erreicht haben. Daraus ergibt sich als allgemeine Form der Iteration: θn+1 = θn + tnpnγn, wobei tn die Schrittlänge in der n-ten Iteration ist. Offenbar gibt es viele uphill Richtungen in dem Gebirge allgemeiner Zielfunktionen S, nämlich mindestens so viele wie positiv definite Matrizen. Da wir im Allg. nicht a-priori einschätzen können, welche Richtung optimal ist, werden in der Literatur viele verschiedene Richtungen vorgestellt. Eine mögliche Wahl für P ist das Negative der Hessematrix (Newton-Raphson-Methode). Allgemein wird die Hessematrix jedoch nicht negativ definit sein außerhalb einer kleinen Umgebung des Maximums. 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Qm = E(Hm) = E ( 2 ln L( ˆβ ) (m) ) β β die Fisher-Informationsmatrix (gleich dem negativen Erwartungswert der Hesse-Matrix). Das Verfahren unterscheidet sich vom Newton-Raphson-Verfahren darin, dass anstelle der Hesse-Matrix deren Erwartungswert verwendet wird. Die Elemente des Score-Vektors ergeben sich für die angegebene Log-Likelihood-Funktion in Matrix-Schreibweise: sm = X (y ˆπm), wobei X := ((xij)), ˆπm := (πi1( ˆβ (m) )). (ohne Beweis, siehe Literatur). (17) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Fisher-Scoring Ausgehend von einem Startvektor ˆβ (0) wird die Iteration ˆβ (m) = ˆβ (m 1) + Qm 1 1 sm 1 (15) mit m = 1, 2,... solange durchgeführt, bis sm 1 nahe genug am Nullvektor ist oder bis keine Veränderung mehr erfolgt. Dabei ist sm = ln L( ˆβ (m) ) β der Gradientenvektor (Score-Vektor) und (16) 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Die Fisher-Informationsmatrix lässt sich schreiben als: Qm = n πi1( ˆβ (m) )(1 πi1( ˆβ (m) )) xi x i = X VmX (18) i=1 mit ˆπ (m) 11 (1 ˆπ(m) 11 ) ˆπ (m) Vm = 21 (1 ˆπ(m) 21 ) ˆπ (m) n1 (1 ˆπ(m) n1 ) (19) (ohne Beweis, siehe Literatur). Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

6 6.5 Beispiel 6.5 Anwendung der logist. Regression 6.5 Beispiel 6.5 Anwendung der logist. Regression 6.5 Beispiel Ausgabe: Call: glm(formula = raucher ~ messwert_bp_sys + messwert_bp_dia + geschlecht, family = binomial, data = Blutdruck) Bemerkung: Die Matrix Q wird im Fisher-Scoring invertiert. Dazu muss gelten: 0 < ˆπ < 1. Eine perfekte Trennung der Klassen führt also zu Problemen. Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** messwert_bp_sys e-09 *** messwert_bp_dia e-08 *** geschlechtm Signif. codes: *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Number of Fisher Scoring iterations: 4 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Beispiel 6.5 Anwendung der logist. Regression Beispiel für logistische Regression in R: Kann aus Blutdruck (systolisch + diastolisch) und Geschlecht auf Raucher vs. Nichtraucher geschlossen werden? Vermutlich nicht gut, aber es gibt interessante Einsichten... s <- sample(1:nrow(blutdruck), 1000) glmobj <- glm(raucher ~ messwert_bp_sys + messwert_bp_dia + geschlecht, data = Blutdruck[-s,], family = binomial) summary(glmobj) # Ausgabe auf nächster Folie hist(predict(glmobj, newdata = Blutdruck[s,], type = "response")) 6.5 Beispiel 6.5 Anwendung der logist. Regression Wahrscheinlichkeit für Raucher bei 1000 Testfällen. Raucher können durch die benutzen Variablen nicht besonders sicher erklärt werden, denn die maximale Wahrscheinlichkeit ist knapp über 20%: Anzahl a posteriori Wahrscheinlichkeiten für Raucher Raucher: 2475 Nichtraucher: Bayes: a posteriori W. für Raucher Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges:

7 6.6 Interpretation 6.6 Interpretation der logist. Regression 6.6 Interpretation Die Elemente des geschätzten Koeffizientenvektors ˆβ lassen sich direkt nur schlecht interpretieren. Stattdessen interpretiert man meistens exp(ˆβ), das äquivalent ist zum Odds Ratio. Definition: Das Odds Ratio für Wahrscheinlichkeiten p1, p2 ist definiert als: p1/(1 p1) p2/(1 p2). 6.6 Interpretation 6.6 Interpretation der logist. Regression Eine Koeffizientenschätzung von βi = 0 bedeutet also ein Odds Ratio von 1: Das Risiko für Klasse 1 gegen Klasse 0 ändert sich nicht mit Xi. Eine Koeffizientenschätzung von βi = 1 bedeutet also ein Odds Ratio von exp(1), das Risiko für Klasse 1 gegen Klasse 0 erhöht sich also mit der erklärenden Variablen um den entsprechenden Faktor. Eine Koeffizientenschätzung von βi = 1 bedeutet also ein Odds Ratio von exp( 1), das Risiko für Klasse 1 gegen Klasse 0 verringert sich also mit der erklärenden Variablen um den entsprechenden Faktor. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Interpretation 6.6 Interpretation der logist. Regression Es gilt nämlich: ( ) P(Y = 1 Xi = 1; X1,..., Xi 1, Xi+1,..., Xp) P(Y = 0 Xi = 1; X1,..., Xi 1, Xi+1,..., Xp) exp(βi) = ( ). P(Y = 1 Xi = 0; X1,..., Xi 1, Xi+1,..., Xp) P(Y = 0 Xi = 0; X1,..., Xi 1, Xi+1,..., Xp) (In der R Ausgabe findet man den zugehörigen Test auf H0 : βi = 0 bzw. H0 : exp(β) = 1.) Es folgt eine kleine Fallstudie in R. Daten aus dem UCI repository of machine learning databases. Eine Gesamtheit von mindestens 21 Jahre alten Frauen des Pima Indianerstamms, die bei Phoenix, Arizona, USA leben und gemäß WHO Kriterien auf Diabetes getestet wurden. n = 768 Beobachtungen Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

8 Variable Beschreibung pregnant Anz. Schwangerschaften glucose Glukose Konzentration laut oralem Glukose-Toleranz Test pressure Blutdruck (mm Hg) triceps Triceps Hautfaltendicke (mm) insulin Insulin im Serum (µ U/ml) mass BMI (kg/m 2 ) pedigree Diabetes Vererbungs Index age Alter (in Jahren) Diabetestest > hist(pimaindiansdiabetes$mass, main = "") > hist(pimaindiansdiabetes$glucose, main = "") Frequency Frequency PimaIndiansDiabetes$mass PimaIndiansDiabetes$glucose Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > data("pimaindiansdiabetes", package = "mlbench") > summary(pimaindiansdiabetes) > plot( ~ glucose, data = PimaIndiansDiabetes) pregnant glucose pressure triceps Min. : Min. : 0.0 Min. : 0.0 Min. : st Qu.: st Qu.: st Qu.: st Qu.: 0.00 Median : Median :117.0 Median : 72.0 Median :23.00 Mean : Mean :120.9 Mean : 69.1 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:32.00 Max. : Max. :199.0 Max. :122.0 Max. :99.00 insulin mass pedigree age Min. : 0.0 Min. : 0.00 Min. : Min. :21.00 neg:500 1st Qu.: 0.0 1st Qu.: st Qu.: st Qu.:24.00 pos:268 Median : 30.5 Median :32.00 Median : Median :29.00 Mean : 79.8 Mean :31.99 Mean : Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:41.00 Max. :846.0 Max. :67.10 Max. : Max. : glucose Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

9 Viele Messungen sind so nicht möglich und sollten auf fehlend gesetzt werden. Nach Wahba et al. (1995) ignorieren wir fortan insulin and die 0 Beobachtungen in mass und glucose. > plot( ~ pregnant, data = pid) > pid <- subset(pimaindiansdiabetes[, -5], + mass > 0 & glucose > 0) > dim(pid) [1] Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ glucose, data = pid) pregnant Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ pressure, data = pid) glucose pressure Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

10 > plot( ~ triceps, data = pid) > plot( ~ pedigree, data = pid) triceps Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ mass, data = pid) pedigree Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ age, data = pid) mass age Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

11 Für die Modellevaluation nehmen wir hier zunächst einen ganz einfachen, groben Ansatz: Wir teilen die Daten in einen Lerndatensatz mit 500 Beobachtungen (etwa 2/3) und einen Testdatensatz mit 252 Beobachtungen, um hinterher zu evaluieren. > set.seed( ) > pid_index <- sample(1:nrow(pid)) > pid_learn <- pid[pid_index[1:500], ] > pid_test <- pid[pid_index[-(1:500)], ] > pred_true <- pid_test$ > pid_test <- pid_test[, -8] Später werden noch ausgefeiltere Methoden zur Evaluation vorgestellt. > summary(pid_glm) Estimate Std. Error z value Pr(> z ) (Intercept) < 2.2e-16 *** pregnant ** glucose < 2.2e-16 *** pressure triceps mass e-06 *** pedigree * age Signif. codes: 0 *** ** 0.01 * Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Als Startmodell nehmen wir eben eine logistische Regression (also Binomialfamilie mit Logit link Funktion) uns alle zur Verfügung stehende Variablen als erlkärende Haupteffekte: > pid_glm <- glm( ~., data = pid_learn, + family = binomial) Dieses Modell wollen wir nun schrittweise per Modellselektion nach dem AIC Kriterium verbessern. > pid_glm <- step(pid_glm) > summary(pid_glm) Estimate Std. Error z value Pr(> z ) (Intercept) < 2.2e-16 *** pregnant e-05 *** glucose < 2.2e-16 *** pressure mass e-07 *** pedigree * --- Signif. codes: 0 *** ** 0.01 * Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

12 Zur Beurteilung der Anpassungsgüte können wir die angepassten Werte (fitted()) mit den beobachteten y vergleichen. Weil das auf den Originalbeobachtungen aber zu optimistisch sein wird, sollte man auch die vorhergesagten (predict()) Werte des Testdatensatzes anschauen. > pred_glm <- predict(pid_glm, newdata = pid_test, + type = "response") > plot(pred_glm ~ pred_true) pred_glm neg pos pred_true Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot(fitted(pid_glm) ~, data = pid_learn) Ausserdem kann man die beobachteten Klassen mit vorhergesagten Wahrscheinlichkeiten vergleichen, indem man von den Wahrscheinlichkeiten zur Klassifikation übergeht: fitted(pid_glm) > pred_glm <- factor(pred_glm > 0.5, + labels = c("neg", "pos")) > (tab <- table(true = pred_true, pred = pred_glm)) pred true neg pos > 1 - sum(diag(tab))/sum(tab) neg pos [1] Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

13 6.8 Literatur 6.8 Literatur Logistische Regression Anderson, J.A. (1982): Logistic Discrimination. In: P.R. Krishnaiah und L.N. Kanal (Hrsg.): Handbook of Statistics, Volume 2. North Holland Publishing Company, Amsterdam. Fahrmeir, L. und Hamerle, A. (1983): Multivariate statistische Verfahren. de Gruyter, Berlin. Tutz, G. (2000): Die Analyse kategorialer Daten. Oldenbourg Verlag, München. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung Berichte aus der Statistik Jens Kahlenberg Storno und Profitabilität in der Privathaftpflichtversicherung Eine Analyse unter Verwendung von univariaten und bivariaten verallgemeinerten linearen Modellen

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil Name, Vorname Matrikelnr. Studiengang E-Mail-Adresse Unterschrift

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

4 Binäre Regressionsmodelle, Folien 2

4 Binäre Regressionsmodelle, Folien 2 4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Parametrische Statistik

Parametrische Statistik Statistik und ihre Anwendungen Parametrische Statistik Verteilungen, maximum likelihood und GLM in R Bearbeitet von Carsten F. Dormann 1. Auflage 2013. Taschenbuch. xxii, 350 S. Paperback ISBN 978 3 642

Mehr

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist Frage Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist k a F (x) =1 k>0,x k x Finden Sie den Erwartungswert und den Median der Dichte für a>1. (Bei

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Optimalitätskriterien

Optimalitätskriterien Kapitel 4 Optimalitätskriterien Als Optimalitätskriterien bezeichnet man notwendige oder hinreichende Bedingungen dafür, dass ein x 0 Ω R n Lösung eines Optimierungsproblems ist. Diese Kriterien besitzen

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Einführung in die Mathematik für Volks- und Betriebswirte

Einführung in die Mathematik für Volks- und Betriebswirte Einführung in die Mathematik für Volks- und Betriebswirte Von Prof. Dr. Heinrich Bader und Prof. Dr. Siegbert Fröhlich Mit 45 A bbildungen 8. A uflage R. Oldenbourg Verlag München Wien INHALTSVERZEICHNIS

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders

Mehr

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Regressionsmodelle für kategoriale Daten und Zähldaten

Regressionsmodelle für kategoriale Daten und Zähldaten Kapitel 8 Regressionsmodelle für kategoriale Daten und Zähldaten Das Modell der linearen Regression und Varianzanalyse (vgl. Abschn. 6.3, 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM,

Mehr

Mathematik 1 für Wirtschaftsinformatik

Mathematik 1 für Wirtschaftsinformatik Mathematik 1 für Wirtschaftsinformatik Wintersemester 2012/13 Hochschule Augsburg : Gliederung 7 Folgen und Reihen 8 Finanzmathematik 9 Reelle Funktionen 10 Differenzieren 1 11 Differenzieren 2 12 Integration

Mehr

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Logistische Regression

Logistische Regression Grundideen Logistische Regression Exkurs Logistische Regression Auch nachzulesen bei: http://www.psychologie.uniwuerzburg.de/methoden/lehre/skripten/hs_meth_evaluation/hs_evaluation_logistisch eregression.pdf

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr BIOL, HST HS 2014 Dr. M. Kalisch MC-Quiz 1 Einsendeschluss: Dienstag, der 23.09.2014 23:59 Uhr Dieses Quiz soll Ihnen helfen, die Regression mit Faktoren und Wechselwirkungen besser zu verstehen. Zum Teil

Mehr

PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent?

PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent? Anwendungen PROC LOGISTIC: Warum sind die Koeffizienten nicht mit den Odds Ratios konsistent? Ulrike Braisch, Rainer Muche Institut für Epidemiologie und Medizinische Biometrie Universität Ulm Schwabstraße

Mehr

Portfoliomanagement: Konzepte und Strategien

Portfoliomanagement: Konzepte und Strategien Thorsten Poddig / Ulf Brinkmann / Katharina Seiler Portfoliomanagement: Konzepte und Strategien Theorie und praxisorientierte Anwendungen mit Excel TM 2. überarbeitete Auflage UHLENBRUCH Verlag, Bad Soden/Ts.

Mehr

Grundprinzipien der Bayes-Statistik

Grundprinzipien der Bayes-Statistik Grundprinzipien der Bayes-Statistik Karl-Rudolf Koch Zusammenfassung: In drei wesentlichen Punkten unterscheidet sich die Bayes-Statistik von der traditionellen Statistik. Zunächst beruht die Bayes-Statistik

Mehr

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Wahrscheinlichkeitstheorie Was will die Sozialwissenschaft damit? Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall Auch im Alltagsleben arbeiten wir mit Wahrscheinlichkeiten, besteigen

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

P( X µ c) Var(X) c 2. mit. In der Übung wurde eine alternative, äquivalente Formulierung verwendet: P( X µ < c) 1 Var(X)

P( X µ c) Var(X) c 2. mit. In der Übung wurde eine alternative, äquivalente Formulierung verwendet: P( X µ < c) 1 Var(X) Ich habe eine Frage zur Tschebyschew Ungleichung. In der Aufgabe 4 des Übungsblattes 3 benötigt man ja die Ungleichung. In diesem Falle war der Bereich (0, 20) symmetrisch um den Erwartungswert µ = 5.

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln

Gliederung. Bachelorseminar: Graphiken in R Visualisierung Kategorialer Daten. Einführung. Visualisierung von zweidimensionalen Kontingenztafeln Gliederung Bachelorseinar: Graphiken in R Visualisierung Kategorialer Daten Matthias Mitterayer betreut durch Sebastian Kaiser Einführung Institut für Statistik, LMU München 13. Januar 2011 Fazit Visualisierung

Mehr

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

Analyse von Extremwerten

Analyse von Extremwerten Analyse von Extremwerten Interdisziplinäres Seminar: Statistische Verfahren in den Geowissenschaften Anna Hamann betreut durch Prof. Dr. Helmut Küchenhoff, Institut für Statistik Ludwig Maximilians Universität

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Rating. { 0 = kein Ausfall des Kreditnehmers i

Rating. { 0 = kein Ausfall des Kreditnehmers i Jörg Lemm Vorlesung Finanzmathematik, WS 06/07 Universität Münster 25.1.2007, 1.2.2007, 8.2.2007 Rating Ratingverfahren versuchen, die Wahrscheinlichkeit dafür zu schätzen, dass ein Kreditnehmer seinen

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Survival Analysis (Modul: Lebensdaueranalyse)

Survival Analysis (Modul: Lebensdaueranalyse) Survival Analysis (Modul: Lebensdaueranalyse) ROLAND RAU Universität Rostock, Sommersemester 2014 24. Juni 2014 Roland Rau Survival Analysis 1 / 23 Link zum Editorial des International Journal of Epidemiology

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Kapitel 3: Etwas Informationstheorie

Kapitel 3: Etwas Informationstheorie Stefan Lucks 3: Informationstheorie 28 orlesung Kryptographie (SS06) Kapitel 3: Etwas Informationstheorie Komplexitätstheoretische Sicherheit: Der schnellste Algorithmus, K zu knacken erfordert mindestens

Mehr

Die Anwendung des Logit Modells auf die Daten der Challenger-Katastrophe

Die Anwendung des Logit Modells auf die Daten der Challenger-Katastrophe Die Anwendung des Logit Modells auf die Daten der Challenger-Katastrophe Bachelorarbeit Stefanie Nentwig Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf, im November 2006 Betreuung:

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr