6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Größe: px
Ab Seite anzeigen:

Download "6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression"

Transkript

1 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell: yi = x i β + ɛi mit E(ɛ) = 0, ɛi, ɛj unabhängig für i j. Für die binäre Zielgröße Y gilt dann: Die logistische Regression ist ein Spezialfall des Generalisierten Linearen Modells (GLM), ist ein spezielles Klassifikationsverfahren, wird in der Praxis sehr häufig verwendet, obwohl andere Verfahren oft (aber nicht immer) verständlicher, theoretisch einfacher oder performanter sind. πi := P(yi = 1 xi) = E(yi xi) = x i β. Leider kann x i β auch Werte außerhalb von [0, 1] annehmen. Deshalb wird die Wahrscheinlichkeit P(Y = 1 x, β) mit Hilfe einer Verteilungsfunktion F (η) modelliert, da die Werte von F in [0, 1] liegen: π1 = P(Y = 1 x, β) = F (x β) (3) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Das binäre Modell 6.1 Das binäre Modell 6.1 Das binäre Modell Ziel ist zunächst die Erklärung einer binären Zielgröße Y {0, 1} mit Hilfe eines Vektors von Einflussgrößen X R p, d.h. wir beschränken uns hier auf 2 Klassen. 6.1 Das binäre Modell 6.1 Das binäre Modell Bemerkung 1: Dies stellt einen Sonderfall der generalisierten linearen Modelle (GLM) dar (vgl. Fahrmeir und Hamerle, 1983), bei denen anstelle von F (η) eine beliebige umkehrbare Funktion h(η) (inverse Link-Funktion) verwendet wird. und π1 auch eine metrische Zielgröße sein darf. Bemerkung 2: Wählt man für F (η) die Verteilungsfunktion der Standardnormalverteilung Φ(η), dann erhält man das binäre Probit-Modell. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

2 6.1 Das binäre Modell 6.1 Das binäre Modell Beim binären Logit wird für F (η) die Verteilungsfunktion der standardisierten logistischen Verteilung Logist(η) = exp(η) 1 + exp(η) verwendet. Man erhält dann als Modell: (4) π1 = P(Y = 1 x, β) = exp(x β) 1 + exp(x β). (5) Hier wird die a posteriori Eintrittswahrscheinlichkeit direkt modelliert und daher müssen die a priori-wahrscheinlichkeiten der Klassen nicht geschätzt werden, wie z.b. bei der linearen Diskriminanzanalyse. 6.2 Eigenschaften 6.2 Eigenschaften 6.2 Eigenschaften Mit der Wahrscheinlichkeit für das Eintreten eines Ereignisses ist der Begriff der Chance (odds) eng verbunden (Tutz, 2000). Die Chance 1. Ordnung ist das Verhältnis der Eintrittswahrscheinlichkeit zu ihrer Gegenwahrscheinlichkeit P(Y = 1 x) γ(x) = P(Y = 0 x) = π(x) 1 π(x) Eine Chance von 3:1 entspricht γ(x) = 3, π(x) = 0.75 und 1 π(x) = (6) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Das binäre Modell 6.1 Das binäre Modell 6.2 Eigenschaften 6.2 Eigenschaften Üblicherweise erfolgt die Klassifikation über einen Schwellenwert τ: Ist ˆπ1 > τ, dann wird Kategorie 1 prognostiziert, ansonsten Kategorie 0. Verwendet man den Schwellenwert 0.5, dann ist dies äquivalent zur Auswahl der Kategorie mit der größten Eintrittswahrscheinlichkeit. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Im binären Logit-Modell ist die Chance γ(x) = π1 = 1 π1 exp(x β) 1+exp(x β) 1 1+exp(x β) = exp(x β) (7) Logarithmiert man die Chance, dann erhält man die so genannten Logits ( ) π1 Logit(x) = ln = x β (8) 1 π1 Im Wesentlichen wird also durch das binäre Logit-Modell eine Regression der logarithmierten Chancen auf die unabhängigen Variablen beschrieben. Problem: Da die Eintrittswahrscheinlichkeiten π1 = P(Y = 1 x, β) nicht beobachtet werden, kann der von der Regression bekannte Kleinste-Quadrate-Schätzer nicht direkt angewandt werden. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

3 6.3 Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip 6.3 Einschub: ML Prinzip Erläuterung des Maximum Likelihood Prinzips am Beispiel einer diskreten Verteilung: Gesucht: Schätzung für Parameter θ einer diskreten Verteilung Bestimme Wahrscheinlichkeit für das Auftreten der Stichprobe x1,..., xn unter der Annahme einer jeden der in Frage kommenden Verteilungen. ML-Schätzer := derjenige Parameter der Verteilung, der die größte Wahrscheinlichkeit für die beobachtete Stichprobe liefert (maximale Mutmaßlichkeit). Bei dieser Verteilung ist die beobachtete Stichprobe also am ehesten zu erwarten. 6.3 Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip Beispiel: Fortsetzung Das ist schwierig zu maximieren, daher nehmen wir den Logarithmus, der zur log-likelihood führt, die leichter differenzierbar ist. Die erste Ableitung wird gleich Null gesetzt, um ˆp zu bestimmen: ( ) n log L(p) = log + k log p + (n k) log(1 p) k (log L(ˆp)) = (n k) kˆp (1 ˆp) = 0 (n k) (1 ˆp) = kˆp nˆp kˆp = k kˆp ˆp = k/n = 2475/16386 Anschließend wird überprüft, ob die zweite Ableitung negativ ist. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Einschub: ML Prinzip 6.3 Einschub Maximum Likelihood Prinzip Beispiel: Bei der Stichprobe der Personen (davon 2475 Raucher) im Blutdruckdatensatz wird untersucht, ob sie rauchen. Es soll nun das p der Bernoulliverteilung (Binomialverteilung mit einer Wiederholung, B(1,p)) geschätzt werden. Annahme: Die Xi sind u.i.v. B(1, p). Die Likelihood für p ist gegeben durch die Wahrscheinlichkeit, dass x1,..., xn auftritt, wenn Parameter p vorliegt: ( ) n L(p) := P(x1,..., xn p) = p x (1 p) n x x n mit x = xi = 2475, n = i=1 6.4 Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood 6.4 Parameter-Schätzung Likelihood und Log-Likelihood-Funktion Die Schätzung des Parametervektors β erfolgt in der Regel mit Hilfe der Maximum-Likelihood-Methode (ML-Methode). Beim zugrunde liegenden Bernoulli-Experiment gilt: P(Y = y) = π y 1 (1 π1)1 y (9) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

4 6.4 Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood Die Likelihood-Funktion bei einer Stichprobe (yi, x i ), i = 1,..., n, unter der Annahme der unabhängigen identischen Verteilung ergibt sich damit als: mit πi1 = Logist(x i β). n L(β) = π yi i1 (1 πi1)1 yi (10) i=1 Die Log-Likelihood-Funktion ist dann n ln L(β) = yi ln(πi1) + (1 yi) ln(1 πi1). (11) i=1 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Einschub: Nichtlineare Optimierung: Wir verwenden ein iteratives Verfahren zur Maximierung einer nichtlinearen Zielfunktion S(θ). Gegeben sei ein Punkt θn im Koeffizientenraum. Dann suchen wir eine Richtung δ, in der S(θ) steigt (uphill). Dabei müssen wir allerdings einerseits darauf achten, dass wir in einer solchen Richtung nicht zu weit vorangehen, weil uns das u. U. über den Maximalpunkt in dieser Richtung hinausführt, d.h. wieder den Berg hinab (downhill). Andererseits wären zu kleine Schritte natürlich ineffizient. Mit anderen Worten, wir müssen eine angemessene Schrittlänge t und eine Schrittrichtung δ finden, so dass S(θn + tδ) > S(θn). (13) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Parameter-Schätzung 6.4 Schätzung: (Log)-Likelihood Zur Maximierung muss als notwendige (nicht hinreichende!) Bedingung der Vektor der ersten Ableitungen (Gradient) gleich dem Nullvektor gesetzt werden: ln L(β) β! = 0. (12) Da πi1 eine nichtlineare Funktion von β ist, muss dies mit Hilfe einer numerische Maximierungsmethode erfolgen. Bei ML-Schätzungen von GLM verwendet man üblicherweise dazu das Fisher-Scoring-Verfahren (vgl. Fahrmeir und Hamerle, 1983) oder den IWLS (Iterative Weighted Least Squares) Algorithmus. 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Wenn δ eine uphill Richtung ist, wird ein kleiner Schritt in dieser Richtung sicher zu einer Vergrößerung der Zielfunktion führen. Wir suchen also nach einem δ, so dass S(θn + tδ) eine steigende Funktion von t ist für t genügend nahe bei Null, d.h. d[s(θn + tδ)] dt t=0 = [ S θ θn ] [ d(θ + tδ) dt t=0 ] = [ S θ θn ] δ > 0. (14) Wenn wir den Gradienten der Zielfunktion S θ durch γn θn abkürzen, dann ist es klar, dass wir δ = Pnγn wählen können, wobei Pn irgendeine positiv definite Matrix ist, d.h. γ Pnγ > 0 für alle Vektoren γ 0, also γ n = γ npγn > 0, wenn γn 0. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

5 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Nichtlineare Optimierung Für γn = 0 können wir hoffen, dass wir das Maximum in dieser Richtung erreicht haben. Daraus ergibt sich als allgemeine Form der Iteration: θn+1 = θn + tnpnγn, wobei tn die Schrittlänge in der n-ten Iteration ist. Offenbar gibt es viele uphill Richtungen in dem Gebirge allgemeiner Zielfunktionen S, nämlich mindestens so viele wie positiv definite Matrizen. Da wir im Allg. nicht a-priori einschätzen können, welche Richtung optimal ist, werden in der Literatur viele verschiedene Richtungen vorgestellt. Eine mögliche Wahl für P ist das Negative der Hessematrix (Newton-Raphson-Methode). Allgemein wird die Hessematrix jedoch nicht negativ definit sein außerhalb einer kleinen Umgebung des Maximums. 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Qm = E(Hm) = E ( 2 ln L( ˆβ ) (m) ) β β die Fisher-Informationsmatrix (gleich dem negativen Erwartungswert der Hesse-Matrix). Das Verfahren unterscheidet sich vom Newton-Raphson-Verfahren darin, dass anstelle der Hesse-Matrix deren Erwartungswert verwendet wird. Die Elemente des Score-Vektors ergeben sich für die angegebene Log-Likelihood-Funktion in Matrix-Schreibweise: sm = X (y ˆπm), wobei X := ((xij)), ˆπm := (πi1( ˆβ (m) )). (ohne Beweis, siehe Literatur). (17) Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Fisher-Scoring Ausgehend von einem Startvektor ˆβ (0) wird die Iteration ˆβ (m) = ˆβ (m 1) + Qm 1 1 sm 1 (15) mit m = 1, 2,... solange durchgeführt, bis sm 1 nahe genug am Nullvektor ist oder bis keine Veränderung mehr erfolgt. Dabei ist sm = ln L( ˆβ (m) ) β der Gradientenvektor (Score-Vektor) und (16) 6.4 Parameter-Schätzung Nichtlineare Optimierung Schätzung: Fisher-Scoring Die Fisher-Informationsmatrix lässt sich schreiben als: Qm = n πi1( ˆβ (m) )(1 πi1( ˆβ (m) )) xi x i = X VmX (18) i=1 mit ˆπ (m) 11 (1 ˆπ(m) 11 ) ˆπ (m) Vm = 21 (1 ˆπ(m) 21 ) ˆπ (m) n1 (1 ˆπ(m) n1 ) (19) (ohne Beweis, siehe Literatur). Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

6 6.5 Beispiel 6.5 Anwendung der logist. Regression 6.5 Beispiel 6.5 Anwendung der logist. Regression 6.5 Beispiel Ausgabe: Call: glm(formula = raucher ~ messwert_bp_sys + messwert_bp_dia + geschlecht, family = binomial, data = Blutdruck) Bemerkung: Die Matrix Q wird im Fisher-Scoring invertiert. Dazu muss gelten: 0 < ˆπ < 1. Eine perfekte Trennung der Klassen führt also zu Problemen. Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** messwert_bp_sys e-09 *** messwert_bp_dia e-08 *** geschlechtm Signif. codes: *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Number of Fisher Scoring iterations: 4 Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Beispiel 6.5 Anwendung der logist. Regression Beispiel für logistische Regression in R: Kann aus Blutdruck (systolisch + diastolisch) und Geschlecht auf Raucher vs. Nichtraucher geschlossen werden? Vermutlich nicht gut, aber es gibt interessante Einsichten... s <- sample(1:nrow(blutdruck), 1000) glmobj <- glm(raucher ~ messwert_bp_sys + messwert_bp_dia + geschlecht, data = Blutdruck[-s,], family = binomial) summary(glmobj) # Ausgabe auf nächster Folie hist(predict(glmobj, newdata = Blutdruck[s,], type = "response")) 6.5 Beispiel 6.5 Anwendung der logist. Regression Wahrscheinlichkeit für Raucher bei 1000 Testfällen. Raucher können durch die benutzen Variablen nicht besonders sicher erklärt werden, denn die maximale Wahrscheinlichkeit ist knapp über 20%: Anzahl a posteriori Wahrscheinlichkeiten für Raucher Raucher: 2475 Nichtraucher: Bayes: a posteriori W. für Raucher Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges:

7 6.6 Interpretation 6.6 Interpretation der logist. Regression 6.6 Interpretation Die Elemente des geschätzten Koeffizientenvektors ˆβ lassen sich direkt nur schlecht interpretieren. Stattdessen interpretiert man meistens exp(ˆβ), das äquivalent ist zum Odds Ratio. Definition: Das Odds Ratio für Wahrscheinlichkeiten p1, p2 ist definiert als: p1/(1 p1) p2/(1 p2). 6.6 Interpretation 6.6 Interpretation der logist. Regression Eine Koeffizientenschätzung von βi = 0 bedeutet also ein Odds Ratio von 1: Das Risiko für Klasse 1 gegen Klasse 0 ändert sich nicht mit Xi. Eine Koeffizientenschätzung von βi = 1 bedeutet also ein Odds Ratio von exp(1), das Risiko für Klasse 1 gegen Klasse 0 erhöht sich also mit der erklärenden Variablen um den entsprechenden Faktor. Eine Koeffizientenschätzung von βi = 1 bedeutet also ein Odds Ratio von exp( 1), das Risiko für Klasse 1 gegen Klasse 0 verringert sich also mit der erklärenden Variablen um den entsprechenden Faktor. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Interpretation 6.6 Interpretation der logist. Regression Es gilt nämlich: ( ) P(Y = 1 Xi = 1; X1,..., Xi 1, Xi+1,..., Xp) P(Y = 0 Xi = 1; X1,..., Xi 1, Xi+1,..., Xp) exp(βi) = ( ). P(Y = 1 Xi = 0; X1,..., Xi 1, Xi+1,..., Xp) P(Y = 0 Xi = 0; X1,..., Xi 1, Xi+1,..., Xp) (In der R Ausgabe findet man den zugehörigen Test auf H0 : βi = 0 bzw. H0 : exp(β) = 1.) Es folgt eine kleine Fallstudie in R. Daten aus dem UCI repository of machine learning databases. Eine Gesamtheit von mindestens 21 Jahre alten Frauen des Pima Indianerstamms, die bei Phoenix, Arizona, USA leben und gemäß WHO Kriterien auf Diabetes getestet wurden. n = 768 Beobachtungen Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

8 Variable Beschreibung pregnant Anz. Schwangerschaften glucose Glukose Konzentration laut oralem Glukose-Toleranz Test pressure Blutdruck (mm Hg) triceps Triceps Hautfaltendicke (mm) insulin Insulin im Serum (µ U/ml) mass BMI (kg/m 2 ) pedigree Diabetes Vererbungs Index age Alter (in Jahren) Diabetestest > hist(pimaindiansdiabetes$mass, main = "") > hist(pimaindiansdiabetes$glucose, main = "") Frequency Frequency PimaIndiansDiabetes$mass PimaIndiansDiabetes$glucose Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > data("pimaindiansdiabetes", package = "mlbench") > summary(pimaindiansdiabetes) > plot( ~ glucose, data = PimaIndiansDiabetes) pregnant glucose pressure triceps Min. : Min. : 0.0 Min. : 0.0 Min. : st Qu.: st Qu.: st Qu.: st Qu.: 0.00 Median : Median :117.0 Median : 72.0 Median :23.00 Mean : Mean :120.9 Mean : 69.1 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:32.00 Max. : Max. :199.0 Max. :122.0 Max. :99.00 insulin mass pedigree age Min. : 0.0 Min. : 0.00 Min. : Min. :21.00 neg:500 1st Qu.: 0.0 1st Qu.: st Qu.: st Qu.:24.00 pos:268 Median : 30.5 Median :32.00 Median : Median :29.00 Mean : 79.8 Mean :31.99 Mean : Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:41.00 Max. :846.0 Max. :67.10 Max. : Max. : glucose Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

9 Viele Messungen sind so nicht möglich und sollten auf fehlend gesetzt werden. Nach Wahba et al. (1995) ignorieren wir fortan insulin and die 0 Beobachtungen in mass und glucose. > plot( ~ pregnant, data = pid) > pid <- subset(pimaindiansdiabetes[, -5], + mass > 0 & glucose > 0) > dim(pid) [1] Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ glucose, data = pid) pregnant Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ pressure, data = pid) glucose pressure Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

10 > plot( ~ triceps, data = pid) > plot( ~ pedigree, data = pid) triceps Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ mass, data = pid) pedigree Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot( ~ age, data = pid) mass age Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

11 Für die Modellevaluation nehmen wir hier zunächst einen ganz einfachen, groben Ansatz: Wir teilen die Daten in einen Lerndatensatz mit 500 Beobachtungen (etwa 2/3) und einen Testdatensatz mit 252 Beobachtungen, um hinterher zu evaluieren. > set.seed( ) > pid_index <- sample(1:nrow(pid)) > pid_learn <- pid[pid_index[1:500], ] > pid_test <- pid[pid_index[-(1:500)], ] > pred_true <- pid_test$ > pid_test <- pid_test[, -8] Später werden noch ausgefeiltere Methoden zur Evaluation vorgestellt. > summary(pid_glm) Estimate Std. Error z value Pr(> z ) (Intercept) < 2.2e-16 *** pregnant ** glucose < 2.2e-16 *** pressure triceps mass e-06 *** pedigree * age Signif. codes: 0 *** ** 0.01 * Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Als Startmodell nehmen wir eben eine logistische Regression (also Binomialfamilie mit Logit link Funktion) uns alle zur Verfügung stehende Variablen als erlkärende Haupteffekte: > pid_glm <- glm( ~., data = pid_learn, + family = binomial) Dieses Modell wollen wir nun schrittweise per Modellselektion nach dem AIC Kriterium verbessern. > pid_glm <- step(pid_glm) > summary(pid_glm) Estimate Std. Error z value Pr(> z ) (Intercept) < 2.2e-16 *** pregnant e-05 *** glucose < 2.2e-16 *** pressure mass e-07 *** pedigree * --- Signif. codes: 0 *** ** 0.01 * Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

12 Zur Beurteilung der Anpassungsgüte können wir die angepassten Werte (fitted()) mit den beobachteten y vergleichen. Weil das auf den Originalbeobachtungen aber zu optimistisch sein wird, sollte man auch die vorhergesagten (predict()) Werte des Testdatensatzes anschauen. > pred_glm <- predict(pid_glm, newdata = pid_test, + type = "response") > plot(pred_glm ~ pred_true) pred_glm neg pos pred_true Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester > plot(fitted(pid_glm) ~, data = pid_learn) Ausserdem kann man die beobachteten Klassen mit vorhergesagten Wahrscheinlichkeiten vergleichen, indem man von den Wahrscheinlichkeiten zur Klassifikation übergeht: fitted(pid_glm) > pred_glm <- factor(pred_glm > 0.5, + labels = c("neg", "pos")) > (tab <- table(true = pred_true, pred = pred_glm)) pred true neg pos > 1 - sum(diag(tab))/sum(tab) neg pos [1] Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

13 6.8 Literatur 6.8 Literatur Logistische Regression Anderson, J.A. (1982): Logistic Discrimination. In: P.R. Krishnaiah und L.N. Kanal (Hrsg.): Handbook of Statistics, Volume 2. North Holland Publishing Company, Amsterdam. Fahrmeir, L. und Hamerle, A. (1983): Multivariate statistische Verfahren. de Gruyter, Berlin. Tutz, G. (2000): Die Analyse kategorialer Daten. Oldenbourg Verlag, München. Katharina Morik und Uwe Ligges: Wissensentdeckung in Datenbanken Sommersemester

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Textmining Klassifikation von Texten Teil 1: Naive Bayes Textmining Klassifikation von Texten Teil 1: Naive Bayes Dept. Informatik 8 (Künstliche Intelligenz) Friedrich-Alexander-Universität Erlangen-Nürnberg (Informatik 8) Klassifikation von Texten 1: Naive

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG

Christian FG Schendera. Regressionsanalyse. mit SPSS. 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Christian FG Schendera Regressionsanalyse mit SPSS 2. korrigierte und aktualisierte Auflage DE GRUYTER OLDENBOURG Inhalt Vorworte V 1 Korrelation 1 1.1 Einführung 1 1.2 Erste Voraussetzung: Das Skalenniveau

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Regressionsmodelle für kategoriale Daten und Zähldaten

Regressionsmodelle für kategoriale Daten und Zähldaten Kapitel 8 Regressionsmodelle für kategoriale Daten und Zähldaten Das Modell der linearen Regression und Varianzanalyse (vgl. Abschn. 6.3, 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM,

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Marlene Müller Beuth Hochschule für Technik Berlin, Fachbereich II Luxemburger Str. 10, D 13353 Berlin

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Analyse von Extremwerten

Analyse von Extremwerten Analyse von Extremwerten Interdisziplinäres Seminar: Statistische Verfahren in den Geowissenschaften Anna Hamann betreut durch Prof. Dr. Helmut Küchenhoff, Institut für Statistik Ludwig Maximilians Universität

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Codierungstheorie Rudolf Scharlau, SoSe 2006 9

Codierungstheorie Rudolf Scharlau, SoSe 2006 9 Codierungstheorie Rudolf Scharlau, SoSe 2006 9 2 Optimale Codes Optimalität bezieht sich auf eine gegebene Quelle, d.h. eine Wahrscheinlichkeitsverteilung auf den Symbolen s 1,..., s q des Quellalphabets

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Technische Universität München. Zentrum Mathematik

Technische Universität München. Zentrum Mathematik Technische Universität München Zentrum Mathematik Modellwahl bei der KFZ Haftpflicht-Versicherung mit Hilfe von GLMs Diplomarbeit von Ivonne Siegelin Themenstellerin: Prof. Dr. C. Czado, Dr. G. Sussmann

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

Transformation und Darstellung funktionaler Daten

Transformation und Darstellung funktionaler Daten Transformation und Darstellung funktionaler Daten Seminar - Statistik funktionaler Daten Jakob Bossek Fakultät für Statistik 7. Mai 2012 Übersicht Einleitung Einordnung im Seminar Motivation am Beispiel

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Finanzmarktökonometrie: Einführung in die Optionsbewertung Sommersemester 2013

Finanzmarktökonometrie: Einführung in die Optionsbewertung Sommersemester 2013 Finanzmarktökonometrie: Einführung in die Optionsbewertung Sommersemester 2013 Walter Sanddorf-Köhle Foliensatz Nr. 3 1 / 46 Ein Einperiodenmodell Beispiel 5 Betrachtet wird nun ein Wertpapiermarkt mit

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation

Einführung in die Logistische Regression. Fortbildung zur 19.Informationstagung Tumordokumentation Einführung in die Logistische Regression Fortbildung zur 9.Informationstagung Tumordokumentation Bernd Schicke, Tumorzentrum Berlin FB Bayreuth, 29.März 20 Gliederung Einleitung Schätzen von Maßzahlen

Mehr

Rekursionen (Teschl/Teschl 8.1-8.2)

Rekursionen (Teschl/Teschl 8.1-8.2) Rekursionen (Teschl/Teschl 8.1-8.2) Eine Rekursion kter Ordnung für k N ist eine Folge x 1, x 2, x 3,... deniert durch eine Rekursionsvorschrift x n = f n (x n 1,..., x n k ) für n > k, d. h. jedes Folgenglied

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Algorithmische Modelle als neues Paradigma

Algorithmische Modelle als neues Paradigma Algorithmische Modelle als neues Paradigma Axel Schwer Seminar über Philosophische Grundlagen der Statistik, WS 2010/11 Betreuer: Prof. Dr. Thomas Augustin München, den 28. Januar 2011 1 / 29 LEO BREIMAN

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Modellierung des Stornos nach Beitragsanpassung in der PKV

Modellierung des Stornos nach Beitragsanpassung in der PKV ierung des Stornos nach Beitragsanpassung in der PKV 02.07.2013 Alexander Küpper Central Krankenversicherung AG Inhaltsverzeichnis Einführung Gesetzlicher Rahmen Stornomodell Anwendung Ausblick und Weiterentwicklung

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Aufabe 7: Baum-Welch Algorithmus

Aufabe 7: Baum-Welch Algorithmus Effiziente Algorithmen VU Ausarbeitung Aufabe 7: Baum-Welch Algorithmus Florian Fest, Matr. Nr.0125496 baskit@generationfun.at Claudia Hermann, Matr. Nr.0125532 e0125532@stud4.tuwien.ac.at Matteo Savio,

Mehr

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 4 Woche Decodierung; Maximale, Perfekte und Optimale Codes 4 Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140 Szenario für fehlerkorrigierende Codes Definition (n, M)-Code Sei C {0, 1}

Mehr

Bisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners

Bisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners 1 KAP 15. Spiele unter unvollständiger Information Bisher angenommen: jeder Spieler kennt alle Teile des Spiels seine Gegenspieler, deren Aktionen, deren Nutzen, seinen eigenen Nutzen etc. Oft kennt man

Mehr

Uplift Modelling mitsas

Uplift Modelling mitsas Praktische Anwendung des Uplift Modelling mitsas Hintergründe, Voraussetzungen, Tipps& Tricks 12.06.2013 Udo Böhm Inhalt Uplift Uplift-Modelling mit SAS 1. Warum brauchen wir Uplift Modellierung im analytischen

Mehr

Logistische Regression - - - - - 24. Juni 2011

Logistische Regression - - - - - 24. Juni 2011 Lehrveranstaltung Empirische Forschung und Politikberatung Sommersemester 2011 Logistische Regression - - - - - 24. Juni 2011 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2: Qualifikation, berufliche

Mehr

Computer Vision: Optische Flüsse

Computer Vision: Optische Flüsse Computer Vision: Optische Flüsse D. Schlesinger TUD/INF/KI/IS Bewegungsanalyse Optischer Fluss Lokale Verfahren (Lukas-Kanade) Globale Verfahren (Horn-Schunck) (+ kontinuierliche Ansätze: mathematische

Mehr

Einführung in die Datenanalyse mit R

Einführung in die Datenanalyse mit R Einführung R ist ein Software-Paket für Statistisches Rechnen und Graphik. Es ist die Open Source Implementierung der Sprache S, die von John Chambers und Kollegen in den Bell Laboratories in den 1970ern

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Stefan Lang 12 Oktober 2005 WS 05/06 Datensatzbeschreibung (1) Daten Versicherungsdaten für Belgien ca 160000 Beobachtungen Ziel Analyse der Risikostruktur

Mehr

IBM SPSS Regression 22

IBM SPSS Regression 22 IBM SPSS Regression 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 33 gelesen werden. Produktinformation Diese

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Zur Verfügung gestellt in Kooperation mit / provided in cooperation with: GESIS - Leibniz-Institut für Sozialwissenschaften

Zur Verfügung gestellt in Kooperation mit / provided in cooperation with: GESIS - Leibniz-Institut für Sozialwissenschaften www.ssoar.info Teilnehmen oder Boykottieren : ein Anwendungsbeispiel der binären logistischen Regression mit SPSSx Kühnel, Steffen M.; Jagodzinski, Wolfgang; Terwey, Michael Veröffentlichungsversion /

Mehr

Lasso in LMs und GLMs

Lasso in LMs und GLMs Lasso in LMs und GLMs Seminar Regularisierungstechniken und strukturierte Regression, Prof. Dr. Gerhard Tutz, Institut für Statistik, Ludwig-Maximilians-Universität München Referent: Patrick Schenk Betreuer:

Mehr

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart. No. 3 / 2010 SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart No. 3 / 2010 Binär-logistische Regressionsanalyse. Grundlagen und Anwendung für Sozialwissenschaftler Jochen Mayerl

Mehr

17. Penalty- und Barriere-Methoden

17. Penalty- und Barriere-Methoden H.J. Oberle Optimierung SoSe 01 17. Penalty- und Barriere-Methoden Penalty- und Barriere Methoden gehören zu den ältesten Ansätzen zur Lösung allgemeiner restringierter Optimierungsaufgaben. Die grundlegende

Mehr

Diplomarbeiten. Ansätze zur Kundenbewertung im CRM - Möglichkeiten zur Bestimmung des Kundenpotenzials

Diplomarbeiten. Ansätze zur Kundenbewertung im CRM - Möglichkeiten zur Bestimmung des Kundenpotenzials Diplomarbeiten - Möglichkeiten zur Bestimmung des Kundenpotenzials Datengestützte Validierung von Customer-Lifetime-Konzepten Agenda 1) WEKA-MEDIA-Verlage 2) Ziel der ersten Arbeit: Neu- und Bestandskundenbewertung

Mehr

Modelle mit diskreten abhängigen Variablen

Modelle mit diskreten abhängigen Variablen Kapitel 19 Modelle mit diskreten abhängigen Variablen 19.1 Vorbemerkungen Bisher sind wir stets davon ausgegangen, dass die abhängige Variable y intervallskaliert ist. Zusätzlich haben wir meist angenommen,

Mehr

1 Predictive Analytics mit Random Forest

1 Predictive Analytics mit Random Forest Predictive Analytics Demokratie im Wald 1 Agenda 1. Predictive Analytics Übersicht 2. Random Forest Grundkonzepte und Anwendungsfelder 3. Entscheidungsbaum Classification and Regression Tree (CART) 4.

Mehr

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg

Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis und Markov-Modelle. Christian Weiß Institut für Angewandte Mathematik und Statistitik Universität Würzburg Sequential Pattern Analysis Historische Aspekte Data Mining als Teildisziplin

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

Entscheidungsbaumverfahren

Entscheidungsbaumverfahren Entscheidungsbaumverfahren Allgemeine Beschreibung Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. Die Klassifizierung erfolgt durch

Mehr

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 Methoden der Modellbildung statischer Systeme Teil 2 (für ausgewählte Masterstudiengänge) FACHGEBIET Systemanalyse PRAKTIKUM Experimentelle Prozeßanalyse 2 VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge) Verantw. Hochschullehrer: Prof.

Mehr

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt

Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Poster Anwendung eines SAS/STAT-Modells ohne SAS/STAT in einem CRM-Projekt Timm Euler Tobias Otte viadee GmbH viadee GmbH Anton-Bruchausen-Str. 8 Anton-Bruchausen-Str. 8 48147 Münster 48147 Münster Timm.Euler@viadee.de

Mehr

SPSS Regression Models 12.0

SPSS Regression Models 12.0 SPSS Regression Models 12.0 Weitere Informationen zu SPSS -Software-Produkten finden Sie auf unserer Website unter der Adresse http://www.spss.com, oder wenden Sie sich an SPSS GmbH Software Rosenheimer

Mehr