Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Größe: px
Ab Seite anzeigen:

Download "Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression"

Transkript

1 Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte lineare Modelle Lineare Modelle sind gut geeignet für Regressionsanalysen mit stetiger Zielvariable, die zumindest approximativ (ggf. nach geeigneter Transformation) durch Normalverteilung modelliert werden kann. Erwartungswert der Zielvariablen muss durch Linearkombination von (ggf. auch transformierten) Kovariablen darstellbar sein. Zielvariable in vielen Anwendungen jedoch nicht stetig, sondern binär bzw. kategorial oder eine Zählvariable. Generalisierte lineare Modelle (GLM) umfassen in einem methodisch einheitlichen Rahmen viele Regressionsansätze für nicht notwendigerweise normalverteilte Zielvariablen. Beispiele: Logit-Modell für binäre Zielvariablen oder auch das klassische lineare Modell mit Normalverteilungsannahme als Spezialfall. 1 Binäre Regressionsmodelle Ziel: Modellierung und Schätzung des Effekts der Kovariablen auf die (bedingte) Wahrscheinlichkeit 4.1 Binäre Regression π i = P(y i = 1 x i1,..., x ik ) = E(y i x i1,..., x ik ) für das Auftreten von y i = 1, gegeben die Kovariablenwerte x i1,..., x ik. Zielvariablen werden dabei als (bedingt) unabhängig angenommen. Naives lineares Wahrscheinlichkeitsmodell: π i = β 0 + β 1 x i β k x ik Ein Nachteil für binäre Zielvariablen besteht hierbei darin, dass der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β, mit β = (β 0, β 1,..., β k ) und x i = (1, x i1,..., x ik ) für alle Werte von x im Intervall [0, 1] liegen muss (führt zu schwierig handhabbaren Restriktionen für die aus den Daten zu schätzenden Parameter β). Statistik 3, 2010/2011: Binäre Regressionsmodelle 3

2 Binäre Regressionsmodelle Binäre Regressionsmodelle Lösungsansatz in allen üblichen binären Regressionsmodellen: Verknüpfung der Wahrscheinlichkeit π i durch eine Beziehung der Form mit dem linearen Prädiktor η i. π i = h(η i ) = h(β 0 + β 1 x i β k x ik ), Responsefunktion (Antwortfunktion): h ist eine auf der ganzen reellen Achse streng monoton wachsende Funktion mit h(η) [0, 1], η R. Insbesonders können daher viele Verteilungsfunktionen als Responsefunktion verwendet werden. Linkfunktion (Verknüpfungsfunktion): Inverse g = h 1 der Responsefunktion, es gilt daher η i = g(π i ). Daten Die binären Zielvariablen y i sind 0/1-kodiert und bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Die Wahrscheinlichkeit π i = P(y i = 1 x i1,..., x ik ) und der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β sind durch eine Responsefunktion h(η) [0, 1] miteinander verknüpft: π i = h(η i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 4 Statistik 3, 2010/2011: Binäre Regressionsmodelle 5 Binäre Regressionsmodelle Binäre Regressionsmodelle Logit-Modell π = exp(η) 1 + exp(η) Probit-Modell log π 1 π = η. π = Φ(η) Φ 1 (π) = η. Komplementäres log-log-modell π = 1 exp( exp(η)) log( log(1 π)) = η eta eta Responsefunktionen (links) und adjustierte Responsefunktionen im binären Regressionsmodell: Logit-Modell ( ), Probit Modell (- - -), komplementäres log-log-modell ( ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 6 Statistik 3, 2010/2011: Binäre Regressionsmodelle 7

3 Interpretation des Logit-Modells Interpretation des Logit-Modells Mit dem linearen Prädiktor gilt für die Chance (odds) das multiplikative Modell η i = β 0 + β 1 x i β k x ik = x i β π i = P(y i = 1 x i ) 1 π i P(y i = 0 x i ) P(y i = 1 x i ) P(y i = 0 x i ) = exp(β 0) exp(x i1 β 1 )... exp(x ik β k ). Wird z.b. x i1 um 1 auf x i1 + 1 erhöht, so gilt für das Verhältnis der Chancen P(y i = 1 x i1 + 1,... ) / P(y i = 1 x i1,... ) P(y i = 0 x i1 + 1,... ) P(y i = 0 x i1,... ) = exp(β 1). β 1 > 0 : Chance P(y i = 1)/P(y i = 0) wird größer, β 1 < 0 : Chance P(y i = 1)/P(y i = 0) wird kleiner, β 1 = 0 : Chance P(y i = 1)/P(y i = 0) bleibt gleich. Statistik 3, 2010/2011: Binäre Regressionsmodelle 8 Statistik 3, 2010/2011: Binäre Regressionsmodelle 9 Binäre Modelle als Schwellenwertmodelle Binäre Modelle als Schwellenwertmodelle Binäre Regressionsmodelle lassen sich auch erklären durch die Annahme einer latenten (unbeobachteten) Zielvariablen, die mit der beobachtbaren binären Zielvariable durch einen Schwellenwertmechanismus verbunden ist. Sei ỹ eine latente stetige Variable, für die ein lineares Modell ỹ = x β + ε gelte. Die Fehlervariable ε besitze die Verteilungsfunktion h. Dabei wird ỹ auch als latenter Nutzen (oder Schaden) interpretiert, der etwa beim Kauf eines Produktes zu einer binären Entscheidung y führt. Die beobachtbare binäre Variable y sei mit ỹ über den Schwellenwertmechanismus y = { 1, ỹ > 0 0, ỹ 0 verbunden, wobei 0 der Schwellenwert ist. Damit ergibt sich π = P(y = 1) = P(x β + ε > 0) = 1 h( x β) = h(x β), falls die Verteilungsfunktion h symmetrisch um 0 ist. Falls ε logistisch verteilt ist, erhält man das Logit-Modell, und für ε N(0, 1) das Probit-Modell π = Φ(x β). Falls ε N(0, σ 2 ) gilt, erhält man durch Standardisieren π = h(x β) = Φ(x β/σ) = Φ(x β), mit β = β/σ, d.h. mit einem Probit-Modell lassen sich die Regressionskoeffizienten β des latenten linearen Regressionsmodells nur bis auf den Faktor 1/σ identifizieren. Das Verhältnis von zwei Koeffizienten, z.b. β 1 und β 2, ist wegen β 1 /β 2 = β 1 / β 2 jedoch identifizierbar. Statistik 3, 2010/2011: Binäre Regressionsmodelle 10 Statistik 3, 2010/2011: Binäre Regressionsmodelle 11

4 Beispiel Patenterteilung Beispiel Patenterteilung Wahrscheinlichkeit für einen Einspruch bei der Patenterteilung Variable einspruch jahr azit ansp uszw patus patdsg aland biopharm Beschreibung Einspruch gegen das Patent (1 = ja, 0 = nein) Zielvariable Jahr der Patenterteilung Anzahl der Zitationen für dieses Patent (Beobachtungen > 15 wurden entfernt) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Anzahl der Länder, für die Patentschutz gelten soll Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) (nur Patente aus anderen Branchen betrachtet) Linearer Prädiktor: η i = β 0 +β 1 jahr i +β 2 azit i +β 3 ansp i +β 4 uszw i +β 5 patus i +β 6 patdsg i +β 7 aland i Ergebnisse Logit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 12 Statistik 3, 2010/2011: Binäre Regressionsmodelle 13 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Probit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Ergebnisse komplementäres log-log-modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 14 Statistik 3, 2010/2011: Binäre Regressionsmodelle 15

5 Beispiel Patenterteilung Schätzen in R Vergleich der geschätzten Koeffizienten * ad- Logit Probit Probit* Log-Log Log-Log* (Intercept) jahr azit ansp uszw patus patdsg aland justierte Koeffizientenschätzer Funktioniert analog zum Linearen Modell, Funktion ist glm(): R> glm1 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "logit")) R> coef(glm1) (Intercept) jahr azit ansp uszw patus patdsg aland R> glm2 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "probit")) R> coef(glm2) (Intercept) jahr azit ansp uszw patus patdsg aland Default Link ist Logit (in der Praxis auch am weitesten verbreitet). Statistik 3, 2010/2011: Binäre Regressionsmodelle 16 Statistik 3, 2010/2011: Binäre Regressionsmodelle 17 Gruppierte Daten Gruppierte Daten Bislang sind wir davon ausgegangen, dass Individualdaten oder ungruppierte Daten vorliegen, d.h. zu jedem Individuum oder Objekt i aus einer Stichprobe vom Umfang n liegt eine Beobachtung (y i, x i ) vor. Jeder binäre, 0-1 kodierte, Wert y i der Zielvariablen und jeder Kovariablenvektor x i = (x i1,..., x ik ) gehört dann zu genau einer Einheit i = 1,..., n. Falls mehrere Kovariablenvektoren bzw. Zeilen der Kovariablen- Datenmatrix identisch sind, können die Daten gruppiert werden: Nach Umsortieren und Zusammenfassen enthält die Datenmatrix nur noch Zeilen mit verschiedenen Kovariablenvektoren x i. Dazu wird die Anzahl n i der Wiederholungen von x i in der Original-Stichprobe der Individualdaten und die relative Häufigkeit ȳ i der entsprechenden individuellen binären Werte der Zielvariablen angegeben: Gruppe 1. Gruppe i. Gruppe G n 1. n i. n G ȳ 1. ȳ i. ȳ G x 11 x 1k.. x i1 x ik.. x G1 x Gk Alternative: Anzahl der Erfolge n i ȳ i und Mißerfolge n i (1 ȳ i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 18 Statistik 3, 2010/2011: Binäre Regressionsmodelle 19

6 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten y = 1 Infektion, y = 0 keine Infektion Binäre Kovariablen: Kaiserschnitt (nicht) geplant, Risikofaktoren (nicht) vorhanden, Antibiotika (nicht) verabreicht Kaiserschnitt geplant nicht geplant Infektion Infektion ja nein ja nein Antibiotika Risikofaktor Kein Risikofaktor Kein Antibiotika Risikofaktor Kein Risikofaktor R> kaiser <- read.csv("kaiser.csv") R> kaiser Plan Antibiotika Risiko InfJa InfNein Bei Wahl von Default-Link kann einfach der Name der Familie als Argument verwendet werden: R> glm.kaiser <- glm(cbind(infja, InfNein) ~., data = kaiser, family = binomial) Statistik 3, 2010/2011: Binäre Regressionsmodelle 20 Statistik 3, 2010/2011: Binäre Regressionsmodelle 21 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten R> summary(glm.kaiser) Call: glm(formula = cbind(infja, InfNein) ~., family = binomial, data = kaiser) Deviance Residuals: Coefficients: (Intercept) Plan * Antibiotika e-11 *** Risiko e-06 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 6 degrees of freedom Residual deviance: on 3 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 Statistik 3, 2010/2011: Binäre Regressionsmodelle 22 Statistik 3, 2010/2011: Binäre Regressionsmodelle 23

7 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung (am Beispiel Logit-Modell) 1. Bestimmung der Likelihood Für binäre Zielvariablen y i B(1, π i ) mit π i = P(y i = 1) = E(y i ) = µ i ist die (diskrete) Dichte durch f(y i π i ) = π y i i (1 π i) 1 y i gegeben. Über die Beziehung π i = h(x iβ) hängt sie damit, bei gegebenem x i, von β ab, so dass wir sie mit f(y i β) bzw. als Likelihood- Beitrag L i (β) der i-ten Beobachtung bezeichnen. Wegen der (bedingten) Unabhängigkeit der y i ist die Likelihood L(β) n n L(β) = L i (β) = π y i i (1 π i) 1 y i i=1 i=1 das Produkt der individuellen Likelihoodbeiträge L i (β). 2. Bestimmung der Log-Likelihood Logarithmieren der Likelihood ergibt die Log-Likelihood n n l(β) = l i (β) = {y i log(π i ) y i log(1 π i ) + log(1 π i )}, i=1 i=1 mit den Log-Likelihood-Beiträgen l i (β) = logl i (β) = y i log(π i ) y i log(1 π i ) + log(1 π i ) ( ) πi = y i log + log(1 π i ) 1 π i Für das Logit-Modell gilt π i = exp(x i β) ( ) πi 1 + exp(x i β) bzw. log = x i 1 π β = η i. i Es folgt wegen (1 π i ) = (1 + exp(x i β)) 1 l i (β) = y i (x i β) log(1 + exp(x i β)) = y iη i log(1 + exp(η i )). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 24 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 25 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung 3. Berechnung der Score-Funktion Zur Berechnung des ML-Schätzers als Maximierer der Log-Likelihood l(β) bildet man die 1. Ableitung nach β, die Score-Funktion s(β) = l(β) β = n i=1 l i (β) β = n s i (β). i=1 Nullsetzen der Score-Funktion liefert die ML-Gleichung s( ˆβ) n = x i y i exp(x i ˆβ) i=1 1 + exp(x i ˆβ) = Bestimmung der Informationsmatrizen Zur Schätzung der Koeffizienten und der Kovarianzmatrix des ML- Schätzers ˆβ benötigt man die beobachtete Informationsmatrix H(β) = 2 l(β) β β, mit den zweiten Ableitungen 2 l(β)/ β j β k als Elementen der Matrix 2 l(β)/ β β, oder die Fisher-Matrix (erwartete Informationsmatrix) ( ) F (β) = E 2 l(β) β β = Cov(s(β)) = E(s(β)s (β)). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 26 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 27

8 Asymptotische Eigenschaften ML-Schätzer Testen linearer Hypothesen Es lässt sich zeigen: für n existiert der ML-Schätzer asymptotisch und ist sowohl konsistent als auch asymptotisch normalverteilt (Stichprobenumfang n genügt). Für hinreichend großen Stichprobenumfang n gilt dann, dass ˆβ approximativ normalverteilt ist: und die geschätzte Kovarianzmatrix ˆβ a N(β, F 1 ( ˆβ)), Ĉov( ˆβ) = F 1 ( ˆβ) ist gleich der inversen Fisher-Matrix, ausgewertet für den ML-Schätzer ˆβ. Das Diagonalelement a jj der inversen Fisher-Matrix A = F 1 ( ˆβ) ist somit ein Schätzer für die Varianz der j-ten Komponente ˆβ j von ˆβ, d.h. es ist Var(ˆβ j ) = a jj, und a jj ist ein Schätzer für die Standardabweichung Var(ˆβ j ). Lineare Hypothesen besitzen die gleiche Form wie im linearen Modell: H 0 : Cβ = d gegen H 1 : Cβ d, wobei C vollen Zeilenrang r p hat. Die Likelihood-Quotienten-Statistik lq = 2{l( β) l( ˆβ)} misst die Abweichung zwischen dem unrestringierten Maximum l( ˆβ) und dem unter H 0 restringierten Maximum l( β), wobei β ML-Schätzer unter der Gleichungsrestriktion Cβ = d ist. Für den Spezialfall H 0 : β j = 0 gegen H 1 : β j 0, (1) wobei β j ein Teilvektor von β ist, testet man auf Signifikanz der zu β j gehörigen Effekte. Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 28 Statistik 3, 2010/2011: Testen linearer Hypothesen 29 Testen linearer Hypothesen Testen linearer Hypothesen Die Wald-Statistik w = (C ˆβ d) [CF 1 ( ˆβ)C ] 1 (C ˆβ d) misst die gewichtete Distanz zwischen C ˆβ und d = Cβ, wobei mit der (inversen) asymptotischen Kovarianzmatrix CF 1 ( ˆβ)C von C ˆβ gewichtet wird. Die Score-Statistik u = s ( β)f 1 ( β)s( β) misst die gewichtete Distanz zwischen dem Wert 0 = s( ˆβ) der Score- Funktion, ausgewertet an der Stelle ˆβ, und dem Wert s( β), ausgewertet für den restringierten ML-Schätzer β. Für die spezielle Hypothese (1) reduzieren sich Wald- und Score-Statistik zu w = ˆβ jâ 1 j ˆβ j, u = s jãj s j, wobei A j die den Elementen von β j entsprechende Teilmatrix von A = F 1 und s j der entsprechende Teilvektor der Score-Funktion s(β) ist. Die Notation,,ˆ bzw.,, bedeutet den jeweiligen Wert an der Stelle ˆβ bzw. β. Falls β j nur ein Element von β ist, ist die Wald-Statistik gleich dem quadrierten,,t-wert t j = ˆβ j ajj, mit a jj als j-tem Diagonalelement der asymptotischen Kovarianzmatrix A = F 1 ( ˆβ). Da ˆβ nur asymptotisch normalverteilt ist, wird immer mit der Standardnormalverteilung verglichen z-wert, z-test. Statistik 3, 2010/2011: Testen linearer Hypothesen 30 Statistik 3, 2010/2011: Testen linearer Hypothesen 31

9 Testen linearer Hypothesen Modellanpassung und Modellwahl Unter ähnlich schwachen Voraussetzungen wie für die asymptotische Normalität des ML-Schätzers sind die drei Teststatistiken unter H 0 asymptotisch äquivalent und asymptotisch bzw. approximativ χ 2 -verteilt mit r Freiheitsgraden: lq, w, u a χ 2 r. Kritische Werte oder p-werte werden über diese asymptotische Verteilung berechnet. Für mittleren Stichprobenumfang ist die Approximation durch die χ 2 -Grenzverteilung in der Regel ausreichend. Für kleinere Stichprobenumfänge, etwa ab n 50, können sich die Werte der Teststatistiken jedoch deutlich unterscheiden. Die Pearson-Statistik ist gegeben durch die Summe der quadrierten, standardisierten Residuen χ 2 G (ȳ = i ˆπ i ) 2, i=1 ˆπ i (1 ˆπ i )/n i wobei G die Anzahl der Gruppen ist, ȳ i die relative Häufigkeit von Einsen in Gruppe i, ˆπ i = h(x i ˆβ) die durch das Modell geschätzte Wahrscheinlichkeit P(y i = 1 x i ) und ˆπ i (1 ˆπ i )/n i die geschätzte Varianz. Die Devianz ist definiert durch G D = 2 {l i (ˆπ i ) l i (ȳ i )}, i=1 wobei l i (ˆπ i ) bzw. l i (ȳ i ) die Log-Likelihood der Gruppe i ist. Statistik 3, 2010/2011: Testen linearer Hypothesen 32 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 33 Modellanpassung und Modellwahl Bsp Patente: Logit-Modell Will man Modelle mit verschiedenen Prädiktoren und Parametern vergleichen, muss ein Kompromiss zwischen guter Datenanpassung durch hohe Parameteranzahl und zu großer Modellkomplexität getroffen werden. Am bekanntesten ist Akaikes Informationskriterium AIC = 2l( ˆβ) + 2p, bei dem der Term 2p die Anzahl der Parameter in einem zu komplexen Modell bestraft. Coefficients: (Intercept) < 2e-16 *** jahr < 2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2694 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 34 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 35

10 Bsp Patente: erweitertes Logit-Modell Bsp: Kreditscoring (KS) Coefficients: (Intercept) 1.981e e < 2e-16 *** jahr e e < 2e-16 *** azit 1.134e e e-07 *** ansp 2.639e e e-06 *** uszw e e e-05 *** patus e e e-06 *** patdsg 1.805e e aland 3.938e e * aland e e aland e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2692 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Variable Beschreibung ausfall 1 = Kredit wurde nicht zurückbezahlt, 0 = Kredit wurde zurückbezahlt laufz Laufzeit des Kredits in Monaten hoehe Kredithöhe in DM moral Frühere Zahlungsmoral des Kunden: 1 = gute Moral, 0 = schlechte Moral zweck Verwendungszweck: 1 = privat, 0 = geschäftlich geschl Geschlecht: 1 = männlich, 0 = weiblich famst Familienstand: 1 = verheiratet, 0 = ledig Statistik 3, 2010/2011: Modellanpassung und Modellwahl 36 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 37 Deskriptive Auswertung Deskriptive Auswertung R> kredit <- read.csv("kredit.csv") R> summary(kredit[, c("ausfall", "hoehe", "laufz")]) ausfall hoehe laufz Min. :0.0 Min. : 250 Min. : st Qu.:0.0 1st Qu.: st Qu.:12.00 Median :0.0 Median : 2320 Median :18.00 Mean :0.3 Mean : 3271 Mean : rd Qu.:1.0 3rd Qu.: rd Qu.:24.00 Max. :1.0 Max. :18424 Max. :72.00 Density Density Kredithöhe (in DM) Kredithöhe (in DM) Histogramm und Kerndichteschätzer Kredithöhe. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 38 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 39

11 Deskriptive Auswertung Bsp KS: Logitmodell mit Laufzeit Density Density Laufzeit des Kredits (in Monaten) Laufzeit des Kredits (in Monaten) Histogramm und Kerndichteschätzer Laufzeit. ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) η i = β 0 + β 1 laufz i R> glm1 <- glm(ausfall ~ laufz, data = kredit, family = binomial(link = "logit")) R> summary(glm1) Coefficients: (Intercept) < 2e-16 *** laufz e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 998 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 40 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 41 Bsp KS: Logitmodell mit zentrierter Laufzeit Bsp KS: Laufzeit und Kredithöhe Verwende alternativ die zentrierte Laufzeit, d.h. und erhalte laufzc = laufz laufz = laufz 20.9 ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) (Intercept) < 2.2e-16 *** laufzc e-11 *** η i = β 0 + β 1 laufzc i η i = β 0 + β 1 laufzc i + β 2 hoehec i hoehec = hoehe hoehe = hoehe 3271 R> glm3 <- glm(ausfall ~ laufzc + hoehec, data = kredit, family = binomial()) R> summary(glm3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 3.412e e e-06 *** hoehec 2.300e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 997 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 42 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 43

12 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Modelliere den Einfluss der Kredithöhe durch ein Polynom, d.h. η i = β 0 + β 1 laufzc i + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i R> kredit$hoehe2c <- kredit$hoehe^2 - mean(kredit$hoehe^2) R> kredit$hoehe3c <- kredit$hoehe^3 - mean(kredit$hoehe^3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 4.219e e e-08 *** hoehec e e * hoehe2c 5.522e e * hoehe3c e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 995 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Odds Ratios: laufzc hoehec hoehe2c hoehe3c Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 44 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 45 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Effekt der Kredithöhe exp(effekt der Kredithöhe) Weitere Visualisierungsvariante: Geschätzte Wahrscheinlichkeiten in Abhängigkeit der Kredithöhe, wenn die übrigen Kovariablen bei ihrem Mittelwert festgehalten werden. Hier bei laufzc = 0 bzw. laufz = Kredithöhe (in DM) Kredithöhe (in DM) Effekt der Kredithöhe (links) und exp(effekt der Kredithöhe) (rechts). π i = exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) 1 + exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 46 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 47

13 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Prognostizierte Werte Geschätzte Ausfallwahrscheinlichkeit R> p1 <- predict(glm4, type = "link")[1:6] R> p R> predict(glm4, type = "response")[1:6] R> exp(p1)/(1 + exp(p1)) Kredithöhe (in DM) Geschätzte Ausfallwahrscheinlichkeit in Abhängigkeit der Kredithöhe, wenn die Laufzeit 20.9 Monate beträgt. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 48 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 49 Bsp KS: Prognostizierte Werte Linear trennbare Klassen Nur aus der Laufzeit und Höhe lassen sich die Ausfälle natürlich nicht erklären: R> table(kredit$ausfall, predict(glm4, type = "response") > 0.5) FALSE TRUE Das Modell ist keine gute Prognosemaschine, kann aber eventuell helfen, Zusammenhänge zwischen Prädiktoren und Response zu verstehen. Eine unangenehme Eigenschaften der binären Regression (egal ob Logit, Probit,... ) ist, daß der einfachste Fall linear trennbarer Gruppen zu unendlichen Koeffizienten führt, der ML-Schätzer liegt bei ˆβ = ±. Das numerische Maximieren der Likelihood wird in allen (vernünftig implementierten) Paketen nach einer Maximalanzahl von Fisher Scoring Iterationen abgebrochen. Die geschätzten Parameter sind dann einfach nur sehr groß. In diesem Fall liefert z.b. die Fisher sche Diskriminanzanalyse (Statistik 4) ein geeignetes Modell und insbesonders die trennende Hyperebene. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 50 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 51

14 Poisson-Regression für Zähldaten 4.2 Regression für Zähldaten Daten Die Zielvariablen y i nehmen Werte aus {0, 1, 2,... } an und sind bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Log-lineares Poisson-Modell: y i x i P o(λ i ) mit Modell mit Überdispersion: λ i = exp(x i β) bzw. log λ i = x i β. E(y i x i ) = λ i = exp(x i β), mit Überdispersions-Parameter φ. Var(y i x i ) = φλ i Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 53 Beispiel Patenterteilung Beispiel Patenterteilung Anzahl der Zitate von Patenten Variable azit jahrc alandc anspc biopharm uszw patus patdsg einspruch Beschreibung Anzahl der Zitationen für dieses Patent Zielvariable Jahr der Patenterteilung (zentriert um das arithmetische Mittel) Anzahl der Länder, für die Patentschutz gelten soll (zentriert um das arithmetische Mittel) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt, anschließend zentriert um arithmetisches Mittel) Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Einspruch gegen das Patent (1 = ja, 0 = nein) Log-lineares Poisson-Modell für die Rate λ i = E(azit i ) mit rein linearen Effekten im Prädiktor log(λ i ) = η i = β 0 + β 1 jahrc i + β 2 alandc i + β 3 anspc i + β 4 biopharm i + + β 5 uszw i + β 6 patus i + β 7 patdsg i + β 8 einspruch i. Ergebnisse Modell mit linearen Effekten, ohne Überdispersion (Intercept) e-07 *** jahrc < 2.2e-16 *** alandc e-10 *** anspc < 2.2e-16 *** biopharm < 2.2e-16 *** uszw patus patdsg e-13 *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 54 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 55

15 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Modell mit linearen Effekten und Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc < 2.2e-16 *** alandc ** anspc < 2.2e-16 *** biopharm e-07 *** uszw patus patdsg *** einspruch < 2.2e-16 *** Ergebnisse erweitertes Modell mit Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc e-11 *** jahr2c e-11 *** alandc * aland2c ** aland3c *** anspc e-08 *** ansp2c ** biopharm ** uszw patus patdsg *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 56 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 57 Beispiel Patenterteilung Schätzung in R Effekt des Jahres der Patenterteilung Effekt der Anzahl der Länder Zentrierter Effekt Jahr Zentrierter Effekt Zentrierter Effekt Effekt der Anzahl der Patentansprüche Anzahl der Länder R> glm1 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = poisson) R> glm2 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = quasipoisson) R> coef(glm1) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch R> coef(glm2) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch Anzahl der Patentansprüche Lineare (- - -) und nichtlineare ( ) Effekte der metrischen Kovariablen. Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 58 Statistik 3, 2010/2011: 4.2 Generalisierte lineare Modelle 59

16 Schätzung in R Regression für normal-, binomial- oder Poisson-verteilte Zielvariablen sind alles Spezialfälle des sogenannten generalisierten linearen Modells (GLM). 4.3 Generalisierte lineare Modelle Verteilung der Response (bedingt auf x) ist Mitglied der sogenannten Exponentialfamilie. Weitere Beispiele sind Exponential- und Gammaverteilung. Einheitliche Theorie für Inferenz und Software-Implementierung möglich. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 61 Die Exponentialfamilie Die Exponentialfamilie Die Dichte einer einparametrischen Exponentialfamilie für die Zielvariable y ist durch ( ) yθ b(θ) f(y θ) = exp ω + c(y, φ, ω) (2) φ gegeben. Der Parameter θ heißt natürlicher oder kanonischer Parameter. Die Funktion b(θ) muss die Bedingung erfüllen, dass sich f(y θ) normieren lässt und erste und zweite Ableitungen b (θ) und b (θ) existieren. Der zweite Parameter φ ist ein Dispersionsparameter, während ω ein bekannter Wert ist (üblicherweise ein Gewicht). Verteilung θ(µ) b(θ) φ Normal N(µ, σ 2 ) µ θ 2 /2 σ 2 Bernoulli B(1, π) log(π/(1 π)) log(1 + exp(θ)) 1 Poisson Po(λ) log(λ) exp(θ) 1 Gamma G(µ, ν) 1/µ log( θ) ν 1 θ(µ) ist die Linkfunktion des Modells, zusammen mit den Funktionen b( ) und c( ) läßt sich das Fisher-Scoring zur ML-Schätzung allgemein anschreiben (und damit implementieren). θ ist der Parameter von primärem Interesse, der mit dem linearen Prädiktor η = x β verknüpft wird. Man kann zeigen, dass E(y) = µ = b (θ), Var(y) = φ b (θ)/ω Auch die Tests für Inferenz auf dem Modell lassen sich generisch und damit unabhängig von der konkreten Verteilung der Response fomulieren. gilt. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 62 Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 63

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

4 Binäre Regressionsmodelle, Folien 2

4 Binäre Regressionsmodelle, Folien 2 4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Stefan Lang 12 Oktober 2005 WS 05/06 Datensatzbeschreibung (1) Daten Versicherungsdaten für Belgien ca 160000 Beobachtungen Ziel Analyse der Risikostruktur

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Seminar zur Energiewirtschaft:

Seminar zur Energiewirtschaft: Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Technische Universität München. Zentrum Mathematik

Technische Universität München. Zentrum Mathematik Technische Universität München Zentrum Mathematik Modellwahl bei der KFZ Haftpflicht-Versicherung mit Hilfe von GLMs Diplomarbeit von Ivonne Siegelin Themenstellerin: Prof. Dr. C. Czado, Dr. G. Sussmann

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

1 Statistische Grundlagen

1 Statistische Grundlagen Konzepte in Empirische Ökonomie 1 (Winter) Hier findest Du ein paar Tipps zu den Konzepten in Empirische 1. Wenn Du aber noch etwas Unterstützung kurz vor der Klausur brauchst, schreib uns eine kurze Email.

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. E-Mail-Adresse. Unterschrift Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil Name, Vorname Matrikelnr. Studiengang E-Mail-Adresse Unterschrift

Mehr

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!

Nachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!! Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

1 Gemischte Lineare Modelle

1 Gemischte Lineare Modelle 1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle

Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle Diplomarbeit Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle von Patricia Siedlok betreut von PD Dr. Volkert Paulsen Mathematisches Institut für Statistik

Mehr

Empirische Analysen mit dem SOEP

Empirische Analysen mit dem SOEP Empirische Analysen mit dem SOEP Methodisches Lineare Regressionsanalyse & Logit/Probit Modelle Kurs im Wintersemester 2007/08 Dipl.-Volksw. Paul Böhm Dipl.-Volksw. Dominik Hanglberger Dipl.-Volksw. Rafael

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Analyse von Tabellen und kategorialen Daten

Analyse von Tabellen und kategorialen Daten Hans-Jürgen Andreß Jacques A. Hagenaars Steffen Kühnel Analyse von Tabellen und kategorialen Daten Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz Mit 32 Abbildungen

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008 L. Fahrmeir, G. Walter Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 7. Februar 8 Hinweise:. Überprüfen

Mehr

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13 Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression Robin Ristl Wintersemester 2012/13 1 Exakter Test nach Fisher Alternative zum Chi-Quadrat Unabhängigkeitstest

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung

Berichte aus der Statistik. Jens Kahlenberg. Storno und Profitabilität in der Privathaftpflichtversicherung Berichte aus der Statistik Jens Kahlenberg Storno und Profitabilität in der Privathaftpflichtversicherung Eine Analyse unter Verwendung von univariaten und bivariaten verallgemeinerten linearen Modellen

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Tests einzelner linearer Hypothesen I

Tests einzelner linearer Hypothesen I 4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5 Tests einzelner linearer Hypothesen I Neben Tests für einzelne Regressionsparameter sind auch Tests (und Konfidenzintervalle) für Linearkombinationen

Mehr

13.5 Der zentrale Grenzwertsatz

13.5 Der zentrale Grenzwertsatz 13.5 Der zentrale Grenzwertsatz Satz 56 (Der Zentrale Grenzwertsatz Es seien X 1,...,X n (n N unabhängige, identisch verteilte zufällige Variablen mit µ := EX i ; σ 2 := VarX i. Wir definieren für alle

Mehr

Parametrische Statistik

Parametrische Statistik Statistik und ihre Anwendungen Parametrische Statistik Verteilungen, maximum likelihood und GLM in R Bearbeitet von Carsten F. Dormann 1. Auflage 2013. Taschenbuch. xxii, 350 S. Paperback ISBN 978 3 642

Mehr

Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle

Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle Thomas Kneib & Ludwig Fahrmeir Institut für Statistik, Ludwig-Maximilians-Universität München 1. Regressionsmodelle für geoadditive Daten

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics

Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics Universität Trier Zentrum für Informations-, Medienund Kommunikationstechnologie (ZIMK) Trier, den 237215 Bernhard Baltes-Götz Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics Inhaltsverzeichnis

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion Kapitel 12 Stetige Zufallsvariablen 12.1. Dichtefunktion und Verteilungsfunktion stetig Verteilungsfunktion Trägermenge T, also die Menge der möglichen Realisationen, ist durch ein Intervall gegeben Häufig

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

Weiterbildungskurs Stochastik

Weiterbildungskurs Stochastik Hansruedi Künsch Seminar für Statistik Departement Mathematik, ETH Zürich 24. Juni 2009 Inhalt STATISTIK DER BINOMIALVERTEILUNG 1 STATISTIK DER BINOMIALVERTEILUNG 2 Fragestellungen Typische Fragestellungen

Mehr

Errata (2. Auflage) (d) Streudiagramm: log(y) versus x x2

Errata (2. Auflage) (d) Streudiagramm: log(y) versus x x2 Errata (2. Auflage) Kapitel 2, S. 32: Fehlende Klammerung bei der Definition der Chance:... eines multiplikativen Modells für die Chance π i /(1 π i ). Kapitel 3, Seite 71: Falscher Titel in Panel d) von

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios PD Dr.Gabriele Doblhammer, Fortgescrittene Methoden, SS2004 Logistische Regression Tabelle 2 Alter und Symptome von Herz-/Kreislauferkrankung(CD)

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Eine Einführung in R: Das Lineare Modell

Eine Einführung in R: Das Lineare Modell Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Lineare Modelle in R: Klassische lineare Regression

Lineare Modelle in R: Klassische lineare Regression Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)

Mehr

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik Dozent: Volker Krätschmer Fakultät für Mathematik, Universität Duisburg-Essen, WS 2012/13 1. Präsenzübung Aufgabe T 1 Sei (Z 1,...,

Mehr

1.6 Der Vorzeichentest

1.6 Der Vorzeichentest .6 Der Vorzeichentest In diesem Kapitel soll der Vorzeichentest bzw. Zeichentest vorgestellt werden, mit dem man Hypothesen bezüglich des Medians der unabhängig und identisch stetig verteilten Zufallsvariablen

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit Fehlerrechnung Inhalt: 1. Motivation 2. Was sind Messfehler, statistische und systematische 3. Verteilung statistischer Fehler 4. Fehlerfortpflanzung 5. Graphische Auswertung und lineare Regression 6.

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Tutorial: Regression Output von R

Tutorial: Regression Output von R Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen

Mehr

Credit Risk+: Eine Einführung

Credit Risk+: Eine Einführung Credit Risk+: Eine Einführung Volkert Paulsen December 9, 2004 Abstract Credit Risk+ ist neben Credit Metrics ein verbreitetes Kreditrisikomodell, dessen Ursprung in der klassischen Risikotheorie liegt.

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Statistische Modellierung Merkblatt

Statistische Modellierung Merkblatt Inhaltsverzeichnis Statistische Modellierung Merkblatt Welches Modell nimmt man wann?... 1 Logit:... 2 Probit:... 2 Poisson:...2 Loglinear:... 2 multinomiales Logit:... 2 Ordinales Logit (PROC LOGISTIC

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr