Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Größe: px
Ab Seite anzeigen:

Download "Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression"

Transkript

1 Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte lineare Modelle Lineare Modelle sind gut geeignet für Regressionsanalysen mit stetiger Zielvariable, die zumindest approximativ (ggf. nach geeigneter Transformation) durch Normalverteilung modelliert werden kann. Erwartungswert der Zielvariablen muss durch Linearkombination von (ggf. auch transformierten) Kovariablen darstellbar sein. Zielvariable in vielen Anwendungen jedoch nicht stetig, sondern binär bzw. kategorial oder eine Zählvariable. Generalisierte lineare Modelle (GLM) umfassen in einem methodisch einheitlichen Rahmen viele Regressionsansätze für nicht notwendigerweise normalverteilte Zielvariablen. Beispiele: Logit-Modell für binäre Zielvariablen oder auch das klassische lineare Modell mit Normalverteilungsannahme als Spezialfall. 1 Binäre Regressionsmodelle Ziel: Modellierung und Schätzung des Effekts der Kovariablen auf die (bedingte) Wahrscheinlichkeit 4.1 Binäre Regression π i = P(y i = 1 x i1,..., x ik ) = E(y i x i1,..., x ik ) für das Auftreten von y i = 1, gegeben die Kovariablenwerte x i1,..., x ik. Zielvariablen werden dabei als (bedingt) unabhängig angenommen. Naives lineares Wahrscheinlichkeitsmodell: π i = β 0 + β 1 x i β k x ik Ein Nachteil für binäre Zielvariablen besteht hierbei darin, dass der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β, mit β = (β 0, β 1,..., β k ) und x i = (1, x i1,..., x ik ) für alle Werte von x im Intervall [0, 1] liegen muss (führt zu schwierig handhabbaren Restriktionen für die aus den Daten zu schätzenden Parameter β). Statistik 3, 2010/2011: Binäre Regressionsmodelle 3

2 Binäre Regressionsmodelle Binäre Regressionsmodelle Lösungsansatz in allen üblichen binären Regressionsmodellen: Verknüpfung der Wahrscheinlichkeit π i durch eine Beziehung der Form mit dem linearen Prädiktor η i. π i = h(η i ) = h(β 0 + β 1 x i β k x ik ), Responsefunktion (Antwortfunktion): h ist eine auf der ganzen reellen Achse streng monoton wachsende Funktion mit h(η) [0, 1], η R. Insbesonders können daher viele Verteilungsfunktionen als Responsefunktion verwendet werden. Linkfunktion (Verknüpfungsfunktion): Inverse g = h 1 der Responsefunktion, es gilt daher η i = g(π i ). Daten Die binären Zielvariablen y i sind 0/1-kodiert und bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Die Wahrscheinlichkeit π i = P(y i = 1 x i1,..., x ik ) und der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β sind durch eine Responsefunktion h(η) [0, 1] miteinander verknüpft: π i = h(η i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 4 Statistik 3, 2010/2011: Binäre Regressionsmodelle 5 Binäre Regressionsmodelle Binäre Regressionsmodelle Logit-Modell π = exp(η) 1 + exp(η) Probit-Modell log π 1 π = η. π = Φ(η) Φ 1 (π) = η. Komplementäres log-log-modell π = 1 exp( exp(η)) log( log(1 π)) = η eta eta Responsefunktionen (links) und adjustierte Responsefunktionen im binären Regressionsmodell: Logit-Modell ( ), Probit Modell (- - -), komplementäres log-log-modell ( ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 6 Statistik 3, 2010/2011: Binäre Regressionsmodelle 7

3 Interpretation des Logit-Modells Interpretation des Logit-Modells Mit dem linearen Prädiktor gilt für die Chance (odds) das multiplikative Modell η i = β 0 + β 1 x i β k x ik = x i β π i = P(y i = 1 x i ) 1 π i P(y i = 0 x i ) P(y i = 1 x i ) P(y i = 0 x i ) = exp(β 0) exp(x i1 β 1 )... exp(x ik β k ). Wird z.b. x i1 um 1 auf x i1 + 1 erhöht, so gilt für das Verhältnis der Chancen P(y i = 1 x i1 + 1,... ) / P(y i = 1 x i1,... ) P(y i = 0 x i1 + 1,... ) P(y i = 0 x i1,... ) = exp(β 1). β 1 > 0 : Chance P(y i = 1)/P(y i = 0) wird größer, β 1 < 0 : Chance P(y i = 1)/P(y i = 0) wird kleiner, β 1 = 0 : Chance P(y i = 1)/P(y i = 0) bleibt gleich. Statistik 3, 2010/2011: Binäre Regressionsmodelle 8 Statistik 3, 2010/2011: Binäre Regressionsmodelle 9 Binäre Modelle als Schwellenwertmodelle Binäre Modelle als Schwellenwertmodelle Binäre Regressionsmodelle lassen sich auch erklären durch die Annahme einer latenten (unbeobachteten) Zielvariablen, die mit der beobachtbaren binären Zielvariable durch einen Schwellenwertmechanismus verbunden ist. Sei ỹ eine latente stetige Variable, für die ein lineares Modell ỹ = x β + ε gelte. Die Fehlervariable ε besitze die Verteilungsfunktion h. Dabei wird ỹ auch als latenter Nutzen (oder Schaden) interpretiert, der etwa beim Kauf eines Produktes zu einer binären Entscheidung y führt. Die beobachtbare binäre Variable y sei mit ỹ über den Schwellenwertmechanismus y = { 1, ỹ > 0 0, ỹ 0 verbunden, wobei 0 der Schwellenwert ist. Damit ergibt sich π = P(y = 1) = P(x β + ε > 0) = 1 h( x β) = h(x β), falls die Verteilungsfunktion h symmetrisch um 0 ist. Falls ε logistisch verteilt ist, erhält man das Logit-Modell, und für ε N(0, 1) das Probit-Modell π = Φ(x β). Falls ε N(0, σ 2 ) gilt, erhält man durch Standardisieren π = h(x β) = Φ(x β/σ) = Φ(x β), mit β = β/σ, d.h. mit einem Probit-Modell lassen sich die Regressionskoeffizienten β des latenten linearen Regressionsmodells nur bis auf den Faktor 1/σ identifizieren. Das Verhältnis von zwei Koeffizienten, z.b. β 1 und β 2, ist wegen β 1 /β 2 = β 1 / β 2 jedoch identifizierbar. Statistik 3, 2010/2011: Binäre Regressionsmodelle 10 Statistik 3, 2010/2011: Binäre Regressionsmodelle 11

4 Beispiel Patenterteilung Beispiel Patenterteilung Wahrscheinlichkeit für einen Einspruch bei der Patenterteilung Variable einspruch jahr azit ansp uszw patus patdsg aland biopharm Beschreibung Einspruch gegen das Patent (1 = ja, 0 = nein) Zielvariable Jahr der Patenterteilung Anzahl der Zitationen für dieses Patent (Beobachtungen > 15 wurden entfernt) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Anzahl der Länder, für die Patentschutz gelten soll Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) (nur Patente aus anderen Branchen betrachtet) Linearer Prädiktor: η i = β 0 +β 1 jahr i +β 2 azit i +β 3 ansp i +β 4 uszw i +β 5 patus i +β 6 patdsg i +β 7 aland i Ergebnisse Logit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 12 Statistik 3, 2010/2011: Binäre Regressionsmodelle 13 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Probit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Ergebnisse komplementäres log-log-modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 14 Statistik 3, 2010/2011: Binäre Regressionsmodelle 15

5 Beispiel Patenterteilung Schätzen in R Vergleich der geschätzten Koeffizienten * ad- Logit Probit Probit* Log-Log Log-Log* (Intercept) jahr azit ansp uszw patus patdsg aland justierte Koeffizientenschätzer Funktioniert analog zum Linearen Modell, Funktion ist glm(): R> glm1 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "logit")) R> coef(glm1) (Intercept) jahr azit ansp uszw patus patdsg aland R> glm2 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "probit")) R> coef(glm2) (Intercept) jahr azit ansp uszw patus patdsg aland Default Link ist Logit (in der Praxis auch am weitesten verbreitet). Statistik 3, 2010/2011: Binäre Regressionsmodelle 16 Statistik 3, 2010/2011: Binäre Regressionsmodelle 17 Gruppierte Daten Gruppierte Daten Bislang sind wir davon ausgegangen, dass Individualdaten oder ungruppierte Daten vorliegen, d.h. zu jedem Individuum oder Objekt i aus einer Stichprobe vom Umfang n liegt eine Beobachtung (y i, x i ) vor. Jeder binäre, 0-1 kodierte, Wert y i der Zielvariablen und jeder Kovariablenvektor x i = (x i1,..., x ik ) gehört dann zu genau einer Einheit i = 1,..., n. Falls mehrere Kovariablenvektoren bzw. Zeilen der Kovariablen- Datenmatrix identisch sind, können die Daten gruppiert werden: Nach Umsortieren und Zusammenfassen enthält die Datenmatrix nur noch Zeilen mit verschiedenen Kovariablenvektoren x i. Dazu wird die Anzahl n i der Wiederholungen von x i in der Original-Stichprobe der Individualdaten und die relative Häufigkeit ȳ i der entsprechenden individuellen binären Werte der Zielvariablen angegeben: Gruppe 1. Gruppe i. Gruppe G n 1. n i. n G ȳ 1. ȳ i. ȳ G x 11 x 1k.. x i1 x ik.. x G1 x Gk Alternative: Anzahl der Erfolge n i ȳ i und Mißerfolge n i (1 ȳ i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 18 Statistik 3, 2010/2011: Binäre Regressionsmodelle 19

6 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten y = 1 Infektion, y = 0 keine Infektion Binäre Kovariablen: Kaiserschnitt (nicht) geplant, Risikofaktoren (nicht) vorhanden, Antibiotika (nicht) verabreicht Kaiserschnitt geplant nicht geplant Infektion Infektion ja nein ja nein Antibiotika Risikofaktor Kein Risikofaktor Kein Antibiotika Risikofaktor Kein Risikofaktor R> kaiser <- read.csv("kaiser.csv") R> kaiser Plan Antibiotika Risiko InfJa InfNein Bei Wahl von Default-Link kann einfach der Name der Familie als Argument verwendet werden: R> glm.kaiser <- glm(cbind(infja, InfNein) ~., data = kaiser, family = binomial) Statistik 3, 2010/2011: Binäre Regressionsmodelle 20 Statistik 3, 2010/2011: Binäre Regressionsmodelle 21 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten R> summary(glm.kaiser) Call: glm(formula = cbind(infja, InfNein) ~., family = binomial, data = kaiser) Deviance Residuals: Coefficients: (Intercept) Plan * Antibiotika e-11 *** Risiko e-06 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 6 degrees of freedom Residual deviance: on 3 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 Statistik 3, 2010/2011: Binäre Regressionsmodelle 22 Statistik 3, 2010/2011: Binäre Regressionsmodelle 23

7 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung (am Beispiel Logit-Modell) 1. Bestimmung der Likelihood Für binäre Zielvariablen y i B(1, π i ) mit π i = P(y i = 1) = E(y i ) = µ i ist die (diskrete) Dichte durch f(y i π i ) = π y i i (1 π i) 1 y i gegeben. Über die Beziehung π i = h(x iβ) hängt sie damit, bei gegebenem x i, von β ab, so dass wir sie mit f(y i β) bzw. als Likelihood- Beitrag L i (β) der i-ten Beobachtung bezeichnen. Wegen der (bedingten) Unabhängigkeit der y i ist die Likelihood L(β) n n L(β) = L i (β) = π y i i (1 π i) 1 y i i=1 i=1 das Produkt der individuellen Likelihoodbeiträge L i (β). 2. Bestimmung der Log-Likelihood Logarithmieren der Likelihood ergibt die Log-Likelihood n n l(β) = l i (β) = {y i log(π i ) y i log(1 π i ) + log(1 π i )}, i=1 i=1 mit den Log-Likelihood-Beiträgen l i (β) = logl i (β) = y i log(π i ) y i log(1 π i ) + log(1 π i ) ( ) πi = y i log + log(1 π i ) 1 π i Für das Logit-Modell gilt π i = exp(x i β) ( ) πi 1 + exp(x i β) bzw. log = x i 1 π β = η i. i Es folgt wegen (1 π i ) = (1 + exp(x i β)) 1 l i (β) = y i (x i β) log(1 + exp(x i β)) = y iη i log(1 + exp(η i )). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 24 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 25 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung 3. Berechnung der Score-Funktion Zur Berechnung des ML-Schätzers als Maximierer der Log-Likelihood l(β) bildet man die 1. Ableitung nach β, die Score-Funktion s(β) = l(β) β = n i=1 l i (β) β = n s i (β). i=1 Nullsetzen der Score-Funktion liefert die ML-Gleichung s( ˆβ) n = x i y i exp(x i ˆβ) i=1 1 + exp(x i ˆβ) = Bestimmung der Informationsmatrizen Zur Schätzung der Koeffizienten und der Kovarianzmatrix des ML- Schätzers ˆβ benötigt man die beobachtete Informationsmatrix H(β) = 2 l(β) β β, mit den zweiten Ableitungen 2 l(β)/ β j β k als Elementen der Matrix 2 l(β)/ β β, oder die Fisher-Matrix (erwartete Informationsmatrix) ( ) F (β) = E 2 l(β) β β = Cov(s(β)) = E(s(β)s (β)). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 26 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 27

8 Asymptotische Eigenschaften ML-Schätzer Testen linearer Hypothesen Es lässt sich zeigen: für n existiert der ML-Schätzer asymptotisch und ist sowohl konsistent als auch asymptotisch normalverteilt (Stichprobenumfang n genügt). Für hinreichend großen Stichprobenumfang n gilt dann, dass ˆβ approximativ normalverteilt ist: und die geschätzte Kovarianzmatrix ˆβ a N(β, F 1 ( ˆβ)), Ĉov( ˆβ) = F 1 ( ˆβ) ist gleich der inversen Fisher-Matrix, ausgewertet für den ML-Schätzer ˆβ. Das Diagonalelement a jj der inversen Fisher-Matrix A = F 1 ( ˆβ) ist somit ein Schätzer für die Varianz der j-ten Komponente ˆβ j von ˆβ, d.h. es ist Var(ˆβ j ) = a jj, und a jj ist ein Schätzer für die Standardabweichung Var(ˆβ j ). Lineare Hypothesen besitzen die gleiche Form wie im linearen Modell: H 0 : Cβ = d gegen H 1 : Cβ d, wobei C vollen Zeilenrang r p hat. Die Likelihood-Quotienten-Statistik lq = 2{l( β) l( ˆβ)} misst die Abweichung zwischen dem unrestringierten Maximum l( ˆβ) und dem unter H 0 restringierten Maximum l( β), wobei β ML-Schätzer unter der Gleichungsrestriktion Cβ = d ist. Für den Spezialfall H 0 : β j = 0 gegen H 1 : β j 0, (1) wobei β j ein Teilvektor von β ist, testet man auf Signifikanz der zu β j gehörigen Effekte. Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 28 Statistik 3, 2010/2011: Testen linearer Hypothesen 29 Testen linearer Hypothesen Testen linearer Hypothesen Die Wald-Statistik w = (C ˆβ d) [CF 1 ( ˆβ)C ] 1 (C ˆβ d) misst die gewichtete Distanz zwischen C ˆβ und d = Cβ, wobei mit der (inversen) asymptotischen Kovarianzmatrix CF 1 ( ˆβ)C von C ˆβ gewichtet wird. Die Score-Statistik u = s ( β)f 1 ( β)s( β) misst die gewichtete Distanz zwischen dem Wert 0 = s( ˆβ) der Score- Funktion, ausgewertet an der Stelle ˆβ, und dem Wert s( β), ausgewertet für den restringierten ML-Schätzer β. Für die spezielle Hypothese (1) reduzieren sich Wald- und Score-Statistik zu w = ˆβ jâ 1 j ˆβ j, u = s jãj s j, wobei A j die den Elementen von β j entsprechende Teilmatrix von A = F 1 und s j der entsprechende Teilvektor der Score-Funktion s(β) ist. Die Notation,,ˆ bzw.,, bedeutet den jeweiligen Wert an der Stelle ˆβ bzw. β. Falls β j nur ein Element von β ist, ist die Wald-Statistik gleich dem quadrierten,,t-wert t j = ˆβ j ajj, mit a jj als j-tem Diagonalelement der asymptotischen Kovarianzmatrix A = F 1 ( ˆβ). Da ˆβ nur asymptotisch normalverteilt ist, wird immer mit der Standardnormalverteilung verglichen z-wert, z-test. Statistik 3, 2010/2011: Testen linearer Hypothesen 30 Statistik 3, 2010/2011: Testen linearer Hypothesen 31

9 Testen linearer Hypothesen Modellanpassung und Modellwahl Unter ähnlich schwachen Voraussetzungen wie für die asymptotische Normalität des ML-Schätzers sind die drei Teststatistiken unter H 0 asymptotisch äquivalent und asymptotisch bzw. approximativ χ 2 -verteilt mit r Freiheitsgraden: lq, w, u a χ 2 r. Kritische Werte oder p-werte werden über diese asymptotische Verteilung berechnet. Für mittleren Stichprobenumfang ist die Approximation durch die χ 2 -Grenzverteilung in der Regel ausreichend. Für kleinere Stichprobenumfänge, etwa ab n 50, können sich die Werte der Teststatistiken jedoch deutlich unterscheiden. Die Pearson-Statistik ist gegeben durch die Summe der quadrierten, standardisierten Residuen χ 2 G (ȳ = i ˆπ i ) 2, i=1 ˆπ i (1 ˆπ i )/n i wobei G die Anzahl der Gruppen ist, ȳ i die relative Häufigkeit von Einsen in Gruppe i, ˆπ i = h(x i ˆβ) die durch das Modell geschätzte Wahrscheinlichkeit P(y i = 1 x i ) und ˆπ i (1 ˆπ i )/n i die geschätzte Varianz. Die Devianz ist definiert durch G D = 2 {l i (ˆπ i ) l i (ȳ i )}, i=1 wobei l i (ˆπ i ) bzw. l i (ȳ i ) die Log-Likelihood der Gruppe i ist. Statistik 3, 2010/2011: Testen linearer Hypothesen 32 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 33 Modellanpassung und Modellwahl Bsp Patente: Logit-Modell Will man Modelle mit verschiedenen Prädiktoren und Parametern vergleichen, muss ein Kompromiss zwischen guter Datenanpassung durch hohe Parameteranzahl und zu großer Modellkomplexität getroffen werden. Am bekanntesten ist Akaikes Informationskriterium AIC = 2l( ˆβ) + 2p, bei dem der Term 2p die Anzahl der Parameter in einem zu komplexen Modell bestraft. Coefficients: (Intercept) < 2e-16 *** jahr < 2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2694 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 34 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 35

10 Bsp Patente: erweitertes Logit-Modell Bsp: Kreditscoring (KS) Coefficients: (Intercept) 1.981e e < 2e-16 *** jahr e e < 2e-16 *** azit 1.134e e e-07 *** ansp 2.639e e e-06 *** uszw e e e-05 *** patus e e e-06 *** patdsg 1.805e e aland 3.938e e * aland e e aland e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2692 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Variable Beschreibung ausfall 1 = Kredit wurde nicht zurückbezahlt, 0 = Kredit wurde zurückbezahlt laufz Laufzeit des Kredits in Monaten hoehe Kredithöhe in DM moral Frühere Zahlungsmoral des Kunden: 1 = gute Moral, 0 = schlechte Moral zweck Verwendungszweck: 1 = privat, 0 = geschäftlich geschl Geschlecht: 1 = männlich, 0 = weiblich famst Familienstand: 1 = verheiratet, 0 = ledig Statistik 3, 2010/2011: Modellanpassung und Modellwahl 36 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 37 Deskriptive Auswertung Deskriptive Auswertung R> kredit <- read.csv("kredit.csv") R> summary(kredit[, c("ausfall", "hoehe", "laufz")]) ausfall hoehe laufz Min. :0.0 Min. : 250 Min. : st Qu.:0.0 1st Qu.: st Qu.:12.00 Median :0.0 Median : 2320 Median :18.00 Mean :0.3 Mean : 3271 Mean : rd Qu.:1.0 3rd Qu.: rd Qu.:24.00 Max. :1.0 Max. :18424 Max. :72.00 Density Density Kredithöhe (in DM) Kredithöhe (in DM) Histogramm und Kerndichteschätzer Kredithöhe. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 38 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 39

11 Deskriptive Auswertung Bsp KS: Logitmodell mit Laufzeit Density Density Laufzeit des Kredits (in Monaten) Laufzeit des Kredits (in Monaten) Histogramm und Kerndichteschätzer Laufzeit. ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) η i = β 0 + β 1 laufz i R> glm1 <- glm(ausfall ~ laufz, data = kredit, family = binomial(link = "logit")) R> summary(glm1) Coefficients: (Intercept) < 2e-16 *** laufz e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 998 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 40 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 41 Bsp KS: Logitmodell mit zentrierter Laufzeit Bsp KS: Laufzeit und Kredithöhe Verwende alternativ die zentrierte Laufzeit, d.h. und erhalte laufzc = laufz laufz = laufz 20.9 ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) (Intercept) < 2.2e-16 *** laufzc e-11 *** η i = β 0 + β 1 laufzc i η i = β 0 + β 1 laufzc i + β 2 hoehec i hoehec = hoehe hoehe = hoehe 3271 R> glm3 <- glm(ausfall ~ laufzc + hoehec, data = kredit, family = binomial()) R> summary(glm3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 3.412e e e-06 *** hoehec 2.300e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 997 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 42 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 43

12 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Modelliere den Einfluss der Kredithöhe durch ein Polynom, d.h. η i = β 0 + β 1 laufzc i + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i R> kredit$hoehe2c <- kredit$hoehe^2 - mean(kredit$hoehe^2) R> kredit$hoehe3c <- kredit$hoehe^3 - mean(kredit$hoehe^3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 4.219e e e-08 *** hoehec e e * hoehe2c 5.522e e * hoehe3c e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 995 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Odds Ratios: laufzc hoehec hoehe2c hoehe3c Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 44 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 45 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Effekt der Kredithöhe exp(effekt der Kredithöhe) Weitere Visualisierungsvariante: Geschätzte Wahrscheinlichkeiten in Abhängigkeit der Kredithöhe, wenn die übrigen Kovariablen bei ihrem Mittelwert festgehalten werden. Hier bei laufzc = 0 bzw. laufz = Kredithöhe (in DM) Kredithöhe (in DM) Effekt der Kredithöhe (links) und exp(effekt der Kredithöhe) (rechts). π i = exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) 1 + exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 46 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 47

13 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Prognostizierte Werte Geschätzte Ausfallwahrscheinlichkeit R> p1 <- predict(glm4, type = "link")[1:6] R> p R> predict(glm4, type = "response")[1:6] R> exp(p1)/(1 + exp(p1)) Kredithöhe (in DM) Geschätzte Ausfallwahrscheinlichkeit in Abhängigkeit der Kredithöhe, wenn die Laufzeit 20.9 Monate beträgt. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 48 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 49 Bsp KS: Prognostizierte Werte Linear trennbare Klassen Nur aus der Laufzeit und Höhe lassen sich die Ausfälle natürlich nicht erklären: R> table(kredit$ausfall, predict(glm4, type = "response") > 0.5) FALSE TRUE Das Modell ist keine gute Prognosemaschine, kann aber eventuell helfen, Zusammenhänge zwischen Prädiktoren und Response zu verstehen. Eine unangenehme Eigenschaften der binären Regression (egal ob Logit, Probit,... ) ist, daß der einfachste Fall linear trennbarer Gruppen zu unendlichen Koeffizienten führt, der ML-Schätzer liegt bei ˆβ = ±. Das numerische Maximieren der Likelihood wird in allen (vernünftig implementierten) Paketen nach einer Maximalanzahl von Fisher Scoring Iterationen abgebrochen. Die geschätzten Parameter sind dann einfach nur sehr groß. In diesem Fall liefert z.b. die Fisher sche Diskriminanzanalyse (Statistik 4) ein geeignetes Modell und insbesonders die trennende Hyperebene. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 50 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 51

14 Poisson-Regression für Zähldaten 4.2 Regression für Zähldaten Daten Die Zielvariablen y i nehmen Werte aus {0, 1, 2,... } an und sind bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Log-lineares Poisson-Modell: y i x i P o(λ i ) mit Modell mit Überdispersion: λ i = exp(x i β) bzw. log λ i = x i β. E(y i x i ) = λ i = exp(x i β), mit Überdispersions-Parameter φ. Var(y i x i ) = φλ i Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 53 Beispiel Patenterteilung Beispiel Patenterteilung Anzahl der Zitate von Patenten Variable azit jahrc alandc anspc biopharm uszw patus patdsg einspruch Beschreibung Anzahl der Zitationen für dieses Patent Zielvariable Jahr der Patenterteilung (zentriert um das arithmetische Mittel) Anzahl der Länder, für die Patentschutz gelten soll (zentriert um das arithmetische Mittel) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt, anschließend zentriert um arithmetisches Mittel) Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Einspruch gegen das Patent (1 = ja, 0 = nein) Log-lineares Poisson-Modell für die Rate λ i = E(azit i ) mit rein linearen Effekten im Prädiktor log(λ i ) = η i = β 0 + β 1 jahrc i + β 2 alandc i + β 3 anspc i + β 4 biopharm i + + β 5 uszw i + β 6 patus i + β 7 patdsg i + β 8 einspruch i. Ergebnisse Modell mit linearen Effekten, ohne Überdispersion (Intercept) e-07 *** jahrc < 2.2e-16 *** alandc e-10 *** anspc < 2.2e-16 *** biopharm < 2.2e-16 *** uszw patus patdsg e-13 *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 54 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 55

15 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Modell mit linearen Effekten und Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc < 2.2e-16 *** alandc ** anspc < 2.2e-16 *** biopharm e-07 *** uszw patus patdsg *** einspruch < 2.2e-16 *** Ergebnisse erweitertes Modell mit Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc e-11 *** jahr2c e-11 *** alandc * aland2c ** aland3c *** anspc e-08 *** ansp2c ** biopharm ** uszw patus patdsg *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 56 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 57 Beispiel Patenterteilung Schätzung in R Effekt des Jahres der Patenterteilung Effekt der Anzahl der Länder Zentrierter Effekt Jahr Zentrierter Effekt Zentrierter Effekt Effekt der Anzahl der Patentansprüche Anzahl der Länder R> glm1 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = poisson) R> glm2 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = quasipoisson) R> coef(glm1) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch R> coef(glm2) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch Anzahl der Patentansprüche Lineare (- - -) und nichtlineare ( ) Effekte der metrischen Kovariablen. Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 58 Statistik 3, 2010/2011: 4.2 Generalisierte lineare Modelle 59

16 Schätzung in R Regression für normal-, binomial- oder Poisson-verteilte Zielvariablen sind alles Spezialfälle des sogenannten generalisierten linearen Modells (GLM). 4.3 Generalisierte lineare Modelle Verteilung der Response (bedingt auf x) ist Mitglied der sogenannten Exponentialfamilie. Weitere Beispiele sind Exponential- und Gammaverteilung. Einheitliche Theorie für Inferenz und Software-Implementierung möglich. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 61 Die Exponentialfamilie Die Exponentialfamilie Die Dichte einer einparametrischen Exponentialfamilie für die Zielvariable y ist durch ( ) yθ b(θ) f(y θ) = exp ω + c(y, φ, ω) (2) φ gegeben. Der Parameter θ heißt natürlicher oder kanonischer Parameter. Die Funktion b(θ) muss die Bedingung erfüllen, dass sich f(y θ) normieren lässt und erste und zweite Ableitungen b (θ) und b (θ) existieren. Der zweite Parameter φ ist ein Dispersionsparameter, während ω ein bekannter Wert ist (üblicherweise ein Gewicht). Verteilung θ(µ) b(θ) φ Normal N(µ, σ 2 ) µ θ 2 /2 σ 2 Bernoulli B(1, π) log(π/(1 π)) log(1 + exp(θ)) 1 Poisson Po(λ) log(λ) exp(θ) 1 Gamma G(µ, ν) 1/µ log( θ) ν 1 θ(µ) ist die Linkfunktion des Modells, zusammen mit den Funktionen b( ) und c( ) läßt sich das Fisher-Scoring zur ML-Schätzung allgemein anschreiben (und damit implementieren). θ ist der Parameter von primärem Interesse, der mit dem linearen Prädiktor η = x β verknüpft wird. Man kann zeigen, dass E(y) = µ = b (θ), Var(y) = φ b (θ)/ω Auch die Tests für Inferenz auf dem Modell lassen sich generisch und damit unabhängig von der konkreten Verteilung der Response fomulieren. gilt. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 62 Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 63

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression 6.0 Logistische Regression 6.1 Das binäre Modell 6.1 Das binäre Modell Sei x der Vektor der Einflussgrößen mit einem Eins-Element, um die Regressionskonstante zu modellieren. Angenommen, es gilt das Regressionsmodell:

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Stefan Lang 12 Oktober 2005 WS 05/06 Datensatzbeschreibung (1) Daten Versicherungsdaten für Belgien ca 160000 Beobachtungen Ziel Analyse der Risikostruktur

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Technische Universität München. Zentrum Mathematik

Technische Universität München. Zentrum Mathematik Technische Universität München Zentrum Mathematik Modellwahl bei der KFZ Haftpflicht-Versicherung mit Hilfe von GLMs Diplomarbeit von Ivonne Siegelin Themenstellerin: Prof. Dr. C. Czado, Dr. G. Sussmann

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle

Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle Diplomarbeit Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle von Patricia Siedlok betreut von PD Dr. Volkert Paulsen Mathematisches Institut für Statistik

Mehr

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze Lehrstuhl für Statistik und empirische irtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im ach Ökonometrie im S 20/2 Lösungsskizze Aufgabe (.5 Punkte) Sie verfügen über einen Datensatz, der Informationen

Mehr

Semiparametrisches Kredit Scoring

Semiparametrisches Kredit Scoring Semiparametrisches Kredit Scoring Marlene Müller Fraunhofer Institut für Techno- und Wirtschaftsmathematik (ITWM) Kaiserslautern Bernd Rönz, Wolfgang Härdle Center for Applied Statistics and Economics

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Binäre Auswahlmodelle (Logit, Probit,...)

Binäre Auswahlmodelle (Logit, Probit,...) Binäre Auswahlmodelle (Logit, Probit,...) 27. November 204 In diesem Kapitel führen wir eine Klasse von Modellen für binäre Auswahlprobleme ein, deren wichtigste Vertreter das Logit- und das Probit-Modell

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics

Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics Universität Trier Zentrum für Informations-, Medienund Kommunikationstechnologie (ZIMK) Trier, den 237215 Bernhard Baltes-Götz Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics Inhaltsverzeichnis

Mehr

Multivariate Analyseverfahren

Multivariate Analyseverfahren Multivariate Analyseverfahren Logistische Regression Prof. Dr. Stein 14.01.2014 & 20.01.2014 1 / 62 Inhaltsverzeichnis 1 Grundidee 2 3 4 5 2 / 62 Der Erklärungsgegenstand Soziale Forschungsgegenstände

Mehr

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren Marlene Müller Beuth Hochschule für Technik Berlin, Fachbereich II Luxemburger Str. 10, D 13353 Berlin

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

9 Diskriminanzanalyse

9 Diskriminanzanalyse 9 Diskriminanzanalyse 9.1 Problemstellung Ziel einer Diskriminanzanalyse: Bereits bekannte Objektgruppen (Klassen/Cluster) anhand ihrer Merkmale charakterisieren und unterscheiden sowie neue Objekte in

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Modellierung des Stornos nach Beitragsanpassung in der PKV

Modellierung des Stornos nach Beitragsanpassung in der PKV ierung des Stornos nach Beitragsanpassung in der PKV 02.07.2013 Alexander Küpper Central Krankenversicherung AG Inhaltsverzeichnis Einführung Gesetzlicher Rahmen Stornomodell Anwendung Ausblick und Weiterentwicklung

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt?

Übungen zur Vorlesung. Statistik 2. a) Welche Grundannahmen der linearen Regression sind in Modell (1) verletzt? Institut für Stochastik WS 2007/2008 Universität Karlsruhe JProf. Dr. H. Holzmann Blatt 7 Dipl.-Math. oec. D. Engel Übungen zur Vorlesung Statistik 2 Aufgabe 25 (keine Abgabe) Angenommen die Zielvariable

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Credit Risk+: Eine Einführung

Credit Risk+: Eine Einführung Credit Risk+: Eine Einführung Volkert Paulsen December 9, 2004 Abstract Credit Risk+ ist neben Credit Metrics ein verbreitetes Kreditrisikomodell, dessen Ursprung in der klassischen Risikotheorie liegt.

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Regressionsmodelle für kategoriale Daten und Zähldaten

Regressionsmodelle für kategoriale Daten und Zähldaten Kapitel 8 Regressionsmodelle für kategoriale Daten und Zähldaten Das Modell der linearen Regression und Varianzanalyse (vgl. Abschn. 6.3, 7.3, 12.9.1) lässt sich zum verallgemeinerten linearen Modell (GLM,

Mehr

Nichtlebenversicherungsmathematik Aus welchen Teilen besteht eine Prämie Zufallsrisiko, Parameterrisiko, Risikokapital Risikomasse (VaR, ES) Definition von Kohärenz Zusammengesetze Poisson: S(i) CP, was

Mehr

Unsupervised Kernel Regression

Unsupervised Kernel Regression 9. Mai 26 Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX Zeitreihenanalyse Teil III: Nichtlineare Zeitreihenmodelle Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel DAX -10-5 0 5 10 0 200 400 600 800 1000 trading day Göttingen, Januar 2008 Inhaltsverzeichnis

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Analyse von Extremwerten

Analyse von Extremwerten Analyse von Extremwerten Interdisziplinäres Seminar: Statistische Verfahren in den Geowissenschaften Anna Hamann betreut durch Prof. Dr. Helmut Küchenhoff, Institut für Statistik Ludwig Maximilians Universität

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

6.1 Grundbegriffe und historischer Hintergrund

6.1 Grundbegriffe und historischer Hintergrund Kapitel 6 Regression 61 Grundbegriffe und historischer Hintergrund Bedeutung der Regression: Eines der am häufigsten verwendeten statistischen Verfahren Vielfache Anwendung in den Sozialwissenschaften

Mehr

Aktuelles aus der Financial Times Deutschland

Aktuelles aus der Financial Times Deutschland verfahren Seminar: Warum wir falsch liegen und trotzdem weitermachen - Aktuelle Themen in Banken und Versicherungen Oliver Kühnle Ludwig-Maximilians-Universität München - Institut für Statistik 9. Juli

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression I Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression I Programm Ergänzung zu letzter Sitzung: Interpretation nichtlinearer Effekte Anwendungsbereich der logistischen Regression Entwicklung

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

DIE ANWENDUNG VON GLM IN DER LEBENSVERSICHERUNG. Graduiertenkolleg Universität Ulm

DIE ANWENDUNG VON GLM IN DER LEBENSVERSICHERUNG. Graduiertenkolleg Universität Ulm DIE ANWENDUNG VON GLM IN DER LEBENSVERSICHERUNG Graduiertenkolleg Universität Ulm Dr. Frank Schiller 30.10.2009 PRICING UND VALUATION IN DER LEBENSVERSICHERUNG Produkte in der deutschen Lebensversicherung

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz

Seminar Data Mining and Learning from Data. Predictive Modeling. Thorsten Holz Seminar Data Mining and Learning from Data Predictive Modeling Thorsten Holz Human Language Technology and Pattern Recognition Lehrstuhl für Informatik VI, Computer Science Department RWTH Aachen University

Mehr

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko Jan Jescow Stoehr Gliederung 1. Einführung / Grundlagen 1.1 Ziel 1.2 CreditRisk+ und CreditMetrics 2. Kreditportfolio 2.1 Konstruktion

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Geoadditive Regression

Geoadditive Regression Seminar: Stochastische Geometrie und ihre Anwendungen - Zufallsfelder Universität Ulm 27.01.2009 Inhalt Einleitung 1 Einleitung 2 3 Penalisierung 4 Idee Variogramm und Kovarianz Gewöhnliches Ansatz für

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab Einfache lineare Regression als Beispiel für das ALM ALM : Allgemeines Lineares Modell Y : Kriterium U : Prädiktor Modell : Erwartungswert von Y ist lineare Funktion von U Genauer : Für festes u gilt für

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Statistische Methoden: Tests, Regression und multivariate Verfahren

Statistische Methoden: Tests, Regression und multivariate Verfahren (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM) 0. Einige Probleme aus

Mehr

Modelle mit diskreten abhängigen Variablen

Modelle mit diskreten abhängigen Variablen Kapitel 19 Modelle mit diskreten abhängigen Variablen 19.1 Vorbemerkungen Bisher sind wir stets davon ausgegangen, dass die abhängige Variable y intervallskaliert ist. Zusätzlich haben wir meist angenommen,

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 SFB 833 Bedeutungskonstitution Kompaktkurs Datenanalyse Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 Messen und Skalen Relativ (Relationensystem): Menge A von Objekten und eine oder mehrere Relationen

Mehr

Die Anwendung von Generalisierten Linearen Modellen in der Lebensversicherung

Die Anwendung von Generalisierten Linearen Modellen in der Lebensversicherung Die Anwendung von Generalisierten Linearen Modellen in der Lebensversicherung Versicherungsmathematisches Kolloquium der LMU München Dr. Frank Schiller 13. Juli 2009 Pricing und Valuation in der Lebensversicherung

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Notiz zur logistischen Regression

Notiz zur logistischen Regression Kapitel 1 Notiz zur logistischen Regression 1.1 Grundlagen Bei dichotomen abhängigen Variablen ergeben sich bei einer normalen linearen Regression Probleme. Während man die Ausprägungen einer dichotomen

Mehr

Lasso in LMs und GLMs

Lasso in LMs und GLMs Lasso in LMs und GLMs Seminar Regularisierungstechniken und strukturierte Regression, Prof. Dr. Gerhard Tutz, Institut für Statistik, Ludwig-Maximilians-Universität München Referent: Patrick Schenk Betreuer:

Mehr

Beispiel 5 Europäische Call Option (ECO) in einer Aktie S mit Laufzeit T und Ausübungspreis (Strikepreis) K.

Beispiel 5 Europäische Call Option (ECO) in einer Aktie S mit Laufzeit T und Ausübungspreis (Strikepreis) K. Beispiel 5 Europäische Call Option (ECO) in einer Aktie S mit Laufzeit T und Ausübungspreis (Strikepreis) K. Wert der Call Option zum Zeitpunkt T: max{s T K,0} Preis der ECO zum Zeitpunkt t < T: C = C(t,

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

GENERALISIERTE LINEARE MODELLE MIT SAS 8e. Andreas Christmann

GENERALISIERTE LINEARE MODELLE MIT SAS 8e. Andreas Christmann GENERALISIERTE LINEARE MODELLE MIT SAS 8e Andreas Christmann Universität Dortmund A.Christmann@hrz.uni-dortmund.de KSFE 2003, Potsdam 20.-21. Februar 2003 1/39 INHALT 1. Anwendungen 2. Generalisierte Lineare

Mehr

Logistische Regression

Logistische Regression TU Chemnitz SoSe 2012 Seminar: Multivariate Analysemethoden 26.06.2012 Dozent: Dr. Thomas Schäfer Logistische Regression Ein Verfahren zum Schätzen von Wahrscheinlichkeiten Referentinnen: B. Sc. Psych.

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Commercial Banking. Kreditportfoliosteuerung

Commercial Banking. Kreditportfoliosteuerung Commercial Banking Kreditportfoliosteuerung Dimensionen des Portfoliorisikos Risikomessung: Was ist Kreditrisiko? Marking to Market Veränderungen des Kreditportfolios: - Rating-Veränderung bzw. Spreadveränderung

Mehr

Multivariate Zeitreihenanalyse mit EViews 4.1

Multivariate Zeitreihenanalyse mit EViews 4.1 Multivariate Zeitreihenanalyse mit EViews 4.1 Unterlagen für LVen des Instituts für Angewandte Statistic (IFAS) Johannes Kepler Universität Linz Stand: 30. Mai 2005, Redaktion: Frühwirth-Schnatter 1 Deskriptive

Mehr

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede Universität Ulm Seminararbeit zum Thema Data Mining und Statistik: Gemeinsamkeiten und Unterschiede vorgelegt von: Daniel Meschenmoser betreut von: Dr. Tomas Hrycej Dr. Matthias Grabert Ulm, im Februar

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

Seminar Text- und Datamining Datamining-Grundlagen

Seminar Text- und Datamining Datamining-Grundlagen Seminar Text- und Datamining Datamining-Grundlagen Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 23.05.2013 Gliederung 1 Klassifikationsprobleme 2 Evaluation

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Partial Credit Model und Tutz Model

Partial Credit Model und Tutz Model November 22, 2011 Item Response Theory - Partial Credit Model Einleitung IRT-Einteilung Datenstruktur PCM - Herleitung Parameterschätzung Goodness of Fit Beispiel Sequential Models for Ordered Responses

Mehr

Stochastische Prozesse und Zeitreihenmodelle

Stochastische Prozesse und Zeitreihenmodelle Kapitel 12 Stochastische Prozesse und reihenmodelle [ Stochastische Prozesse und reihenmodelle ] Einleitung:.com-Blase an der NASDAQ Department of Statistics and Mathematics WU Wien c 2008 Statistik 12

Mehr