Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Größe: px
Ab Seite anzeigen:

Download "Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression"

Transkript

1 Generalisierte lineare Modelle Statistik 3 im Nebenfach Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München WS 2010/2011 basierend auf Fahrmeir, Kneib & Lang (2007) 4 Generalisierte lineare Modelle Lineare Modelle sind gut geeignet für Regressionsanalysen mit stetiger Zielvariable, die zumindest approximativ (ggf. nach geeigneter Transformation) durch Normalverteilung modelliert werden kann. Erwartungswert der Zielvariablen muss durch Linearkombination von (ggf. auch transformierten) Kovariablen darstellbar sein. Zielvariable in vielen Anwendungen jedoch nicht stetig, sondern binär bzw. kategorial oder eine Zählvariable. Generalisierte lineare Modelle (GLM) umfassen in einem methodisch einheitlichen Rahmen viele Regressionsansätze für nicht notwendigerweise normalverteilte Zielvariablen. Beispiele: Logit-Modell für binäre Zielvariablen oder auch das klassische lineare Modell mit Normalverteilungsannahme als Spezialfall. 1 Binäre Regressionsmodelle Ziel: Modellierung und Schätzung des Effekts der Kovariablen auf die (bedingte) Wahrscheinlichkeit 4.1 Binäre Regression π i = P(y i = 1 x i1,..., x ik ) = E(y i x i1,..., x ik ) für das Auftreten von y i = 1, gegeben die Kovariablenwerte x i1,..., x ik. Zielvariablen werden dabei als (bedingt) unabhängig angenommen. Naives lineares Wahrscheinlichkeitsmodell: π i = β 0 + β 1 x i β k x ik Ein Nachteil für binäre Zielvariablen besteht hierbei darin, dass der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β, mit β = (β 0, β 1,..., β k ) und x i = (1, x i1,..., x ik ) für alle Werte von x im Intervall [0, 1] liegen muss (führt zu schwierig handhabbaren Restriktionen für die aus den Daten zu schätzenden Parameter β). Statistik 3, 2010/2011: Binäre Regressionsmodelle 3

2 Binäre Regressionsmodelle Binäre Regressionsmodelle Lösungsansatz in allen üblichen binären Regressionsmodellen: Verknüpfung der Wahrscheinlichkeit π i durch eine Beziehung der Form mit dem linearen Prädiktor η i. π i = h(η i ) = h(β 0 + β 1 x i β k x ik ), Responsefunktion (Antwortfunktion): h ist eine auf der ganzen reellen Achse streng monoton wachsende Funktion mit h(η) [0, 1], η R. Insbesonders können daher viele Verteilungsfunktionen als Responsefunktion verwendet werden. Linkfunktion (Verknüpfungsfunktion): Inverse g = h 1 der Responsefunktion, es gilt daher η i = g(π i ). Daten Die binären Zielvariablen y i sind 0/1-kodiert und bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Die Wahrscheinlichkeit π i = P(y i = 1 x i1,..., x ik ) und der lineare Prädiktor η i = β 0 + β 1 x i β k x ik = x i β sind durch eine Responsefunktion h(η) [0, 1] miteinander verknüpft: π i = h(η i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 4 Statistik 3, 2010/2011: Binäre Regressionsmodelle 5 Binäre Regressionsmodelle Binäre Regressionsmodelle Logit-Modell π = exp(η) 1 + exp(η) Probit-Modell log π 1 π = η. π = Φ(η) Φ 1 (π) = η. Komplementäres log-log-modell π = 1 exp( exp(η)) log( log(1 π)) = η eta eta Responsefunktionen (links) und adjustierte Responsefunktionen im binären Regressionsmodell: Logit-Modell ( ), Probit Modell (- - -), komplementäres log-log-modell ( ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 6 Statistik 3, 2010/2011: Binäre Regressionsmodelle 7

3 Interpretation des Logit-Modells Interpretation des Logit-Modells Mit dem linearen Prädiktor gilt für die Chance (odds) das multiplikative Modell η i = β 0 + β 1 x i β k x ik = x i β π i = P(y i = 1 x i ) 1 π i P(y i = 0 x i ) P(y i = 1 x i ) P(y i = 0 x i ) = exp(β 0) exp(x i1 β 1 )... exp(x ik β k ). Wird z.b. x i1 um 1 auf x i1 + 1 erhöht, so gilt für das Verhältnis der Chancen P(y i = 1 x i1 + 1,... ) / P(y i = 1 x i1,... ) P(y i = 0 x i1 + 1,... ) P(y i = 0 x i1,... ) = exp(β 1). β 1 > 0 : Chance P(y i = 1)/P(y i = 0) wird größer, β 1 < 0 : Chance P(y i = 1)/P(y i = 0) wird kleiner, β 1 = 0 : Chance P(y i = 1)/P(y i = 0) bleibt gleich. Statistik 3, 2010/2011: Binäre Regressionsmodelle 8 Statistik 3, 2010/2011: Binäre Regressionsmodelle 9 Binäre Modelle als Schwellenwertmodelle Binäre Modelle als Schwellenwertmodelle Binäre Regressionsmodelle lassen sich auch erklären durch die Annahme einer latenten (unbeobachteten) Zielvariablen, die mit der beobachtbaren binären Zielvariable durch einen Schwellenwertmechanismus verbunden ist. Sei ỹ eine latente stetige Variable, für die ein lineares Modell ỹ = x β + ε gelte. Die Fehlervariable ε besitze die Verteilungsfunktion h. Dabei wird ỹ auch als latenter Nutzen (oder Schaden) interpretiert, der etwa beim Kauf eines Produktes zu einer binären Entscheidung y führt. Die beobachtbare binäre Variable y sei mit ỹ über den Schwellenwertmechanismus y = { 1, ỹ > 0 0, ỹ 0 verbunden, wobei 0 der Schwellenwert ist. Damit ergibt sich π = P(y = 1) = P(x β + ε > 0) = 1 h( x β) = h(x β), falls die Verteilungsfunktion h symmetrisch um 0 ist. Falls ε logistisch verteilt ist, erhält man das Logit-Modell, und für ε N(0, 1) das Probit-Modell π = Φ(x β). Falls ε N(0, σ 2 ) gilt, erhält man durch Standardisieren π = h(x β) = Φ(x β/σ) = Φ(x β), mit β = β/σ, d.h. mit einem Probit-Modell lassen sich die Regressionskoeffizienten β des latenten linearen Regressionsmodells nur bis auf den Faktor 1/σ identifizieren. Das Verhältnis von zwei Koeffizienten, z.b. β 1 und β 2, ist wegen β 1 /β 2 = β 1 / β 2 jedoch identifizierbar. Statistik 3, 2010/2011: Binäre Regressionsmodelle 10 Statistik 3, 2010/2011: Binäre Regressionsmodelle 11

4 Beispiel Patenterteilung Beispiel Patenterteilung Wahrscheinlichkeit für einen Einspruch bei der Patenterteilung Variable einspruch jahr azit ansp uszw patus patdsg aland biopharm Beschreibung Einspruch gegen das Patent (1 = ja, 0 = nein) Zielvariable Jahr der Patenterteilung Anzahl der Zitationen für dieses Patent (Beobachtungen > 15 wurden entfernt) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Anzahl der Länder, für die Patentschutz gelten soll Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) (nur Patente aus anderen Branchen betrachtet) Linearer Prädiktor: η i = β 0 +β 1 jahr i +β 2 azit i +β 3 ansp i +β 4 uszw i +β 5 patus i +β 6 patdsg i +β 7 aland i Ergebnisse Logit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 12 Statistik 3, 2010/2011: Binäre Regressionsmodelle 13 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Probit-Modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** Ergebnisse komplementäres log-log-modell (Intercept) < 2.2e-16 *** jahr < 2.2e-16 *** azit e-07 *** ansp e-06 *** uszw *** patus e-06 *** patdsg aland e-11 *** Statistik 3, 2010/2011: Binäre Regressionsmodelle 14 Statistik 3, 2010/2011: Binäre Regressionsmodelle 15

5 Beispiel Patenterteilung Schätzen in R Vergleich der geschätzten Koeffizienten * ad- Logit Probit Probit* Log-Log Log-Log* (Intercept) jahr azit ansp uszw patus patdsg aland justierte Koeffizientenschätzer Funktioniert analog zum Linearen Modell, Funktion ist glm(): R> glm1 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "logit")) R> coef(glm1) (Intercept) jahr azit ansp uszw patus patdsg aland R> glm2 <- glm(einspruch ~ jahr + azit + ansp + uszw + patus + patdsg + aland, + data=patente, family = binomial(link = "probit")) R> coef(glm2) (Intercept) jahr azit ansp uszw patus patdsg aland Default Link ist Logit (in der Praxis auch am weitesten verbreitet). Statistik 3, 2010/2011: Binäre Regressionsmodelle 16 Statistik 3, 2010/2011: Binäre Regressionsmodelle 17 Gruppierte Daten Gruppierte Daten Bislang sind wir davon ausgegangen, dass Individualdaten oder ungruppierte Daten vorliegen, d.h. zu jedem Individuum oder Objekt i aus einer Stichprobe vom Umfang n liegt eine Beobachtung (y i, x i ) vor. Jeder binäre, 0-1 kodierte, Wert y i der Zielvariablen und jeder Kovariablenvektor x i = (x i1,..., x ik ) gehört dann zu genau einer Einheit i = 1,..., n. Falls mehrere Kovariablenvektoren bzw. Zeilen der Kovariablen- Datenmatrix identisch sind, können die Daten gruppiert werden: Nach Umsortieren und Zusammenfassen enthält die Datenmatrix nur noch Zeilen mit verschiedenen Kovariablenvektoren x i. Dazu wird die Anzahl n i der Wiederholungen von x i in der Original-Stichprobe der Individualdaten und die relative Häufigkeit ȳ i der entsprechenden individuellen binären Werte der Zielvariablen angegeben: Gruppe 1. Gruppe i. Gruppe G n 1. n i. n G ȳ 1. ȳ i. ȳ G x 11 x 1k.. x i1 x ik.. x G1 x Gk Alternative: Anzahl der Erfolge n i ȳ i und Mißerfolge n i (1 ȳ i ). Statistik 3, 2010/2011: Binäre Regressionsmodelle 18 Statistik 3, 2010/2011: Binäre Regressionsmodelle 19

6 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten y = 1 Infektion, y = 0 keine Infektion Binäre Kovariablen: Kaiserschnitt (nicht) geplant, Risikofaktoren (nicht) vorhanden, Antibiotika (nicht) verabreicht Kaiserschnitt geplant nicht geplant Infektion Infektion ja nein ja nein Antibiotika Risikofaktor Kein Risikofaktor Kein Antibiotika Risikofaktor Kein Risikofaktor R> kaiser <- read.csv("kaiser.csv") R> kaiser Plan Antibiotika Risiko InfJa InfNein Bei Wahl von Default-Link kann einfach der Name der Familie als Argument verwendet werden: R> glm.kaiser <- glm(cbind(infja, InfNein) ~., data = kaiser, family = binomial) Statistik 3, 2010/2011: Binäre Regressionsmodelle 20 Statistik 3, 2010/2011: Binäre Regressionsmodelle 21 Beispiel Kaiserschnitt-Geburten Beispiel Kaiserschnitt-Geburten R> summary(glm.kaiser) Call: glm(formula = cbind(infja, InfNein) ~., family = binomial, data = kaiser) Deviance Residuals: Coefficients: (Intercept) Plan * Antibiotika e-11 *** Risiko e-06 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 6 degrees of freedom Residual deviance: on 3 degrees of freedom AIC: Number of Fisher Scoring iterations: 5 Statistik 3, 2010/2011: Binäre Regressionsmodelle 22 Statistik 3, 2010/2011: Binäre Regressionsmodelle 23

7 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung (am Beispiel Logit-Modell) 1. Bestimmung der Likelihood Für binäre Zielvariablen y i B(1, π i ) mit π i = P(y i = 1) = E(y i ) = µ i ist die (diskrete) Dichte durch f(y i π i ) = π y i i (1 π i) 1 y i gegeben. Über die Beziehung π i = h(x iβ) hängt sie damit, bei gegebenem x i, von β ab, so dass wir sie mit f(y i β) bzw. als Likelihood- Beitrag L i (β) der i-ten Beobachtung bezeichnen. Wegen der (bedingten) Unabhängigkeit der y i ist die Likelihood L(β) n n L(β) = L i (β) = π y i i (1 π i) 1 y i i=1 i=1 das Produkt der individuellen Likelihoodbeiträge L i (β). 2. Bestimmung der Log-Likelihood Logarithmieren der Likelihood ergibt die Log-Likelihood n n l(β) = l i (β) = {y i log(π i ) y i log(1 π i ) + log(1 π i )}, i=1 i=1 mit den Log-Likelihood-Beiträgen l i (β) = logl i (β) = y i log(π i ) y i log(1 π i ) + log(1 π i ) ( ) πi = y i log + log(1 π i ) 1 π i Für das Logit-Modell gilt π i = exp(x i β) ( ) πi 1 + exp(x i β) bzw. log = x i 1 π β = η i. i Es folgt wegen (1 π i ) = (1 + exp(x i β)) 1 l i (β) = y i (x i β) log(1 + exp(x i β)) = y iη i log(1 + exp(η i )). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 24 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 25 Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzung 3. Berechnung der Score-Funktion Zur Berechnung des ML-Schätzers als Maximierer der Log-Likelihood l(β) bildet man die 1. Ableitung nach β, die Score-Funktion s(β) = l(β) β = n i=1 l i (β) β = n s i (β). i=1 Nullsetzen der Score-Funktion liefert die ML-Gleichung s( ˆβ) n = x i y i exp(x i ˆβ) i=1 1 + exp(x i ˆβ) = Bestimmung der Informationsmatrizen Zur Schätzung der Koeffizienten und der Kovarianzmatrix des ML- Schätzers ˆβ benötigt man die beobachtete Informationsmatrix H(β) = 2 l(β) β β, mit den zweiten Ableitungen 2 l(β)/ β j β k als Elementen der Matrix 2 l(β)/ β β, oder die Fisher-Matrix (erwartete Informationsmatrix) ( ) F (β) = E 2 l(β) β β = Cov(s(β)) = E(s(β)s (β)). Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 26 Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 27

8 Asymptotische Eigenschaften ML-Schätzer Testen linearer Hypothesen Es lässt sich zeigen: für n existiert der ML-Schätzer asymptotisch und ist sowohl konsistent als auch asymptotisch normalverteilt (Stichprobenumfang n genügt). Für hinreichend großen Stichprobenumfang n gilt dann, dass ˆβ approximativ normalverteilt ist: und die geschätzte Kovarianzmatrix ˆβ a N(β, F 1 ( ˆβ)), Ĉov( ˆβ) = F 1 ( ˆβ) ist gleich der inversen Fisher-Matrix, ausgewertet für den ML-Schätzer ˆβ. Das Diagonalelement a jj der inversen Fisher-Matrix A = F 1 ( ˆβ) ist somit ein Schätzer für die Varianz der j-ten Komponente ˆβ j von ˆβ, d.h. es ist Var(ˆβ j ) = a jj, und a jj ist ein Schätzer für die Standardabweichung Var(ˆβ j ). Lineare Hypothesen besitzen die gleiche Form wie im linearen Modell: H 0 : Cβ = d gegen H 1 : Cβ d, wobei C vollen Zeilenrang r p hat. Die Likelihood-Quotienten-Statistik lq = 2{l( β) l( ˆβ)} misst die Abweichung zwischen dem unrestringierten Maximum l( ˆβ) und dem unter H 0 restringierten Maximum l( β), wobei β ML-Schätzer unter der Gleichungsrestriktion Cβ = d ist. Für den Spezialfall H 0 : β j = 0 gegen H 1 : β j 0, (1) wobei β j ein Teilvektor von β ist, testet man auf Signifikanz der zu β j gehörigen Effekte. Statistik 3, 2010/2011: Maximum-Likelihood-Schätzung 28 Statistik 3, 2010/2011: Testen linearer Hypothesen 29 Testen linearer Hypothesen Testen linearer Hypothesen Die Wald-Statistik w = (C ˆβ d) [CF 1 ( ˆβ)C ] 1 (C ˆβ d) misst die gewichtete Distanz zwischen C ˆβ und d = Cβ, wobei mit der (inversen) asymptotischen Kovarianzmatrix CF 1 ( ˆβ)C von C ˆβ gewichtet wird. Die Score-Statistik u = s ( β)f 1 ( β)s( β) misst die gewichtete Distanz zwischen dem Wert 0 = s( ˆβ) der Score- Funktion, ausgewertet an der Stelle ˆβ, und dem Wert s( β), ausgewertet für den restringierten ML-Schätzer β. Für die spezielle Hypothese (1) reduzieren sich Wald- und Score-Statistik zu w = ˆβ jâ 1 j ˆβ j, u = s jãj s j, wobei A j die den Elementen von β j entsprechende Teilmatrix von A = F 1 und s j der entsprechende Teilvektor der Score-Funktion s(β) ist. Die Notation,,ˆ bzw.,, bedeutet den jeweiligen Wert an der Stelle ˆβ bzw. β. Falls β j nur ein Element von β ist, ist die Wald-Statistik gleich dem quadrierten,,t-wert t j = ˆβ j ajj, mit a jj als j-tem Diagonalelement der asymptotischen Kovarianzmatrix A = F 1 ( ˆβ). Da ˆβ nur asymptotisch normalverteilt ist, wird immer mit der Standardnormalverteilung verglichen z-wert, z-test. Statistik 3, 2010/2011: Testen linearer Hypothesen 30 Statistik 3, 2010/2011: Testen linearer Hypothesen 31

9 Testen linearer Hypothesen Modellanpassung und Modellwahl Unter ähnlich schwachen Voraussetzungen wie für die asymptotische Normalität des ML-Schätzers sind die drei Teststatistiken unter H 0 asymptotisch äquivalent und asymptotisch bzw. approximativ χ 2 -verteilt mit r Freiheitsgraden: lq, w, u a χ 2 r. Kritische Werte oder p-werte werden über diese asymptotische Verteilung berechnet. Für mittleren Stichprobenumfang ist die Approximation durch die χ 2 -Grenzverteilung in der Regel ausreichend. Für kleinere Stichprobenumfänge, etwa ab n 50, können sich die Werte der Teststatistiken jedoch deutlich unterscheiden. Die Pearson-Statistik ist gegeben durch die Summe der quadrierten, standardisierten Residuen χ 2 G (ȳ = i ˆπ i ) 2, i=1 ˆπ i (1 ˆπ i )/n i wobei G die Anzahl der Gruppen ist, ȳ i die relative Häufigkeit von Einsen in Gruppe i, ˆπ i = h(x i ˆβ) die durch das Modell geschätzte Wahrscheinlichkeit P(y i = 1 x i ) und ˆπ i (1 ˆπ i )/n i die geschätzte Varianz. Die Devianz ist definiert durch G D = 2 {l i (ˆπ i ) l i (ȳ i )}, i=1 wobei l i (ˆπ i ) bzw. l i (ȳ i ) die Log-Likelihood der Gruppe i ist. Statistik 3, 2010/2011: Testen linearer Hypothesen 32 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 33 Modellanpassung und Modellwahl Bsp Patente: Logit-Modell Will man Modelle mit verschiedenen Prädiktoren und Parametern vergleichen, muss ein Kompromiss zwischen guter Datenanpassung durch hohe Parameteranzahl und zu großer Modellkomplexität getroffen werden. Am bekanntesten ist Akaikes Informationskriterium AIC = 2l( ˆβ) + 2p, bei dem der Term 2p die Anzahl der Parameter in einem zu komplexen Modell bestraft. Coefficients: (Intercept) < 2e-16 *** jahr < 2e-16 *** azit e-07 *** ansp e-06 *** uszw e-05 *** patus e-06 *** patdsg aland e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2694 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 34 Statistik 3, 2010/2011: Modellanpassung und Modellwahl 35

10 Bsp Patente: erweitertes Logit-Modell Bsp: Kreditscoring (KS) Coefficients: (Intercept) 1.981e e < 2e-16 *** jahr e e < 2e-16 *** azit 1.134e e e-07 *** ansp 2.639e e e-06 *** uszw e e e-05 *** patus e e e-06 *** patdsg 1.805e e aland 3.938e e * aland e e aland e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 2701 degrees of freedom Residual deviance: on 2692 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Variable Beschreibung ausfall 1 = Kredit wurde nicht zurückbezahlt, 0 = Kredit wurde zurückbezahlt laufz Laufzeit des Kredits in Monaten hoehe Kredithöhe in DM moral Frühere Zahlungsmoral des Kunden: 1 = gute Moral, 0 = schlechte Moral zweck Verwendungszweck: 1 = privat, 0 = geschäftlich geschl Geschlecht: 1 = männlich, 0 = weiblich famst Familienstand: 1 = verheiratet, 0 = ledig Statistik 3, 2010/2011: Modellanpassung und Modellwahl 36 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 37 Deskriptive Auswertung Deskriptive Auswertung R> kredit <- read.csv("kredit.csv") R> summary(kredit[, c("ausfall", "hoehe", "laufz")]) ausfall hoehe laufz Min. :0.0 Min. : 250 Min. : st Qu.:0.0 1st Qu.: st Qu.:12.00 Median :0.0 Median : 2320 Median :18.00 Mean :0.3 Mean : 3271 Mean : rd Qu.:1.0 3rd Qu.: rd Qu.:24.00 Max. :1.0 Max. :18424 Max. :72.00 Density Density Kredithöhe (in DM) Kredithöhe (in DM) Histogramm und Kerndichteschätzer Kredithöhe. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 38 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 39

11 Deskriptive Auswertung Bsp KS: Logitmodell mit Laufzeit Density Density Laufzeit des Kredits (in Monaten) Laufzeit des Kredits (in Monaten) Histogramm und Kerndichteschätzer Laufzeit. ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) η i = β 0 + β 1 laufz i R> glm1 <- glm(ausfall ~ laufz, data = kredit, family = binomial(link = "logit")) R> summary(glm1) Coefficients: (Intercept) < 2e-16 *** laufz e-11 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 998 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 40 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 41 Bsp KS: Logitmodell mit zentrierter Laufzeit Bsp KS: Laufzeit und Kredithöhe Verwende alternativ die zentrierte Laufzeit, d.h. und erhalte laufzc = laufz laufz = laufz 20.9 ausfall i B(1, π i ) π i = exp(η i) 1 + exp(η i ) (Intercept) < 2.2e-16 *** laufzc e-11 *** η i = β 0 + β 1 laufzc i η i = β 0 + β 1 laufzc i + β 2 hoehec i hoehec = hoehe hoehe = hoehe 3271 R> glm3 <- glm(ausfall ~ laufzc + hoehec, data = kredit, family = binomial()) R> summary(glm3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 3.412e e e-06 *** hoehec 2.300e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 997 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 42 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 43

12 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Modelliere den Einfluss der Kredithöhe durch ein Polynom, d.h. η i = β 0 + β 1 laufzc i + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i R> kredit$hoehe2c <- kredit$hoehe^2 - mean(kredit$hoehe^2) R> kredit$hoehe3c <- kredit$hoehe^3 - mean(kredit$hoehe^3) Coefficients: (Intercept) e e < 2e-16 *** laufzc 4.219e e e-08 *** hoehec e e * hoehe2c 5.522e e * hoehe3c e e (Dispersion parameter for binomial family taken to be 1) Null deviance: on 999 degrees of freedom Residual deviance: on 995 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Odds Ratios: laufzc hoehec hoehe2c hoehe3c Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 44 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 45 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Laufzeit und Polynom für Höhe Effekt der Kredithöhe exp(effekt der Kredithöhe) Weitere Visualisierungsvariante: Geschätzte Wahrscheinlichkeiten in Abhängigkeit der Kredithöhe, wenn die übrigen Kovariablen bei ihrem Mittelwert festgehalten werden. Hier bei laufzc = 0 bzw. laufz = Kredithöhe (in DM) Kredithöhe (in DM) Effekt der Kredithöhe (links) und exp(effekt der Kredithöhe) (rechts). π i = exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) 1 + exp(β 0 + β 2 hoehec i + β 3 hoehe2c i + β 3 hoehe3c i ) Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 46 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 47

13 Bsp KS: Laufzeit und Polynom für Höhe Bsp KS: Prognostizierte Werte Geschätzte Ausfallwahrscheinlichkeit R> p1 <- predict(glm4, type = "link")[1:6] R> p R> predict(glm4, type = "response")[1:6] R> exp(p1)/(1 + exp(p1)) Kredithöhe (in DM) Geschätzte Ausfallwahrscheinlichkeit in Abhängigkeit der Kredithöhe, wenn die Laufzeit 20.9 Monate beträgt. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 48 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 49 Bsp KS: Prognostizierte Werte Linear trennbare Klassen Nur aus der Laufzeit und Höhe lassen sich die Ausfälle natürlich nicht erklären: R> table(kredit$ausfall, predict(glm4, type = "response") > 0.5) FALSE TRUE Das Modell ist keine gute Prognosemaschine, kann aber eventuell helfen, Zusammenhänge zwischen Prädiktoren und Response zu verstehen. Eine unangenehme Eigenschaften der binären Regression (egal ob Logit, Probit,... ) ist, daß der einfachste Fall linear trennbarer Gruppen zu unendlichen Koeffizienten führt, der ML-Schätzer liegt bei ˆβ = ±. Das numerische Maximieren der Likelihood wird in allen (vernünftig implementierten) Paketen nach einer Maximalanzahl von Fisher Scoring Iterationen abgebrochen. Die geschätzten Parameter sind dann einfach nur sehr groß. In diesem Fall liefert z.b. die Fisher sche Diskriminanzanalyse (Statistik 4) ein geeignetes Modell und insbesonders die trennende Hyperebene. Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 50 Statistik 3, 2010/2011: Bsp: Kreditscoring (KS) 51

14 Poisson-Regression für Zähldaten 4.2 Regression für Zähldaten Daten Die Zielvariablen y i nehmen Werte aus {0, 1, 2,... } an und sind bei gegebenen Kovariablen x i1,..., x ik (bedingt) unabhängig. Modelle Log-lineares Poisson-Modell: y i x i P o(λ i ) mit Modell mit Überdispersion: λ i = exp(x i β) bzw. log λ i = x i β. E(y i x i ) = λ i = exp(x i β), mit Überdispersions-Parameter φ. Var(y i x i ) = φλ i Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 53 Beispiel Patenterteilung Beispiel Patenterteilung Anzahl der Zitate von Patenten Variable azit jahrc alandc anspc biopharm uszw patus patdsg einspruch Beschreibung Anzahl der Zitationen für dieses Patent Zielvariable Jahr der Patenterteilung (zentriert um das arithmetische Mittel) Anzahl der Länder, für die Patentschutz gelten soll (zentriert um das arithmetische Mittel) Anzahl der Patentansprüche (Beobachtungen > 60 wurden entfernt, anschließend zentriert um arithmetisches Mittel) Patent aus der Biotechnologie- / Pharma-Branche (1 = ja, 0 = nein) US Zwillingspatent (1 = ja, 0 = nein) Patentinhaber aus den USA (1 = ja, 0 = nein) Patentinhaber aus Deutschland (1 = ja, 0 = nein) Einspruch gegen das Patent (1 = ja, 0 = nein) Log-lineares Poisson-Modell für die Rate λ i = E(azit i ) mit rein linearen Effekten im Prädiktor log(λ i ) = η i = β 0 + β 1 jahrc i + β 2 alandc i + β 3 anspc i + β 4 biopharm i + + β 5 uszw i + β 6 patus i + β 7 patdsg i + β 8 einspruch i. Ergebnisse Modell mit linearen Effekten, ohne Überdispersion (Intercept) e-07 *** jahrc < 2.2e-16 *** alandc e-10 *** anspc < 2.2e-16 *** biopharm < 2.2e-16 *** uszw patus patdsg e-13 *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 54 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 55

15 Beispiel Patenterteilung Beispiel Patenterteilung Ergebnisse Modell mit linearen Effekten und Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc < 2.2e-16 *** alandc ** anspc < 2.2e-16 *** biopharm e-07 *** uszw patus patdsg *** einspruch < 2.2e-16 *** Ergebnisse erweitertes Modell mit Überdispersion Estimate Std. Error t value Pr(> t ) (Intercept) ** jahrc e-11 *** jahr2c e-11 *** alandc * aland2c ** aland3c *** anspc e-08 *** ansp2c ** biopharm ** uszw patus patdsg *** einspruch < 2.2e-16 *** Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 56 Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 57 Beispiel Patenterteilung Schätzung in R Effekt des Jahres der Patenterteilung Effekt der Anzahl der Länder Zentrierter Effekt Jahr Zentrierter Effekt Zentrierter Effekt Effekt der Anzahl der Patentansprüche Anzahl der Länder R> glm1 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = poisson) R> glm2 <- glm(azit ~ jahrc+alandc+anspc+biopharm+uszw+patus+patdsg+einspruch, + data=patente, family = quasipoisson) R> coef(glm1) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch R> coef(glm2) (Intercept) jahrc alandc anspc biopharm uszw patus patdsg einspruch Anzahl der Patentansprüche Lineare (- - -) und nichtlineare ( ) Effekte der metrischen Kovariablen. Statistik 3, 2010/2011: 4.2 Regression für Zähldaten 58 Statistik 3, 2010/2011: 4.2 Generalisierte lineare Modelle 59

16 Schätzung in R Regression für normal-, binomial- oder Poisson-verteilte Zielvariablen sind alles Spezialfälle des sogenannten generalisierten linearen Modells (GLM). 4.3 Generalisierte lineare Modelle Verteilung der Response (bedingt auf x) ist Mitglied der sogenannten Exponentialfamilie. Weitere Beispiele sind Exponential- und Gammaverteilung. Einheitliche Theorie für Inferenz und Software-Implementierung möglich. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 61 Die Exponentialfamilie Die Exponentialfamilie Die Dichte einer einparametrischen Exponentialfamilie für die Zielvariable y ist durch ( ) yθ b(θ) f(y θ) = exp ω + c(y, φ, ω) (2) φ gegeben. Der Parameter θ heißt natürlicher oder kanonischer Parameter. Die Funktion b(θ) muss die Bedingung erfüllen, dass sich f(y θ) normieren lässt und erste und zweite Ableitungen b (θ) und b (θ) existieren. Der zweite Parameter φ ist ein Dispersionsparameter, während ω ein bekannter Wert ist (üblicherweise ein Gewicht). Verteilung θ(µ) b(θ) φ Normal N(µ, σ 2 ) µ θ 2 /2 σ 2 Bernoulli B(1, π) log(π/(1 π)) log(1 + exp(θ)) 1 Poisson Po(λ) log(λ) exp(θ) 1 Gamma G(µ, ν) 1/µ log( θ) ν 1 θ(µ) ist die Linkfunktion des Modells, zusammen mit den Funktionen b( ) und c( ) läßt sich das Fisher-Scoring zur ML-Schätzung allgemein anschreiben (und damit implementieren). θ ist der Parameter von primärem Interesse, der mit dem linearen Prädiktor η = x β verknüpft wird. Man kann zeigen, dass E(y) = µ = b (θ), Var(y) = φ b (θ)/ω Auch die Tests für Inferenz auf dem Modell lassen sich generisch und damit unabhängig von der konkreten Verteilung der Response fomulieren. gilt. Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 62 Statistik 3, 2010/2011: 4.3 Generalisierte lineare Modelle 63

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Fallbeispiel: Kreditscoring

Fallbeispiel: Kreditscoring Fallbeispiel: Kreditscoring Stefan Lang 14. Juni 2005 SS 2005 Datensatzbeschreibung (1) Ziel Untersuchung der Bonität eines Kunden in Abhängigkeit von erklärenden Variablen Zielvariable Bonität des Kunden:

Mehr

2.Tutorium Generalisierte Regression

2.Tutorium Generalisierte Regression 2.Tutorium Generalisierte Regression - Binäre Regression - Moritz Berger: 04.11.2013 und 11.11.2013 Shuai Shao: 06.11.2013 und 13.11.2013 Institut für Statistik, LMU München 1 / 16 Gliederung 1 Erweiterte

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Konstante Modelle: In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert. Der prognostizierte Wert für die Periode T+i entspricht

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs) Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de

Mehr

Theoretische Grundlagen der Informatik WS 09/10

Theoretische Grundlagen der Informatik WS 09/10 Theoretische Grundlagen der Informatik WS 09/10 - Tutorium 6 - Michael Kirsten und Kai Wallisch Sitzung 13 02.02.2010 Inhaltsverzeichnis 1 Formeln zur Berechnung Aufgabe 1 2 Hamming-Distanz Aufgabe 2 3

Mehr

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678

q = 1 p = 0.8 0.2 k 0.8 10 k k = 0, 1,..., 10 1 1 0.8 2 + 10 0.2 0.8 + 10 9 1 2 0.22 1 = 0.8 8 [0.64 + 1.6 + 1.8] = 0.678 Lösungsvorschläge zu Blatt 8 X binomialverteilt mit p = 0. und n = 10: a PX = = 10 q = 1 p = 0.8 0. 0.8 10 = 0, 1,..., 10 PX = PX = 0 + PX = 1 + PX = 10 10 = 0. 0 0.8 10 + 0. 1 0.8 9 + 0 1 10 = 0.8 8 [

Mehr

Logistische Regression

Logistische Regression Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum

Mehr

4 Binäre Regressionsmodelle, Folien 2

4 Binäre Regressionsmodelle, Folien 2 4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden

Mehr

Stochastische Eingangsprüfung, 17.05.2008

Stochastische Eingangsprüfung, 17.05.2008 Stochastische Eingangsprüfung, 17.5.8 Wir gehen stets von einem Wahrscheinlichkeitsraum (Ω, A, P) aus. Aufgabe 1 ( Punkte) Sei X : Ω [, ) eine integrierbare Zufallsvariable mit XdP = 1. Sei Q : A R, Q(A)

Mehr

VO Biostatistik im WS 2006/2007

VO Biostatistik im WS 2006/2007 VO Biostatistik im WS 2006/2007 1 Beispiel 1: Herzerkrankungsdaten aus Framingham für skoeffizienten : Leukemie-Daten 2 Beispiel 1: Herzerkrankungsdaten aus Framingham Stichprobe: 1329 männliche Bewohner

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1

i x k k=1 i u i x i v i 1 0,2 24 24 0,08 2 0,4 30 54 0,18 3 0,6 54 108 0,36 4 0,8 72 180 0,60 5 1,0 120 300 1,00 2,22 G = 1 + 1 n 2 n i=1 1. Aufgabe: Der E-Commerce-Umsatz (in Millionen Euro) der fünf größten Online- Shopping-Clubs liegt wie folgt vor: Club Nr. Umsatz 1 120 2 72 3 54 4 30 5 24 a) Bestimmen Sie den Ginikoeffizienten. b) Zeichnen

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen

Verallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen Verallgemeinerte lineare Modelle 1 binäre und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Verallgemeinerte lineare Modelle () Wie läßt sich die Abhängigkeit der Erfolgswahrscheinlichkeit

Mehr

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen

Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Fallstudie: Schadenshäufigkeiten bei Kfz-Versicherungen Stefan Lang 12 Oktober 2005 WS 05/06 Datensatzbeschreibung (1) Daten Versicherungsdaten für Belgien ca 160000 Beobachtungen Ziel Analyse der Risikostruktur

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Statistische Thermodynamik I Lösungen zur Serie 1

Statistische Thermodynamik I Lösungen zur Serie 1 Statistische Thermodynamik I Lösungen zur Serie Zufallsvariablen, Wahrscheinlichkeitsverteilungen 4. März 2. Zwei Lektoren lesen ein Buch. Lektor A findet 2 Druckfehler, Lektor B nur 5. Von den gefundenen

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

1.3 Die Beurteilung von Testleistungen

1.3 Die Beurteilung von Testleistungen 1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen

Mehr

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden

Mehr

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe 2011. Institut für Statistik Ludwig-Maximilians-Universität München Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Amsterdam-Daten: LMM Amsterdam-Daten: GLMM Blutdruck-Daten Amsterdam-Daten:

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8 . Aufgabe: Für zwei verschiedene Aktien wurde der relative Kurszuwachs (in % beobachtet. Aus den jeweils 20 Quartaldaten ergaben sich die folgenden Box-Plots. Box-and-Whisker Plot Aktie Aktie 2-0,2 0,8,8

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen

Beispiel 48. 4.3.2 Zusammengesetzte Zufallsvariablen 4.3.2 Zusammengesetzte Zufallsvariablen Beispiel 48 Ein Würfel werde zweimal geworfen. X bzw. Y bezeichne die Augenzahl im ersten bzw. zweiten Wurf. Sei Z := X + Y die Summe der gewürfelten Augenzahlen.

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten Das große x -4 Alles über das Wer kann beantragen? Generell kann jeder beantragen! Eltern (Mütter UND Väter), die schon während ihrer Elternzeit wieder in Teilzeit arbeiten möchten. Eltern, die während

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

Prüfung eines Datenbestandes

Prüfung eines Datenbestandes Prüfung eines Datenbestandes auf Abweichungen einzelner Zahlen vom erwarteten mathematisch-statistischen Verhalten, die nicht mit einem Zufall erklärbar sind (Prüfung auf Manipulationen des Datenbestandes)

Mehr

3. LINEARE GLEICHUNGSSYSTEME

3. LINEARE GLEICHUNGSSYSTEME 176 3. LINEARE GLEICHUNGSSYSTEME 90 Vitamin-C-Gehalt verschiedener Säfte 18,0 mg 35,0 mg 12,5 mg 1. a) 100 ml + 50 ml + 50 ml = 41,75 mg 100 ml 100 ml 100 ml b) : Menge an Kirschsaft in ml y: Menge an

Mehr

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde

Mehr

Approximation durch Taylorpolynome

Approximation durch Taylorpolynome TU Berlin Fakultät II - Mathematik und Naturwissenschaften Sekretariat MA 4-1 Straße des 17. Juni 10623 Berlin Hochschultag Approximation durch Taylorpolynome Im Rahmen der Schülerinnen- und Schüler-Uni

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Ausarbeitung des Seminarvortrags zum Thema

Ausarbeitung des Seminarvortrags zum Thema Ausarbeitung des Seminarvortrags zum Thema Anlagepreisbewegung zum Seminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn von Imke Meyer im W9/10 Anlagepreisbewegung

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort: Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses. XI. Binomialverteilung ================================================================== 11.1 Definitionen -----------------------------------------------------------------------------------------------------------------

Mehr

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur "Finanzmanagement" 14. März 2002

Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung. Klausur Finanzmanagement 14. März 2002 1 Lehrstuhl für Betriebswirtschaftslehre mit Schwerpunkt Finanzierung Klausur "Finanzmanagement" 14. März 2002 Bearbeitungshinweise: - Die Gesamtbearbeitungsdauer beträgt 60 Minuten. - Schildern Sie ihren

Mehr

BONUS MALUS SYSTEME UND MARKOV KETTEN

BONUS MALUS SYSTEME UND MARKOV KETTEN Fakultät Mathematik und Naturwissenschaften, Fachrichtung Mathematik, Institut für Mathematische Stochastik BONUS MALUS SYSTEME UND MARKOV KETTEN Klaus D. Schmidt Ringvorlesung TU Dresden Fakultät MN,

Mehr

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen 1. Quadratische Gleichungen Quadratische Gleichungen lassen sich immer auf die sog. normierte Form x 2 + px + = 0 bringen, in

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema 2x 4 + x 3 + x + 3 div x 2 + x 1 = 2x 2 x + 3 (2x 4 + 2x 3 2x 2 ) x 3 + 2x 2 + x + 3 ( x

Mehr

Name:... Matrikel-Nr.:... 3 Aufgabe Handyklingeln in der Vorlesung (9 Punkte) Angenommen, ein Student führt ein Handy mit sich, das mit einer Wahrscheinlichkeit von p während einer Vorlesung zumindest

Mehr

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel Ausarbeitung zum Proseminar Finanzmathematische Modelle und Simulationen bei Raphael Kruse und Prof. Dr. Wolf-Jürgen Beyn zum Thema Simulation des Anlagenpreismodels von Simon Uphus im WS 09/10 Zusammenfassung

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981)

Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981) Aufgabenblatt 3: Rechenbeispiel zu Stiglitz/Weiss (AER 1981) Prof. Dr. Isabel Schnabel The Economics of Banking Johannes Gutenberg-Universität Mainz Wintersemester 2009/2010 1 Aufgabe 100 identische Unternehmer

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Tag der Mathematik 2009 Survival of the Fittest Wie statistische Modelle an Daten angepasst werden Thomas Kneib Fakultät für Mathematik und Naturwissenschaften Carl von Ossietzky Universität Oldenburg

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 3A Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Mit den Berechnungsfunktionen LG10(?) und SQRT(?) in "Transformieren", "Berechnen" können logarithmierte Werte sowie die Quadratwurzel

Mehr

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam. Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), hattermann@pik-potsdam.de Michael Roers (Übung), roers@pik-potsdam.de 1 Gliederung 7 Weitere Krigingverfahren 7.1 Simple-Kriging 7.2 Indikator-Kriging

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Die reellen Lösungen der kubischen Gleichung

Die reellen Lösungen der kubischen Gleichung Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................

Mehr

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR) Eine Firma stellt USB-Sticks her. Sie werden in der Fabrik ungeprüft in Packungen zu je 20 Stück verpackt und an Händler ausgeliefert. 1 Ein Händler

Mehr

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN CHRISTIAN HARTFELDT. Zweiter Mittelwertsatz Der Mittelwertsatz Satz VI.3.4) lässt sich verallgemeinern zu Satz.. Seien f, g : [a, b] R auf [a,

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Repetitionsaufgaben Wurzelgleichungen

Repetitionsaufgaben Wurzelgleichungen Repetitionsaufgaben Wurzelgleichungen Inhaltsverzeichnis A) Vorbemerkungen B) Lernziele C) Theorie mit Aufgaben D) Aufgaben mit Musterlösungen 4 A) Vorbemerkungen Bitte beachten Sie: Bei Wurzelgleichungen

Mehr

Interne und externe Modellvalidität

Interne und externe Modellvalidität Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer

Mehr

Professionelle Seminare im Bereich MS-Office

Professionelle Seminare im Bereich MS-Office Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Kap. 9: Regression mit einer binären abhängigen Variablen

Kap. 9: Regression mit einer binären abhängigen Variablen Kap. 9: Regression mit einer binären abhängigen Variablen Motivation Lineares Wahrscheinlichkeitsmodell Probit- und Logit-Regression Maximum Likelihood Empirisches Beispiel: Analyse der HMDA-Daten Ausblick:

Mehr