Poisson Regression & Verallgemeinerte lineare Modelle
|
|
- Emilia Salzmann
- vor 5 Jahren
- Abrufe
Transkript
1 Poisson Regression & Verallgemeinerte lineare Modelle
2 Motivation Ausgangslage Wir haben Anzahldaten (count data) Y i, cf. Vorlesung zu kategoriellen Variablen. Zu jeder Beobachtung Y i haben wir erklärende Grössen x i. Einführungsvorlesung Poisson-Verteilung in der Regel gut geeignet, um Anzahlen zu modellieren. Heute Verwendung der Poisson-Verteilung in einem Regressions-Kontext. Dies dient als weiteres Beispiel für verallgemeinerte lineare Modelle. 2
3 Beispiel: Schiffs-Havarien Poisson-Verteilung Zielvariable: Y Anzahl Schaden-Ereignisse (incidents) in Flotten von Schiffen Erklärende Variablen T Schiffstyp (type) A, B, C, D, E C Baujahr (year) 60 (60-64), 65 (65-69), 70 (70-74), 75 (75-79) P Beobachtungsperiode (period) 0 ( ), 1 ( ) M # Betriebsmonate (service) 3
4 Regressionsansatz Ziel Wir möchten für das Havarien-Beispiel ein Regressionsmodell konstruieren. Ansatz Wenn wir annehmen, dass Y i ~Pois λ i, wobei λ i > 0, dann gilt E Y i = λ i, Var Y i = λ i Regression Wir modellieren den Erwartungswert in Abhängigkeit von den erklärenden Variablen. Verwende also gleichen Ansatz wie bei multipler linearer Regression und logistischer Regression: E Y i x i 1, x i 2,, x i m = λ i = h x i 1, x i 2,, x i m 4
5 Poisson Regression Erinnerung Bei der logistischen Regression war E Y i x i = P Y i = 1 x i ) 0,1 und wir benötigten eine geeignete Link-Funktion (logit). Hier Wir haben E Y i x i = λ i > 0. -> Wähle wiederum geeignete Link-Funktion. Poisson Regression Wir nehmen den Logarithmus als Link-Funktion und modellieren dann linear g E Y i x i = g λ i = log λ i = x i T β Entsprechend gilt (inverse Link-Funktion): E Y i x i = λ i = exp x i T β Die Poisson Regression kombiniert die logarithmische Link-Funktion mit der Annahme der Poisson-Verteilung für die Zielgrösse. 5
6 Schätzungen und Tests Schätzung Parameterschätzung mit dem Maximum-Likelihood Prinzip Likelihood in Abhängigkeit der Parameter β : l β Übergang zu log-likelihood: ll β Maximierung mithilfe von iterativen Verfahren መβ Tests / Vertrauensintervalle Analog zur logistischen Regression Wald Tests aus dem iterativen Verfahren (z-tests) Likelihood Ratio Tests via Devianzen. Diese sind in der Regel vorzuziehen, da mehr Macht. 6
7 Interpretation der Parameter Schauen wir das Modell noch etwas genauer an. Es gilt: E Y i x i = λ i = exp x i T β = exp β 0 exp β 1 x i 1 exp βm x i (m) Ändert man x j um eine Einheit, bewirkt dies eine Multiplikation des Erwartungswertes mit dem Faktor exp β j. Dies ist sinnvoll. Wir wollen in der Regel Aussagen im Stil von «In der einen Gruppe ist die Anzahl um einen gewissen Faktor höher (z.b. 30%)» Mit zunehmendem x j gilt: Ist β j positiv Erwartungswert wird grösser Ist β j negativ Erwartungswert wird kleiner Ist β j = 0 Erwartungswert bleibt unverändert 7
8 Beispiel Schiffs-Havarien Zielvariable: Y Anzahl Schaden-Ereignisse (incidents) in Flotten von Schiffen Erklärende Variablen T Schiffstyp (type) A, B, C, D, E C Baujahr (year) 60 (60-64), 65 (65-69), 70 (70-74), 75 (75-79) P Beobachtungsperiode (period) 0 ( ), 1 ( ) M # Betriebsmonate (service) 8
9 Beispiel: Schiffs-Havarien Naheliegende Annahme Anzahl Schaden-Ereignisse Y i proportional zu Anzahl Betriebsmonate M i. In der linearen Regression hätten wir einfach die Rate Y i /M i als normalisierte Zielgrösse verwendet. Das ist hier nicht möglich. Y i /M i ist nicht mehr Poisson-verteilt. Gewünschtes Modell lautet eigentlich λ i = M i exp x i T β, beziehungsweise log λ i = log M i + x i T β Für log M i ist also kein Parameter zu schätzen. R-Hinweis Benutze das Argument offset in der Funktion glm(). 9
10 Beispiel: Schiffs-Havarien Auswertung mit R summary von gefittetem glm: Modellgleichung Poisson Regression Koeffizient für log(service) = log(m i ) wird nicht mitgeschätzt 10
11 Beispiel: Schiffs-Havarien Auswertung mit R summary von gefittetem glm: typea fehlt period60 fehlt year60 fehlt Referenzlevels: Schiffstyp A (typea), Beobachtungsperiode (period60) und Baujahr (year60) 11
12 Beispiel: Schiffs-Havarien Referenzlevels: Schiffstyp A (typea), Beobachtungsperiode (period60) und Baujahr (year60) Jeweils erstes Faktorlevel als Referenzlevel. Anderes Referenzlevel kann z.b. mit der R-Funktion relevel( ) festgelegt werden. 12
13 Beispiel: Schiffs-Havarien Modellgleichung (für Typ B, Beobachtungsperiode , Baujahr ) log( መλ i ) = መβ 0 + log M i + መβ typeb + መβ period75 = log M i Dementsprechend: መλ i = exp log M i = exp M i 13
14 Beispiel: Schiffs-Havarien p-werte Wie bereits besprochen sind p-werte für Faktoren wenig aussagekräftig. Zur Bestimmung der Signifikanz eines Faktors: R-Funktion: drop1(fit, test=«chisq») 14
15 Beispiel: Schiffs-Havarien Vergleiche und Vertrauensintervalle Typ B mit Typ C: መλ typeb መλ typec = exp exp = exp = 1.15 Typ B hat 15% mehr Havarien als Typ C (wegen multiplikativem Effekt) Typ C mit Typ A: exp = 0.5 (C hat halb so viele Havarien wie A) Approximatives 95%-Vertrauensintervall für Faktor-Level Typ C: [exp , exp ] = [0.26,0.96] 15
16 Verallgemeinerte lineare Modelle (GLM)
17 Motivation Bis jetzt gesehen: Logistische Regression Poisson Regression Gemeinsamkeiten In beiden Modellen hatten wir Einschränkungen an E Y i x i : Logistische Regression E Y i x i 0,1 Poisson Regression E Y i x i > 0 Wir haben dann E Y i x i mit einer Link-Funktion so transformiert, dass wir E Y i x i mit einer linearen Funktion der Parameter β i modellieren konnten. Idee: Dieses Konzept lässt sich verallgemeinern Verallgemeinerte lineare Modelle 17
18 Verallgemeinerte lineare Modelle Annahme (verallgemeinertes lineares Modell) Der Erwartungswert der Zielgrösse Y lässt sich, indem er durch eine geeignete Link-Funktion g transformiert wird, mit einer linearen Funktion der Parameter β, dem linearen Prädiktor η, gleichsetzen. g E Y i x i = η i = x i T β Die Verteilungsannahmen und Link-Funktionen waren jeweils unterschiedlich: Logistische Regression: Bernoulli-/Binomialverteilung g = logit Poisson Regression: Poisson-Verteilung g = log Bemerkung: Auch die lineare Regression folgt obiger Annahme mit g = Identität und Normalverteilungsannahme. 18
19 Exponentialfamilie Die Verteilung der Zufallsvariable Y gehört einer einfachen Exponentialfamilie an, wenn sich ihre Dichte f(y) oder Wahrscheinlichkeitsfunktion P(Y = y) schreiben lässt als f y; θ, φ, ω = exp yθ b θ φ ω + c y; φ, ω, wobei θ φ ω b c Kanonischer Parameter Dispersionsparameter Gewicht der Beobachtung Funktion, die die Verteilung festlegt Normierung auf Wahrscheinlichkeit 1 ( f Dichte/W keitsfunktion) 19
20 Exponentialfamilie Erwartungswert und Varianz von Y können allgemein ausgerechnet werden: μ = E Y = b θ Var Y = b θ φ ω Wir schreiben nun den kanonischen Parameter θ als θ = b 1 μ und erhalten somit: Var Y = b b 1 μ φ ω Varianzfunktion V(μ) Die Varianzfunktion V(μ) ist eine Funktion des Erwartungswerts. 20
21 Beispiel: Poisson-Verteilung Es gilt: P Y = y = λy y! Somit erhalten wir: exp λ log P Y = y = log y! + y log λ λ θ = log λ b θ = exp θ = λ φ = 1 ω = 1 c y; φ, ω = log(y!) 21
22 Beispiel: Normalverteilung Es gilt: Somit erhalten wir: log f y; μ, σ 2 = log 2πσ 1 2 = yμ 1 2 μ2 σ 2 θ = μ b θ = θ 2 /2 φ = σ 2 ω = 1 y2 2σ 2 log y μ σ 2πσ 2 c y; φ = 1 2 y 2 φ + log 2πφ 22
23 Weitere Beispiele Die Exponentialfamilie ist eine grosse Klasse von Verteilungen Weitere Beispiele sind: Binomialverteilung Exponentialverteilung Gamma-Verteilung Weibull-Verteilung 23
24 Link-Funktion Durch Verwendung der Link-Funktion sollen unmögliche Werte vermieden werden. Bisher gesehen: g μ = μ wenn E[Y] beliebig. g μ = log(μ) wenn E Y > 0 "μ = λ" g μ = log μ 1 μ wenn 0 < E Y < 1 "μ = π" 24
25 Kanonische Link-Funktion Die Link-Funktion heisst kanonische Link-Funktion, wenn η = g μ = θ mit θ = b 1 μ Der lineare Prädiktor η entspricht also gerade dem kanonischen Parameter θ. Die erklärenden Variablen wirken linear auf den kanonischen Parameter. Wähle die Link-Funktion: g = (b ) 1 Normalverteilung: Poisson-Verteilung: Binomial-Verteilung: g μ = μ g μ = log(μ) g μ = logit(μ) Vorteile: Existenz und Eindeutigkeit des ML-Schätzers, einfachere Schätzgleichungen 25
26 Schätzungen und Tests
27 Schätzungen und Tests Wie gesehen bei der logistischen Regression und Poisson-Regression: Parameterschätzungen mit Hilfe des Maximum-Likelihood Prinzips Verwendung von iterativen Verfahren zur numerischen Maximierung (Iteratively Reweighted Least Squares) Tests mit Wald-Tests beziehungsweise eher mit Likelihood-Ratio Tests (unter Verwendung der Devianzen) Für technische Details, siehe Skript, Abschnitt
28 Übergrosse Streuung
29 Übergrosse Streuung Bei bestimmten Verteilungen ist die Varianz durch das Modell festgelegt Beispiele: Poisson-Regression Var Y i = λ i Binomial-Regression Var Y i = nπ i (1 π i ) Oft hat man jedoch in den Daten eine grössere Streuung als durch das Modell erwartet würde. Man spricht von «overdispersion». Mögliche Gründe: Fehlende erklärende Variablen im Modell falls vorhanden, benutzen Korrelierte Beobachtungen (z.b. in Gruppen) 29
30 Quasi-Likelihood Modelle Damit man dennoch Statistik betreiben kann, braucht man ein neues Modell. Die einfachste Art und Weise, eine grössere Streuung als im Poisson-Modell zuzulassen, besteht darin, die jeweilige Varianzfunktion beizubehalten und den Dispersionsparameter φ nicht mehr auf 1 festzulegen. Dieser wird zu einem Störparameter. Beispiel: Bei der Poisson-Regression würde man das Modell erweitern zu E Y = μ, Var Y = φμ, mit φ 1 Da es dazu allerdings keine entsprechende Verteilung gibt, spricht man von Quasi-Modellen und Quasi-Likelihood. 30
31 Dispersionsparameter φ Frage Wie lässt sich eine übergrosse Streuung feststellen? Verwende zum Beispiel die Pearson Chiquadrat-Statistik: T = n ωi (y i μ i ) 2 i=1 φ V( μ i ) Wenn φ nicht aus den Daten geschätzt werden muss, ist T χ 2 -verteilt mit n p Freiheitsgraden. Man kann die Residuen-Devianz betrachten. Ein grosser Wert deutet darauf hin, dass etwas nicht stimmt. Man kann den Dispersionsparameter φ schätzen und schauen, was dies für Auswirkungen hat. 31
32 Schätzung von φ Schätzung des Dispersionsparameters φ via Pearson-Statistik: φ = 1 n p ω i (y i μ i ) 2 i V( μ i ) Alternativ kann man die Devianz verwenden: φ = 1 D y; μ n p Zuerst werden die «gewöhnlichen» Parameter geschätzt, und am Ende wird noch φ angepasst. R-Code: glm(): Wähle family = quasipoisson ( φ erst in summary.glm berechnet) regr(): Quasipoisson wird i.d.r. standardmässig verwendet 32
33 Overdispersion - Auswirkungen Schätzung der Parameter (Koeffizienten): keinen Einfluss Varianz Overdispersion verändert die Varianz um den Faktor φ Standardfehler verändert sich um den Faktor φ Vertrauensintervalle werden um den Faktor φ breiter 33
34 Beispiel: Schiffs-Havarien Poisson-Regression mit Schätzung der Overdispersion Andere Werte (Berücksichtigung von Overdispersion) φ Parameterschätzungen unverändert 34
35 Residuenanalyse
36 Residuen Es existieren mehrere mögliche Definitionen (vgl. logistische Regression) Rohe Residuen (response residuals) R i = Y i μ i, μ i = g 1 T x i መβ Prädiktor Residuen (working residuals, link residuals) R i (L) = Ri g μ i (in der Skala des Prädiktors ausgedrückt) Pearson Residuen R i (P) = Ri / V μ i /ω i (standardisiert) Devianz-Residuen R i (D) = sign(yi μ i ) d i wobei d i der i-te Summand der Residuen-Devianz ist. 36
37 Merkpunkte Verallgemeinerte lineare Modelle (GLMs) umfassen als Verteilungen der Zielgrösse: Normalverteilung Bernoulli- oder Binomialverteilung Poisson-Verteilung Exponential- und Gamma-Verteilung Theorie und Algorithmus für all diese Modelle: Maximum Likelihood Schätzung Iteratively Reweighted Least Squares Begriff der Devianzen In der Praxis: Möglichkeit der Overdispersion Residuen nicht eindeutig definiert und weniger nützlich, da «künstliche» Strukturen auftreten. Man braucht sie trotzdem! 37
Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)
Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage
MehrLogistische Regression
Logistische Regression 13.11.2017 Motivation Regressionsrechnung: Untersuchung des Zusammenhangs zwischen einer (oder mehreren) Zielvariablen und einer oder mehreren erklärenden Variablen. Bisher gesehen:
MehrKategorielle Zielgrössen
Kategorielle Zielgrössen 27.11.2017 Motivation Bisher gesehen: Regressionsmodelle für diverse Arten von Zielgrössen Y. kontinuierliche Zielgrösse Lineare Regression Binäre/binomiale Zielgrösse Logistische
MehrKap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur
Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell
MehrVerallgemeinerte+Lineare+Modelle+(GLM)+
VerallgemeinerteLineareModelle(GLM Eins4egüberPoisson8Regression BarbaraHellriegel 23.11.2015 Mo4va4on Ausgangssitua6on:alsZielvariableY i liegen Anzahldaten /Zähldaten(countdata,vgl. (k VLkategorielleVariablevorsowiezujederBeobachtungY
MehrNicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood
Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood Interaktionseffekte Varianz-Kovarianz-Matrix Interaktionseffekte Varianz-Kovarianz-Matrix
MehrMaximum-Likelihood Schätzung
Maximum-Likelihood Schätzung VL Forschungsmethoden 1 Wiederholung Einführung: Schätzung 2 Likelihood-Schätzung und Generalisiertes Lineares Modell Zufallsverteilungen 3 Lernziele 1 Grundzüge der Likelihood-Schätzung
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrMaximum-Likelihood Schätzung. VL Forschungsmethoden
Maximum-Likelihood Schätzung VL Forschungsmethoden Wiederholung Einführung: Schätzung Likelihood-Schätzung und Generalisiertes Lineares Modell Zufallsverteilungen Lernziele 1. Grundzüge der Likelihood-Schätzung
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
Mehr(G)LM. 24. November 2009
(G)LM 24 November 29 Dies ist eine kurze Zusammenfassung der Grundlagen von linearen Modellen, sowie aufbauend darauf von generalisierten linearen Modellen Sie dient lediglich zum Einstieg und zur knappen
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Inferenzstatistik in Regressionsmodellen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für
Mehr8 Allgemeine Modelle & Robuste Regression
8.1 Allgemeines Lineares Regressions-Modell 182 8 Allgemeine Modelle & Robuste Regression 8.1 Allgemeines Lineares Regressions-Modell a Modell. Y i F µ i, γ, g µ i = η i = x T i β b Weibull-Verteilung.
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrEinfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015
Einfache lineare Regression Statistik (Biol./Pharm./HST) FS 2015 Wdh: Korrelation Big picture: Generalized Linear Models (GLMs) Bisher: Population wird mit einer Verteilung beschrieben Bsp: Medikament
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrBinomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.
Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrStochastik Praktikum Lineare Modelle
Stochastik Praktikum Lineare Modelle Thorsten Dickhaus Humboldt-Universität zu Berlin 06.10.2010 Übersicht 1 Einfache lineare Regression 2 Multiple lineare Regression 3 Varianzanalyse 4 Verallgemeinerte
MehrSchweizer Statistiktage, Aarau, 18. Nov. 2004
Schweizer Statistiktage, Aarau, 18. Nov. 2004 Qualitative Überprüfung der Modellannahmen in der linearen Regressionsrechnung am Beispiel der Untersuchung der Alterssterblichkeit bei Hitzeperioden in der
MehrAllgemeine lineare Modelle
262 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine harmlose" Verallgemeinerung der multiplen lin. Regr. Beispiele: Gumbel-Regression,
MehrLogistische Regression
Logistische Regression Markus Kalisch 30.09.2014 1 Big Picture: Statistisches Lernen Supervised Learning (X,Y) Unsupervised Learning X VL 7, 11, 12 Regression Y kontinuierlich VL 1, 2, 4, 5, 6 Klassifikation
MehrLogistische Regression
Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrWahrscheinlichkeitstheorie und Statistik
Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter
MehrWahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme
Binomialverteilung Wahrscheinlichkeitsfunktion Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder
MehrStatistische Datenanalyse
Werner A. Stahel Statistische Datenanalyse Eine Einführung für Naturwissenschaftler 3., durchgesehene Auflage vieweg VII 1 Einleitung 1 1.1 Was ist Statistische Datenanalyse? 1 1.2 Ziele 6 1.3 Hinweise
Mehr1 Gemischte Lineare Modelle
1 Gemischte Lineare Modelle Wir betrachten zunächst einige allgemeine Aussagen für Gemischte Lineare Modelle, ohne zu tief in die mathematisch-statistische Theorie vorzustoßen. Danach betrachten wir zunächst
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrZusammenfassung 11. Sara dos Reis.
Zusammenfassung 11 Sara dos Reis sdosreis@student.ethz.ch Diese Zusammenfassungen wollen nicht ein Ersatz des Skriptes oder der Slides sein, sie sind nur eine Sammlung von Hinweise zur Theorie, die benötigt
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrPunkte 2 und 3 genau gleich für stetige Verteilungen. zl uniform verteilte Zz. in (0,1)
220 6.1 Stetige Verteilungen: Einleitung Repetition diskrete Verteilungen: 1. Verteilung gegeben durch die P X = x für alle mögl. Werte x (=0,1,2,... f. Zähldaten) 2. oder: durch (theoretische) kumulative
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
MehrFormelsammlung: Statistik und Wahrscheinlichkeitstheorie
Formelsammlung: Statistik und Wahrscheinlichkeitstheorie Kapitel 1: Deskriptive und explorative Statistik Empirische Verteilungsfkt (S15): Quantile (S24): Bei Typ7 1.Pkt = 0 Danach 1/(n-1) Median (S24):
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrTheorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte
Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann Probe-Klausur zur Vorlesung Ökonometrie Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte (die eigentliche Klausur wird
MehrVO Biostatistik im WS 2006/2007
VO Biostatistik im WS 2006/2007 1 Beispiel 1: Herzerkrankungsdaten aus Framingham für skoeffizienten : Leukemie-Daten 2 Beispiel 1: Herzerkrankungsdaten aus Framingham Stichprobe: 1329 männliche Bewohner
MehrFakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.
Statistik II Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 2. Parameterschätzung: 2.1 Grundbegriffe; 2.2 Maximum-Likelihood-Methode;
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrDr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung
Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer 014 Musterlösung 1. 8 Punkte) a) 1 Pt)Für das Komplement gilt PR A) = 1 PR c A) = 0.968. b) 1 Pt)Nach Definition der bedingten Wahrscheinlichkeit
MehrModellanpassung und Parameterschätzung. A: Übungsaufgaben
7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit
MehrVerallgemeinerte lineare Modelle. Promotion. Promotion. Methoden empirischer Sozialforschung. 1 binäre und mehrere metrische und kategoriale Variablen
Verallgemeinerte lineare Modelle 1 binäre und mehrere metrische und kategoriale Variablen Methoden empirischer Sozialforschung Verallgemeinerte lineare Modelle () Wie läßt sich die Abhängigkeit der Erfolgswahrscheinlichkeit
MehrRaschmodelle und generalisierte Regression. Sven Hilbert
Raschmodelle und generalisierte Regression Sven Hilbert Generalisiertes lineares Modell () Bestandteile generalisierter linearer Modelle Zufällige Komponente Y mit zugehöriger Wahrscheinlichkeitsverteilung
MehrThilo Moseler Bern,
Bern, 15.11.2013 (Verallgemeinerte) Lineare Modelle Stärken Schwächen Fazit und persönliche Erfahrung 2 i-te Beobachtung der zu erklärenden Variablen Yi ist gegeben durch Linearkombination von n erklärenden
MehrLösung Übungsblatt 5
Lösung Übungsblatt 5 5. Januar 05 Aufgabe. Die sogenannte Halb-Normalverteilung spielt eine wichtige Rolle bei der statistischen Analyse von Ineffizienzen von Produktionseinheiten. In Abhängigkeit von
MehrEinführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrProxies, Endogenität, Instrumentvariablenschätzung
1 4.2 Multivariate lineare Regression: Fehler in den Variablen, Proxies, Endogenität, Instrumentvariablenschätzung Literatur: Wooldridge, Kapitel 15, Appendix C.3 und Kapitel 9.4 Wahrscheinlichkeitslimes
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 15.01.2009 Numerische Methoden und Algorithmen in der Physik Christian Autermann 1/ 47 Methode der kleinsten Quadrate
MehrLineare Regression 1 Seminar für Statistik
Lineare Regression 1 Seminar für Statistik Markus Kalisch 17.09.2014 1 Statistik 2: Ziele Konzepte von einer breiten Auswahl von Methoden verstehen Umsetzung mit R: Daten einlesen, Daten analysieren, Grafiken
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrSchätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
MehrLösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016
ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45
MehrDWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrTeil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.
Woche 11: Multiple lineare Regression Patric Müller Teil XIII Multiple lineare Regression ETHZ WBL 17/19, 10.07.017 Wahrscheinlichkeit und Statistik Patric Müller WBL
MehrBiostatistik, Sommer 2017
1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation
MehrStatistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrStatistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536
fru@hephy.oeaw.ac.at VO 142.090 http://tinyurl.com/tu142090 Februar 2010 1/536 Übersicht über die Vorlesung Teil 1: Deskriptive Teil 2: Wahrscheinlichkeitsrechnung Teil 3: Zufallsvariable Teil 4: Parameterschätzung
MehrW-Rechnung und Statistik für Ingenieure Übung 8
W-Rechnung und Statistik für Ingenieure Übung 8 Aufgabe 1 : Motivation Anhand von Daten soll eine Aussage über die voraussichtliche Verteilung zukünftiger Daten gemacht werden, z.b. die Wahrscheinlichkeit
Mehrf(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212
1.6.2 Poisson Verteilung Eine weitere wichtige diskrete Verteilung ist die Poisson-Verteilung. Sie modelliert die Anzahl (eher seltener) Ereignisse in einem Zeitintervall (Unfälle, Todesfälle; Sozialkontakte,
MehrPrognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Mehr2 Aufgaben aus [Teschl, Band 2]
20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
Mehr1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe
1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe Nachdem eine Stichprobe X 1,..., X n gezogen wurde berechnen wir gewöhnlich irgendwelchen Wert damit. Sei dies T = T (X 1,..., X n, wobei T auch
MehrFormelsammlung zur Vorlesung: Einführung in die Bayes-Statistik
1 Verteilungen Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik 1.1 Diskrete Verteilungen Helga Wagner und Gero Walter Binomialverteilung: Y BiNom (n, π) Parameter: n > 0, π [0, 1] Wahrscheinlichkeitsfunktion:
MehrDiskrete Verteilungen
Diskrete Verteilungen Bernoulli-Verteilung: X Bernoulli( ) Symbol für «verteilt wie» «Eperiment» mit zwei Ausgängen: «Erfolg» (X 1) oder «Misserfolg» (X ). Die Erfolgswahrscheinlichkeit sei. Wertebereich:
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
MehrNachholklausur zur Vorlesung Schätzen und Testen I. 04. April Bitte ausfüllen und unterschreiben!!!
Nachholklausur zur Vorlesung Schätzen und Testen I 04. April 2013 Volker Schmid, Ludwig Bothmann, Julia Sommer Aufgabe 1 2 3 4 5 6 Punkte Note Bitte ausfüllen und unterschreiben!!! Name, Vorname: Matrikelnummer:
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrTeekonsum in den USA (in 1000 Tonnen), Nimmt den Wert 1 an für alle Perioden, Durchschnittlicher Preis des Tees in Periode t (in Tausend $/Tonne).
Aufgabe 1 (5 Punkte) Gegeben sei ein lineares Regressionsmodell in der Form. Dabei ist y t = x t1 β 1 + x t β + e t, t = 1,..., 10 (1) y t : x t1 : x t : Teekonsum in den USA (in 1000 Tonnen), Nimmt den
MehrWahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
Mehr1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.
0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:
MehrStochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. P. Embrechts ETH Zürich Sommer 204 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Vereinfachen
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrMarcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 10. Mai 017 1 Zufallsvariablen:
MehrOdds: Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zur Wahrscheinlichkeit,
1 Odds and odds-ratio 1.1 Odds Odds: Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zur Wahrscheinlichkeit, dass es nicht eintritt. Odds-Ratio: Verhältnis zweier Odds zueinander. OddsRatio
MehrNachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011
Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester 2011 28. Oktober 2011 Prof. Dr. Torsten Hothorn Institut für Statistik Nachname: Vorname: Matrikelnummer: Anmerkungen: ˆ Schreiben
Mehr9 Robuste Methoden. 9.1 Einfluss und Robustheit. i (x i x) 2 = i x iy i. c 1 = x 2 + i (x i x) 2. Einfache Regression: 9.1 Einfluss und Robustheit 205
9.1 Einfluss und Robustheit 205 9 Robuste Methoden 9.1 Einfluss und Robustheit a Sensitivität. Eine Beobachtung hinzufügen. Effekt? Einfache Regression: β = i(x i x)y i i (x i x) 2 = i x iy i β = β+ x,
Mehr6.6 Poisson-Verteilung
6.6 Poisson-Verteilung Die Poisson-Verteilung ist eine Wahrscheinlichkeitsverteilung, die zur Modellierung der Anzahl von zufälligen Vorkommnissen in einem bestimmten räumlichen oder zeitlichen Abschnitt
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrMusterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60
WESTFÄLISCHE WILHELMS - UNIVERSITÄT MÜNSTER Wirtschaftswissenschaftliche Faktultät Prof. Dr. Bernd Wilfling Professur für VWL, insbesondere Empirische Wirtschaftsforschung Musterlösung zur Klausur im Fach
Mehr2 Klassische statistische Verfahren unter Normalverteilungs-Annahme
7 Klassische statistische Verfahren unter Normalverteilungs-Annahme. χ s, t s, F r,s -Verteilung a) N,..., N s uiv N (0, ) Verteilung von Y := N +... + N s heißt Chi-Quadrat-Verteilung mit s Freiheitsgraden
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrMusterlösung der Klausur vom 29. Juli 2003
Statistik für Bioinformatiker SoSe 2003 Rainer Spang Musterlösung der Klausur vom 29. Juli 2003 Aufgabe 1. 10 Definieren Sie die folgenden statistischen Begriffe in einem Satz oder in einer Formel: 1.
MehrHow To Find Out If A Ball Is In An Urn
Prof. Dr. P. Embrechts ETH Zürich Sommer 2012 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
MehrKapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Mehr