Fehler in der abhängigen Variablen

Ähnliche Dokumente
Seminararbeit: Fehler in der abhängigen Variable

Vorlesung: Lineare Modelle

Musterlösung. Modulklausur Multivariate Verfahren

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Vorlesung: Lineare Modelle. Verschiedene Typen von Residuen. Probleme bei der Regression und Diagnose. Prof. Dr. Helmut Küchenhoff.

Einführung in die Induktive Statistik: Regressionsanalyse

Diagnostik von Regressionsmodellen (1)

Multiple Regression III

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

x t2 y t = 160, y = 8, y y = 3400 t=1

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Vorlesung: Statistik II für Wirtschaftswissenschaft

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Multivariate Verfahren

Fehlende Daten. Seminarvortrag im Rahmen des Seminars: Statistische Herausforderungen sozialwissenschaftlicher Studien.

Die Regressionsanalyse

Lineare Regression. Kapitel Regressionsgerade

Willkommen zur Vorlesung Statistik (Master)

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

1 Beispiel zur Methode der kleinsten Quadrate

Überblick über Messfehler und ihre Auswirkungen in der linearen Regression

Regressionsmodelle mit Anwendungen in der Versicherungs- und Finanzwirtschaft Probeklausur Wintersemester 2017/

Statistik I für Betriebswirte Vorlesung 13

6. Tutoriumsserie Statistik II

Zusammenfassung 11. Sara dos Reis.

Übung V Lineares Regressionsmodell

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Auswertung und Lösung

Proxies, Endogenität, Instrumentvariablenschätzung

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief

Beispiel: Multiples Modell/Omitted Variable Bias I

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Eine Einführung in R: Das Lineare Modell

Analyse von Querschnittsdaten. Heteroskedastizität

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Mehrdimensionale Zufallsvariablen

Stochastik Praktikum Lineare Modelle

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Pareto optimale lineare Klassifikation

Inferenz im multiplen Regressionsmodell

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Klassifikation von Signifikanztests

2.5 Lineare Regressionsmodelle

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Beispiel: Multiples Modell/Omitted Variable Bias I

Varianzkomponentenschätzung

Wichtige Definitionen und Aussagen

Einführung in die Maximum Likelihood Methodik

Schriftliche Prüfung (90 Minuten)

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einfache lineare Regression. Statistik (Biol./Pharm./HST) FS 2015

Statistik für Ingenieure und Naturwissenschaftler

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

9. Lineare Regression

Seminar: Statistische Herausforderungen im Umgang mit fehlenden bzw. fehlerbehafteten Daten

SBWL Tourismusanalyse und Freizeitmarketing

Forschungsstatistik I

Wahrscheinlichkeitsverteilungen

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Klassen diskreter Variablen

10 Statistisches Schätzen

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

6.2 Regressionsanalyse I: Die lineare Einfachregression

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Zur Erinnerung: Annahmen

Prüfung im Fach Mikroökonometrie im Sommersemester 2014 Aufgaben

Mathematische Statistik Aufgaben zum Üben. Schätzer

(G)LM. 24. November 2009

Eine Einführung in R: Das Lineare Modell

Kategorielle Zielgrössen

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Grundlagen der schließenden Statistik

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Statistik I für Betriebswirte Vorlesung 4

Wahrscheinlichkeitsrechnung und Statistik

Statistik II. IV. Hypothesentests. Martin Huber

Statistische Datenanalyse

Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.

Transkript:

Fehler in der abhängigen Variablen Bachelor- Seminar im Wintersemester 2014/ 2015 Nina Markovic Institut für Statistik, LMU 19. Dezember 2014 Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 1 / 58

Übersicht 1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 2 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 3 / 58

Messfehler in der Response Varaible Ohne Messfehler Mit Messfehler abhängige Variable 2 1 0 1 2 abhängige Variable 4 2 0 2 4 2 1 0 1 2 Einflussvariable 2 1 0 1 2 Einflussvariable Abbildung: Eine Simulation von einem additiven Messfehler Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 4 / 58

Messfehler in der Response Varaible ˆ größere Streuung der Punkte im Modell mit Messfehler ˆ Regressionsgerade nicht mehr identisch Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 5 / 58

Messfehler in der Response Varaible Abbildung: Vergleich der Modelle mit und ohne Messfehler Nach Abrevaya und Hausman (2004) werden Messfehler in der Response Variablen über Residuen absorbiert Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 6 / 58

Messfehler in der Response Varaible Abbildung: Vergleich der Modelle mit und ohne Messfehler Nach Abrevaya und Hausman (2004) werden Messfehler in der Response Variablen über Residuen absorbiert Messfehler darf ignoriert werden!? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 6 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 7 / 58

Auswirkungen beim linearen Zusammenhang Wie ist passt sich die neue Regressionsgerade an die Daten an? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 8 / 58

Auswirkungen beim linearen Zusammenhang Wie ist passt sich die neue Regressionsgerade an die Daten an? Vergleich erfolgt am R 2 der beiden Modelle R 2 eines Models ohne Messfehler R 2 eines Models mit Messfehler 0.8032 0.3102 Tabelle: Vergleich am R 2 R 2 ist bei dem Modell ohne Messfehler deutlich höher Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 8 / 58

Auswirkungen beim linearen Zusammenhang Inwieweit verändern sich die Regressionsgeraden? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 9 / 58

Auswirkungen beim linearen Zusammenhang Inwieweit verändern sich die Regressionsgeraden? abhängige Variable 6 4 2 0 2 4 Mit Messfehler Ohne Messfehler 2 1 0 1 2 Einflussvariable Abbildung: Vergleich der Regressionsgeraden Regressionsgeraden stimmen nicht mehr überein Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 9 / 58

Auswirkungen beim linearen Zusammenhang Inwieweit verändern sich die Regressionsgeraden? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 10 / 58

Auswirkungen beim linearen Zusammenhang Inwieweit verändern sich die Regressionsgeraden? Ohne Messfehler Mit Messfehler abhängige Variable 4 2 0 2 4 6 abhängige Variable 4 2 0 2 4 6 2 1 0 1 2 Einflussvariable 2 1 0 1 2 Einflussvariable Abbildung: 350 simulierte Regressionsgeraden für jeweils ein Modell mit und ohne Messfehler. Regressionsgeraden im Modell mit Messfehler variieren stärker Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 10 / 58

Auswirkungen beim linearen Zusammenhang Hat ein Messfehler Modellverletzungen zu Folgen? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 11 / 58

Auswirkungen beim linearen Zusammenhang Hat ein Messfehler Modellverletzungen zu Folgen? Residuals 4 0 2 4 Residuals vs Fitted 75 15 10 2 0 2 4 Standardized residuals 0.0 0.5 1.0 1.5 Scale Location 15 75 10 2 0 2 4 Fitted values Fitted values Standardized residuals 2 0 1 2 3 Normal Q Q 15 10 75 2 1 0 1 2 Standardized residuals 2 0 2 Residuals vs Leverage 15 64 Cook's 75 distance 0.00 0.04 0.08 0.12 0.5 0.5 Theoretical Quantiles Leverage Abbildung: Diagnostik Plots eines Models mit Response- Messfehler. grobe Modellverletzungen, wie Heteroskedastizität oder Nicht- Normalverteilung der Residuen nicht erkennbar Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 11 / 58

Auswirkungen beim nicht linearen Zusammenhang Zusammenhang zwischen Einfluss- und Zielvariable beispielweise quadratisch: Y i = β 0 + β 1 Z i + β 2 Z 2 i + ɛ i Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 12 / 58

Auswirkungen beim nicht linearen Zusammenhang Modell ohne Messfehler Modell mit Messfehler abhängige Variable 0 2 4 6 8 abhängige Variable 4 2 0 2 4 6 8 2 0 1 2 3 4 5 Einflussvariable 2 0 2 4 Einflussvariable Abbildung: quadratischer Zusammenhang mit und ohne Messfehler In dem Modell mit Messfehler ist der quadratischer Zusammenhang (Y = β 0 + β 1 Z + β 2 Z 2 ) nicht mehr erkennbar Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 13 / 58

Auswirkungen beim nicht linearen Zusammenhang Folgen: ˆ Vermutung über einen linearen Zusammenhang ˆ quadratische Einflussgröße Z 2 wird nicht mehr in das Modell mitaufgenommen ˆ Modellverletzungen schwer erkennbar Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 14 / 58

Auswirkungen beim nicht linearen Zusammenhang Beispiel am Normal Q- Q Plot: Standardisierte Residuen Normal Q Q Plot ohne Messfehler 0 1 2 3 4 72 7018 44 68 414525953 28 38 50 79 60 80 51 42 66 22 55212 77 61 32 39 13 31 63 6740 47 17 10 37 48 20 58 71 62 15136 19 25 4975 41 74 35 24 27 34 33 69 73 76 64 23 21 65 45 46 11 29 30 7843 54 5635762616 2 1 0 1 2 Theoretische Quantile Standardisierte Residuen 1 1 2 3 Normal Q Q Plot sigma=4 4 603859354076255 21 80 47 24 68 34315 67 58 74 39 61 48 7520 16 32 77 46 25 30 23865 54 45 50 13 70 66 28 12 17 51 11 43 57 52 31 33 79 10 73 26 193762 78 6469 29163 53 22 27 72 42 18 44 497136145641 2 1 0 1 2 Theoretische Quantile Standardisierte Residuen 2 0 2 Normal Q Q Plot sigma=2 1872 51830611 15 26 44 5956176945 55 286360673342 40 65 20 64 49 39 25 14 74 38 27 31 66 80519 50 62 57921 24 53 76 37 46 34 75 13148 54 22 47 3623 52 29 70 41 43 12378477 73 68 16 32 61 35 58 79 71710 2 1 0 1 2 Theoretische Quantile Standardisierte Residuen 2 0 1 2 Normal Q Q Plot sigma=5 70 63 64161 62 129274 22 36 13 54 21 7565 49 11 2977 19 27 59 40 38 14 50 68 37 47 23 66 30 45 46 39 56 16 10 44 42 43 33 31 76 80 35 32 52 17 53 51 60 71 69 24 18 79 15 48 37255262576 67 287341205834878 2 1 0 1 2 Theoretische Quantile Abbildung: Normal Q-Q Plot mit verschiedenen Varianzen des Messfehlers Je höher die Varianz des Messfehlers, desto weniger sind Modellverletzungen zu erkennen Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 15 / 58

Auswirkungen beim nicht linearen Zusammenhang weitere Folgen nach Carroll et al. (2006, S.341): ˆ Inferenz bei strengen nicht- linearen Regressionsmodellen basiert auf einer Approximation durch ein lineares Modell: z.b. durch Entwicklung einer Taylor Reihe für β um den wahren Wert β 0 : Y i = m Y (Z i, β) + ɛ i m Y (Z i, β 0 ) + f (Z i, β 0 ) (β β 0 ) + ɛ i Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 16 / 58

Auswirkungen beim nicht linearen Zusammenhang weitere Folgen nach Carroll et al. (2006, S.341): ˆ Inferenz bei strengen nicht- linearen Regressionsmodellen basiert auf einer Approximation durch ein lineares Modell: z.b. durch Entwicklung einer Taylor Reihe für β um den wahren Wert β 0 : Y i = m Y (Z i, β) + ɛ i m Y (Z i, β 0 ) + f (Z i, β 0 ) (β β 0 ) + ɛ i ˆ Fehler in der Taylor Approximation geht gegen Null, wenn sich β an β 0 nähert Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 16 / 58

Auswirkungen beim nicht linearen Zusammenhang weitere Folgen nach Carroll et al. (2006, S.341): ˆ Inferenz bei strengen nicht- linearen Regressionsmodellen basiert auf einer Approximation durch ein lineares Modell: z.b. durch Entwicklung einer Taylor Reihe für β um den wahren Wert β 0 : Y i = m Y (Z i, β) + ɛ i m Y (Z i, β 0 ) + f (Z i, β 0 ) (β β 0 ) + ɛ i ˆ Fehler in der Taylor Approximation geht gegen Null, wenn sich β an β 0 nähert ˆ tendenzielle steigende Varianz des Messfehlers führt zu einer höheren Variation von ˆβ um β 0 und hat folglich Einfluss auf die Schiefe von ˆβ Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 16 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 17 / 58

Additiver Messfehler ˆ Z: Einflussgrösse Y: Zielgröße ˆ Zusammenhang zwischen Einfluss- (Z) und Zielvariable (Y) linear ˆ S: beobachtete fehlerbehaftete Zielvariable (Vgl. (Carroll et al.; 2006, S.340)) S i = Y i + V i wobei V N(0; 3.0) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 18 / 58

Additiver Messfehler Warum führt ein additiver Messfehler zu einer höheren Varianz der beobachteten Zielvariablen? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 19 / 58

Additiver Messfehler Warum führt ein additiver Messfehler zu einer höheren Varianz der beobachteten Zielvariablen? V(S Z) = V(Y + V Z) = V(Y Z) + V(V ) + 2Cov(Y, V ) = V(Y Z) + V(V ),da Y und V voneinander unabhängig sind. Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 19 / 58

Additiver Messfehler Warum führt ein additiver Messfehler zu einer höheren Varianz der beobachteten Zielvariablen? V(S Z) = V(Y + V Z) = V(Y Z) + V(V ) + 2Cov(Y, V ) = V(Y Z) + V(V ),da Y und V voneinander unabhängig sind. V(S Z) enthält zusätzlich die Varianz des Messfehlers V d.h. σ 2 new = σ 2 + σ 2 v Güte einiger Tests, wie z.b. Konfidenzintervalle, wird reduziert Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 19 / 58

Additiver Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines additiven Messfehlers unverzerrt? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 20 / 58

Additiver Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines additiven Messfehlers unverzerrt? E(S Z) = E(Y + V Z) = E(Y Z) + E(V ) = E(Y Z) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 20 / 58

Additiver Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines additiven Messfehlers unverzerrt? E(S Z) = E(Y + V Z) = E(Y Z) + E(V ) = E(Y Z) Erwartungswerte E( ˆβ messf Z) = E( ˆβ wahr Z) unterscheiden sich nicht Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 20 / 58

Lineare Messfehler wie bisher: ˆ Z: Einflussgrösse Y: Zielgröße ˆ Zusammenhang zwischen Einfluss- (Z) und Zielvariable (Y) linear ˆ S: beobachtete fehlerbehaftete Zielvariable S i = γ 0 + γ 1 Y i + ε Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 21 / 58

Lineare Messfehler wie bisher: ˆ Z: Einflussgrösse Y: Zielgröße ˆ Zusammenhang zwischen Einfluss- (Z) und Zielvariable (Y) linear ˆ S: beobachtete fehlerbehaftete Zielvariable S i = γ 0 + γ 1 Y i + ε neue lineare Zusammenhang zwischen Einflussvariable Z und beobachtete Zielvariable S: S i = γ 0 + β 0 γ 1 + γ 1 β 1 Z i + ε zusätzliche Parameter γ 0, γ 1 Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 21 / 58

Linearer Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines linearen Messfehlers verzerrt? Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 22 / 58

Linearer Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines linearen Messfehlers verzerrt? E(S Z) = E(γ 0 + γ 1 Y Z) E(Y Z) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 22 / 58

Linearer Messfehler Warum sind die Schätzungen bezüglich der Regressionskeoffizienten im Falle eines linearen Messfehlers verzerrt? E(S Z) = E(γ 0 + γ 1 Y Z) E(Y Z) E( ˆβ messf Z) E( ˆβ wahr Z) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 22 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 23 / 58

Allgemeine Likelihood Methoden Ausgangssituation: ein Modell wurde nur für Y spezifiziert, jedoch wurde S beobachtet und nicht Y Ziel der Likelihood Methode: Beide Punkte zu berücksichtigen, um bestmöglich Schätzung der Regressionsparameter zu gewährleisten Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 24 / 58

Allgemeine Likelihood Methoden Ausgangssituation: ein Modell wurde nur für Y spezifiziert, jedoch wurde S beobachtet und nicht Y Ziel der Likelihood Methode: Beide Punkte zu berücksichtigen, um bestmöglich Schätzung der Regressionsparameter zu gewährleisten Erwartungswert (S Z): E β,γ (S Z) = E β (Y Z)dP γ (S Y, Z) (Vgl. (Pepe und Fleming; 1991, S.109)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 24 / 58

Likelihood Methoden für diskrete Response- Variable ˆ S,Y diskret ˆ P ist ein Wahrscheinlichkeitsmaß ˆ Likelihood für (S Z): f S Z (s z, B, γ) = y f Y Z (y z, B) f S Y,Z (s y, z, γ) (Vgl. Carroll et al. (2006, S.353)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 25 / 58

Likelihood Methoden für diskrete Response- Variable Erläuterung anhand von bedingten Wahrscheinlichkeiten: P(S = s Z = z) = y P(S = s Y = y, Z = z) }{{} :=1 (1): die Wahrscheinlichkeit von S gegeben Y,Z (2): die Wahrscheinlichkeit von Y gegeben Z (3): summiert über alle beobachteten y P(Y = y Z = z) }{{} :=2 } {{ } :=3 Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 26 / 58

Einschub: Missklassifikation Missklassifikation: Messfehler in einer binären Zielvariablen d.h. Zuordnungen in falsche Klassen Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 27 / 58

Einschub: Missklassifikation Missklassifikation: Messfehler in einer binären Zielvariablen d.h. Zuordnungen in falsche Klassen Missklassifikations- Wahrscheinlichkeiten: ˆ π 0 = P (S = 1 Y = 0): Die Zuordnung einer Beobachtung zu Klasse 1, obwohl diese in Wahrheit der Klasse 0 entspricht z.b. der Patient wird anhand eines Testergebnisses als krank eingestuft, obwohl dieser in Wahrheit gesund ist (falsch positiv) ˆ π 1 = P (S = 0 Y = 1): Die Zuordnung einer Beobachtung zu Klasse 0, obwohl diese in Wahrheit der Klasse 1 entspricht z.b. der Patient wird als gesund eingestuft, obwohl der Patient tatsächlich krank ist (falsch negativ) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 27 / 58

Einschub: Missklassifikation ˆ in einem logistischem Regressionsmodell wird der Erwartungswert E (Y Z) gebildet durch: E (Y Z) = P (Y = 1 Z) = H (β 0 + β 1 Z) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 28 / 58

Einschub: Missklassifikation ˆ in einem logistischem Regressionsmodell wird der Erwartungswert E (Y Z) gebildet durch: E (Y Z) = P (Y = 1 Z) = H (β 0 + β 1 Z) ˆ Sind Missklassifikations- Wahrscheinlichkeiten vorhanden und nur die Variable S beobachtbar, so ist E (S Z): P (S = 1 Z) = π }{{} 0 + (1 π 0 π 1 ) H (β 0 + β 1 Z) }{{} (1) (2) (Vgl. J. Abrevaya und Scott-Morton (1998, S.241)) (1): Dieser Term entspricht der Missklassifikations- Wahrscheinlichkeit, dass bei S = 1 falsch zugeordnet wird. (2): Entspricht der Gegenwahrscheinlichkeit von (1) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 28 / 58

Einschub: Missklassifikation ˆ in einem logistischem Regressionsmodell wird der Erwartungswert E (Y Z) gebildet durch: E (Y Z) = P (Y = 1 Z) = H (β 0 + β 1 Z) ˆ Sind Missklassifikations- Wahrscheinlichkeiten vorhanden und nur die Variable S beobachtbar, so ist E (S Z): P (S = 1 Z) = π }{{} 0 + (1 π 0 π 1 ) H (β 0 + β 1 Z) }{{} (1) (2) (Vgl. J. Abrevaya und Scott-Morton (1998, S.241)) (1): Dieser Term entspricht der Missklassifikations- Wahrscheinlichkeit, dass bei S = 1 falsch zugeordnet wird. (2): Entspricht der Gegenwahrscheinlichkeit von (1) ˆ Hinsichtlich Parameterschätzungen ergeben sich nun Verzerrungen, da E (S Z) E (Y Z) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 28 / 58

Likelihood Methoden für binäre Response- Variable Schätzung aller unbekannten Parameter π 0, π 1, β 0 und β 1 : ML Schätzung: 1 L (π 0, π 1, β 0, β 1 ) = n [ π 0 + (1 π 0 π 1 ) H (β 0 + β 1 Z) i=1 [ + 1 π 0 (1 π 0 π 1 ) H (β 0 + β 1 Z) ] (1 Si ) ] Si Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 29 / 58

Likelihood Methoden für binäre Response- Variable Schätzung aller unbekannten Parameter π 0, π 1, β 0 und β 1 : ML Schätzung: 1 L (π 0, π 1, β 0, β 1 ) = n [ π 0 + (1 π 0 π 1 ) H (β 0 + β 1 Z) i=1 [ + 1 π 0 (1 π 0 π 1 ) H (β 0 + β 1 Z) ] (1 Si ) ] Si 2 l (π 0, π 1, β 0, β 1 ) = n [ ( )] S i ln π 0 + (1 π 0 π 1 ) H (β 0 + β 1 Z) i=1 [(1 S i ) ln (1 π 0 (1 π 0 π 1 ) H (β 0 + β 1 Z))] (Vgl. J. Abrevaya und Scott-Morton (1998)[S.242]) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 29 / 58

Likelihood Methoden für stetige Response- Variable ˆ S stetige Response- Variable mit linearen Messfehler ˆ P aus der allgemeinen Likelihood- Funktion ein Wahrscheinlichkeitsmaß ˆ Likelihood für (S Z): f S Z (s z, B, γ) = wobei λ das Lebesgue- Maß ist. f Y Z (y z, B) f S Y,Z (s y, z, γ)dλ Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 30 / 58

Nachteile der Likelihood Methoden ˆ mühsame Berechnung ˆ starke Sensibilität gegenüber der Annahme über die Verteilung der Variablen S Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 31 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 32 / 58

Validierungsdaten im Fall einer stetigen Response Validierungsdaten: Teildatensatz, bei denen ein Teil wahre Beobachtungen enthält und der andere Teil sich aus fehlerbehaftet Daten zusammensetzt ˆ Zuordnung der Beobachtungen zu den Validierungsdaten per Zufall ˆ Ziel: Verzerrung in den Parameterschätzungen verursacht durch einen linearen Messfehler zu eliminieren Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 33 / 58

Validierungsdaten im Fall einer stetigen Response Methode nach Carroll et al. (2006, S.343): 1 Modellgleichung wird zwischen wahrer Response- Variable Y und Einflussvariable Z aufgestellt Schätzung von β 0, β 1 2 Zusammenhang zwischen S und Y wird untersucht Schätzung von γ 0, γ 1 3 Zuordnung der Schätzer zu der Menge ˆB 1 4 neue Variable S wird erzeugt durch: (S γ 0 )/γ 1 5 Zusammenhang zwischen S und Y Schätzung von γ 0,neu, γ 1,neu 6 Zuordnung der Schätzer zu der Menge ˆB 2 7 Mengen ˆB 1 und ˆB 2 multipliziert mit gemeinsamer Kovarianzmatrix (gebildet mittels Bootstrap) zu ˆB 8 Ergebnismatrix ˆB enthält unverzerrte Schätzer Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 34 / 58

Validierungsdaten im Fall einer diskreten Response Ziel: Missklassifikations- Wahrscheinlichkeiten anhand von Validierungsdaten zu schätzen Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 35 / 58

Validierungsdaten im Fall einer diskreten Response Ziel: Missklassifikations- Wahrscheinlichkeiten anhand von Validierungsdaten zu schätzen Ansatz zur Schätzung von π 0, π 1 : Anteilsschätzer zwischen den Beobachtungen, die korrekt klassifiziert worden sind und den Beobachtungen dessen wahrer Wert (hier Y=1) beträgt Schätzung von β 0, β 1 durch Einsetzten von ˆπ 0, ˆπ 1 in die Likelihood (Pseudo- Likelihood) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 35 / 58

Validierungsdaten im Fall einer diskreten Response Ziel: Missklassifikations- Wahrscheinlichkeiten anhand von Validierungsdaten zu schätzen Ansatz zur Schätzung von π 0, π 1 : Anteilsschätzer zwischen den Beobachtungen, die korrekt klassifiziert worden sind und den Beobachtungen dessen wahrer Wert (hier Y=1) beträgt Schätzung von β 0, β 1 durch Einsetzten von ˆπ 0, ˆπ 1 in die Likelihood (Pseudo- Likelihood) Nachteil: genaue und konsistente Schätzung nur unter hohem Stichprobenumfang möglich (Vgl. Copas (1988)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 35 / 58

Validierungsdaten im Bezug auf die allgemeinen Likelihood Methoden Ziel: Mit Hilfe der Validierungsdaten einfachere Form der Likelihood- Funktion Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 36 / 58

Validierungsdaten im Bezug auf die allgemeinen Likelihood Methoden Ziel: Mit Hilfe der Validierungsdaten einfachere Form der Likelihood- Funktion Ansatz: Aufsplitten in zwei Produkte n [ fy Z (y i z i, B) f S Y,Z (s i y i, z i, γ) ] 1 i [ fy Z (y i z i, B) f S Y,Z (s i y i, z i, γ) ] i i=1 mit i = { 1 wenn Beobachtung i Validierungsdaten 0 sonst (Vgl. (Carroll et al.; 2006, S.354)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 36 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 37 / 58

Complete Data Methoden Complete Data Methoden (oder auch Complete- Cases): ˆ bezieht sich auf die Methode der Validierungsdaten ˆ stärkere Anforderungen an die Beobachtungen in den Validierungsdaten: nur wahre Beobachtungen Y und Z ˆ Modell nur auf Basis der Validierungsdaten Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 38 / 58

Complete Data Methoden Complete Data Methoden (oder auch Complete- Cases): ˆ bezieht sich auf die Methode der Validierungsdaten ˆ stärkere Anforderungen an die Beobachtungen in den Validierungsdaten: nur wahre Beobachtungen Y und Z ˆ Modell nur auf Basis der Validierungsdaten Schätzung der Regressionskoeffizienten: ˆ KQ- Methode, falls (Y Z) normalverteilt und linearer Zusammenhang ˆ ML Schätzung Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 38 / 58

Complete Data Methoden Beispiel: ˆ Y als das verifizierte Einkommen betrachten (z.b. mit Nachweis einer Lohnabrechnung) ˆ S als das berichtete Einkommen, bzw. ohne jeglichen Nachweis über die tatsächliche Höhe des Einkommens zwei unabhängigen Datensätzen aufgrund Datenschutz Likelihood für alle Beobachtungen i=1,...,n: n {f (Y i Z i, B)} i {f (S i Z i, B, γ)} 1 i i=n (Vgl.Carroll et al. (2006)[S.356]) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 39 / 58

Nachteile der Complete Data Methoden ˆ Konkurrenz zu den Missklassifikations- Wahrscheinlichkeiten, wenn binäre Fall vorliegt ˆ Informationsverlust ˆ Verzerrung, wenn Auswahl der Validierungsdaten von S und Z abhängig Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 40 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 41 / 58

Vergleich der Methoden Abbildung: Vergleich der Methoden mit Auswahl an Valdierungsdaten per Zufall ( Carroll et al. (2006, S.349)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 42 / 58

Vergleich der Methoden Abbildung: Vergleich der Methoden mit Auswahl an Valdierungsdaten per Zufall ( Carroll et al. (2006, S.349)) Schätzer sind fast identisch Problem bei Complete- Data Methode: Wahrscheinlichkeit in den Valiedierungsdaten nur gültige Werte zu erhalten sehr gering Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 42 / 58

Vergleich der Methoden Abbildung: Vergleich der Methoden mit Auswahl an Validierungsdaten von S und Z abhängig ( Carroll et al. (2006, S.350)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 43 / 58

Vergleich der Methoden Abbildung: Vergleich der Methoden mit Auswahl an Validierungsdaten von S und Z abhängig ( Carroll et al. (2006, S.350)) Schätzer von Complete Data Methode und Pseudolikelihood verzerrt ML Schätzer bleibt unverändert Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 43 / 58

Vergleich der Methoden: Beispiel GVHR (Graft-versus-Host-Reaktion): immunologische Reaktion, die in der Folge einer allogenen Knochenmark- oder Stammzelltransplantation auftreten kann ˆ Ziel der Studie: Zusammenhang zwischen Alter eines Patienten und Auftreten einer GHVR untersuchen ˆ Y chronische GVHR, S akute GVHR ˆ Z jünger/ älter als 20 Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 44 / 58

Vergleich der Methoden: Beispiel Validierungsdaten: Abbildung: Validierungsdaten für das GHVR Beispiel mit festen π(s, Z) ( Carroll et al. (2006, S.351)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 45 / 58

Vergleich der Methoden: Beispiel Vergleich von Complete Data- Schätzung und ML- Schätzung: Abbildung: Vergleich Complete Data Methode und ML Schätzung ( Carroll et al. (2006, S.352)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 46 / 58

Vergleich der Methoden: Beispiel Vergleich von Complete Data- Schätzung und ML- Schätzung: Abbildung: Vergleich Complete Data Methode und ML Schätzung ( Carroll et al. (2006, S.352)) starke Verzerrungen der Schätzungen von β bei Signifikanzniveau von α = 0.05 unterschiedliche Ergebnisse bezüglich des signifikanten Einflusses der Variable Z Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 46 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 47 / 58

Semiparametrische Methoden Ziel: Empfindlichkeit der Verteilungsannahmen der beobachteten Response S in der Likelihood zu reduzieren ˆ z.b. S = γ 0 + γ 1 Y Dichtefunktion f S Y,Z von γ 0, γ 1 unabhängig sein ˆ Problem: Variable S liefert in den Validierungsdaten keine Information über die Verteilung von Y ˆ Idee: neue Variable K zu erheben, die informative Komponente von S widerspiegelt (Surrogat) (Vgl. Pepe und Fleming (1991)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 48 / 58

Semiparametrische Methoden: Beispiel ˆ Y die Konzentration eines Medikamentes im Blut ˆ K die Dosierung eines Medikamentes im Blut (Surrogat für Y) - ist einfacher und billiger zu erheben als Y Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 49 / 58

Semiparametrische Methoden: Beispiel ˆ Y die Konzentration eines Medikamentes im Blut ˆ K die Dosierung eines Medikamentes im Blut (Surrogat für Y) - ist einfacher und billiger zu erheben als Y f K Y als empirischer Schätzer für ˆf S Y,Z Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 49 / 58

Semiparametrische Methoden: Beispiel Likelihood- Ansatz: 1 Einsetzten von f K Y anstatt f S Y,Z in die allgemeine Likelihood ˆf S Z (s z, B) = f Y Z (y z, B) f K Y (s y)dλ liefert einen Schätzer für f S Z Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 50 / 58

Semiparametrische Methoden: Beispiel Likelihood- Ansatz: 1 Einsetzten von f K Y anstatt f S Y,Z in die allgemeine Likelihood ˆf S Z (s z, B) = f Y Z (y z, B) f K Y (s y)dλ liefert einen Schätzer für f S Z 2 Maximieren von n i=n liefert einen Schätzer für β 0, β 1 ( Vgl. Carroll et al. (2006)) } {f (Y i Z i, B)} 1 i i {ˆf (S i Z i, B) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 50 / 58

1 Einleitung 2 Haupteil Auswirkungen eines Messfehlers in einer abhängigen Variablen Arten von Messfehlern in der Response Variablen Allgemeine Likelihood Methoden Allgemeine Validierungsdaten Complete Data Methoden Vergleich der Methoden Semiparametrische Methoden 3 Fazit 4 Anhang Literaturverzeichnis Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 51 / 58

Fazit ˆ alle Methoden Verbesserungen anderer Methoden sind ˆ großes Potential zur Ausweitung und Verbesserung z.b. Kombinationen verschiedener Methoden ˆ schwer durchführbar wenn Teildatensatz mit wahren Beobachtungen oder eine Surrogat nicht vorhanden Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 52 / 58

Vielen Dank für die Aufmerksamkeit! Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 53 / 58

Anhang Anhang Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 54 / 58

Anhang: Auswirkungen Was ist mit Schiefe gemeint? Abbildung: Abbild von ˆβ mit 250 Simulationen eines Exponentiellen Regressionsmodells ( Carroll et al. (2006, S.341)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 55 / 58

Anhang: Schätzung von f S Y,Z (s y, z, γ) Welche Möglichkeiten bestehen für die Schätzung von f S Y,Z (s y, z, γ)? ˆ Anwenden eines multinomialen Regressionsmodels: Angenommen S ordinal, diskrete Größe mit Ausprägungen: 1,...,S Wahrscheinlichkeit von S Y, Z: P (S s Y, Z) = H (γ 0s + γ 1 Y + γ 2 Z), s = 1,..., S (Vgl. Carroll et al. (2006)) Falls S stetig Bilden von Schwellenwerten für die Variable S, sodass S ordinal ist ˆ Falls Surrogate vorhanden, anwenden der Semiparametrischen Methoden Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 56 / 58

Anhang: Surrogate Surrogat: Ein Surrogat K spiegelt die informative Komponente einer Variablen S wider ˆ Verteilung von K hängt nur von der Variablen Y ab- nicht von den Einflussgrößen ˆ speziell wenn S Surrogat für Y und Z Einflussgröße (z.b. wenn Y latente Variable): f S Y,Z (s y, z, γ) vereinfacht sich zu f S Y (s y, γ) (Vgl. Carroll et al. (2006)) Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 57 / 58

Anhang: Validierungsdaten Wie wird ˆB gewichtet im letzte Schritt von S.34 nach Methode von Carroll et al. (2006, S.343)? ˆB = ( J t Σ 1 J ) 1 J t Σ 1 ( ˆBt 1, ˆB t 2 wobei J = (I, I ) und I die Identitätsmatrix sei ) t Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 58 / 58

Abrevaya, J. und Hausman, J. A. (2004). Response error in a transformation model with an application to earnings-equation estimation, The Econometrics Journal 7: 366 388. Carroll, R. J., Ruppert, D., Stefanski, L. A. und Crainiceanu., C. M. (2006). Measurement Error in Nonlinear Models: A Modern Perspective, 2nd edn, Chapman and Hall, Boca Raton, USA. Copas, J. B. (1988). Binary regression models for contaminated data, Journal of the Royal Statistical Society 50: 225 265. J. Abrevaya, J. A. H. und Scott-Morton, F. (1998). Misclassification of the dependent variable in a discrete-response setting, Journal of Econometrics 87: 239 269. Pepe, M. S. und Fleming, T. R. (1991). A nonparametric method for dealing with mismeasured covariate data, Journal of the American Statistical Associationt 86: 108 113. Rügamer, D. (2014). Modelldiagnose. Folien zum Tutorium Lineare Modelle von Prof. Dr. Helmut Kchenhoff. Nina M. (Institut für Statistik, LMU) Fehler in der abhängigen Variablen 19. Dezember 2014 58 / 58