Imputation (Ersetzen fehlender Werte)

Größe: px
Ab Seite anzeigen:

Download "Imputation (Ersetzen fehlender Werte)"

Transkript

1 Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation (Längsschnittdaten) 1

2 Nonresponse bias Nonresponse bias y y r mit : s m = n s s ( y r y m ) y y y n s r s m m s = arithm. Mittel der Bruttostichprobe = arithm. Mittel der Nettostichprobe = arithm. Mittel der Nonrespondents = Bruttostichprobe ( Anzahl Untersuchungseinheiten) = Nonrespondents ( Anzahl Untersuchungseinheiten) vgl. Groves et al. 2004: 59 2

3 (Unrealistisches) Beispiel: Nonresponse bias ID Brutto Netto 1 Netto 2 Netto arithm. Mittel: Anteil Nonresponse Nonresponse bias: Fehlende Werte (missing values): Mechanismen 3

4 Mechanismen Missing completely at random (MCAR): weder abhängig von beobachteten noch von fehlenden Werten z.b. weder von der Höhe des (fehlenden) Einkommens, noch vom (beobachteten) Alter Missing at random (MAR): nicht abhängig von fehlenden Werten, aber abhängig von beobachteten Werten z.b. nicht von der Höhe des (fehlenden) Einkommens, aber vom (beoachteten) Alter Not missing at random (NMAR): abhängig von fehlenden Werten z.b. abhängig vom (fehlenden) Einkommen bei gleichem (beobachteten) Alter Gewichtung und Imputation (Unit-)Nonresponse-Gewichtung geht von missing at random (MAR) aus anders ausgedrückt: innerhalb der Anpassungsklassen, auf deren Basis die Gewichte berechnet werden wird von missing completely at random ausgegangen (z.b. innerhalb von Altersklassen) im Folgenden zum Vorgehen bei Item-Non- Response Imputation 4

5 Analyse von vollständigen Fällen eine Möglichkeit zur Behebung des Problems fehlender Werte ist der Ausschluss aller Fälle, in denen mindestens ein Merkmal fehlt fallweiser Ausschluss (casewise deletion) Vorteile: sehr einfach umzusetzen gleiche Stichprobe für alle Analysen (Vergleichbarkeit auch aller univariater Analysen) Nachteile: Reduzierung der Fallzahl verzerrte Ergebnisse wenn Missing-Mechanismus nicht MCAR Imputationsverfahren 5

6 Imputation Ziel der Imputation ist, fehlende Werte durch möglichst passende Werte zu ersetzen. Es gibt eine Vielzahl von Verfahren. Man unterscheidet zwischen einfacher (single) und multipler Imputation. single: für jeden fehlenden Wert wird ein Wert generiert multiple: für jeden fehlenden Wert werden mehrere Werte generiert (vgl. Rubin 1987) im Folgenden nur single-imputation Imputationsverfahren Mittelwert ( value ): Ersetzen von fehlenden Werten durch arithmetisches Mittel oder Median unconditional: Ersetzen durch Mittelwert der beobachteten Werte conditional: Ersetzen durch Mittelwerte in Subgruppen (gebildet nach Ausprägung einer beobachteten Variablen) Regressions: Ersetzen durch vorhergesagte Werte eines Regressionsmodells auf Basis der beobachteten Werte (multivariate Variante der conditional, Möglichkeit der Verwendung kontinuierlicher Variablen) 6

7 Imputationsverfahren Hot-deck-Imputation: Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz (Cold-deck: Ersetzen durch möglichst ähnlichen Fall in anderem Datensatz) Zeilen-und-Spalten-Imputation (Row-and- Column): nur möglich mit Längsschnittdaten; Ersetzen durch einen zu einem anderen Zeitpunkt beobachteten Wert Sonstige Verfahren: u.a. Experten, logische (logical) Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M 11 2 M 12 3 M M M M M F F F F F F F F F F arithmetisches Mittel: 49 Varianz: imputierte Daten conditional regression 7

8 Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: Varianz: imputierte Daten conditional regression Beispiel: Mittelwert und Regressions imputierte Daten ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) conditional regression 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: 8

9 Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M regression 16 F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: regression Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) 9

10 Beispiel: Hot-deck Imputation Bildung Einkommen imputierte ID Geschlecht (in Jahren) (in Tsd) "hot value" Daten flag 1 M M M M M M M M F 10 88? F F F F F F F F F Imputierte Daten: arithm. Mittel=48, Varianz=519 Groves et al.2004: 332 Beispiel: row-column-imputation *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Befragungszeitpunkte arithm. Mittel Zeileneffekt ID (Zeile) * arithm.mittel (Spalte) Spalteneffekt (Sp.mittel/Gesamtmittel)

11 Beispiel: row-column-imputation Befragungszeitpunkte ID Zeileneffekt * *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Vergleich der Verfahren Mittelwert: einfach durchzuführen keine bzw. geringe Varianz der imputierten Daten (je nach Komplexität des Modells höher bei Regressions) Annahmen: MCAR (unconditional), MAR (conditional) Hot-deck-Imputation: höhere Varianz der imputierten Daten höherer Aufwand Zeilen-und-Spalten-Imputation (Row-and-Column): Längsschnittdaten notwendig Kombination Ersetzen mir früheren Werten und Hot-deck- Imputation 11

12 Arbeiten mit imputierten Daten insbesondere Datensätze mit Einkommensangaben enthalten imputierte Daten das Imputationsverfahren sollte in der Dokumentation beschrieben sein die imputierten Werte sollten durch eine flag -Variable gekennzeichnet sein will man nur mit den beobachteten Werten arbeiten (i.d.r. nicht sinnvoll) muss man die imputierten Werte über die -flag -Variable ausschließen Arbeiten mit imputierten Daten im SOEP in der nächsten Übung Literatur Frick, Joachim R./ Grabka, Markus M. (2003): Missing income data in the German SOEP: Incidience, Imputation and ist impact on the income distribution, DIW Discussion Paper No. 376, Berlin: DIW Groves et al. (2004): Abschnitt 10.6 Little, Roderick J.A./ Rubin, Donald B. (2002): Statistical analysis with missing data, Hoboken:WIley 12

Statistische Matching-Verfahren

Statistische Matching-Verfahren Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Missing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit

Missing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit Missing Data VL Forschungsmethoden Missing Data VL Forschungsmethoden VL Forschungsmethoden Missing Data (0/27) Übersicht 1 2 Vor- und Nachteile : Ansatz Implementation 3 VL Forschungsmethoden Missing

Mehr

Behandlung fehlender Werte

Behandlung fehlender Werte Halle/Saale, 8.6.2 Behandlung fehlender Werte Dipl.-Psych. Wilmar Igl - Methodenberatung - Rehabilitationswissenschaftlicher Forschungsverbund Bayern Einleitung () Fehlende Werte als allgegenwärtiges Problem

Mehr

Missing Data. Regressionsmodelle für Politikwissenschaftler

Missing Data. Regressionsmodelle für Politikwissenschaftler Regressionsmodelle für Politikwissenschaftler TSCS Regression in Stata Struktur definieren:. xtset id year panel variable: id (strongly balanced) time variable: year, 1996 to 2004, but with gaps delta:

Mehr

Umgang mit fehlenden Werten in der psychologischen Forschung

Umgang mit fehlenden Werten in der psychologischen Forschung Umgang mit fehlenden Werten in der psychologischen Forschung Oliver Lüdtke Max-Planck-Institut für Bildungsforschung Alexander Robitzsch Institut zur Qualitätsentwicklung im Bildungswesen Programm Montag

Mehr

Gewichtung und Fehlerquellen

Gewichtung und Fehlerquellen Universität Bielefeld 18. April 2005 Gewichtung Gewichtung Unter einer Gewichtung wird die Vergabe von positiven reellen Zahlen an die Merkmalsträger im Datensatz verstanden, die als Gewichtungsfaktoren

Mehr

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Gewichtung in der Umfragepraxis. Von Tobias Hentze Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht

Mehr

Imputationsverfahren

Imputationsverfahren Minh Ngoc Nguyen Betreuer: Eva Endres München, 09.01.2015 Einführung 2 / 45 Einführung 3 / 45 Imputation Prinzip: fehlende Werte sollen durch möglichst passenden Werte ersetzt werden Vorteil Erzeugen den

Mehr

Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik

Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Edin Basic Freie Universität Berlin 12.Oktober 2005 Überblick Überblick Y = Untersuchungsvariable - Missing, falls

Mehr

Datenmanagement Teil II: Datenscreening und - transformation

Datenmanagement Teil II: Datenscreening und - transformation Datenmanagement Teil II: Datenscreening und - transformation Dipl.-Psych. W. Igl & Dipl.-Psych. A. Reusch (Methodenberatung) Rehabilitationswissenschaftlicher Forschungsverbund Bayern (RFB) Referent: Dipl.-Psych.

Mehr

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien

Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Oliver Kuß Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät, Martin-Luther-Universität

Mehr

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros

Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros Medizinische Statistik Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros Kathrin Hohl*, Christina Ring*, Rainer Muche*, Christoph Ziegler *Abt. Biometrie und Med. Dok., Universität

Mehr

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014 Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014 Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores

Mehr

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge

Mehr

Vorlesung: Multivariate Statistik für Psychologen

Vorlesung: Multivariate Statistik für Psychologen Vorlesung: Multivariate Statistik für Psychologen 2. Vorlesung: 10.04.2003 Agenda 1. Organisatorisches 2. Datenbehandlung i. Unverfälschte Daten ii. Unverfälschte Korrelationen iii. Missing Data iv. Ausreißer

Mehr

Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008

Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008 Statistisches Bundesamt Methodeninformation Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im 2009 Erschienen am 24.07.2009 Ihr Kontakt zu uns: www.destatis.de/kontakt

Mehr

Fehlende Werte und Multiple Imputation

Fehlende Werte und Multiple Imputation Fehlende Werte und Multiple Imputation Oliver Kuß Deutsches Diabetes-Zentrum (DDZ), Leibniz-Zentrum für Diabetes-Forschung an der Heinrich-Heine- Universität Düsseldorf, Institut für Biometrie und Epidemiologie

Mehr

Ersetzen fehlender Werte bei der Tumorstadienverteilung nach UICC

Ersetzen fehlender Werte bei der Tumorstadienverteilung nach UICC Ersetzen fehlender Werte bei der Tumorstadienverteilung nach UICC Klaus Kraywinkel, A.Katalinic Epidemiologische Krebsregister NRW, Schleswig-Holstein Hintergrund Tumorstadienverteilung in bevölkerungsbezogenen

Mehr

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart

SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart No. 44 / 2016 Regressionsanalyse bei fehlenden Variablenwerten (missing values): Imputation oder Nicht-Imputation?

Mehr

Soziale Unterschiede in der Lebenserwartung

Soziale Unterschiede in der Lebenserwartung Soziale Unterschiede in der Lebenserwartung Lars Eric Kroll, Thomas Lampert Robert Koch-Institut, Berlin FG 24 Gesundheitsberichterstattung Das Robert Koch-Institut ist ein Bundesinstitut im Geschäftsbereich

Mehr

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten

Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Ludmila Himmelspach Institut für Informatik Heinrich-Heine-Universität Düsseldorf D-40225 Düsseldorf, Deutschland himmelspach@cs.uni-duesseldorf.de

Mehr

Fairer Vergleich. Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, Ann Cathrice George Alexander Robitzsch

Fairer Vergleich. Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, Ann Cathrice George Alexander Robitzsch Fairer Vergleich Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013 Ann Cathrice George Alexander Robitzsch Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen

Mehr

Missing Values Konzepte und statistische Literatur

Missing Values Konzepte und statistische Literatur Missing Values Konzepte und statistische Literatur Dipl.-Wirtsch.-Ing. Matthias Runte Universität Kiel, Lehrstuhl für Marketing Westring 425, 24098 Kiel Tel 0431/880-1535 Email: matthias@runte.de URL:

Mehr

Analyse von Querschnittsdaten. Arten von Variablen

Analyse von Querschnittsdaten. Arten von Variablen Analyse von Querschnittsdaten Arten von Variablen Warum geht es in den folgenden Sitzungen? Vorarbeiten Datum 18.10.2006 18.10.2006 25.10.2006 08.11.2006 15.11.2006 22.11.2006 29.11.2006 06.12.2006 13.12.2006

Mehr

Bivariate Regressionsanalyse

Bivariate Regressionsanalyse Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x

Mehr

Praxis der Umfrageforschung

Praxis der Umfrageforschung Praxis der Umfrageforschung Gliederung Vorbesprechung Thema und Gliederung der Veranstaltung Teilnahmevoraussetzungen Klausur und Hausarbeiten Organisatorisches Überblick: Problemstellungen der Umfrageforschung

Mehr

Armutsquotenberechnung aus gerundeten Einkommensangaben

Armutsquotenberechnung aus gerundeten Einkommensangaben Armutsquotenberechnung aus gerundeten Einkommensangaben Jörg Drechsler, IAB Nürnberg Hans Kiesl, OTH Regensburg Statistik Tage Bamberg Fürth 2016 20.7.2016 S. 1 Panelerhebung PASS (Panel Arbeitsmarkt und

Mehr

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen

Mehr

Bachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation

Bachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation Ludwig-Maximilians-Universität München Institut für Statistik Bachelorarbeit Vergleich verschiedener Verfahren zur Datenimputation Autor: Susanne Rubenbauer Betreuer: Prof. Dr. Christian Heumann Datum:

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Imputationsverfahren

Imputationsverfahren Ludwig-Maximilians-Universität München Institut für Statistik Seminararbeit Imputationsverfahren Autorin: Minh Ngoc Nguyen Betreuerin: Eva Endres 15. März 2015 Seminararbeit Imputationsverfahren Autorin:

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Datenquellen und Analyse von Sekundärdaten

Datenquellen und Analyse von Sekundärdaten Datenquellen und Analyse von Sekundärdaten Gliederung Daten /Sekundärdaten Analyse von Sekundärdaten Vorteile Nachteile Unterschiede zwischen Datenquellen 1 Daten / Sekundärdaten Analyse von Sekundärdaten

Mehr

Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren?

Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren? www.goethe-universitaet.de Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren? Der Zusammenhang zwischen Fähigkeiten in der frühen Kindheit und der Schulleistung in der dritten Klasse

Mehr

Regressionsanalysen mit Stata

Regressionsanalysen mit Stata Regressionsanalysen mit Stata Wiederholung: Deskriptive Analysen - Univariate deskriptive Analysen (Häufigkeitsauszählungen einer Variablen) - Multivariate deskriptive Analysen (Untersuchung gemeinsamer

Mehr

Behandlung fehlender Daten

Behandlung fehlender Daten Behandlung fehlender Daten Diplomarbeit zur Erlangung des Grades eines Diplom-Volkswirtes an der Wirtschaftswissenschaftlichen Fakultät der Humboldt-Universität zu Berlin vorgelegt von Lars Rohrschneider

Mehr

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Hauptseminar: Praxis der Umfrageforschung

Hauptseminar: Praxis der Umfrageforschung Hauptseminar: Praxis der Umfrageforschung Gliederung Vorbesprechung Thema und Gliederung der Veranstaltung Teilnahmevoraussetzungen Prüfungen und Scheine Organisatorisches Überblick: Problemstellungen

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 21. Januar 2016 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Punkte: 15, 15, 12, 14, 16, 18 ; Summe der Punkte: 90 Aufgabe 1 15 Punkte Bei

Mehr

Vorlesung 3: Schätzverfahren

Vorlesung 3: Schätzverfahren Vorlesung 3: Schätzverfahren 1. Beispiel: General Social Survey 1978 2. Auswahl einer Zufallsstichprobe und Illustration des Stichprobenfehlers 3. Stichprobenverteilung eines Regressionskoeffizienten 4.

Mehr

5 multiple Imputationen

5 multiple Imputationen 5 multiple Imputationen 5.1 Einleitung Ein bei allen freiwilligen Erhebungen auftretendes Problem ist der partielle Antwortausfall (Item-Non-Response), d. h. die Tatsache, dass nicht alle Befragten sämtliche

Mehr

Analyse von Querschnittsdaten. Statistische Inferenz

Analyse von Querschnittsdaten. Statistische Inferenz Analyse von Querschnittsdaten Statistische Inferenz Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004 03.11.2004

Mehr

Definition multivariater Analysemethoden

Definition multivariater Analysemethoden Definition multivariater Analysemethoden Definition Multivariate Analysemethoden Multivariate Analysemethoden sind Methoden, die gleichzeitig p Merkmale (Variablen) von n Objekten (Merkmalsträger, Fälle,

Mehr

Name Vorname Matrikelnummer Unterschrift

Name Vorname Matrikelnummer Unterschrift Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe

Mehr

Julia Röttger 1, Miriam Blümel 1, Roland Linder², Reinhard Busse 1

Julia Röttger 1, Miriam Blümel 1, Roland Linder², Reinhard Busse 1 Welche Faktoren auf Patientenebene sind mit einer Einschreibung in das DMP Koronare Herzkrankheit assoziiert? Eine Analyse anhand von Befragungs- und Routinedaten. Julia Röttger 1, Miriam Blümel 1, Roland

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Bivariate Statistik: Kreuztabelle

Bivariate Statistik: Kreuztabelle Bivariate Statistik: Kreuztabelle Beispiel 1: Im ALLBUS wurde u.a. nach dem Nationalstolz und nach dem Gefühl der Überfremdung gefragt: Würden Sie sagen, dass Sie sehr stolz, ziemlich stolz, nicht sehr

Mehr

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden

Mehr

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression II Bringen Sie zur nächsten Übung und in die Klausur einen (nicht programmierbaren) Taschenrechner mit! # 2 Programm Wiederholung der

Mehr

Datenqualität mit SPSS

Datenqualität mit SPSS 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Datenqualität mit SPSS von Dipl.-Psych. Christian FG Schendera Oldenbourg

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe

Mehr

Rechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten

Rechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten Rechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten Datenqualität / Validierung Gerhard Svolba SAS Austria Mariahilfer Straße 116 A-1070 Wien gerhard.svolba@sas.com Zusammenfassung

Mehr

Überblick PUMA-Umfragen

Überblick PUMA-Umfragen Überblick PUMA-Umfragen Phase I: 3 Piloterhebungen/ Rekrutierungsexperimente (2016) a) MZ-CATI, 4 Incentivegruppen ZDF, 2, 5, 10 => 25% response, Faktor 1:4 b) ZMR-POST, 7 Incentivegruppen Baseline: 0

Mehr

7 Berechnung der Survey-Gewichte

7 Berechnung der Survey-Gewichte 7 Berechnung der Survey-Gewichte 7.1 Einleitung Bei Erhebungen werden in der Regel aus folgenden zwei Gründen Gewichtungen vorgenommen: erstens, um die Stichprobe repräsentativ für die Zielpopulation zu

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale) PROC NPAR1WAY zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale) Allgemeine Form: PROC NPAR1WAY DATA=name Optionen ; VAR variablenliste ; CLASS

Mehr

Deckungslücken in der Alterssicherung

Deckungslücken in der Alterssicherung Deckungslücken in der Alterssicherung Christina Benita Wilke Mannheimer Forschungsinstitut Ökonomie und Demographischer Wandel (MEA) Vorläufige Projektergebnisse Bitte nicht ohne Zustimmung der Autorin

Mehr

Vorwort zur vierten Auflage Einleitung 13

Vorwort zur vierten Auflage Einleitung 13 http://www.beltz.de/de/nc/verlagsgruppe-beltz/gesamtprogramm.html?isbn=978-3-621-28249-9 6 Inhalt Inhalt Vorwort zur vierten Auflage 11 1 Einleitung 13 1.1 Warum R? 13 1.2 Fürwen ist dieses Buch? 14 1.3

Mehr

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt

Mehr

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:

Mehr

TEIL 13: DIE EINFACHE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick Kreuztabellen 1. Ziel der Kreuztabellierung 2. Übersicht CROSSTABS - Syntax

Mehr

Diagnostik von Regressionsmodellen (1)

Diagnostik von Regressionsmodellen (1) Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Sozialwissenschaftliche Datenanalyse mit R

Sozialwissenschaftliche Datenanalyse mit R Katharina Manderscheid Sozialwissenschaftliche Datenanalyse mit R Eine Einführung F' 4-1 V : 'i rl ö LiSl VS VERLAG Inhaltsverzeichnis Vorwort 5 Danksagung 7 Inhaltsverzeichnis 9 R für sozialwissenschaftliche

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Behandlung fehlender Werte in SPSS und Amos

Behandlung fehlender Werte in SPSS und Amos Universität Trier Zentrum für Informations-, Medienund Kommunikationstechnologie (ZIMK) Trier, den 3. 7. 2013 Bernhard Baltes-Götz Behandlung fehlender Werte in SPSS und Amos Inhaltsverzeichnis VORWORT

Mehr

Wenn die Nachfrage des Arbeitgebers doch einen Einfluss

Wenn die Nachfrage des Arbeitgebers doch einen Einfluss 3.2. Mindestlöhne Wenn die Nachfrage des Arbeitgebers keinen Einfluss auf den Lohn ausübt (Fall sog. "vollkommener" bzw. vollständiger Konkurrenz), dann senkt ein Mindestlohn oberhalb des Gleichgewichtslohns

Mehr

Fehlende Daten beim Data-Mining

Fehlende Daten beim Data-Mining Fehlende Daten beim Data-Mining Abstract: Der Beitrag zeigt, in welchem Schritt der Analyse von großen Datenmengen die Behandlung von fehlenden Daten stattfindet und warum ein angemessener Umgang mit diesen

Mehr

NONRESPONSE in der Umfragepraxis

NONRESPONSE in der Umfragepraxis NONRESPONSE in der Umfragepraxis Universität zu Köln Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung Hauptseminar: Praxis der Umfrageforschung Dozenten: H. J. Andreß / H. Lohmann Referentin:

Mehr

Konfirmatorische Faktorenanalyse

Konfirmatorische Faktorenanalyse Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable nicht direkt beobachtbare Größe die beobachtbare Variablen ( Indikatoren

Mehr

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung Der Verhältnisschätzer - Ratio estimator Beispiel: Schätzung der Anzahl Objekte (Bäume) in einem bestimmten Gebiet. Situation: Die Fläche ist unterteilt in Streifen / Transekte. Man wählt zufällig n =

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Überblick über die heutige Veranstaltung. Unterschiedliche Arten von Umfragedaten: Querschnitte: Serielle Querschnitte

Überblick über die heutige Veranstaltung. Unterschiedliche Arten von Umfragedaten: Querschnitte: Serielle Querschnitte Überblick über die heutige Veranstaltung 1. Darstellung verschiedener Datenarten in den Sozialwissenschaften 2. Vorstellung eines Datensatzes zur Analyse von Familienentwicklungsprozessen: Das sozioökonomische

Mehr

Ilmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger

Ilmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger Ilmenauer Beiträge zur Wirtschaftsinformatik Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger Entscheidungsbäume zur Imputation kategorialer Daten Arbeitsbericht Nr. 2015-02, August

Mehr

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10

Grundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10 Grundlagen empirischer Forschung Korpuslinguistik Heike Zinsmeister WS 2009/0 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung des zu untersuchenden Phänomens Literaturstudien Erkundigungen

Mehr

Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften

Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften Überlick über Modelle für defizitäre Daten Seminarleiter: Prof. Dr. Thomas Augustin Betreuerin: Julia

Mehr

Dateneingabe und Transformation Übersicht

Dateneingabe und Transformation Übersicht Dateneingabe und Transformation Übersicht 2.0 Allgemeine 2.1 Eingabe über die 2.2 2.3 Eingabe eines externen ASCII-Files 2.4 Varianten der INPUT-Anweisung, Formatierungselemente 2.5 Ein- und Ausgabe von

Mehr

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE 1.1 Füllen Sie bitte folgenden Lückentext aus. Daten, die in Untersuchungen erhoben werden, muss man grundsätzlich nach ihrem unterscheiden.

Mehr

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Überblick über multivariate Verfahren in der Statistik/Datenanalyse Überblick über multivariate Verfahren in der Statistik/Datenanalyse Die Klassifikation multivariater Verfahren ist nach verschiedenen Gesichtspunkten möglich: Klassifikation nach der Zahl der Art (Skalenniveau)

Mehr

Statistik II: Signifikanztests /1

Statistik II: Signifikanztests /1 Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell von XENOPHOB auf V247 und POSTMAT, MATERIAL Für unsere

Mehr

Erhebungsinstrumente und Untersuchungsformen

Erhebungsinstrumente und Untersuchungsformen Erhebungsinstrumente und Untersuchungsformen Gliederung Untersuchungsformen Überblick Auswahlgrundlagen und Untersuchungsformen Mode-Effekte Fragen und Antworten: Fragebogen 1 Untersuchungsformen Untersuchungsformen:

Mehr

Aktuelle Trends der Vermögensungleichheit in Deutschland.

Aktuelle Trends der Vermögensungleichheit in Deutschland. Aktuelle Trends der Vermögensungleichheit in Deutschland. Gefördert durch die Hans-Böckler Stiftung (HBS-Projekt-Nr. 2012-610-4) Dr. Markus M. Grabka (DIW Berlin) WSI-Herbstforum 2015 Soziale Ungleichheiten:

Mehr

Population und Stichprobe Wahrscheinlichkeitstheorie II

Population und Stichprobe Wahrscheinlichkeitstheorie II Population und Stichprobe Wahrscheinlichkeitstheorie II 5. Sitzung 1 S. Peter Schmidt 2003 1 Stichprobenziehung als Zufallsexperiment Definition Stichprobe: Teilmenge der Elemente der Grundgesamtheit bzw.

Mehr

Ökonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends

Ökonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends Ökonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends Dr. Markus M. Grabka & PD Dr. Joachim R. Frick (DIW Berlin / SOEP) HAYEK-Kreis-Meeting Einstiegs- und Aufstiegschancen? Zur sozialen

Mehr

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten: Verfahren zur Analyse von Nominaldaten Chi-Quadrat-Tests Vier-Felder Kontingenztafel Mehrfach gestufte Merkmale Cramers V, Kontingenzkoeffizient, Phi-Koeffizient Muster aller Chi-Quadrat-Verfahren eine

Mehr

Rundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder

Rundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder Bundesinstitut für Berufsbildung (BIBB) Rundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder Ein kurzer Erfahrungsbericht

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Datenfusion: Theoretische Implikationen und praktische Umsetzung

Datenfusion: Theoretische Implikationen und praktische Umsetzung Datenfusion: Theoretische Implikationen und praktische Umsetzung Workshop Methoden der Empirischen Sozialforschung Statistisches Bundesamt, Wiesbaden 16. Mai 2013 1 Einführung 2 Projektübersicht 3 Projektdurchführung

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Armako-Spss. Handbuch. Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie

Armako-Spss. Handbuch. Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie Armako-Spss Handbuch Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie Nov. 2002 Armako-Spss 1 Gliederung: 1. Was leistet das Programm Armako SPSS? 2. Voraussetzungen um mit

Mehr