Imputation (Ersetzen fehlender Werte)
|
|
- Otto Beyer
- vor 6 Jahren
- Abrufe
Transkript
1 Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation (Längsschnittdaten) 1
2 Nonresponse bias Nonresponse bias y y r mit : s m = n s s ( y r y m ) y y y n s r s m m s = arithm. Mittel der Bruttostichprobe = arithm. Mittel der Nettostichprobe = arithm. Mittel der Nonrespondents = Bruttostichprobe ( Anzahl Untersuchungseinheiten) = Nonrespondents ( Anzahl Untersuchungseinheiten) vgl. Groves et al. 2004: 59 2
3 (Unrealistisches) Beispiel: Nonresponse bias ID Brutto Netto 1 Netto 2 Netto arithm. Mittel: Anteil Nonresponse Nonresponse bias: Fehlende Werte (missing values): Mechanismen 3
4 Mechanismen Missing completely at random (MCAR): weder abhängig von beobachteten noch von fehlenden Werten z.b. weder von der Höhe des (fehlenden) Einkommens, noch vom (beobachteten) Alter Missing at random (MAR): nicht abhängig von fehlenden Werten, aber abhängig von beobachteten Werten z.b. nicht von der Höhe des (fehlenden) Einkommens, aber vom (beoachteten) Alter Not missing at random (NMAR): abhängig von fehlenden Werten z.b. abhängig vom (fehlenden) Einkommen bei gleichem (beobachteten) Alter Gewichtung und Imputation (Unit-)Nonresponse-Gewichtung geht von missing at random (MAR) aus anders ausgedrückt: innerhalb der Anpassungsklassen, auf deren Basis die Gewichte berechnet werden wird von missing completely at random ausgegangen (z.b. innerhalb von Altersklassen) im Folgenden zum Vorgehen bei Item-Non- Response Imputation 4
5 Analyse von vollständigen Fällen eine Möglichkeit zur Behebung des Problems fehlender Werte ist der Ausschluss aller Fälle, in denen mindestens ein Merkmal fehlt fallweiser Ausschluss (casewise deletion) Vorteile: sehr einfach umzusetzen gleiche Stichprobe für alle Analysen (Vergleichbarkeit auch aller univariater Analysen) Nachteile: Reduzierung der Fallzahl verzerrte Ergebnisse wenn Missing-Mechanismus nicht MCAR Imputationsverfahren 5
6 Imputation Ziel der Imputation ist, fehlende Werte durch möglichst passende Werte zu ersetzen. Es gibt eine Vielzahl von Verfahren. Man unterscheidet zwischen einfacher (single) und multipler Imputation. single: für jeden fehlenden Wert wird ein Wert generiert multiple: für jeden fehlenden Wert werden mehrere Werte generiert (vgl. Rubin 1987) im Folgenden nur single-imputation Imputationsverfahren Mittelwert ( value ): Ersetzen von fehlenden Werten durch arithmetisches Mittel oder Median unconditional: Ersetzen durch Mittelwert der beobachteten Werte conditional: Ersetzen durch Mittelwerte in Subgruppen (gebildet nach Ausprägung einer beobachteten Variablen) Regressions: Ersetzen durch vorhergesagte Werte eines Regressionsmodells auf Basis der beobachteten Werte (multivariate Variante der conditional, Möglichkeit der Verwendung kontinuierlicher Variablen) 6
7 Imputationsverfahren Hot-deck-Imputation: Ersetzen durch beobachteten Wert eines möglichst ähnlichen Falls im Datensatz (Cold-deck: Ersetzen durch möglichst ähnlichen Fall in anderem Datensatz) Zeilen-und-Spalten-Imputation (Row-and- Column): nur möglich mit Längsschnittdaten; Ersetzen durch einen zu einem anderen Zeitpunkt beobachteten Wert Sonstige Verfahren: u.a. Experten, logische (logical) Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M 11 2 M 12 3 M M M M M F F F F F F F F F F arithmetisches Mittel: 49 Varianz: imputierte Daten conditional regression 7
8 Beispiel: Mittelwert und Regressions ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: Varianz: imputierte Daten conditional regression Beispiel: Mittelwert und Regressions imputierte Daten ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) conditional regression 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: 8
9 Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M regression 16 F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) Beispiel: Mittelwert und Regressions imputierte Daten conditional ID Geschlecht Bildung (in Jahren) Einkommen (in Tsd) 1 M M M M M M M M F F F F F F F F F F arithmetisches Mittel: 49 (m:51, f:48) Varianz: regression Regression : Vorhersagewerte aus Regressionsmodell (Einkommen=b0+b1*Geschlecht+b2*Bildung) 9
10 Beispiel: Hot-deck Imputation Bildung Einkommen imputierte ID Geschlecht (in Jahren) (in Tsd) "hot value" Daten flag 1 M M M M M M M M F 10 88? F F F F F F F F F Imputierte Daten: arithm. Mittel=48, Varianz=519 Groves et al.2004: 332 Beispiel: row-column-imputation *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Befragungszeitpunkte arithm. Mittel Zeileneffekt ID (Zeile) * arithm.mittel (Spalte) Spalteneffekt (Sp.mittel/Gesamtmittel)
11 Beispiel: row-column-imputation Befragungszeitpunkte ID Zeileneffekt * *) ~ mit Spalteneffekt gewichtetes Zeilenmittel Vergleich der Verfahren Mittelwert: einfach durchzuführen keine bzw. geringe Varianz der imputierten Daten (je nach Komplexität des Modells höher bei Regressions) Annahmen: MCAR (unconditional), MAR (conditional) Hot-deck-Imputation: höhere Varianz der imputierten Daten höherer Aufwand Zeilen-und-Spalten-Imputation (Row-and-Column): Längsschnittdaten notwendig Kombination Ersetzen mir früheren Werten und Hot-deck- Imputation 11
12 Arbeiten mit imputierten Daten insbesondere Datensätze mit Einkommensangaben enthalten imputierte Daten das Imputationsverfahren sollte in der Dokumentation beschrieben sein die imputierten Werte sollten durch eine flag -Variable gekennzeichnet sein will man nur mit den beobachteten Werten arbeiten (i.d.r. nicht sinnvoll) muss man die imputierten Werte über die -flag -Variable ausschließen Arbeiten mit imputierten Daten im SOEP in der nächsten Übung Literatur Frick, Joachim R./ Grabka, Markus M. (2003): Missing income data in the German SOEP: Incidience, Imputation and ist impact on the income distribution, DIW Discussion Paper No. 376, Berlin: DIW Groves et al. (2004): Abschnitt 10.6 Little, Roderick J.A./ Rubin, Donald B. (2002): Statistical analysis with missing data, Hoboken:WIley 12
Statistische Matching-Verfahren
Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften
MehrUmgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen
MehrMissing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit
Missing Data VL Forschungsmethoden Missing Data VL Forschungsmethoden VL Forschungsmethoden Missing Data (0/27) Übersicht 1 2 Vor- und Nachteile : Ansatz Implementation 3 VL Forschungsmethoden Missing
MehrBehandlung fehlender Werte
Halle/Saale, 8.6.2 Behandlung fehlender Werte Dipl.-Psych. Wilmar Igl - Methodenberatung - Rehabilitationswissenschaftlicher Forschungsverbund Bayern Einleitung () Fehlende Werte als allgegenwärtiges Problem
MehrMissing Data. Regressionsmodelle für Politikwissenschaftler
Regressionsmodelle für Politikwissenschaftler TSCS Regression in Stata Struktur definieren:. xtset id year panel variable: id (strongly balanced) time variable: year, 1996 to 2004, but with gaps delta:
MehrUmgang mit fehlenden Werten in der psychologischen Forschung
Umgang mit fehlenden Werten in der psychologischen Forschung Oliver Lüdtke Max-Planck-Institut für Bildungsforschung Alexander Robitzsch Institut zur Qualitätsentwicklung im Bildungswesen Programm Montag
MehrGewichtung und Fehlerquellen
Universität Bielefeld 18. April 2005 Gewichtung Gewichtung Unter einer Gewichtung wird die Vergabe von positiven reellen Zahlen an die Merkmalsträger im Datensatz verstanden, die als Gewichtungsfaktoren
MehrGewichtung in der Umfragepraxis. Von Tobias Hentze
Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht
MehrImputationsverfahren
Minh Ngoc Nguyen Betreuer: Eva Endres München, 09.01.2015 Einführung 2 / 45 Einführung 3 / 45 Imputation Prinzip: fehlende Werte sollen durch möglichst passenden Werte ersetzt werden Vorteil Erzeugen den
MehrDie Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik
Die Analyse von unvollständigen Kontingenztabellen im MZ-Panel: Statistische Methodik Edin Basic Freie Universität Berlin 12.Oktober 2005 Überblick Überblick Y = Untersuchungsvariable - Missing, falls
MehrDatenmanagement Teil II: Datenscreening und - transformation
Datenmanagement Teil II: Datenscreening und - transformation Dipl.-Psych. W. Igl & Dipl.-Psych. A. Reusch (Methodenberatung) Rehabilitationswissenschaftlicher Forschungsverbund Bayern (RFB) Referent: Dipl.-Psych.
MehrDer Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien
Der Umgang mit fehlenden Werten in epidemiologischen und Versorgungssforschungsstudien Oliver Kuß Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische Fakultät, Martin-Luther-Universität
MehrFehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros
Medizinische Statistik Fehlende Werte in der (Regressions-) Analyse von Datensätzen: zwei SAS-Makros Kathrin Hohl*, Christina Ring*, Rainer Muche*, Christoph Ziegler *Abt. Biometrie und Med. Dok., Universität
MehrKontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014
Kontrolle und Aufbereitung der Daten Peter Wilhelm Herbstsemester 2014 Übersicht 1.) Kontrolle und Aufbereitung der Daten Fehlerkontrolle Umgang mit Missing 2.) Berechnung von Skalen- und Summenscores
MehrAnalyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse
Analyse von Querschnittsdaten Arten von Variablen und Strategien der Datenanalyse Gliederung 1. Arten von Variablen 2. Analyse einzelner Variablen (univariate Verteilungen) 3. Analyse der Zusammenhänge
MehrVorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multivariate Statistik für Psychologen 2. Vorlesung: 10.04.2003 Agenda 1. Organisatorisches 2. Datenbehandlung i. Unverfälschte Daten ii. Unverfälschte Korrelationen iii. Missing Data iv. Ausreißer
MehrImputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im Mikrozensus 2008
Statistisches Bundesamt Methodeninformation Imputation von Werten bei fehlenden Angaben zur Mutterschaft und zur Zahl der geborenen Kinder im 2009 Erschienen am 24.07.2009 Ihr Kontakt zu uns: www.destatis.de/kontakt
MehrFehlende Werte und Multiple Imputation
Fehlende Werte und Multiple Imputation Oliver Kuß Deutsches Diabetes-Zentrum (DDZ), Leibniz-Zentrum für Diabetes-Forschung an der Heinrich-Heine- Universität Düsseldorf, Institut für Biometrie und Epidemiologie
MehrErsetzen fehlender Werte bei der Tumorstadienverteilung nach UICC
Ersetzen fehlender Werte bei der Tumorstadienverteilung nach UICC Klaus Kraywinkel, A.Katalinic Epidemiologische Krebsregister NRW, Schleswig-Holstein Hintergrund Tumorstadienverteilung in bevölkerungsbezogenen
MehrSISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart
SISS: Schriftenreihe des Instituts für Sozialwissenschaften der Universität Stuttgart No. 44 / 2016 Regressionsanalyse bei fehlenden Variablenwerten (missing values): Imputation oder Nicht-Imputation?
MehrSoziale Unterschiede in der Lebenserwartung
Soziale Unterschiede in der Lebenserwartung Lars Eric Kroll, Thomas Lampert Robert Koch-Institut, Berlin FG 24 Gesundheitsberichterstattung Das Robert Koch-Institut ist ein Bundesinstitut im Geschäftsbereich
MehrVergleich von Strategien zum Clustern von Daten mit fehlenden Werten
Vergleich von Strategien zum Clustern von Daten mit fehlenden Werten Ludmila Himmelspach Institut für Informatik Heinrich-Heine-Universität Düsseldorf D-40225 Düsseldorf, Deutschland himmelspach@cs.uni-duesseldorf.de
MehrFairer Vergleich. Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, Ann Cathrice George Alexander Robitzsch
Fairer Vergleich Technische Dokumentation BIST-Ü Mathematik, 4. Schulstufe, 2013 Ann Cathrice George Alexander Robitzsch Bundesinstitut für Bildungsforschung, Innovation & Entwicklung des österreichischen
MehrMissing Values Konzepte und statistische Literatur
Missing Values Konzepte und statistische Literatur Dipl.-Wirtsch.-Ing. Matthias Runte Universität Kiel, Lehrstuhl für Marketing Westring 425, 24098 Kiel Tel 0431/880-1535 Email: matthias@runte.de URL:
MehrAnalyse von Querschnittsdaten. Arten von Variablen
Analyse von Querschnittsdaten Arten von Variablen Warum geht es in den folgenden Sitzungen? Vorarbeiten Datum 18.10.2006 18.10.2006 25.10.2006 08.11.2006 15.11.2006 22.11.2006 29.11.2006 06.12.2006 13.12.2006
MehrBivariate Regressionsanalyse
Universität Bielefeld 15. März 2005 Kovarianz, Korrelation und Regression Kovarianz, Korrelation und Regression Ausgangspunkt ist folgende Datenmatrix: Variablen 1 2... NI 1 x 11 x 12... x 1k 2 x 21 x
MehrPraxis der Umfrageforschung
Praxis der Umfrageforschung Gliederung Vorbesprechung Thema und Gliederung der Veranstaltung Teilnahmevoraussetzungen Klausur und Hausarbeiten Organisatorisches Überblick: Problemstellungen der Umfrageforschung
MehrArmutsquotenberechnung aus gerundeten Einkommensangaben
Armutsquotenberechnung aus gerundeten Einkommensangaben Jörg Drechsler, IAB Nürnberg Hans Kiesl, OTH Regensburg Statistik Tage Bamberg Fürth 2016 20.7.2016 S. 1 Panelerhebung PASS (Panel Arbeitsmarkt und
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
MehrBachelorarbeit. Vergleich verschiedener Verfahren zur Datenimputation
Ludwig-Maximilians-Universität München Institut für Statistik Bachelorarbeit Vergleich verschiedener Verfahren zur Datenimputation Autor: Susanne Rubenbauer Betreuer: Prof. Dr. Christian Heumann Datum:
MehrKapitel 2. Mittelwerte
Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren
MehrPROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)
PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrImputationsverfahren
Ludwig-Maximilians-Universität München Institut für Statistik Seminararbeit Imputationsverfahren Autorin: Minh Ngoc Nguyen Betreuerin: Eva Endres 15. März 2015 Seminararbeit Imputationsverfahren Autorin:
MehrMethoden Quantitative Datenanalyse
Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung
MehrDatenquellen und Analyse von Sekundärdaten
Datenquellen und Analyse von Sekundärdaten Gliederung Daten /Sekundärdaten Analyse von Sekundärdaten Vorteile Nachteile Unterschiede zwischen Datenquellen 1 Daten / Sekundärdaten Analyse von Sekundärdaten
MehrKönnen Grundschulen unterschiedliche Startvoraussetzungen kompensieren?
www.goethe-universitaet.de Können Grundschulen unterschiedliche Startvoraussetzungen kompensieren? Der Zusammenhang zwischen Fähigkeiten in der frühen Kindheit und der Schulleistung in der dritten Klasse
MehrRegressionsanalysen mit Stata
Regressionsanalysen mit Stata Wiederholung: Deskriptive Analysen - Univariate deskriptive Analysen (Häufigkeitsauszählungen einer Variablen) - Multivariate deskriptive Analysen (Untersuchung gemeinsamer
MehrBehandlung fehlender Daten
Behandlung fehlender Daten Diplomarbeit zur Erlangung des Grades eines Diplom-Volkswirtes an der Wirtschaftswissenschaftlichen Fakultät der Humboldt-Universität zu Berlin vorgelegt von Lars Rohrschneider
MehrDrittvariablenkontrolle in der linearen Regression: Trivariate Regression
Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrHauptseminar: Praxis der Umfrageforschung
Hauptseminar: Praxis der Umfrageforschung Gliederung Vorbesprechung Thema und Gliederung der Veranstaltung Teilnahmevoraussetzungen Prüfungen und Scheine Organisatorisches Überblick: Problemstellungen
MehrKlausur Statistik Lösungshinweise
Klausur Statistik Lösungshinweise Prüfungsdatum: 21. Januar 2016 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Punkte: 15, 15, 12, 14, 16, 18 ; Summe der Punkte: 90 Aufgabe 1 15 Punkte Bei
MehrVorlesung 3: Schätzverfahren
Vorlesung 3: Schätzverfahren 1. Beispiel: General Social Survey 1978 2. Auswahl einer Zufallsstichprobe und Illustration des Stichprobenfehlers 3. Stichprobenverteilung eines Regressionskoeffizienten 4.
Mehr5 multiple Imputationen
5 multiple Imputationen 5.1 Einleitung Ein bei allen freiwilligen Erhebungen auftretendes Problem ist der partielle Antwortausfall (Item-Non-Response), d. h. die Tatsache, dass nicht alle Befragten sämtliche
MehrAnalyse von Querschnittsdaten. Statistische Inferenz
Analyse von Querschnittsdaten Statistische Inferenz Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004 03.11.2004
MehrDefinition multivariater Analysemethoden
Definition multivariater Analysemethoden Definition Multivariate Analysemethoden Multivariate Analysemethoden sind Methoden, die gleichzeitig p Merkmale (Variablen) von n Objekten (Merkmalsträger, Fälle,
MehrName Vorname Matrikelnummer Unterschrift
Dr. Hans-Otfried Müller Institut für Mathematische Stochastik Fachrichtung Mathematik Technische Universität Dresden Klausur Statistik II (Sozialwissenschaft, Nach- und Wiederholer) am 26.10.2007 Gruppe
MehrJulia Röttger 1, Miriam Blümel 1, Roland Linder², Reinhard Busse 1
Welche Faktoren auf Patientenebene sind mit einer Einschreibung in das DMP Koronare Herzkrankheit assoziiert? Eine Analyse anhand von Befragungs- und Routinedaten. Julia Röttger 1, Miriam Blümel 1, Roland
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...
MehrBivariate Statistik: Kreuztabelle
Bivariate Statistik: Kreuztabelle Beispiel 1: Im ALLBUS wurde u.a. nach dem Nationalstolz und nach dem Gefühl der Überfremdung gefragt: Würden Sie sagen, dass Sie sehr stolz, ziemlich stolz, nicht sehr
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrInstitut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II
Institut für Soziologie Dipl.-Soz. Methoden 2 Logistische Regression II Bringen Sie zur nächsten Übung und in die Klausur einen (nicht programmierbaren) Taschenrechner mit! # 2 Programm Wiederholung der
MehrDatenqualität mit SPSS
2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Datenqualität mit SPSS von Dipl.-Psych. Christian FG Schendera Oldenbourg
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrRechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten
Rechtzeitig mit SAS ein Bild über die Qualität der Analysedaten erhalten Datenqualität / Validierung Gerhard Svolba SAS Austria Mariahilfer Straße 116 A-1070 Wien gerhard.svolba@sas.com Zusammenfassung
MehrÜberblick PUMA-Umfragen
Überblick PUMA-Umfragen Phase I: 3 Piloterhebungen/ Rekrutierungsexperimente (2016) a) MZ-CATI, 4 Incentivegruppen ZDF, 2, 5, 10 => 25% response, Faktor 1:4 b) ZMR-POST, 7 Incentivegruppen Baseline: 0
Mehr7 Berechnung der Survey-Gewichte
7 Berechnung der Survey-Gewichte 7.1 Einleitung Bei Erhebungen werden in der Regel aus folgenden zwei Gründen Gewichtungen vorgenommen: erstens, um die Stichprobe repräsentativ für die Zielpopulation zu
Mehr3. Lektion: Deskriptive Statistik
Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive
MehrPROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)
PROC NPAR1WAY zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale) Allgemeine Form: PROC NPAR1WAY DATA=name Optionen ; VAR variablenliste ; CLASS
MehrDeckungslücken in der Alterssicherung
Deckungslücken in der Alterssicherung Christina Benita Wilke Mannheimer Forschungsinstitut Ökonomie und Demographischer Wandel (MEA) Vorläufige Projektergebnisse Bitte nicht ohne Zustimmung der Autorin
MehrVorwort zur vierten Auflage Einleitung 13
http://www.beltz.de/de/nc/verlagsgruppe-beltz/gesamtprogramm.html?isbn=978-3-621-28249-9 6 Inhalt Inhalt Vorwort zur vierten Auflage 11 1 Einleitung 13 1.1 Warum R? 13 1.2 Fürwen ist dieses Buch? 14 1.3
MehrDatenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung
Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt
MehrSPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen
SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen Augustin Kelava 22. Februar 2010 Inhaltsverzeichnis 1 Einleitung zum inhaltlichen Beispiel:
MehrTEIL 13: DIE EINFACHE LINEARE REGRESSION
TEIL 13: DIE EINFACHE LINEARE REGRESSION Die einfache lineare Regression Grundlagen Die einfache lineare Regression ist ebenfalls den bivariaten Verfahren für metrische Daten zuzuordnen 1 Sie hat einen
MehrSozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS
Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick Kreuztabellen 1. Ziel der Kreuztabellierung 2. Übersicht CROSSTABS - Syntax
MehrDiagnostik von Regressionsmodellen (1)
Diagnostik von Regressionsmodellen (1) Bei Regressionsanalysen sollte immer geprüft werden, ob das Modell angemessen ist und ob die Voraussetzungen eines Regressionsmodells erfüllt sind. Das Modell einer
MehrAnalog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.
Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit
MehrSozialwissenschaftliche Datenanalyse mit R
Katharina Manderscheid Sozialwissenschaftliche Datenanalyse mit R Eine Einführung F' 4-1 V : 'i rl ö LiSl VS VERLAG Inhaltsverzeichnis Vorwort 5 Danksagung 7 Inhaltsverzeichnis 9 R für sozialwissenschaftliche
MehrEine computergestützte Einführung mit
Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik
MehrBehandlung fehlender Werte in SPSS und Amos
Universität Trier Zentrum für Informations-, Medienund Kommunikationstechnologie (ZIMK) Trier, den 3. 7. 2013 Bernhard Baltes-Götz Behandlung fehlender Werte in SPSS und Amos Inhaltsverzeichnis VORWORT
MehrWenn die Nachfrage des Arbeitgebers doch einen Einfluss
3.2. Mindestlöhne Wenn die Nachfrage des Arbeitgebers keinen Einfluss auf den Lohn ausübt (Fall sog. "vollkommener" bzw. vollständiger Konkurrenz), dann senkt ein Mindestlohn oberhalb des Gleichgewichtslohns
MehrFehlende Daten beim Data-Mining
Fehlende Daten beim Data-Mining Abstract: Der Beitrag zeigt, in welchem Schritt der Analyse von großen Datenmengen die Behandlung von fehlenden Daten stattfindet und warum ein angemessener Umgang mit diesen
MehrNONRESPONSE in der Umfragepraxis
NONRESPONSE in der Umfragepraxis Universität zu Köln Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung Hauptseminar: Praxis der Umfrageforschung Dozenten: H. J. Andreß / H. Lohmann Referentin:
MehrKonfirmatorische Faktorenanalyse
Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable nicht direkt beobachtbare Größe die beobachtbare Variablen ( Indikatoren
MehrW09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung
Der Verhältnisschätzer - Ratio estimator Beispiel: Schätzung der Anzahl Objekte (Bäume) in einem bestimmten Gebiet. Situation: Die Fläche ist unterteilt in Streifen / Transekte. Man wählt zufällig n =
MehrLineare Modelle in R: Einweg-Varianzanalyse
Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der
MehrÜberblick über die heutige Veranstaltung. Unterschiedliche Arten von Umfragedaten: Querschnitte: Serielle Querschnitte
Überblick über die heutige Veranstaltung 1. Darstellung verschiedener Datenarten in den Sozialwissenschaften 2. Vorstellung eines Datensatzes zur Analyse von Familienentwicklungsprozessen: Das sozioökonomische
MehrIlmenauer Beiträge zur Wirtschaftsinformatik. Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger
Ilmenauer Beiträge zur Wirtschaftsinformatik Herausgegeben von U. Bankhofer, V. Nissen D. Stelzer und S. Straßburger Entscheidungsbäume zur Imputation kategorialer Daten Arbeitsbericht Nr. 2015-02, August
MehrGrundlagen empirischer Forschung. Korpuslinguistik Heike Zinsmeister WS 2009/10
Grundlagen empirischer Forschung Korpuslinguistik Heike Zinsmeister WS 2009/0 Grundlagen Vorbereitung einer empirischen Studie Allgemeine Beschreibung des zu untersuchenden Phänomens Literaturstudien Erkundigungen
MehrStatistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften
Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften Überlick über Modelle für defizitäre Daten Seminarleiter: Prof. Dr. Thomas Augustin Betreuerin: Julia
MehrDateneingabe und Transformation Übersicht
Dateneingabe und Transformation Übersicht 2.0 Allgemeine 2.1 Eingabe über die 2.2 2.3 Eingabe eines externen ASCII-Files 2.4 Varianten der INPUT-Anweisung, Formatierungselemente 2.5 Ein- und Ausgabe von
MehrÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE
ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE 1.1 Füllen Sie bitte folgenden Lückentext aus. Daten, die in Untersuchungen erhoben werden, muss man grundsätzlich nach ihrem unterscheiden.
MehrÜberblick über multivariate Verfahren in der Statistik/Datenanalyse
Überblick über multivariate Verfahren in der Statistik/Datenanalyse Die Klassifikation multivariater Verfahren ist nach verschiedenen Gesichtspunkten möglich: Klassifikation nach der Zahl der Art (Skalenniveau)
MehrStatistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
Mehr3. Deskriptive Statistik
3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht
MehrDie Anwendung des globalen und partiellen F-Tests beim Regressionsmodell
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell von XENOPHOB auf V247 und POSTMAT, MATERIAL Für unsere
MehrErhebungsinstrumente und Untersuchungsformen
Erhebungsinstrumente und Untersuchungsformen Gliederung Untersuchungsformen Überblick Auswahlgrundlagen und Untersuchungsformen Mode-Effekte Fragen und Antworten: Fragebogen 1 Untersuchungsformen Untersuchungsformen:
MehrAktuelle Trends der Vermögensungleichheit in Deutschland.
Aktuelle Trends der Vermögensungleichheit in Deutschland. Gefördert durch die Hans-Böckler Stiftung (HBS-Projekt-Nr. 2012-610-4) Dr. Markus M. Grabka (DIW Berlin) WSI-Herbstforum 2015 Soziale Ungleichheiten:
MehrPopulation und Stichprobe Wahrscheinlichkeitstheorie II
Population und Stichprobe Wahrscheinlichkeitstheorie II 5. Sitzung 1 S. Peter Schmidt 2003 1 Stichprobenziehung als Zufallsexperiment Definition Stichprobe: Teilmenge der Elemente der Grundgesamtheit bzw.
MehrÖkonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends
Ökonomische Ungleichheit und Mobilität in Deutschland: Fakten und Trends Dr. Markus M. Grabka & PD Dr. Joachim R. Frick (DIW Berlin / SOEP) HAYEK-Kreis-Meeting Einstiegs- und Aufstiegschancen? Zur sozialen
Mehrerwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:
Verfahren zur Analyse von Nominaldaten Chi-Quadrat-Tests Vier-Felder Kontingenztafel Mehrfach gestufte Merkmale Cramers V, Kontingenzkoeffizient, Phi-Koeffizient Muster aller Chi-Quadrat-Verfahren eine
MehrRundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder
Bundesinstitut für Berufsbildung (BIBB) Rundung als Geheimhaltungsverfahren bei Veröffentlichungen der Daten der Berufsbildungsstatistik der statistischen Ämter des Bundes und der Länder Ein kurzer Erfahrungsbericht
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrDatenfusion: Theoretische Implikationen und praktische Umsetzung
Datenfusion: Theoretische Implikationen und praktische Umsetzung Workshop Methoden der Empirischen Sozialforschung Statistisches Bundesamt, Wiesbaden 16. Mai 2013 1 Einführung 2 Projektübersicht 3 Projektdurchführung
MehrUnivariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66
Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation
MehrArmako-Spss. Handbuch. Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie
Armako-Spss Handbuch Universität Graz, Institut für Psychologie Abteilung Biologische Psychologie Nov. 2002 Armako-Spss 1 Gliederung: 1. Was leistet das Programm Armako SPSS? 2. Voraussetzungen um mit
Mehr