Datenfusion: Theoretische Implikationen und praktische Umsetzung
|
|
- Marielies Berg
- vor 6 Jahren
- Abrufe
Transkript
1 Datenfusion: Theoretische Implikationen und praktische Umsetzung Workshop Methoden der Empirischen Sozialforschung Statistisches Bundesamt, Wiesbaden 16. Mai 2013
2 1 Einführung 2 Projektübersicht 3 Projektdurchführung Festlegung des Analyseziels Datenvorbereitung Identifikation und Nutzbarmachung der gemeinsamen Merkmale Fusionsdurchführung Fusionsevaluierung 4 Anhang
3 Definition Datenfusion beschreibt ein spezifisches Datenausfallmuster mit drei verschiedenen Variablengruppen (falls zwei Datenquellen A und B fusioniert werden): Eine Variablengruppe, die in beiden Studien vorliegt (die gemeinsamen Variablen X) sowie zwei Variablengruppen, die entwender nur in Datenquelle A oder Datenquelle B vorkommen (die spezifischen Variablen Y und Z). Die nachfolgende Analyse bezieht sich dabei immer auf die gemeinsame Verteilung von Y und Z. Datenfusion als Matching zweier (oder mehrerer) Datenquellen mittels Nearest-Neighbour-Verfahren ist als Definition zu eng gefasst...
4 Schematische Übersicht X: Gemeinsame Variablen, die in beiden Studien beobachtet sind Y und Z: spezifische Variablen, die nur in Datenquelle A bzw. nur in Datenquelle B vorliegen Datenquelle A: X 1 X 2 Y + Datenquelle B: X 1 X 2 Z 1 Z 2 } Datenfusion: X 1 X 2 Z 1 Z 2 Y
5 Vortragsthema Im Folgenden wird ein fiktives Datenfusionsprojekt in chronologischer Reihenfolge der Arbeitsschritte beschrieben. An einigen Schlüsselstellen wird dabei noch Bezug auf die relevanten (oft impliziten) Annahmen genommen. In der (statistischen) Literatur liegt der Fokus auf der Evaluierung einer Datenfusion eine Art Best Practice -Beschreibung fehlt (soweit der Autor informiert ist).
6 Projektschritte 1 Festlegung des Analyseziels 2 Datenvorbereitung 3 Identifikation und Nutzbarmachung der gemeinsamen Merkmale 4 Fusionsdurchführung 5 Fusionsevaluierung
7 Zeitplan
8 Festlegung des Analyseziels Generelle Fragen im Vorfeld einer Fusion Einfluss auf Durchführbarkeit Ist die Art der Beobachtungseinheiten identisch? Falls nicht: Kann die Beobachtungseinheit angeglichen werden (Beispiel: Haushaltsmerkmale aus einer Personenstichprobe) Sind beide Datenquellen Stichproben aus der selben Grundgesamtheit? Falls nicht: Ist die Grundgesamtheit einer der Studien genestet in der GG der anderen? Sind die Stichprobendesigns der beiden Studien identisch? ist die Erhebungsmethode der beiden Studien identisch?
9 Festlegung des Analyseziels Fragen zum Analyseziel Einfluss auf Wahl des Ergänzungsverfahrens Wird die komplette kombinierte Stichprobe ergänzt oder nur eine der beiden Variablengruppen Y bzw. Z? Wahl vorgegeben, falls Fusionsdaten in ein bestimmtes Auswertungssystem integriert werden. Beschränken sich die Analysen auf deskriptive Auswertungen? Falls nicht: Verwendung von Multiple Imputation-Algorithmus Ist die Variablengruppe Y (Z) klar definiert? Falls nicht: Verwendung von Nearest-Neighbour-Verfahren ermöglicht ex post das Hinzufügen weiterer spezifischer Variablen (über die Paarliste der Donoren- und Rezipienten-IDs)
10 Datenvorbereitung Vergleich der Stichprobenstrukturen Einfluss auf Anpassung der gemeinsamen Variablen und zu erwartende Ergebnisse nach Fusion Vergleich der Verteilungen der gemeinsamen Variablen anhand von grafischen Diagnostiken oder Propensity Score-Verteilungen Datenausfallmechanismus u.u. nicht MCAR (bei unterschiedlichen Stichprobenstrukturen auf Grund von mode effects oder unterschiedlichen Stichprobendesigns), aber wegen CIA immer MAR
11 Die CIA (conditional independence assumption) Die gemeinsame künstliche Verteilung für (x, y, z) ist gegeben durch f Z X (z x) f X,Y,Z (x, y, z) = f X,Y (x, y) f Z X (z x) = f X,Y,Z (x, y, z) f Z X,Y (z x, y) Die künstliche Fusions-Kovarianz zwischen Y und Z ist gegeben durch Cov(Y, Z) = Cov(Y, Z) E (Cov(Y, Z X)) Die CIA besagt, dass dieser Erwartungswert gleich null ist.
12 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Umkodierung Häufig ist eine Anpassung ( Harmonisierung ) auf Grund unterschiedlicher Kodierungen nötig (1) Einfachster Fall: unterschiedliche Variablennamen und/oder Merkmalswerte Fiktives Beispiel für Geschlecht der befragten Person Studie A: Variablenname Geschl mit 0= männlich und 1= weiblich Studie B: Variablenname Sex mit 1= männlich und 2= weiblich Rekodiere in Studie B die Werte 1=0 und 2=1 in die neue Variable Geschl um.
13 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Zusammenfassung von Kategorien (2) unterschiedliche Ausprägungen (Nestung möglich) Fiktives Beispiel für Ërwerbstätigkeit Studie A: 1= Vollzeit erwerbstätig, 2= Teilzeit erwerbstätig, 3= nicht erwerbstätig Studie B: 1= Vollzeit erwerbstätig, 2= Teilzeit erwerbstätig, 3= arbeitslos, 4= ausschließlich hauswirtschaftliche Tätigkeit, 5= berufsunfähig bzw. in Rente/Pension Rekodiere in Studie B die Werte 3 bis 5 in 3 um.
14 Identifikation und Nutzbarmachung der gemeinsamen Merkmale Auflösung in Dummies (3) unterschiedliche Ausprägungen (keine Nestung möglich) Fiktives Beispiel für Familienstand Studie A: 1= Single, 2= verheiratet, 3= geschieden, 4= verwitwet Studie B: 1= Single, 2= verheiratet, 3= unverheiratet, aber mit Partner zusammenlebend, 4= verheiratet, aber getrennt lebend, 5= geschieden, 6= verwitwet Studie B ist in den Ausprägungen präziser, aber wir wissen nicht, wie sich Befragte in Studie A entschieden haben, auf die die Merkmalswerte 3 oder 4 aus Studie B zugetroffen hätten Verwendung von Dummies für Single und verwitwet.
15 Fusionsdurchführung Übersicht ausgewählter Fusionsalgorithmen Parametrische Verfahren: (verallgmeinerte) lineare Regressionsmodelle Nichtparametrische Verfahren: Nearest-Neighbour-Algorithmen Mahalanobis-Distanz-Matching Predictive Mean Matching (Verheiratungsalgorithmen, z.b. Ungarische Methode ) FINGER WEG VON PROPENSITY SCORE-MATCHING UND ANDEREN RCM-VERFAHREN!!! Data-Mining-Methoden
16 Fusionsdurchführung Nearest-Neighbour-Verfahren: Immer der nächste Nachbar? Einzeldistanz vs. Distanzsumme: Greedy Matching : Optimiert Erhalt von Zusammenhängen Gleichmäßige Verwendung : Optimiert Erhalt der Verteilung aus der Donorenstudie
17 Fusionsevaluierung Der heilige Gral und das Identifikationsproblem Beispiel: Sei ρ XY =.9 und sei ρ XZ =.8 (und die Varianz auf eins gesetzt), d.h. Σ XY Z = σ Y Z 0.8 σ Y Z 1 Σ XY Z = σ 2 Y Z σ Y Z 0.45 Alle σ Y Z [0.4585; ] ergeben mögliche Lösungen!
18 Fusionsevaluierung Theoretische Grenzen für die Korrelation zwischen Y und Z Kiesl und Rässler (2009) haben die theoretischen Grenzen für univariate Y und multivariate Z hergeleitet. In einer Situation mit zwei Z-Variablen ergibt sich eie ellipsoide Form für die Korrelationsgrenzen. ABER: Selbst bei sehr hohen Korrelationen zwischen X und Y (bzw. Z) ist die Bandbreite möglicher Korrelationen für Y und Z sehr groß und die 0 ist schnell in diesen Bändern enthalten!
19 Fusionsevaluierung Verteilungserhalt zwischen gemeinsamen und spezifischen (Donoren-)Variablen vor und nach Fusion Traditionelle Umsetzung (z.b. ag.ma-fusion): t- und χ 2 -Tests Beispiel Mittelwertdifferenztentest: ȳ 1 sex = 0 vs. ỹ 1 sex = 0 Problem: Verkehrte Nullhypothese (Nicht-Ablehnen ist Wunschergebnis) Beide Tests empfindlich gegenüber unterschiedlichen Stichprobenstrukturen Alternative: Grafische Diagnostiken unter Verwendung der Korrelationen
20 Fusionsevaluierung Grafische Diagnostiken zur Fusionsevaluierung Abbildung: Korrelationen vor und nach Fusion
21 Fusionsevaluierung Vorschlag für ein Fusionsgütemaß
22 ...und wir haben s geschafft! (Vielen Dank)
23 Fusionsevaluierung Literatur zu Datenfusion Kadane, J.B. (2001). Some Statistical Problems in Merging Data Files, Journal of Official Statistics, 17, Kiesl, H. and Rässler, S. (2009). How Valid Can Data Fusion Be? Journal of Official Statistics, to appear. Moriarity, C. and Scheuren, F. (2001). Statistical Matching: A Paradigm for Assessing the Uncertainty in the Procedure, Journal of Official Statistics, 17, Moriarity, C. and Scheuren, F. (2003a). A Note on Rubin s Statistical Matching Using File Concatenation With Adjusted Weights and Multiple Imputations, Journal of Business & Educational Studies, 21, Moriarity, C. and Scheuren, F. (2003b). Statistical Matching with Assessment of Uncertainty in the Procedure: New Findings, Proceedings of the Joint Statistical Meetings, American Statistical Association,
24 Fusionsevaluierung Literatur zu Datenfusion Moriarity, C. and Scheuren, F. (2004). Regression-based Statistical Matching: Recent Developments, Proceedings of the Joint Statistical Meetings, American Statistical Association, D Orazio, M., Di Zio, M. and Scanu, M. (2006). Statistical Matching. Theory and Practice, Wiley, Chichester. Rässler, S. (2002). Statistical Matching: A Frequentist Theory, Practical Applications, and Alternative Bayesian Approaches, Lecture Notes in Statistics 168, Springer, New York. Ridder, G. and Moffitt, R. (2007). The Econometrics of Data Combination, in: Heckman, J.J., Leamer,E.E. (ed.), Handbook of Econometrics volume 6, chapter 75, Elsevier, Amsterdam.
25 Fusionsevaluierung Literatur zu Datenfusion Rubin, D.B. (1986). Statistical Matching Using File Concatenation With Adjusted Weights and Multiple Imputations, Journal of Business and Econometric Statistics, 4, Tchen, A.H. (1980). Inequalities for Distributions with Given Marginals, Annals of Probability, 8, Whittaker, J. (1990). Graphical Models in Applied Multivariate Statistics, Wiley, Chichester.
26 Eine kleine Simulation Beispiel von Hans Kiesl: ziehe n = aus einer mvn mit µ = [1, 2, 10, 5, 0] Σ = diag(10, 10, 30, 1, 4) , 30, 1, 4) diag(10, Unterteilung in Stichprobe A (n A = 1000) und Stichprobe B (n B = ) Mahalanobis-Distanz-Matching basierend auf den ersten drei Variablen
27 Eine kleine Simulation (Forts.) Das Matching scheint ordentlich funktioniert zu haben...
28 Eine kleine Simulation (Forts.)
29 Scatterplots
30 Immerhin noch positiv? Korrelation der vierten und fünften Variable nach Fusion: 0.43 Wahrer Wert: 0.15
31 Doch nun führen wir eine Regression durch... y 5 = y 1 + y 4 + ɛ kleine Referenzstichprobe: ŷ 5 = y y 4 fusionierte Stichprobe: ŷ 5 = y y 4 Das Vorzeichen hat sich gedreht!
Statistische Matching-Verfahren
Statistische Matching-Verfahren Erste Statistik-Tage 2012 Bamberg Fürth 26./27. Juli 2012 in Bamberg Prof. Dr. Susanne Rässler Lehrstuhl für Statistik und Ökonometrie in den Sozial- und Wirtschaftswissenschaften
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
MehrSeminar: Statistische Herausforderungen im Umgang mit fehlenden bzw. fehlerbehafteten Daten
Seminar: Statistische Herausforderungen im Umgang mit fehlenden bzw. fehlerbehafteten Daten im Wintersemester 2014/15 Prof. Dr. Thomas Augustin, Eva Endres Institut für Statistik, LMU 26. September 2014
MehrMultivariate Verfahren
Multivariate Verfahren Oliver Muthmann 31. Mai 2007 Gliederung 1 Einführung 2 Varianzanalyse (MANOVA) 3 Regressionsanalyse 4 Faktorenanalyse Hauptkomponentenanalyse 5 Clusteranalyse 6 Zusammenfassung Komplexe
MehrImputation (Ersetzen fehlender Werte)
Imputation (Ersetzen fehlender Werte) Gliederung Nonresponse bias Fehlende Werte (missing values): Mechanismen Imputationsverfahren Überblick Mittelwert- / Regressions Hot-Deck-Imputation Row-Column-Imputation
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrForschungsstatistik I
Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
Mehr1 Multivariate Zufallsvariablen
1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)
MehrKapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit
Kapitel 6 Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit 159 160 Kapitel 6. Zusammenfassung der Ergebnisse Im Fokus der vorliegenden Arbeit steht die Frage nach der Eignung verschiedener Matchingverfahren
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrInhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrInferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
MehrVorlesung 8a. Kovarianz und Korrelation
Vorlesung 8a Kovarianz und Korrelation 1 Wir erinnern an die Definition der Kovarianz Für reellwertige Zufallsvariable X, Y mit E[X 2 ] < und E[Y 2 ] < ist Cov[X, Y ] := E [ (X EX)(Y EY ) ] Insbesondere
MehrDr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.
Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...
Mehrfh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik
fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse
Mehra) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen
2) Bei einer Stichprobe unter n=800 Wahlberechtigten gaben 440 an, dass Sie gegen die Einführung eines generellen Tempolimits von 100km/h auf Österreichs Autobahnen sind. a) Man bestimme ein 95%-Konfidenzintervall
MehrBivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Korrelationsanalysen Kreuztabellen und χ²-test Themen Korrelation oder Lineare Regression? Korrelationsanalysen - Pearson, Spearman-Rang, Kendall s Tau
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrErmitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:
1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrDatenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung
Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrBiomathematik für Mediziner, Klausur WS 1999/2000 Seite 1
Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,
MehrKlassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)
Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.
MehrDATENFUSION IN DER SOZIALFORSCHUNG -
DATENFUSION IN DER SOZIALFORSCHUNG - UNGENÜTZTE CHANCEN ODER BERECHTIGTE ABSTINENZ? Johann Bacher / Dimitri Prandner Linz, November 2016 PUMA Symposium: Umfrageforschung in Österreich, Wien, 11.11.2016
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrParametrische vs. Non-Parametrische Testverfahren
Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer
MehrI. Deskriptive Statistik 1
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................
MehrUmgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen
Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen
MehrAufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /
Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =
MehrSeminar im Sommersemester 2012 Modellierung kategorialer Daten
LMU München, Institut für Statistik, Seminar für angewandte Stochastik Seminar im Sommersemester 2012 Modellierung kategorialer Daten Prof. Dr. G. Tutz; Dipl.-Stat. M. Oelker; Dipl.-Stat. F. Heinzl; Dipl.-Stat.
MehrBivariate Zusammenhänge
Bivariate Zusammenhänge 40 60 80 Bivariater Zusammenhang: Zusammenhang zwischen zwei Variablen weight (kg) Gibt es einen Zusammenhang zwischen Größe & Gewicht? (am Beispieldatensatz) Offensichtlich positiver
MehrTutorial: Anpassungstest
Tutorial: Anpassungstest An einem Institut gibt es vier UniversitätslehrerInnen, die auch Diplomarbeiten betreuen. Natürlich erfordert die Betreuung einer Diplomarbeit einiges an Arbeit und Zeit und vom
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrFolien zur Vorlesung. Zeitreihenanalyse (Time Series Analysis)
Folien zur Vorlesung Zeitreihenanalyse (Time Series Analysis) Wintersemester 2014/2015 Mittwoch 14.00 15.30 Uhr Hörsaal: J 498 Prof. Dr. Bernd Wilfling Westfälische Wilhelms-Universität Münster Inhalt
MehrPlanung von Humanstudien Fallzahlberechnung
Planung von Humanstudien Fallzahlberechnung Hans-Peter Helfrich Universität Bonn 5. November 2015 H.-P. Helfrich (Universität Bonn) Planung von Humanstudien 5. November 2015 1 / 15 Einführung 1 Einführung
MehrKlassische Testtheorie (KTT) Klassische Testtheorie (KTT) Klassische Testtheorie (KTT)
Klassische Testtheorie (KTT) Die KTT stellt eine Sammlung von Methoden dar, die seit Beginn des vorigen Jahrhunderts zur exakten und ökonomischen Erfassung interindividueller Unterschiede entwickelt wurden.
MehrStatistische Tests (Signifikanztests)
Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)
MehrStatistische Messdatenauswertung
Roland Looser Statistische Messdatenauswertung Praktische Einführung in die Auswertung von Messdaten mit Excel und spezifischer Statistik-Software für naturwissenschaftlich und technisch orientierte Anwender
MehrGewichtung in der Umfragepraxis. Von Tobias Hentze
Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrMissing Data. Missing Data. VL Forschungsmethoden. VL Forschungsmethoden. Missing Data: Typen Strategien Fazit
Missing Data VL Forschungsmethoden Missing Data VL Forschungsmethoden VL Forschungsmethoden Missing Data (0/27) Übersicht 1 2 Vor- und Nachteile : Ansatz Implementation 3 VL Forschungsmethoden Missing
MehrVergleich von Gruppen I
Vergleich von Gruppen I t-test und einfache Varianzanalyse (One Way ANOVA) Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Der unverbundene t-test mit homogener Varianz Beispiel Modell Teststatistik
MehrDeskriptive Statistik
Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt
MehrUnivariates Datenmaterial
Univariates Datenmaterial 1.6.1 Deskriptive Statistik Zufallstichprobe: Umfang n, d.h. Stichprobe von n Zufallsvariablen o Merkmal/Zufallsvariablen: Y = {Y 1, Y 2,..., Y n } o Realisationen/Daten: x =
MehrEinfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
Mehrunendlich-dimensionalen lästigen Parameter auffassen.
Näherungen mit Bootstrap Werner Stahel, Seminar für Statistik, ETH Zürich, 8. 4. 2009 Dieser Text kann dazu dienen, die Ideen des Bootstrap zusammenzufassen. Es fehlen hier Beispiele. 1 Fragestellung a
MehrGrundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).
Grundidee χ 2 -Anpassungstest χ 2 -Unabhängigkeitstest χ 2 -Homogenitätstest χ 2 Tests Grundidee Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen Annahme: Einfache Zufallsstichprobe (X 1,,
MehrDer χ 2 -Test (Chiquadrat-Test)
Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, June 11, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrWerkzeuge der empirischen Forschung
Werkzeuge der empirischen Forschung I. Daten und Beschreibende Statistik 1. Einführung 2. Dateneingabe, Datentransformation, Datenbehandlung 3. Beschreibende Statistik II. Schließende Statistik 1 III.
Mehr10 Der statistische Test
10 Der statistische Test 10.1 Was soll ein statistischer Test? 10.2 Nullhypothese und Alternativen 10.3 Fehler 1. und 2. Art 10.4 Parametrische und nichtparametrische Tests 10.1 Was soll ein statistischer
MehrDemokurs. Modul Vertiefung der Wirtschaftsmathematik Vertiefung der Statistik
Demokurs Modul 3741 Vertiefung der Wirtschaftsmathematik und Statistik Kurs 41 Vertiefung der Statistik 15. Juli 010 Seite: 14 KAPITEL 4. ZUSAMMENHANGSANALYSE gegeben, wobei die Stichproben(ko)varianzen
MehrGrundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1
Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik 1 Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Rückblick: Besonders wichtige Themen Wissenschaftstheoretischer
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrGrundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2
Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2 Dr. Jan-Peter Brückner jpbrueckner@email.uni-kiel.de R.216 Tel. 880 4717 Statistischer Schluss Voraussetzungen z.b. bzgl. Skalenniveau und
MehrGesundheitliche Ungleichheit am Beispiel psychischer Erkrankungen
Gesundheitliche Ungleichheit am Beispiel psychischer Erkrankungen Eine Mikroanalyse am Datensatz Abgeschlossene Rehabilitation im Versicherungsverlauf 2009 FDZ-RV Workshop, 14. und 15. Juni 2012 Julia
Mehr7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17
7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17 1. Aufgabe: a) Grundgesamtheit sind alle Reifen aus der Produktion von Langstone aus dem Monat März der entsprechenden Reifentypen.
MehrI Beschreibende Statistik 1
Inhaltsverzeichnis Vorwort ix I Beschreibende Statistik 1 Lernziele zu Teil I 2 1 Statistik, Daten und statistische Methoden 3 1.1 Statistik im Alltag, in Politik und Gesellschaft...... 3 1.2 Aufgaben
MehrImputationsverfahren
Minh Ngoc Nguyen Betreuer: Eva Endres München, 09.01.2015 Einführung 2 / 45 Einführung 3 / 45 Imputation Prinzip: fehlende Werte sollen durch möglichst passenden Werte ersetzt werden Vorteil Erzeugen den
MehrDie Regressionsanalyse
Die Regressionsanalyse Zielsetzung: Untersuchung und Quantifizierung funktionaler Abhängigkeiten zwischen metrisch skalierten Variablen eine unabhängige Variable Einfachregression mehr als eine unabhängige
MehrStatistik II Übung 2: Multivariate lineare Regression
Statistik II Übung 2: Multivariate lineare Regression Diese Übung beschäftigt sich mit dem Zusammenhang zwischen Flugpreisen und der Flugdistanz, dem Passagieraufkommen und der Marktkonzentration. Verwenden
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
MehrRegression und Korrelation
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen
MehrPflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher.
Pflichtlektüre: Kapitel 12 - Signifikanztest Überblick Signifikanztest Populationsparameter Ein Verfahren zur Überprüfung von Hypothesen, Grundlage bilden auch hier Stichprobenverteilungen, das Ergebnis
MehrKap. 2: Kurzwiederholung Wahrscheinlichkeitsrechnung und Statistik
Kap. 2: Kurzwiederholung Wahrscheinlichkeitsrechnung und Statistik Empirische Fragestellung Datenanalyse: Schätzung, Test, Konfidenzintervall Grundbegriffe der Wahrscheinlichkeitsrechnung und Statistik
MehrFundierte Stichproben der IHA-GfK auf Grundlage der Schweizer Volkszählung 2000 und einer jährlichen Fortschreibung in der GfK
Ralph Wenzl, IHA-GfK Schweiz Fundierte Stichproben der IHA-GfK auf Grundlage der Schweizer Volkszählung 2000 und einer jährlichen Fortschreibung in der GfK Schweizer Tage der öffentlichen Statistik 8.-10.
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
MehrInstitut für Biometrie und klinische Forschung. WiSe 2012/2013
Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive
MehrStatistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
Mehr6. Multivariate Verfahren Übersicht
6. Multivariate Verfahren 6. Multivariate Verfahren Übersicht 6.1 Korrelation und Unabhängigkeit 6.2 Lineare Regression 6.3 Nichtlineare Regression 6.4 Nichtparametrische Regression 6.5 Logistische Regression
MehrMit einem Geleitwort von Prof. Dr. Michael Schefczyk
Gerlinde Brinkel Erfolgreiches Franchise- System-Management Eine empirische Untersuchung anhand der deutschen Franchise-Wirtschaft Mit einem Geleitwort von Prof. Dr. Michael Schefczyk 4^ Springer Gabler
Mehr1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...
Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............
MehrStatistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
MehrKapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit
Kapitel 17 Unabhängigkeit und Homogenität 17.1 Unabhängigkeit Im Rahmen der Wahrscheinlichkeitsrechnung ist das Konzept der Unabhängigkeit von zentraler Bedeutung. Die Ereignisse A und B sind genau dann
MehrLaura Gunkel. Akzeptanz und Wirkung. von Feedback in. Potenzialanalysen. Eine Untersuchung zur Auswahl. von Führungsnachwuchs.
Laura Gunkel Akzeptanz und Wirkung von Feedback in Potenzialanalysen Eine Untersuchung zur Auswahl von Führungsnachwuchs 4^ Springer VS Inhalt Danksagung 5 Inhalt 7 Tabellenverzeichnis 11 Abbildungsverzeichnis
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrPROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)
PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der
Mehr3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
MehrEinführung in die Methoden der Empirischen Wirtschaftsforschung
Einführung in die Methoden der Empirischen Wirtschaftsforschung Prof. Dr. Dieter Nautz Einführung in die Methoden der Emp. WF 1 / 37 Übersicht 1 Einführung in die Ökonometrie 1.1 Was ist Ökonometrie? 1.2
MehrAnalyse von Kontingenztafeln
Analyse von Kontingenztafeln Mit Hilfe von Kontingenztafeln (Kreuztabellen) kann die Abhängigkeit bzw. die Inhomogenität der Verteilungen kategorialer Merkmale beschrieben, analysiert und getestet werden.
MehrÜbungsblatt 4. Berechnen Sie für die statistischen Reihen die Varianzen, Kovarianzen und Korrelationskoeffizienten
Aufgabe 1: Übungsblatt 4 Berechnen Sie für die statistischen Reihen die Varianzen, Kovarianzen und Korrelationskoeffizienten a) s 2 X, s 2 Y, sz, 2 s 2 U, s 2 V, s 2 W, s 2 T b) c XY, c Y Z c) c ZU, c
MehrArbeitsbuch zur deskriptiven und induktiven Statistik
Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen
MehrSchätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO
Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung
MehrKapitel 4: Merkmalszusammenhänge
Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrÜbungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg
Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrGrundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
MehrGewichtung und Validierung der Nettostichprobe (Welle 1 des Projekts Lebensziele und Lebensverläufe in Ostdeutschland )
Gewichtung und Validierung der Nettostichprobe (Welle 1 des Projekts Lebensziele und Lebensverläufe in Ostdeutschland ) Gewichtung Da es sich bei dieser Studie um eine Einwohnermeldeamtsstudie handelt,
MehrKonfirmatorische Faktorenanalyse. Regressionsmodelle für Politikwissenschaftler
Konfirmatorische Faktorenanalyse Regressionsmodelle für Politikwissenschaftler Was ist ein Faktor? Faktor oder latente Variable Regressionsmodelle für Politikwissenschaftler Konfirmatorische Faktorenanalyse
MehrStatistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de
rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent
Mehr