Kapitel 3 Datengewinnung und Auswahlverfahren 3.1. Erhebungsarten und Studiendesigns Daten Erhebungsdesign: Werte eines /mehrere Merkmale in einer Grundgesamtheit von Merkmalsträgern Planung der Datengewinnung Arten: Befragung - Dominierend und in verschiedenen Formen möglich (mdl, schriftl., internetgestützt) - Verschieden strukturiert: unstrukturiert (offen, ohne Fragebogen), teilweise (wenig standardisiert, Interview mit überlegten/im Interview entstehenden Fragen) und ganz strukturiert (standardisiert, Interview wird nicht vom Fragebogen abgewichen) - Verwendung von Fragebögen mit teilweise oder vollständig geschlossenen Fragen - CAPI (computer assisted personal interviewing) ~ persönlich - CATI (computer assisted telephone interviewing) ~ fernmündlich - Schriftliche Befragung: Fragebögen per Post/E-Mail/Internet versendet ~ selbst-administrierten (computergestützten) Befragung Beobachtungsstudie - Einzelpersonen oder in Gruppen - Verdeckte Beobachtung, auch Aufdecken von Verhaltensspuren (nichtreaktive Erhebungsmaßnahmen, da sie keine Veränderungen bei den Untersuchenden haben z.b. Google Analytics) - Offene Beobachtung (Bewusst sein beim Untersuchenden, dass man an einer Studie teilnimmt) - Systematisch geplant und dokumentiert in einem Beobachtungsprotokoll Experiment - Empirische Überprüfung von Hypothesen über kausale Zusammenhänge zwischen Merkmalen (meist latent) - Geplante Untersuchung (künstlich, Ordnung festgehalten in einem Versuchsplan) - die Ausprägung des Merkmals/der Merkmale (unabhängige Variablen, Einflussfaktoren) unter Laborbedingungen erhoben - erzielter Effekt wird mit einem anderem Merkmal (abhängige Variable, Zielgröße) studiert - Ziel: Kontrolle von Störvariablen (Ausschaltung anderer Variablen), um soweit Hypothese um bestätigen/entkräften - Typisch in der Psychologie: Versuchsgruppe (Einflussfaktoren werden hier variiert) & Kontrollgruppe als Vergleich > Zuordnung erfolgt durch Randomisierung (zufällig), wenn ethisch vertretbar, ansonsten nicht randomisiert (genannt Quasi-Experiment) Datenerhebung: Gewinnung von Daten Verschiedene Kriterien: Primärerhebung: - gewinnen von Daten für eigens das Untersuchungsziel Sekundärerhebung: - zurückgreifen von bereits gewonnen Daten aus relevanten Quellen gegebenenfalls Tertiarerhebung:
- zurückgreifen von bereits gewonnen Daten, aber in komprimierter Form dargestellt (=Aggregation) Klassifikation von Erhebungen Nach zeitlichen Zusammenhang(A) & nach Umfang(B) eingeteilt: A: Querschnittsstudie Erhebung an einem festen Zeitpunkt Längsschnittsstudie Panel Panelmortalität Erhebung in einem längeren Zeitintervall, daraus erhält man eine Zeitreihe Erhebungen, die sich auf Abständen immer auf dieselbe Stichprobe beziehen, weil in einem längeren Zeitverlauf die gleichen Teilnehmer die gleiche Befragung im gleichen Zeitraum erhalten. Im Einzelnen entstehen Querschnittsdaten, wenn die Erhebungen Bezug aufeinander nehmen, entstehen Längschnittsdaten. Verzerrungen, weil über einem längerem Zeitraum Teilnehmer ausscheiden können B: Vollerhebung Alle Elemente/Daten einer Grundgesamtheit werden erhoben Teilerhebung/ Stichprobenerhebung Teilmenge einer Grundgesamtheit und für die Fragestellung relevante Daten, insbesondere bei einer großen Grundgesamtheit (sozioökonomische Daten, Arbeitskosten, Einkommen im Land) 3.2. Stichprobenauswahl Was muss festgelegt werden? Ziel Auswahlpopulation auch Auswahlgesamtheit Overcoverage Undercoverage - Auswahl der Stichprobenelemente - Festlegung der Grundgesamtheit - Umfang der Stichprobe Aus der Teilmenge der Grundgesamtheit Aussagen ableiten, die sich auf alle Elemente der Grundgesamtheit übertragen lassen. Gezogene Population aus Stichprobe enthält alle Elemente, die nicht zur definierten Grundgesamtheit gehören enthält einige Elemente, die zur definierten Grundgesamtheit gehören, die nicht in der Erhebung berücksichtigt werden
Zufallsstichprobe - Bietet ein repräsentatives Abbild einer Grundgesamtheit - jedes Element der Grundgesamtheit hat eine von Null verschiedene Wahrscheinlichkeit in die Stichprobe zu gelangen - man kann auf eine Stichprobe mit einer kontrollierten kleinen Irrtumswahrscheinlichkeit auf die zugrunde liegende Grundgesamtheit zurückschließen Arten einfache geschichtete Zweistufiges Auswahlverfahren Jede Teilmenge der Grundgesamheit mit n Elementen hat dieselbe Auswahlwahrscheinlichkeit. Die Grundgesamtheit wird in sich nicht überlappende Teilmengen (disjunktiv), sog. Schichten, vorsortiert. Die Schichten sollen bezüglich des zu untersuchenden Merkmals in sich möglichst homogen(gleichmäßig) und untereinander möglichst heterogen(verschieden) sein. Es folgt in jeder Schicht eine Stichprobe, wo sog. Schichtungsvariablen gezogen werden. Formal Schritt 1: N = Grundgesamtheit N 1, N 2,.N L = in L disjunkte Teilgesamtheiten des Umfangs Schritt 2: aus allen Schichten N L werden Zufallsstichproben gezogen N 1 n 1, n 2,, n L N 2 n 1, n 2,, n L.. N L Inferenzschluss - Rückschluss von Eigenschaften einer Stichprobe auf Eigenschaften einer Grundgesamheit anhand von Schätz- und Testverfahren - Gegenstand der schließenden Statistik Wie kommt es zu Stichprobenfehlern? Auswahlbias Proportionale geschichtete Stichprobe Beispiel N= 50 N 1= 25 N 2= 15 N = 50 N 3= 10 p = n/n = 0,2 n = 10 ausgewählt Wenn nur Teilinformation der Merkmalsträger der Stichprobe und nicht die volle Information aller Merkmalsträger der Grundgesamtheit zur Verfügung stehen. Man stützt seinen Inferenzschluss auf eine fehlerbehaftete/verzerrte Stichprobe, die nicht repräsentativ für die Grundgesamtheit ist, führt das zur systematischen Verzerrung. erhält man, wenn der Anteil(p) einer Schicht in der Gesamtstichprobe gleich dem Anteil (p) dieser Schicht an der Grundgesamtheit ist. Wird entsprechend ihrer Verteilung in der Grundgesamtheit ausgewählt Grundgesamtheit Schichtung Proportional (20%) 5 ausgewählt 3 ausgewählt 2 ausgewählt
Disproportionale geschichtete Stichprobe Beispiel N= 50 N 1= 25 N 2= 15 N =50 N 3= 10 n = 12 p bei Ziehung unterschiedlich Es entsprechen sich die Anteile (p) eines Merkmals in der Grundgesamtheit N und der Stichprobe nicht, aus Schichten unterschiedlicher Größe wird die gleiche absolute Anzahl von Elementen gezogen bewusste Verzerrung einzelner Verteilungsparameter, um signifikante Aussagen über Randbereiche erhalten zu können. Dabei wird eine Merkmal überproportional wiedergegeben, um genügend Daten für sie zu erhalten. Grundgesamtheit Schichtung Disproportional Diese Methode wird v.a. angewandt, um bei beschränkten Stichprobengrößen signifikante Aussagen über kleinere Mengen erhalten zu können, die für die Fragestellung besonders interessant sind. Klumpenstichprobe Vorgehensweise Systematische Auswahlprozeduren Zufallsauswahl, Klumpen zerfallen auf natürliche Weise in disjunkte Teilmengen z.b. N= Schüleranzahl, Klumpen = Klassenverbände 5a, 5b, 5c 1. Ziehung der Zufallsstichprobe aus der Menge aller Klumpen 2. Alle Elemente der ausgewählten Klumpen werden untersucht. In der Praxis Nutzung von z.b. der Quotenauswahl, keine Zufallsauswahl. Bei dieser versucht man eine Stichprobe durch Vorgabe von Quoten bezüglich eines meist sozioökonomischen Merkmals, z. B. Geschlecht oder Alter, so zu erzeugen, dass die Stichprobe hinsichtlich dieses Merkmals damit allerdings nicht zwingend auch hinsichtlich des eigentlich interessierenden Untersuchungsmerkmals eine Art verkleinertes Abbild der Grundgesamtheit darstellt. 3.3. Träger amtlicher und nicht-amtlicher Statistik Amtlicher Deutschland weltweit Nicht-amtlicher Informationspflicht gegenüber der Öffentlichkeit Dazu zählen: Statistisches Bundesamt (Gesamt Deutschland) Statistisches Länderamt (regional) Kommunale Statistikämter Europäisches Amt für Statistik (Eurostat) Organisation für wirtschaftliche Zusammenarbeit und Entwicklung (OECD) nicht Informationspflichtig gegenüber der Öffentlichkeit: Institutionen, Firmen, Wirtschaftsforschungsinstitute(Analyse, weniger Datengewinnung), größten in Deutschland sind: IFO(München), DIW (Berlin), RWI (Essen), IfW (Kiel) & IWH (Haale)