3.2 Stichprobenauswahl (Sampling) Stichprobe = als Stichprobe bezeichnet man eine Teilmenge einer Grundgesamtheit, die unter bestimmten Gesichtspunkten ausgewählt wurde. Der Stichprobenentnahme vorgelagert ist eine eindeutige Festlegung der Grundgesamtheit (Sachlich, räumlich, inhaltlich)!!! Bei Teilerhebungen ist sowohl die Verfahrensweise bei der Auswahl von Stichprobenelementen sowie der Umfang der Stichprobe festzulegen. Ziel: aus einer Teilmenge einer Grundgesamtheit Aussagen abzuleiten, die sich auf die GG übertragen lassen Auswahlpopulation = eine Population, aus der eine Stichprobe gezogen wird Overcoverage = Die Auswahlpopulation enthält Elemente, die nicht zur definierten GG gehören (Overcoverage = Überberichterstattung) Beispiel: Personen wohnen in der Stadt, ohne amtlich gemeldet zu sein. Undercoverage = einige Elemente der definierten GG werden bei der Stichprobenziehung gar nicht berücksichtigt Beispiel: Personen sind in der Stadt gemeldet, aber längst verzogen 1
Zufallsauswahl (Wahrscheinlichkeitsauswahl. Random Sample) Bei einer Zufallsstichprobe hat jedes Element der GG eine von Null verschiedene Wahrscheinlichkeit (meist die gleiche Wahrscheinlichkeit) in die Stichprobe zu gelangen ( Einschlusswahrscheinlichkeit). Dabei kann die Kombinatorik Anhaltspunkte für sinnvolle Auswahlmethoden geben. Eine Zufallsstichprobe ist notwendig, wenn die Stichprobe repräsentativ sein soll und per Inferenzschluss von Eigenschaften einer Stichprobe auf Eigenschaften der GG anhand von Schätz- und Testverfahren rückgeschlossen werden soll ( Gegenstand der schließenden Statistik). Nur bei Realisierung einer Zufallsauswahl kann von einer Stichprobe mit einer kontrollierten kleinen Irrtumswahrscheinlichkeit auf die zugrunde liegende GG zurückgeschlossen werden. D.h. nur bei Zufallsauswahlen sind streng genommen die Methoden der induktiven Statistik anwendbar. Inferenzschluss: Rückschluss von Eigenschaften einer Stichrobe auf Eigenschaften einer GG anhand von Schätz- und Testverfahren (Gegenstand der schließenden Statistik). stets mit Unsicherheit verknüpft: Stichprobenfehler: nur die Teilinformation der Merkmalsträger der Stichprobe der Stichprobe und nicht die volle Information aller Merkmalsträger der GG steht zur Verfügung verzerrte Stichprobe: Stichprobe, die nicht repräsentativ für eine GG ist systematische Verzerrung (Auswahlbias): zum unvermeidlichen Stichprobenfehler kommt noch eine durch die Verzerrung der Stichprobe bedingte systematische Verzerrung hinzu, der sog. Auswahlbias Der Inferenzschluss kann somit zu gravierenden Fehlern führen! :-( Die Art der Probeentnahme hat Einfluss auf die Aussagekraft 2
Es werden verschiedene Zufallsverfahren unterschieden einfache / einstufige Zufallsstichprobe (Stufung) Bei einer einfachen Zufallsstichprobe vom Umgang n ist die Stichprobenauswahl nicht nur zufällig, sondern auch so geplant, dass jede Teilmenge der Grundgesamtheit mit n Elementen dieselbe Auswahlwahrscheinlichkeit besitzt. Verdeutlichen kann man sich diese Verfahrensweise mit dem sog. Urnenmodell, wobei entweder in einem Zug n Elemente oder nacheinander n Elemente gezogen werden. Beispiel: Ziehung der Lottozahlen geschichtete / zweistufige Zufallsauswahl (Schichtung) Verfügt man über Vorinformation (Schichtungsvariable), die bei der Auswahl der Stichprobenelemente herangezogen werden kann, was i.d.r. zu verlässlicheren Inferenzschlüssen führt. Schichtungsvariable = Die Vorinformation besteht aus der Kenntnis des als Schichtungsvariable bezeichneten Merkmals, nach welchem die GG in Schichten zerlegt wird. Beispiel: Schichtung nach Berufsgruppen bei Hochschulabsolventen-Einkommen Bei der geschichteten Zufallsauswahl zerlegt man die GG in disjunkte (=sich nicht überlappende) Schichten (= Teilgesamtheiten), wobei die Schichten bezüglich des zu untersuchenden Merkmals in sich möglichst homogen und untereinander möglichst heterogen sein sollen. Aus jeder Sicht wird dann eine Zufallsstichprobe gezogen. Formal handelt es sich um ein zweistufiges Auswahlverfahren: 1. Zerlegung der GG mit N Elementen anhand der Schichtungsvariable in L disjunkte Teilmengen 2. Zufallsstichproben des Umfangs n i ziehen 3
Ist der Anteil n i /N i fest, liegt eine proportional geschichtete Stichprobe vor Bei der geschichteten Zufallsstichprobe wird eine GG anhand einer Schichtungsvariable (=Hilfsmerkmal) in disjunkte Teilmengen zerlegt. Ist der Anteil n i /N i nicht fest, liegt eine disproportional geschichtete Stichprobe vor. werden angewendet, wenn Schichten dünn besetzt sind Bei einer disproportional geschichteten Stichprobe ist die Auswahlwahrscheinlichkeit der Stichprobenelemente innerhalb einer Schicht konstant, jedoch nicht von Schicht zu Schicht, so dass man die Stichprobenelemente beim Rückschluss auf die GG gewichten muss die Gewichte sind dabei reziprok (=umgekehrt) zu den Auswahlwahrscheinlichkeiten. Klumpenstichprobe (Klumpung) Manchmal zerfällt eine GG auf natürliche Weise von vornherein in disjunkte Teilmengen, sog. Klumpen. Beispiele: Klassenverbände, Tier-Herden In solchen Fällen zieht man das zweistufige Auswahlverfahren die sog. Klumpenstichprobe heran. 1. Ziehen einer Zufallsstichprobe aus der Menge aller Klumpen 2. Untersuchung aller Elemente der ausgewählten Klumpen 4
Geschichtete Stichprobe und Klumpenstichprobe werden oft verwechselt, da bei beiden Verfahren Gruppierungen vorgenommen werden innerhalb eines zweistufigen Auswahlverfahrens. Vergleich Unterschiede Geschichtete Zufallsstichprobe ( stratified sampling ) Klumpenstichprobe ( cluster sampling ) Jedes Element der Grundgesamtheit gehört zu genau einer Schicht. Jedes Element der GG gehört zu genau einem Klumpen. Die Schichten entsprechen i.d.r. willkürlich gewählten Merkmalen. Die Klumpen entsprechen i. d. R. natürlichen Gruppierungen. Es werden alle Schichten berücksichtigt. Aus der Menge der Klumpen wird eine einfache Zufallsstichprobe gezogen Aus jeder Schicht wird jeweils eine Zufallsstichprobe gezogen. Innerhalb eines ausgewählten Klumpens gelangen alle Elemente in die Stichprobe. Je homogener die Schichten und je heterogener die Schichten untereinander, umso kleiner ist der Standardfehler. Je inhomogener/heterogener die Klumpen in sich und je kleiner die Unterschiede zwischen den Klumpen, umso geringer ist der Standardfehler. 5
Quotenauswahl / Bewusste Auswahl (systematisches Auswahlverfahren) (Quota-Samples) In der Praxis werden Stichproben nicht immer zufällig, sondern auf der Basis einer Systematik ausgewählt, z. B. Quotenauswahl als systematisches Stichprobenauswahlverfahren. Quotenstichproben sind keine Zufallsauswahl, sondern beruhen auf einer bewussten Auswahl der Zielpersonen. Man versucht, eine Stichprobe durch Vorgabe von Quoten bezüglich z. B. eines sozioökonomischen Merkmals (Geschlecht, Alter, ) so erzeugen, das die Stichprobe hinsichtlich dieses Merkmals eine Art verkleinertes Abbild der GG darstellt. Allerdings stellt die systematische Stichprobe nicht zwingend auch hinsichtlich des eigentlich interessierenden Merkmals ein Abbild dar! willkürliche Auswahl (Auswahl aufs Geratewohl) - spezielle Auswahlverfahren in der Empirie - Elemente aus der GG werde mehr oder weniger willkürlich in die Stichprobe aufgenommen (je nach Ermessen des VL oder der VP). - Die Wahrscheinlichkeit, mit der ein bestimmtes Element in die Stichprobe gelangt, lässt sich nicht angeben. Willkürliche Stichproben sind daher nicht für inferenzstatistische (verallgemeinernde) Aussagen abzuleiten. Es lässt sich auch nicht angeben, auf welche GG sich die jeweilige Stichprobe bezieht (Repräsentativitätsproblem!) Probleme: Verzerrungen durch Auswahlmechanismus sowie Selbstselektion 6