Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie Stichprobe Stichprobendaten und Vollerhebungen Die Menge aller Untersuchungselemente (Fälle), für die eine Aussage gemacht werden soll, heißt Grundgesamtheit (Population). Die Definition einer Grundgesamtheit ist nicht immer leicht und setzt eine sehr präzise Formulierung der Forschungsfrage voraus. Wie sieht etwa die Grundgesamtheit der KundInnen eines bestimmten Einkaufszentrums aus? Wie groß ist die Grundgesamtheit der FußgängerInnen, der (potentiellen) WohnungswechslerInnen u.ä.? Grundgesamtheiten können klein und groß, endlich, abzählbar, aber auch unendlich und nicht abzählbar sein. So ist die etwa Menge der Zeitpunkte an einer Klimastation, für die der Jahresgang der Temperatur beschrieben werden soll, theoretisch unendlich, auch wenn wir uns nur auf ein einziges Jahr beziehen und die Temperatur nur zu endlich vielen Zeitpunkten tatsächlich messen. Die Menge der Kunden eines bestimmten Geschäftes ist demgegenüber zwar endlich, aber ohne Angabe eines Zeitraumes nicht abzählbar. Erst wenn wir uns auf einen konkreten Beobachtungszeitraum (etwa ein Jahr) beziehen, ist die Grundgesamtheit der KundInnen feststellbar - wenn auch oft nur mit recht erheblichem Aufwand. Um ein Phänomen zu untersuchen oder eine bestimmte Forschungshypothese zu überprüfen, ist es nicht immer möglich, für alle Fälle, die 'eigentlich' interessieren, die notwendigen Variablen zu erheben - sei es, weil die Grundgesamtheit unendlich sind, sei es aus Zeit- und/oder Kostengründen. In derartigen Fällen kann immer nur eine Teilmenge der Grundgesamtheit (eine sog. Stichprobe) untersucht werden. Eine Stichprobe ist die gezielte Auswahl einer begrenzten Anzahl von Beobachtungen aus der Gesamtheit aller Fälle, für die eine Untersuchung Gültigkeit besitzen soll. Werden demgegenüber Informationen über alle Fälle gesammelt, für die eine Untersuchung Gültigkeit beansprucht, so sprechen wir von einer Vollerhebung. Werden Daten der Volkszählung 1991 hergenommen und die Analyseergebnisse nur auf die 1991 in Österreich lebende Bevölkerung bezogen, so handelt es sich um die Analyse einer Vollerhebung! In der beschreibenden Statistik geht es darum, wie die Information, die in den beobachteten Daten steckt, auf geeignete Art und Weise zusammengefasst werden kann (etwa über die Berechnung von Anteilen, Mittelwerten, Varianzen u.ä.m.). Eine geschickte Verdichtung der in den Datenwerten steckenden Information ist dabei sowohl für Vollerhebungen als auch für Stichprobenerhebungen möglich, nützlich und sinnvoll. Die schließende Statistik ist demgegenüber ein Bereich der Statistik, der sich speziell damit beschäftigt, wie aus Stichprobendaten und in Stichproben beobachteten Zusammenhängen auf Werte und Zusammenhänge in der Grundgesamtheit geschlossen werden kann (vgl. dazu Statistische Analyse von Stichproben). Die Methoden der schließenden Statistik (etwa die Berechnung von Konfidenzintervallen oder die Durchführung von Signifikanztests) sind grundsätzlich nur für die Anwendung bei Stichproben gedacht. Stichproben werden repräsentativ genannt, wenn mittels der Methoden der schließenden Statistik aus Stichprobenwerten und -zusammenhängen auf den Wertebereich und die Zusammenhangsstruktur in der Grundgesamtheit geschlossen werden kann. Art und Genauigkeit der Repräsentativität einer Stichprobe hängen von der Größe der Stichprobe (dem Stichprobenumfang) sowie dem Stichprobenauswahlverfahren ab. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 1

Stichprobenauswahlverfahren Nur zufällige Auswahlverfahren, bei denen jedes Element in der Grundgesamtheit die gleiche Chance hat, in die Stichprobe aufgenommen zu werden, gewährleisten statistische Repräsentativität und erlauben auch eine Schätzung des Stichprobenfehlers. Die reine Zufallsstichprobe ist grundsätzlich nur auf endliche Grundgesamtheiten anwendbar, bei denen alle einzelnen Elemente bekannt sind. Aus dem Gesamttopf mit allen Elementen der Grundgesamtheit wird zufällig eine bestimmte Anzahl an Elementen gezogen. Die systematische Stichprobe ist ein etwas vereinfachtes Verfahren für den realen Umgang mit einer derartigen Zufallsstichprobe. Alle Elemente der Grundgesamtheit werden durchnumeriert, anschließend wird jedes n-te Element ausgewählt. Solange die Variable, nach der geordnet wurde, unabhängig von der untersuchten Variable ist, entspricht die systematische Stichprobe einer reinen Zufallsstichprobe. Bei der geschichteten Stichprobe werden die Elemente der Grundgesamtheit in Gruppen (Schichten) zusammengefasst. Die einer Gruppe zugehörigen Elemente sollen sich dabei hinsichtlich der untersuchten Fragestellung ähnlich sein, jene aus verschiedenen Gruppen möglichst unähnlich. Aus jeder Gruppe (Schicht) wird dann eine eigene Zufallsstichprobe gezogen. Sinn der Schichtung einer Stichprobe ist es, die Streuungsbreite auf der untersuchten Variable über die Gruppenbildung zu verringern, um die Schätzgenauigkeit bei gegebener Stichprobegröße zu erhöhen. Je nachdem, ob innerhalb der verschiedenen Schichten höhere oder geringere Homogenität hinsichtlich der untersuchten Fragestellung besteht, können auch unterschiedliche relative Auswahlsätze sinnvoll sein. Die Gesamtergebnisse der Untersuchung müssen dann jedoch mit den unterschiedlichen Auswahlsätzen gewichtet werden. Generell gilt für sinnvolle Stichprobendesigns, dass die Varianz auf den unabhängigen Variablen nach Möglichkeit maximiert werden sollte. Die Schichtungsvariablen sollten daher grundsätzlich aus dem Pool der für ein untersuchtes Phänomen als wichtig erachteten erklärenden Variablen stammen und darüber hinaus das ganze Wertespektrum dieser Variablen möglichst gleichmäßig abdecken! Bei der Klumpenstichprobe wird davon ausgegangen, dass sich die Grundgesamtheit in mehr oder weniger 'natürliche' Gruppen aufteilen lässt. Während für geschichtete Stichproben eine möglichst große Homogenität innerhalb der Gruppen hinsichtlich der untersuchten Fragestellung gefordert wird, sollen die in den verschiedenen Klumpen zusammengefassten Elemente (Individuen) eine möglichst große Heterogenität hinsichtlich der untersuchten Fragestellung aufweisen - auch im Hinblick auf die erklärenden Variablen. Die Klumpen sollen so etwas wie die 'Welt im Kleinen' repräsentieren. Einer der Klumpen (oder einige wenige Klumpen) werden dann zufällig ausgewählt und die Elemente in diesem Klumpen (in diesen Klumpen) als Stichprobe genommen. In der soziologischen Forschung sind derartige Klumpenstichproben recht typisch - etwa wenn einzelne Siedlungseinheiten oder Gemeinden (eines bestimmten Typs) als repräsentative Untersuchungseinheiten gewählt werden, Im Vergleich zu reinen Zufallsstichproben oder geschichteten Stichproben sind Klumpenstichproben generell mit einem größeren Stichprobenfehler behaftet. Für diese Form der statistischen Stichprobenauswahl spricht vor allem das (Fahr)Kostenargument bei Untersuchungen - der Stichprobenumfang kann bei gegebenen Kosten im Allgemeinen dann auch größer sein. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 2

J. Bortz: Statistik für Sozialwissenschaftler; Springer Verlag Berlin, S.84-86 (jeweils neueste Auflage, Seitenangaben beziehen sich auf 1993): Stichprobe und Grundgesamtheit Stichprobenarten Als Grundgesamtheit (Population) bezeichnen wir alle potentiell untersuchbaren Einheiten oder Elemente", die ein gemeinsames Merkmal (oder eine gemeinsame Merkmalskombination) aufweisen. So sprechen wir beispielsweise von der Grundgesamtheit der BewohnerInnen einer bestimmten Stadt, der LeserInnen einer bestimmten Zeitung, der linkshändigen SchülerInnen, der dreisilbigen Substantive, der zu einem bestimmten Zeitpunkt auf einem Bahnhof anwesenden Personen, der in einer Zeitung enthaltenen Informationen usw. Wie die Beispiele zeigen, beziehen sich Grundgesamtheiten nicht immer auf Personen. Grundgesamtheiten können ferner einen begrenzten oder einen theoretisch unbegrenzten Umfang aufweisen. Eine Stichprobe stellt eine Teilmenge aller Untersuchungseinheiten dar, die die untersuchungsrelevanten Eigenschaften der Grundgesamtheit möglichst genau abbilden soll. Eine Stichprobe ist somit ein Miniaturbild" der Grundgesamtheit. Je besser die Stichprobe die Grundgesamtheit repräsentiert, um so präziser sind die inferenzstatistischen Aussagen über die Grundgesamtheit. Die Präzision der Aussagen ist ferner von der Größe der untersuchten Stichprobe und von der Größe der Grundgesamtheit abhängig. In 3.6 werden wir der Frage nachgehen, wie die Stichprobengröße die Genauigkeit der Schätzung eines Populationsparameters auf Grund eines Stichprobenkennwertes beeinflusst. Auf inferenzstatistische Besonderheiten, die sich ergeben, wenn Stichproben aus Populationen mit endlichem Umfang gezogen werden, wird nur hingewiesen. Der hier diskutierte Ansatz, der von Grundgesamtheiten mit sehr großem (theoretisch unendlichem) Umfang ausgeht, ist für praktische Zwecke immer dann anwendbar, wenn die Grundgesamtheit mindestens 100mal so groß ist wie der Stichprobenumfang. Wenn beispielsweise eine Stichprobe des Umfanges n = 100 untersucht wird, ist es praktisch unerheblich, ob die Population einen Umfang N = 10 000 oder N = 50000 aufweist. Im Folgenden behandeln wir zunächst einige Techniken, aus einer Grundgesamtheit eine Stichprobe zu ziehen. Da in diesem einführenden Text allgemeine Probleme der Inferenzstatistik wichtiger erscheinen als Techniken und Theorien komplexer Stichprobenpläne, sind die folgenden Ausführungen kurz gehalten. Im Mittelpunkt steht die Zufallsstichprobe, die für die Entwicklung inferenzstatistischer Gedankengänge von besonderer Bedeutung ist. Die mit der Erhebung einer Stichprobe verbundene Frage lautet: Wie kann gewährleistet werden, dass eine Stichprobe eine Grundgesamtheit möglichst genau repräsentiert? Eine Stichprobe kann für eine Grundgesamtheit entweder in bezug auf alle Merkmale (globale Repräsentativität) oder in bezug auf bestimmte Merkmale (spezifische Repräsentativität) repräsentativ sein. Die Entscheidung darüber, ob eine Stichprobe global oder spezifisch repräsentativ sein soll, hängt davon ab, wie viele Vorkenntnisse über das zu untersuchende Merkmal bereits vorhanden sind. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 3

Zufallsstichprobe Ist über die Verteilung der untersuchungsrelevanten Merkmale praktisch nichts bekannt, sollte eine Zufallsstichprobe gezogen werden. Untersucht werden soll beispielsweise die Abstraktionsfähigkeit von chronischen AlkoholikerInnen. Wenn wir unterstellen, dass die Determinanten, die auf die Verteilung des Merkmals Abstraktionsfähigkeit in der Grundgesamtheit der chronischen AlkoholikerInnen Einfluss nehmen können, unbekannt sind, wird eine zufällige Auswahl von AlkoholikerInnen die beste Gewähr dafür bieten, dass die Stichprobe die Verteilungseigenschaften in der Grundgesamtheit hinreichend repräsentiert. Eine zufällige Auswahl von Untersuchungseinheiten aus einer Grundgesamtheit bezeichnen wir als eine Zufallsstichprobe. Eine Zufallsstichprobe ist dadurch gekennzeichnet, dass jedes Element der Grundgesamtheit, unabhängig davon, welche weiteren Elemente schon zur Stichprobe gehören, mit gleicher Wahrscheinlichkeit ausgewählt werden kann. Dieses Kriterium ist bei bekannten Grundgesamtheiten dadurch leicht zu erfüllen, dass für alle Elemente der Grundgesamtheit eine Urne" angefertigt wird (Karteien, Namenslisten usw.), aus der per Zufall (mit Hilfe von Zufallszahlen, Würfeln, Münzen, Losverfahren usw.) die Stichprobe mit dem gewünschten Umfang zusammengestellt wird. Sind nicht alle Einheiten der Grundgesamtheit erfassbar, sollte die Zufallsstichprobe aus einer zugänglichen, möglichst großen Teilmenge der Grundgesamtheit zusammengestellt werden. Dies hat zur Konsequenz, dass die Befunde genaugenommen nur auf diese Teilmenge der Grundgesamtheit generalisiert werden können, es sei denn, man kann begründen, dass die Teilmenge ihrerseits repräsentativ für die Gesamtpopulation ist. Häufig sind bei sozialwissenschaftlichen Forschungsfragen nicht alle Untersuchungseinheiten, die zu einer Population gehören, bekannt, sodass die Ziehung einer echten" Zufallsstichprobe unmöglich oder doch zumindest mit einem unzumutbaren Aufwand verbunden ist. Man begnügt sich deshalb gelegentlich mit sog. anfallenden" oder ad hoc-" Stichproben (z. B. die zufällig" in einem Seminar anwesenden TeilnehmerInnen) in der Hoffnung, auch so zu aussagefähigen Resultaten zu gelangen. Vor dieser Vorgehensweise sei nachdrücklich gewarnt. Zwar ist die Verwendung inferenzstatistischer Verfahren nicht daran gebunden, dass eine Stichprobe aus einer wirklich existierenden Population gezogen wird; letztlich lässt sich für jede Stichprobe" eine fiktive Population konstruieren, für die diese Stichprobe" repräsentativ erscheinen mag. Die Schlüsse, die aus derartigen Untersuchungen gezogen werden, beziehen sich jedoch nicht auf real existierende Populationen und können deshalb wertlos sein. Zumindest sollte man darauf achten, dass die Besonderheiten der untersuchten Stichproben diskutiert bzw. dass Verallgemeinerungen vorsichtig formuliert werden, wenn die Zufälligkeit bzw. Repräsentativität der Stichprobe für die eigentlich interessierende Zielpopulation in Frage steht. Bei der Stichprobenauswahl empfiehlt es sich, darauf zu achten, dass die Stichprobe nicht durch systematische Fehler im Auswahlverfahren verzerrt ( biased") wird. Soll beispielsweise eine Zufallsstichprobe dadurch zusammengestellt werden, dass in einer belebten Straße jeder 5. Passant gebeten wird, an der Untersuchung teilzunehmen, wird die Untersuchung dann zu verzerrten Ergebnissen führen, wenn nur untersuchungswillige Personen zur Stichprobe zählen. Diese Stichprobe wäre in bezug auf das Kriterium Bereitschaft, an dieser Untersuchung teilzunehmen" nicht repräsentativ, falls ein erheblicher Prozentsatz der Angesprochenen die Teilnahme verweigert. Ähnliches gilt für schriftliche Befragungen, bei denen einer zufällig ausgewählten Stichprobe per Post die Untersuchungsunterlagen zugestellt werden; die Ergebnisse können sich in diesem Fall nur auf diejenigen Personen beziehen, die bereit sind, die Untersuchungsunterlagen auch wieder zurückzuschicken. Bei schriftlichen Befragungen sollte deshalb immer berücksichtigt werden, ob die Ergebnisse durch systematische Selektionseffekte verfälscht sein können. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 4

Klumpenstichprobe In der Praxis wird man häufig aus ökonomischen Gründen auf zufällig auszuwählende Teilmengen zurückgreifen, die bereits vorgruppiert sind und für die sich deshalb Untersuchungen leicht organisieren lassen. Solche Stichproben werden als Klumpenstichproben ( cluster samples") bezeichnet. In der oben erwähnten Untersuchung der Abstraktionsfähigkeit könnten als Klumpen beispielsweise alle AlkoholikerInnen untersucht werden, die sich in zufällig ausgewählten Kliniken befinden. Die Generalisierbarkeit der Ergebnisse einer solchen Untersuchung hängt dann davon ab, wie stark sich die untersuchten AlkoholikerInnen von Klinik zu Klinik unterscheiden und wie gut die ausgewählten Kliniken die Population aller Kliniken repräsentieren. Man beachte, dass ein einzelner Klumpen (z. B. eine Schulklasse, eine Station in einem Krankenhaus, eine Arbeitsgruppe in einem Betrieb etc.) keine Klumpenstichprobe darstellt, sondern eine Ad-hoc-Stichprobe, bei der zufällige Auswahlkriterien praktisch keine Rolle spielen. Die Bezeichnung Klumpenstichprobe" ist nur zu rechtfertigen, wenn mehrere zufällig ausgewählte Klumpen vollständig untersucht werden. Eine Klumpenstichprobe besteht aus allen UntersuchungsteilnehmerInnen, die sich in mehreren, zufällig ausgewählten Klumpen befinden. Geschichtete Stichprobe Zufallsstichproben und Klumpenstichproben können mehr oder weniger repräsentativ für die Grundgesamtheit sein. Werden in unserem Beispiel mehrere Zufallsstichproben (oder Klumpenstichproben) von AlkoholikerInnen zusammengestellt, ist damit zu rechnen, dass die Durchschnitte der die einzelnen Stichproben kennzeichnenden Abstraktionsfähigkeiten die wahre" Abstraktionsfähigkeit aller AlkoholikerInnen unterschiedlich gut schätzen. Ist bekannt, welche Determinanten die Verteilung des untersuchungsrelevanten Merkmals beeinflussen, empfiehlt es sich, eine Stichprobe zusammenzustellen, die in bezug auf diese Determinanten für die Grundgesamtheit repräsentativ ist. Eine Stichprobe mit dieser Eigenschaft bezeichnet man als geschichtete oder stratifizierte Stichprobe. Sollen beispielsweise die Konsumgewohnheiten der BewohnerInnen Niedersachsens untersucht werden, wird man darauf achten, dass die Stichprobe insbesondere bezüglich solcher Merkmale, von denen bekannt ist, dass sie das Konsumverhalten beeinflussen (z. B. Stadt-, Landbevölkerung, Geschlecht, Alter, Größe der Familien, Höhe des Einkommens usw.), für die Grundgesamtheit repräsentativ ist. Dies setzt allerdings voraus, dass wir wissen, wie sich die für das untersuchte Kriterium relevanten Merkmale in der Grundgesamtheit verteilen. Wenn die prozentuale Verteilung der Schichtungsmerkmale in der Stichprobe mit der Verteilung in der Population identisch ist, sprechen wir von einer proportional geschichteten Stichprobe. Die Auswahl innerhalb der einzelnen Schichten (Strata) sollte zufällig bzw., wenn es aus organisatorischen Gründen unumgänglich ist, nach dem Klumpenverfahren erfolgen. Entspricht die anteilsmäßige Verteilung der Merkmale in den geschichteten Stichproben nicht der Verteilung in der Grundgesamtheit, nennt man die Stichprobe disproportional geschichtet". Bei geschichteten Stichproben sollte darauf geachtet werden, dass nicht die Anzahl der Merkmale, nach denen die Schichten zusammengestellt werden, die spezifische Repräsentativität der Stichprobe erhöht, sondern die Relevanz der Merkmale. Ist die Stichprobe beispielsweise in der Untersuchung der Konsumgewohnheiten repräsentativ in bezug auf Merkmale wie Blutdruck, Haarfarbe, Anzahl der plombierten Zähne usw., so dürfte diese Art der Repräsentativität kaum zur Verbesserung der Erfassung der Konsumgewohnheiten beitragen. Generell gilt, dass eine sinnvoll, d. h. nach relevanten Merkmalen geschichtete Stichprobe zu besseren Schätzwerten der Populationsparameter führt als eine einfache Zufallsstichprobe. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 5

Aus der Vorlesung: Repräsentativität als Kontinuum? Repräsentativ ist eine Stichprobe dann, wenn deren Ergebnisse auf die Grundgesamtheit generalisierbar sind. Eine repräsentative Stichprobe ist daher heterogen, sodass die Verallgemeinerung auf eine größere Grundgesamtheit möglich wird. Über die Kriterien von Repräsentativität gibt es unterschiedliche Lehrmeinungen. Die strenge Lehrmeinung: Repräsentativität ist nur dann gegeben, wenn die Stichprobenziehung zufällig erfolgt (mittels Zufallsgenerator aus einer Urne oder Liste der GG). Alle Mitglieder der GG haben die gleiche Chance, in die Stichprobe zu kommen. Jede Quotierung oder Gewichtung zerstört laut dieser Lehrmeinung die Repräsentativität der Stichprobe. Weniger strenge Lehrmeinung: Repräsentativität kann als Kontinuum verstanden werden: Eine Stichprobe besitzt mehr oder weniger Repräsentativität. Man sagt dann: Die Stichprobe repräsentiert die GG in allen relevanten Merkmalen. Üblicherweise sind dies: Geschlecht, Alter, Bildung, Erwerbstätigkeit, Einkommen, Region, Migrationshintergrund; Welche Merkmale relevant sind, ist eine theoretische Entscheidung. Das Kontinuum der Repräsentativität: Eine Stichprobe ist repräsentativer, je größer und heterogerner sie ist: Sie entspricht in möglichst vielen Eigenschaften der GG; je mehr Zufallsauswahl bei der Stichprobenziehung angewandt wurde: 1. Optimal: reine Zufallsauswahl aus einer Liste 2. Zweitoptimal: Zufallsauswahl, orientiert an Quoten ( geschichtet ) 3. Drittoptimal: Totalerhebung oder Zufallsauswahl aus mehreren Klumpen (abhängig von Fragestellung) 4. Keine Repräsentativität mehr: Gefälligkeitsstichprobe: Wer gerade da ist : Klassen, Gruppen, zufällig Anwesende an einem Tag in einer Ambulanz, einem Geschäft, einem Ort..) Repräsentativität ist oft schwer zu realisieren: Meist ist dazu ein Erhebungsinstrument mit einem eigenen erfahrenen MitarbeiterInnen-Stab erforderlich (teuer). Vorteil: Rückschlüsse auf die GG sind möglich, Stichprobenfehler ist berechenbar. VO+UE Statistik für LinguistInnen (Hager) Stichprobe 6

Repräsentativität versus Kausalität Ein repräsentatives Erhebungsdesign ergibt repräsentative, deskriptive Ergebnisse. Beispiel: Die Erhebung von Vertrauen in Institutionen zeigt, wie groß das Vertrauen der Bevölkerung in verschiedene Institutionen (Gesundheitswesen, Kirche, Polizei.) ist. Ein experimentelles Design ergibt kausale Ergebnisse. Bsp: Untersucht werden soll die Verständlichkeit von Texten. Dabei wird drei vergleichbaren Gruppen unter gleichen Bedingungen (Hörsaal, Sitzplatz, Tageszeit, ) ein Text mit gleichem Textinhalt und unterschiedlicher Aufbereitung vorgelegt. A: reiner Text ohne Aufbereitung B: Text mit Überschriften C: Text mit Überschriften und markierten Merksätzen Siehe Experimente mit Filmvorführungen und Vorher-Nachher-Testung aus der Psychologie. Siehe auch Experimente mit Medikamenten versus Placebos aus der Medizin. Auswahl der Vpn (Versuchspersonen): Ramdomisierung: Auswahl per Zufall aus einer GG (falls möglich) Parallelisierung: Zufällige Teilung einer homogenen Gruppe (zb: Studierende der Germanistik im 4. Semester) Ziel: Durch Variation der unabhängigen Variable (Unterschiedliche Aufbereitung des Textes) sollen kausale Rückschlüsse auf dessen Verständlichkeit gezogen werden. Ergebnis zb: Ein Text der Kategorie C erreicht höhere Verständlichkeit als ein Text der Kategorie A aufgrund (kausal) der unterschiedlichen Aufbereitung. Interne Validität (im Laborexperiment): erbringt eindeutige Unterschiede bei möglichst wenig Störvariablen. Externe Validität (im Feldexperiment): aufgrund natürlicherer Rahmenbedingungen höhere Generalisierbarkeit (- aber auf wen?) Entscheidend ist, zu jeder Fragestellung das passende Design zu entwickeln. Was will ich wissen? - Fragestellung Wozu will ich das wissen? Relevanz Was muss ich tun, um es herauszufinden? Design VO+UE Statistik für LinguistInnen (Hager) Stichprobe 7