Sommersemester 2015 1. Einführung 1
Personen Jun.-Prof. Dr. Hans Manner Lehrstuhlvertretung Statistische Methoden mit Schwerpunkt Psychometrie Raum: M 737 E-mail: manner@statistik.tu-dortmund.de Tel.: 0231 755-8259 (manner@statistik.uni-koeln.de) Sprechstunde: Nach Vereinbarung, idealerweise Dienstags M.Sc. Joanna Wiedom Raum: E 16a E-mail: joanna.wiedom@tu-dortmund.de Sprechstunde: Nach Vereinbarung 1. Einführung 2
Zeiten und Daten Vorlesung: Dienstags 12.15-13.45h in M/E25, Übung: Montags 14.15-15.45h in Hörsaal M/E21 (findet nicht immer statt). Klausuren: TBA, aber zwei Termine, einer direkt nach Vorlesungsende und einer im September 1. Einführung 3
Organisation und Materialien Alle Unterlagen auf meiner Webseite an der TU Dortmund verfügbar Wichtig: Zeitplan zur Vorlesung, wird aktualisiert, beinhaltet Abgabedaten der Übungsblätter Skript Zusätzliche Folien (wie diese, evtl. mit Notizen) Übungsblätter werden regelmäßig hochgeladen Weitere Materialien und Bekanntmachungen 1. Einführung 4
Übungen Es gibt 7 Übungsblätter Davon müssen mindestens 3 abgegeben werden, um an der Klausur teilnehmen zu dürfen Außerdem 3 R-Übungen bezüglich der praktischen Implementierung der Verfahren Übungen finden nicht immer statt, siehe Zeitplan Nur eine große Übungsgruppe, verbleibende individuelle Fragen in der Sprechstunde 1. Einführung 5
Literatur Skript zum Kurs (auf Webseite verfügbar) Kauermann und Küchenhoff, Stichproben - Methoden und praktische Umsetzung mit R, Springer Verlag, 2011. (Als Ebook kostenlos für Studenten der TU Dortmund zugänglich.) Cochrane,, De Gruyter, 1972. Kreienbrock, Einführung in die, Oldenbourg, 1989. Pokropp, Stichproben: Theorie und Verfahren, Oldenbourg, 1996. 1. Einführung 6
Klausur Anmeldung via e-mail bis maximal eine Woche vor der Klausur Voraussetzung ist die Abgabe von mindestens drei Übungsblättern, die mit ausreichend bewertet sein müssen (sprich es muss mindestens die Hälfte richtig sein) 90 minütige schriftliche Klausur Rechen- und Verständnisaufgaben Als Hilfsmittel ist ein A4 Blatt mit handgeschriebenen Notizen erlaubt (und natürlich ein Taschenrechner) 1. Einführung 7
Kursinhalte Einführung in die Modellbasierte Designbasierte Geschichtete Stichproben Klumpenstichproben Mehrstufige Verfahren Zweiphasige Verfahren Capture-Recapture Verfahren Ausblick auf weitere Verfahren 1. Einführung 8
1. Theoretische Eigenschaften 2. Praktische Beispiele 3. Numerische Umsetzung in R Schwerpunkte 1. Einführung 9
Fragen? 1. Einführung 10
Einführung Wie bekommt man nach Schließung der Wahllokale genaue Wahlprognosen durch eine Befragung von nur 2000 Personen? Wie wählt man die Personen aus? Wie hängt die Berechnung der Prognose von der Auswahl der Personen aus? Wie sollte man es nicht tun? Weitere Anwendungen von : Marktforschung Mikrozensus und Sozioökonomisches Panel Medizinisch-epidemiologische Studien Abschätzung von Umweltbelastungen... 1. Einführung 11
Population und Stichprobe Die Population oder Grundgesamtheit ist die Menge alle Individuen oder Objekte, über die eine Aussage getroffen werden soll. Merkmalsträger, Untersuchungseinheiten, statistische Einheiten oder Individuen sind die Einheiten oder Objekte, an denen Untersuchungen, Messungen oder Beobachtungen vorgenommen werden Merkmale sind die Eigenschaften der statistischen Einheiten, die untersucht, beobachtet oder gemessen werden Eine Stichprobe S ist die Teilmenge der Population, an der die Merkmale erhoben werden Wir unterscheiden eine Vollerhebung und eine Teilerhebung 1. Einführung 12
Notation Die Menge potentieller Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit (kurz: GG) vom Umfang N. Jeder Untersuchungseinheit U i wird ein eindeutig fester Merkmalswert Y i zugeordnet. Es wird eine zufällige Stichprobe vom Umfang n gezogen. Die Ergebnisse y i, i = 1,...,n, repräsentieren Zufallsvariablen. Notation bei In der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt In der Stichprobe: Kleinbuchstaben, zufällige Werte, Realisationen von Zufallsvariablen 1. Einführung 13
Homograd und heterograd Ist Y i qualitativ, Y i {0,1}, sprechen wir vom homograden Fall. Hier interessieren uns in der Regel Anteilwerte. (Beispiele?) Sind die Merkmalswerte Y i quantitativ, Y i R, sprechen wir vom heterograden Fall. Hier interessieren uns in der Regel Mittelwerte. (Beispiele?) 1. Einführung 14
Gütekriterien im Rahmen der Stichprobentheorie Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T(y 1,...,y n ) erwartungstreu für θ, falls E(T(y 1,...,y n )) = E(T) = θ. Varianzvergleich: Seien T 1 und T 2 zwei erwartungstreue Schätzer für θ, dann heißt T 1 besser als T 2, falls Var(T 1 ) < Var(T 2 ). MSE-Vergleich: Seien T 1 und T 2 zwei beliebige Schätzer für θ, dann heißt T 1 besser als T 2, falls MSE(T 1 ) < MSE(T 2 ). (Hinweis: MSE(T) = Var(T)+[E(T) θ] 2 ) 1. Einführung 15
Gütekriterien In der Regel interessiert uns der Mittelwert der Population N und die dazu gehörige Varianz Ȳ = 1 N i=1 Y i S 2 = 1 N 1 N ( Yi Ȳ ) 2. i=1 Außerdem interessiert uns für einen Schätzer ˆȲ Var(ˆȲ) 1. Einführung 16
Gütekriterien Wir möchten diese Größen unverzerrt schätzen Wir wollen idealerweise ein und den dazu gehörigen Schätzer so wählen, dass die Varianz des Mittelwertschätzers so klein wie möglich ist Berechnung von Konfidenzintervallen Wie wählt man den Stichprobenumfang n unter bestimmten Zieloder Kostenfunktionen? 1. Einführung 17
Nicht-zufällige Auswahlverfahren Auswahl auf Geratewohl, den Mann auf der Straße befragen Beispiel: Zufällige Befragung an einem Vormittag im Supermarkt zur Kundenzufriedenheit Typische Stichprobe Beispiele: Warenkorb zur Inflationsberechnung, Stadt Haßloch als Testmarkt Quotenstichprobe, z.b Altersgruppen und Geschlechterverteilung exakt auf die Population abstimmen Störgrößen werden kontrolliert, aber zufällige Auswahl nötig Systematische Stichproben: Wähle jedes p te Element aus der Population 1. Einführung 18
Verzerrungen Eine Stichprobe kann für eine Fragestellung geeignet sein, für eine andere jedoch nicht Beispiel: Eine Gemeinde in einem Landkreis kann repräsentativ für das Konsumverhalten im Landkreis sein, aber nicht für die Parteipräferenz für eine bestimmte Partei, weil z.b. eine sehr beliebter Bürgermeister dieser Partei in der Gemeinde ist Man hat also eine verzerrte Stichprobe bezüglich der Parteipräferenz Anderes Beispiel: Man befragt vormittags in einem Supermarkt die Leute nach ihren Berufen 1. Einführung 19
Auswahlform 1 Alle N Element sind verfügbar und mit Nummern (labels) versehen wir haben eine Populationsliste Zufallsauswahl aus den Nummern 1,...,N Die dazugehörigen Untersuchungseinheiten bilden die Stichprobe S Man kann mit Zurücklegen (mz) oder ohne Zurücklegen (oz) ziehen Eigentlich interessiert nur oz, aber Formeln für mz in der Regel einfacher Wenn der Auswahlsatz n/n klein ist kann man oz Stichproben wie mz behandeln 1. Einführung 20
Auswahlform 1: Einfache Stichprobe Die Wahrscheinlichkeit einer bestimmten Stichprobe S vom Umfang n ist dann 1 P(S) = ) beim Ziehen mz und ( N n 1 n P(S) = 1 ( N n) beim Ziehen oz. Jedes Element die gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist gegeben durch Herleitungen davon in der Übung. π = n N 1. Einführung 21
Studienpopulation Eine Studienpopulation ist eine zur Verfügung stehende Untermenge der Population Beispiel: Leute mit Telefon bei einer Telefonumfrage 1. Einführung 22
Auswahlform 2: Größenproportionale Stichproben (pps) Wir wählen die Auswahlwahrscheinlichkeiten π i proportional zu Y i Hilfsvariable X i die mit Y i korreliert wird dazu verwendet So werden informativere Beobachtungen mit höherer Wahrscheinlichkeit gewählt Varianzreduktion bei der Mittelwertschätzung 1. Einführung 23
Auswahlform 3: Geschichtete Stichprobe Die Grundgesamtheit ist in M Teilgesamtheiten vom Umfang N h für die h-te Teilmenge zerlegt Diese Teilmengen nennt man Schichten Man zieht aus jeder Schicht und setzt die Gesamtstichprobe daraus zusammen Dies kann zu einer Reduktion der Varianz der Mittelwertschätzung im Vergleich zur einfachen Stichprobe führen Beispiel: Deutschland und die Bundesländer 1. Einführung 24
Auswahlform 4: Klumpenstichproben Man zerlegt die GG in M disjunkte Teilmenge Man wählt zufällig m dieser Teilmengen Für jede dieser gewählten Teilmengen führt man eine Vollerhebung durch Beispiel: GG ist die Menge aller Schulanfänger in einer Stadt. Es werden ganze Klassen ausgewählt und vollständig befragt 1. Einführung 25
Auswahlform 5: Gebundene Hochrechnung Wir beobachten ein weiteres Merkmal X und wir kennen X Wir unterstellen einen linearen Zusammenhang zwischen X und Y Wir verwenden diese Vorkenntnis über X um Ȳ zu schätzen Führt in der Regel zu Varianzreduktion Beispiel: Bei der Wahlprognose kennen wir das Ergebnis bei der letzten Wahl genau und erfragen das Wahlverhalten bei der letzten Wahl 1. Einführung 26
Auswahlform 5 : Zweiphasige Stichprobe Situation wie bei 5, aber X ist unbekannt Wir nehmen an, dass X relative günstig erhoben werden kann In Phase 1 ziehen wir eine Stichprobe und schätzen X In Phase 2 gehen wir vor wie in 5 1. Einführung 27
Auswahlform 6: Capture-Recapture Wie viele Ratten gibt es in New York? Fange 1000 Ratten Markiere diese und lasse Sie wieder frei Fange nach einem Monat wieder 1000 Ratten Wie viele sind davon markiert? 1. Einführung 28