Analytische Statistik II



Ähnliche Dokumente
Inferenzstatistik (=schließende Statistik)

Statistik für SozialwissenschaftlerInnen II p.85

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Statistische Grundlagen I

Ringvorlesung Einführung in die Methoden der empirischen Sozialforschung II

Analytische Statistik II

TEIL 13: DIE LINEARE REGRESSION

TEIL 13: DIE EINFACHE LINEARE REGRESSION

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Beschreibende Statistik Deskriptive Statistik. Schließende Statistik Inferenzstatistik. Schluss von der Stichprobe auf die Grundgesamtheit

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

3 Konfidenzintervalle

Statistik für NichtStatistiker

Deskriptive Statistik

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Inzidenz = Penetration: Welche Stichprobe ist realistisch?

Statistik K urs SS 2004

825 e 290 e 542 e 945 e 528 e 486 e 675 e 618 e 170 e 500 e 443 e 608 e. Zeichnen Sie das Box-Plot. Sind in dieser Stichprobe Ausreißer vorhanden?

Von der Normalverteilung zu z-werten und Konfidenzintervallen

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Konfidenzintervalle so einfach wie möglich erklärt

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

Ü b u n g s b l a t t 15

Auswertung und Lösung

4b. Wahrscheinlichkeit und Binomialverteilung

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Brückenkurs Statistik für Wirtschaftswissenschaften

Elisabeth Aufhauser, unveröffentlichter Text Unterrichtsmaterial Statistik-UE für Soziologie

Wahrscheinlichkeitsverteilungen

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Test auf einen Anteilswert (Binomialtest) Vergleich zweier Mittelwerte (t-test)

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

N

Mittelwertvergleiche, Teil II: Varianzanalyse

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Stichwortverzeichnis. Symbole

Mittelwertvergleiche, Teil I: Zwei Gruppen

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Allgemeines zu Tests. Statistische Hypothesentests

Übungsaufgaben zu Statistik II

Sigma-Umgebung. Vergleichen wir die beiden Binomialverteilungen: n = 30 p = 0,5. n = 20 p = 0,75

Kapitel 2 Wahrscheinlichkeitsrechnung

Die Korrelation von Merkmalen

Statistik I. Methodologie der Psychologie

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Herzlich willkommen zum Thema SPSS

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Statistische Methoden in den Umweltwissenschaften

SozialwissenschaftlerInnen II

Statistische Tests für unbekannte Parameter

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Mathematische und statistische Methoden I

Stichprobenverteilung bei unterschiedlichen Auswahlsätzen

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Dr. H. Grunert Schließende Statistik Vorlesungscharts. Vorlesung 7. Schätzverfahren

Statistische Tests für unbekannte Parameter

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

6. Übung Statistische Tests Teil 1 (t-tests)

VS PLUS

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

So berechnen Sie einen Schätzer für einen Punkt

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Statistische Methoden in den Umweltwissenschaften

5. Seminar Statistik

1. Einführung in die induktive Statistik

Jost Reinecke. 7. Juni 2005

Statistik II: Grundlagen und Definitionen der Statistik

Brückenkurs Statistik für Wirtschaftswissenschaften

Medizinische Statistik

3.Wiederholung: Toleranzbereiche Für EX Geg:

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Stetige Wahrscheinlichkeitsverteilung

Die richtige Wahl von Verteilungen

Kapitel VI - Lage- und Streuungsparameter

Auszug aus Workbook Moderne Methoden der Statistischen Tolerierung TQU Verlag

Übungen mit dem Applet Zentraler Grenzwertsatz

Analyse von Querschnittsdaten. Signifikanztests I Basics

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Kapitel 2. Fehlerrechnung

Statistik, Geostatistik

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

1. Statistische Grundlagen: Überblick

Meßprozeß, Meßfehler und Statistik

Anpassungstests VORGEHENSWEISE

Mathematische und statistische Methoden II

Transkript:

Analytische Statistik II Institut für Geographie 1

Schätz- und Teststatistik 2

Grundproblem Generell sind wir nur selten in der Geographie in der Lage, Daten über die Grundgesamtheit zur Verfügung zu haben. Solche Ausnahmen sind z.b. Auswertung der amtlichen Gemeindestatistik der Gemeinden in Baden- Württemberg Auswertung der statistischen Kennziffern wirtschaftlichen Wachstums der Länder der Welt nach den Daten des Demographic Yearbook Daher: in der Regel Arbeit mit Stichproben, z.b. Befragung von 1050 Münsteranern zum demographischen Wandel 2008 Befragung von 1060 Touristen im Sauerland 1996 Eigentlich möchte man jedoch oft nicht nur über diese Stichprobe, d.h. über die befragten Personen Aussagen machen, sondern über alle, also über die Grundgesamtheit. Die statistische Methodik hat den Anspruch, nicht nur für die befragten Fälle zu sprechen, sondern in stärkerem Maße allgemeingültige Ergebnisse zu erzielen. 3

Es sind konkret vor allem zwei Problemstellungen, die dabei immer wieder vorkommen und bei denen die Statistik eine entscheidende Hilfestellung leisten kann: 1. Man will ausgehend von dem uns bekannten statistischen Kennwerten in der Stichprobe den nicht bekannten Parameter der Grundgesamtheit schätzen z.b. wollen wir von den Angaben von etwa 1000 Ausflüglern auf die Einstellung aller Touristen im Sauerland zurückschließen, z.b. auf deren Herkunftsgebiete, Urlaubsmotive etc.. D.h. wir möchten mit Hilfe der Zufallsstichprobe unbekannte Parameter der Grundgesamtheit schätzen. Ein solches Verfahren bezeichnet man als statistischen Induktionsschluß, den Teilbereich der Statistik, derie sich damit beschäftigt, dementsprechend als induktive Statistik (Schätzstatistik). 2. Man möchte testen, ob Unterschiede bei den gleichen Kennwerten verschiedener Stichproben wegen ihrer Geringfügigkeit als zufällig gelten müssen oder ob sie so groß sind, dass sie nicht zufällig sein können, d.h. dass sie im statistischen Sinne als signifikante Unterschiede angesehen werden müssen. Entsprechende Tests z.b. auf signifikante Unterschiede fallen in den Bereich der Teststatistik 4

Schätzstatistik 5

Fallbeispiel: Dauercamper am Biggesee N = 100 Durchschnittliche Anfahrtsentfernung = 60 km Standardabweichung = 10 km 6

Stichprobenfehler Im Falle einer Zufallsstichprobe gilt, das das arithmetische Mittel der Stichprobe ungefähr den wahren Wert in der Grundgesamtheit repräsentiert. Allerdings gibt es immer einen zufälligen Unterschied zwischen Grundgesamtheit und Stichprobe, selbst wenn letztere repräsentativ ist, d.h. einem Zufallsauswahlverfahren gefolgt ist. Claus und Ebner sagen dazu: Jedes Stichprobenergebnis ist bis zu einem gewissen Grade vom Zufall abhängig und dadurch mit einem Fehler behaftet. Es informiert über den entsprechenden Parameter der zuständigen Grundgesamtheit nur mehr oder weniger genau. Jede Zufallsstichprobe ist also mit einem sog. Stichprobenfehler ei behaftet. Darunter versteht man die Differenz zwischen dem statistischen Kennwert der Stichprobe und dem entsprechenden Parameter der Grundgesamtheit. 7

Wovon hängt die Größe des Stichprobenfehlers ab? a) von der Größe der Stichprobe b) von der Streuung des Merkmals in der Grundgesamtheit 8

Wovon hängt die Größe des Stichprobenfehlers ab? konkret: a) je größer die Stichprobe, desto kleiner wird der Stichprobenfehler (je kleiner die Stichprobe, desto größer der Stichprobenfehler)(indirekt proportionales Verhältnis) b) je größer die Streuung, desto größer der Stichprobenfehler (je kleiner die Streuung, desto kleiner der Stichprobenfehler)(direkt proportionales Verhältnis) Folge: Wenn man eine Stichprobe hat und kennt deren Mittelwert, kann man daraus nicht genau auf den exakten Mittelwert der Grundgesamtheit zurückschließen 9

Schätzung von Parametern mit Hilfe von Stichprobenbefunden Es gibt zwei Verfahren, mit Hilfe der statistischen Kennwerte von Stichproben auf die unbekannten Parameter der Grundgesamtheit zu schließen, ein empirisches und ein theoretisches. a) empirische Bestimmung, umständlich aber zunächst sehr einleuchtend b) rechnerische Bestimmung, relativ einfach auszurechnen, aber mathematisch für Laien etwas schwierig nachvollziehbar 10

a) empirische Bestimmung Man kann wiederholt (Zufalls-)Stichproben gleichen Umfangs aus der Grundgesamtheit ziehen und dabei jedesmal dieselben Merkmale messen (erfragen). Die Mittelwerte der verschiedenen Stichproben unterscheiden sich voneinander. Jede Stichprobe ist mit einem ihr eigen großen Stichprobenfehler behaftet. Diese Mittelwerte kann man auch graphisch darstellen. Sie bilden dann die sog. Stichprobenverteilung des arithmetischen Mittels dar. Diese Verteilung (d.h. die Verteilung der Mittelwerte der einzelnen Stichproben) besitzt ihrerseits wieder einen eigenen Mittelwert (xquerquer: der Mittelwert der einzelnen Mittelwerte), der den genauesten Schätzwert für den (unbekannten) Parameter der Grundgesamtheit darstellt. Dabei gilt: je dichter die Kennwerte der einzelnen Stichproben beieinander liegen, desto geringer ist ihre Streuung, desto zuverlässiger lässt sich mit ihrer Hilfe der unbekannte Parameter der Grundgesamtheit schätzen. Umgekehrt: Dabei gilt: Je größer die Streuung der Mittelwerte, desto größer die Standardabweichung, desto weniger exakt ist ein Rückschluß auf den entsprechenden Parameter in der Grundgesamtheit möglich. 11

Diese Beobachtungsergebnisse lassen sich auch graphisch darstellen: Zieht man unendlich viele Teilstichproben gleicher Größe und zeichnet deren Mittelwerte in einem Häufigkeitsdiagramm auf, so entsprechen Häufigkeit und Verteilung der Mittelwerte bei unendlich vielen solcher Stichproben am Ende einer mathematischen Normalverteilung Diese Normalverteilung besteht für statistische Kennwerte auch dann, wenn die Werte des gemessenen Merkmals in der Stichprobe selbst nicht normal verteilt sind Auf dem Gipfelpunkt dieser Normalverteilung befindet sich dann der wahre Mittelwert der Grundgesamtheit a) empirische Bestimmung 12

b) Mathematische Bestimmung durch Schätzung Will man nicht (unendlich) viele Stichproben ziehen, um den wahren Mittelwert der Grundgesamtheit zu ermitteln, sondern ihn aus einer Stichprobe ableiten, gelten folgende Denkschritte: Im Falle einer Zufallsstichprobe gilt, das das arithmetische Mittel der Stichprobe ungefähr den wahren Wert in der Grundgesamtheit repräsentiert. Allerdings ist aufgrund der Überlegungen zum Stichprobenfehler klar, dass er diesen nie genau trifft Aufgrund der Bedingungen unter der Normalverteilung kann aber mit 68prozentiger Wahrscheinlichkeit erwartet werden, dass die arithmetischen Mittelwerte weiterer Stichproben aus derselben Grundgesamtheit (und damit auch der wahre Wert der Grundgesamtheit) in einem Intervall liegen, das zwischen dem Mittelpunkt der entsprechenden Normalverteilung und ihren beiden Wendepunkten liegt Wie kommt man an die mathematische Bestimmung dieses Wendepunktes? -> Bestimmung des Standardfehlers 13

Mathematische Gesetze für die Normalverteilung Bei der Normalverteilung gilt (wie nicht näher abgeleitet werden soll): Der Gipfelpunkt ist der arithmetische Mittelwert der Verteilung Die Wendepunkte errechnen sich durch Subtraktion und Addition der Standardabweichung des Mittelwertes (Standardfehler) vom Mittelwert. Zwischen diesen beiden Wendepunkten liegen 68% der erwartbaren Werte. 14

15

Dabei gibt es eine Reihe interessanter Schwellenwerte, die alle in Beziehung zur Standardabweichung stehen. Es gilt im einzelnen: µ +/- 1 σ µ +/- 1,64 σ µ +/- 1,96 σ µ +/- 2 σ µ +/- 2,58 σ µ +/- 3 σ µ +/- 3,29 σ = 68% der Werte = 90% der Werte = 95% der Werte. = 95,45% der Werte = 99% der Werte = 99,73% der Werte = 99,9% der Werte Für die Berechnung von Schätzintervallen wird (bei Vorhandensein einer repräsentativen Zufallsstichprobe) das arithmetische Mittel sowie der Standardfehler zur Berechnung eingesetzt 16

Schätzen von Prozentwerten bei nicht metrisch skalierten Variablen (bzw. von Vertrauensintervallen für Prozentwerte) Die bisherigen Überlegungen bezogen sich auf quantitativ meßbare, also metrische Merkmale. Sie lassen sich natürlich vom Prinzip her auch auf nominal oder ordinal skalierte Merkmale anwenden. In diesem Falle müssen anstelle arithmetischer Mittelwerte Vertrauensintervalle für Schätzwerte ermittelt werden. Entsprechend kann man die für die Schätzung notwendigen Berechnungen nicht nach derselben Formel wie für metrisch skalierte Daten durchführen, sondern muss ein leicht abgewandeltes Verfahren anwenden, um den notwendigen Standardfehler (hier: den Standardfehler des Prozentwertes) Mit dessen Hilfe können dann im zweiten Schritt die Vertrauensintervalle bei einer bestimmten, vorgegebenen Irrtumswahrscheinlichkeit angegeben werden können. Dieses Verfahren läuft analog zur Schätzung von Mittelwerten. 17

18

σ ( p) p 100 p n s = p S p = Standardfehler des Prozentwertes p = prozentuale Häufigkeit des Merkmals in der Grundgesamtheit, (40% Antworthäufigkeit wird entsprechend zum Wert p 40) 100 - p = Komplementärwahrscheinlichkeit aller anderen Alternative(n) bei den genannten Antworten (bzw. Merkmalsausprägungen beim gemessenen Merkmal etc.) p + (100-p) ergeben demnach die Summe 100 Die Formel ist nicht anwendbar, wenn die Stichprobe sehr klein ist, und wenn p sehr nah bei 50% liegt (d.h. wenn die in der Befragung genannten Unterschiede zwischen p und seiner Alternative nicht-p ebenfalls sehr klein sind). Dies ist einsichtig, weil dann sowohl die Stichprobe wie Unterschiede in der Merkmalsausprägung so minimal sind, daß die Unterschiede mit größter Wahrscheinlichkeit zufällig sind. In diesem Falle kann die Formel keine aussagefähige Trennschärfe mehr erzielen. 19