Forschungsstatistik I

Ähnliche Dokumente
Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden II

Forschungsstatistik I

Forschungsstatistik I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Forschungsstatistik II

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden II

Forschungsstatistik II

Forschungsstatistik I

VS PLUS

Statistisches Testen

Forschungsstatistik I

Mathematische und statistische Methoden II

Anpassungstests VORGEHENSWEISE

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Forschungsstatistik I

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Parametrische und nichtparametrische Tests

Primer: Inferenzstatistik 1.0

Mathematische und statistische Methoden II

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

5. Seminar Statistik

Häufigkeitsverteilungen

Wahrscheinlichkeitsverteilungen

Multivariate Verfahren

Mathematische und statistische Methoden II

Forschungsstatistik I

Forschungsstatistik I

10. Medizinische Statistik

SozialwissenschaftlerInnen II

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Klassifikation von Signifikanztests

Konkretes Durchführen einer Inferenzstatistik

Klausur zur Vorlesung

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Mathematische und statistische Methoden II

2. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Mathematische und statistische Methoden II

Mathematische und statistische Methoden I

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Aufgaben zu Kapitel 4

Statistische Methoden in den Umweltwissenschaften

Lösung Übungsblatt 5

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

3 Grundlagen statistischer Tests (Kap. 8 IS)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Die Familie der χ 2 (n)-verteilungen

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Statistische Tests (Signifikanztests)

Regression und Korrelation

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Chi-Quadrat Verfahren

Forschungsstatistik I

Übungen mit dem Applet

Statistik II. IV. Hypothesentests. Martin Huber

3 Evaluation als Beschreibung von Zuständen

8 Stichprobenkennwerteverteilung

Statistische Methoden in den Umweltwissenschaften

Klausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am von 10:00 bis 11:00 Uhr

Kapitel 4: Merkmalszusammenhänge

Forschungsstatistik I, WS2008/2009

Wahrscheinlichkeitsrechnung und Statistik

Test auf den Erwartungswert

SozialwissenschaftlerInnen II

Forschungsstatistik I

Auswertung und Lösung

Inhaltsverzeichnis. Vorwort

Brückenkurs Statistik für Wirtschaftswissenschaften

Multivariate Verfahren

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

Parametrische vs. Non-Parametrische Testverfahren

Mathematische und statistische Methoden II

VS PLUS

Forschungsstatistik I

Vorlesung: Statistik II für Wirtschaftswissenschaft

Lösungen zu den Übungsaufgaben in Kapitel 10

Stichproben Parameterschätzung Konfidenzintervalle:

Transkript:

Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2009/2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Test der Statistischer Test der Fragestellung Neben der Aussage über die Nützlichkeit eines Prädiktors ist man oft daran interessiert, ob er überhaupt mit dem Kriterium zusammenhängt Grundgedanke: d Ein Prädiktor, der in keiner Verbindung zum Kriterium steht, sollte den Wert b j = 0 haben. Ein Prädiktor, der an der Veränderung des Kriteriums beteiligt ist, sollte einen Wert b j 0 haben. Problem: Allein aufgrund der zufälligen Auswahl der Merkmalsträger für die Stichprobe wird ein b-gewicht niemals perfekt Null sein. Frage: Wie unterschiedlich zu Null muss ein b-gewicht Frage: Wie unterschiedlich zu Null muss ein b Gewicht sein, damit wir begründet annehmen können, dass diese Abweichung nicht zufällig ist?

Test der Statistischer Test der Grundannahmen Die Häufigkeitsverteilung einer Variablen ist oft nicht vollkommen zufällig, sondern folgt einer systematischen Form Beispiele: Körpergrößen, IQ, Augensummen beim Wurf zweier Würfel Oftmals lässt sich die Form einer solchen Häufigkeitsverteilung theoretisch durch eine mathematische Formel beschreiben. Beispiel Normalverteilung: f ( x ) 1 = e σ 2π 1 x μ 2 σ 2

Test der Statistischer Test der Grundannahmen Die Häufigkeitsverteilung einer Variablen ist oft nicht vollkommen zufällig, sondern folgt einer systematischen Form Beispiele: Körpergrößen, IQ, Augensummen beim Wurf zweier Würfel Oftmals lässt sich die Form einer solchen Häufigkeitsverteilung theoretisch durch eine mathematische Formel beschreiben. Beispiel χ²-verteilung: f ( x ) = x 2 n x 1 2 2 n 2 e Γ ( n ) 2

Test der Statistischer Test der Grundannahmen χ²-verteilung Normalverteilung

Test der Statistischer Test der Beispiel Körpergrößen von deutschen Frauen sind etwa wie folgt verteilt: Relative e Häufigkeit 35% 30% 25% 20% 15% 10% 5% 0% Körpergrößenverteilung deutscher Frauen Normalverteilung Körpergröße Ist eine Körpergröße von h=170cm typisch? Wie ist es mit einer Körpergröße von h=120cm?

Statistischer Test der Prinzip des Tests Test der Wenn eine im Experiment beobachtete Ausprägung g zu unwahrscheinlich ist, um unter der gegebenen Häufigkeitsverteilung zu entstehen, kann sie als nicht zu dieser Verteilung gehörig betrachtet werden. Dabei wird immer die theoretische Häufigkeitsverteilung als Vergleich gewählt, nicht die empirisch erhaltene (fehlerbehaftete) Bezogen auf die b- fragen wir uns also: Angenommen, ein b itt ist tatsächlich t h Null, wie wahrscheinlich ist dann das an den Stichprobendaten gemessene b? Problem: Wie gelangt man an die theoretische Häufigkeitsverteilung der b-?

Statistischer Test der Häufigkeitsverteilung transformierter Daten Test der Ausgangslage: g g Man habe am einer Stichprobe Messwerte erhoben, die einer bestimmten theoretischen Häufigkeitsverteilung folgen Transformation: Man bildet aus diesen Daten ein aggregiertes Maß Beispiele: Mittelwert, Standardabweichung, χ²-wert, b- Oft kann in einem solchen Fall die theoretische ti h Häufigkeitsverteilung des aggregierten Maßes bestimmt werden, teilweise erst nach einer weiteren mathematischen Transformation des Maßes

Statistischer Test der Berechnung der Auftretenswahrscheinlichkeit Test der Man berechne: Prüfgröße n k F ( ) 2 = β β j 1 2 rjj Regressionsgewicht Transformationsterm (Verteilung (zur unbekannt) F-Verteilung) 1 mit df Zähler = 1 ( 1 R ) und dfnenner = n k 1 n ist die Stichprobengröße, k die Anzahl der Prädiktoren r -1 jj ist das Diagonalelement j in der inversen Korrelationsmatrix, R² der multiple Determinationskoeffizient Die Prüfgröße folgt einer theoretischen Häufigkeitsverteilung, die F-Verteilung genannt wird Die F-Verteilung hat zwei Parameter, nämlich die so genannten Zähler und Nenner-Freiheitsgrade

Test der Statistischer Test der Die F-Verteilung Zähler FG Nenner FG

Test der Statistischer Test der Bewertung der Auftretenswahrscheinlichkeit Die Freiheitsgrade sind einfach Zahlen, die die konkrete Form der theoretischen Häufigkeitsverteilung festlegen ( wie schief ist die Verteilung? ) Man berechnet zunächst die Prüfgröße F(β) Mithilfe der F-Verteilung kann berechnet werden, welche Wahrscheinlichkeit das Auftreten dieses Wertes hat Dies ist gleichzeitig die Wahrscheinlichkeit für den gemessenen oder einen noch extremeren Wert für β, unter der Annahme, dass das β in Wahrheit 0 ist. Die Aussage kann direkt auf das zugehörige b Gewicht Die Aussage kann direkt auf das zugehörige b-gewicht übertragen werden.

Test der Statistischer Test der Bewertung der Auftretenswahrscheinlichkeit Ist die berechnete Wahrscheinlichkeit zu klein, weicht der b-parameter vermutlich eher nicht zufällig von 0 ab, sondern systematisch. Er ist dann statistisch signifikant von 0 verschieden. Problem: Wie klein ist zu unwahrscheinlich? Hier haben sich in der Praxis zwei Cut-Off Werte eingebürgert, die als α Niveaus bezeichnet werden. Es gilt: α 0.05 statistisch nicht signifikant α < 0.05 statistisch signifikant α < 0.01 statistisch hochsignifikant

Test der Statistischer Test der Voraussetzungen Der statistische Test der Regressionsgewichte g ist nur dann gültig, wenn die Prüfgröße tatsächlich einer F- Verteilung folgt. Dies kann immer dann angenommen werden wenn die Häufigkeitsverteilungen der Messwerte der Prädiktoren multivariat normalverteilt sind (statistisch sehr schwierige Prüfung) Als Faustregel gilt: Bei n > 20 und k < 10 ist die Annahme der F-Verteilung hinreichend i h gut begründet

Grundlagen Nichtlineare Regression Grundlagen Linearisierbare Bei einer Reihe psychologischer py Fragestellungen g ergeben Formen sich nichtlineare Zusammenhänge zwischen UV & AV. Polynome Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen: 1. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen 2. Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

Grundlagen Nichtlineare Regression Linearisierbare und polynomische Formen Linearisierbare Fall 1: Linearisierende Transformation, z.b. Formen ˆ ( ) ln ˆ ln ln ln 0 0 1 y = b xb1 y = b + b x ( ) ( ) ( ) Polynome (hier nicht behandelt) Fall 2: Nicht (einfach) linearisierbar ŷ = b + b x+ b x 0 1 2 2

Grundlagen Nichtlineare Regression 1 Beispiel: Logistische Regression 0.8 Linearisierbare Formen Gemessene Daten verlaufen ogivenförmig und variieren 0.6 04 0.4 0.2 Polynome zwischen 0 und 1 0 Umformung der y-werte durch Logarithmieren bewirkt eine Linearisierung der Daten Mithilfe dieser neuen y-werte kann eine lineare Regression bestimmt werden, um die Parameter b 0 und b 1 zu errechnen 0 10 20 30 40 6 4 2 0-20 -2 0 20 40 60-4 -6-8

Grundlagen Linearisierbare Formen Polynome Polynomische Regression Grundlagen und Durchführung Häufig können Merkmalszusammenhänge durch Polynome 2. oder 3. Ordnung gut beschrieben werden, d.h. oder ŷ = b + b x+ b x 0 1 2 ŷ = b + b x+ b x + b x 2 3 0 1 2 3 2 Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst.

Grundlagen Linearisierbare Formen Polynome Polynomische Regression Grundlagen und Durchführung Eine solche polynomische Regression wird berechnet, indem die transformierten Prädiktorterme bestimmt werden Dann wird eine übliche lineare multiple Regression durchgeführt Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen Es können alle von und Gütemaße der multiplen Regression bestimmt werden. Die polyn. Regression ist auch über die KQ-Methode p y g Q (inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.