Statistische Methoden in den Umweltwissenschaften

Ähnliche Dokumente
Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften

Statistik II. IV. Hypothesentests. Martin Huber

Vergleich von Gruppen I

SozialwissenschaftlerInnen II

Chi-Quadrat-Verteilung

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Einfache Varianzanalyse für unabhängige Stichproben

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Bereiche der Statistik

Statistik II. Weitere Statistische Tests. Statistik II

Statistische Tests für unbekannte Parameter

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Einfaktorielle Varianzanalyse

Statistik II. IV. Hypothesentests. Martin Huber

Inhaltsverzeichnis. Vorwort

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Wahrscheinlichkeitsverteilungen

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Statistische Tests für unbekannte Parameter

SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests. H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab.

Vorlesung: Statistik II für Wirtschaftswissenschaft

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Grundlagen sportwissenschaftlicher Forschung Inferenzstatistik 2

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Statistik I für Betriebswirte Vorlesung 14

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Kapitel 5 - Einfaktorielle Experimente mit festen und zufälligen Effekten

1. Grundbegri e der Stochastik

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Kapitel 5 - Einfaktorielle Experimente mit festen und zufälligen Effekten

Schließende Statistik

Die Familie der χ 2 (n)-verteilungen

Stichproben Parameterschätzung Konfidenzintervalle:

Fallzahlplanung bei unabhängigen Stichproben

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Statistics, Data Analysis, and Simulation SS 2017

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistische Tests (Signifikanztests)

Jost Reinecke. 7. Juni 2005

Klassifikation von Signifikanztests

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Mathematik 2 für Naturwissenschaften

Mathematik 2 für Naturwissenschaften

Klassifikation von Signifikanztests

Mehrfaktorielle Varianzanalyse

GRUNDPRINZIPIEN statistischen Testens

Statistik für Naturwissenschaftler

Auswertung und Lösung

Fit for Abi & Study Stochastik

Modul 141 Statistik. 1. Studienjahr 11. Sitzung Signifikanztests

SPSS III Mittelwerte vergleichen

Statistisches Testen

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Mathematische und statistische Methoden II

ANOVA und Transformationen. Statistik II

Vorlesung: Statistik II für Wirtschaftswissenschaft

Analyse von Querschnittsdaten. Signifikanztests I Basics

Statistik und Wahrscheinlichkeitsrechnung

Einführung in die Varianzanalyse mit SPSS

Statistische Messdatenauswertung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Inhaltsverzeichnis Einführung und deskriptive Statistik Grundlagen der Inferenzstatistik 1: Zufallsvariablen

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

3 Grundlagen statistischer Tests (Kap. 8 IS)

Statistik II für Betriebswirte Vorlesung 1

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeit und Statistik: Zusammenfassung

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

a) Man bestimme ein 95%-Konfidenzintervall für den Anteil der Wahlberechtigten, die gegen die Einführung dieses generellen

Mathematische und statistische Methoden II

5. Seminar Statistik

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Kategoriale und metrische Daten

Willkommen zur Vorlesung Statistik (Master)

Zentraler Grenzwertsatz/Konfidenzintervalle

Allgemeines zu Tests. Statistische Hypothesentests

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Beispiel 1: Zweifache Varianzanalyse für unabhängige Stichproben

Willkommen zur Vorlesung Statistik (Master)

Alternative Darstellung des 2-Stcihprobentests für Anteile

Prüfungsliteratur: Rudolf & Müller S

Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn Referenten: Belinda Höher, Thomas Holub, Maria Böhm.

Einfaktorielle Varianzanalyse

JosefPuhani. Kleine Formelsammlung zur Statistik. 10. Auflage. averiag i

Statistik II Übung 3: Hypothesentests

Statistik II Übung 3: Hypothesentests Aktualisiert am

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Einführung in Quantitative Methoden

2.3 Intervallschätzung

Transkript:

Statistische Methoden in den Umweltwissenschaften t-test Varianzanalyse (ANOVA)

Übersicht Vergleich von Mittelwerten 2 Gruppen: t-test einfaktorielle ANOVA > 2 Gruppen: einfaktorielle ANOVA

Seeigel und Seegräser Mittelmeer: Der Seeigel Paracentrotus lividus beweidet Posidonia oceanica

Seeigel und Seegräser Nullhypothese: m 1 m 2 Die Seegrasdichten im Gebiet mit Seeigeln und ohne Seeigel unterscheiden sich nicht. (m 1 = m 2 )

Frage: IOW-Statistikseminar: 3. Veranstaltung Prinzipien der Varianzanalyse ANOVA: Beispiel Haben Seeigel einen Einfluss auf die Sprossdichte der Seegräser? Biologischer Hintergrund: Seeigel beweiden Seegräser, könnten aber auch das Wachstum über ihre Exkretionen fördern. Experiment: Manipulation der Seeigeldichte: Präsenz, Absenz

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Frage: Gibt es einen signifikanten Unterschied in den Mittelwerten dieser beiden Gruppen, wobei der Mittelwert aus je 5 Replikaten ermittelt wurde? Nullhypothese: H 0 : m1 = m2

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Nullhypothese: H 0 : m1 = m2 Achtung: Nicht nur der absolute Unterschied zwischen den Mittelwerten ist entscheidend, sondern auch die Stärke der Streuung der Messwerte um die Mittelwerte!

Streuungsparameter Die Varianz ist ein Maß für die Streuung der Einzelwerte x i um den Mittelwert m Varianz ist das Quadrat der Standardabweichung Varianz ist die mittlere Summe der Abweichungsquadrate ² = n i= 1 s ( xi m)² (n 1) Summe der Abweichungsquadrate ( Quadratsumme, SS, SQ ) Anzahl der Freiheitsgrade df Mittelwert und Varianz sind Kenngrößen der Normalverteilung!!!

Normalverteilung Dichtefunktion f(x) = σ 1 2π exp 1 2 x σ μ 2-3σ -2σ -σ μ 1σ 2σ 3σ Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² Symmetrisch um µ Nur abhängig von µ und σ 68,72% der Werte liegen im Bereich [- σ, σ ]

Beispiel: Ergebnisse 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Gruppe n Messwerte Ja 5 15 ; 17 ; 18 ; 20 ; 21 Nein 5 31 ; 37 ; 38 ; 40 ; 45

Aufteilung der Varianzen Gesamtvarianz = Varianz zwischen den Gruppen + Varianz innerhalb der Gruppen Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16

Aufteilung der Varianzen Gruppe Ja Einzelvarianz ja = 6 Einzelvarianz nein = 26 Gesamtvarianz = 1000 Alle Messwerte Gruppe Nein µ Ja =18 µ Gesamt =28 µ nein =38

Varianz innerhalb der Gruppen Mittlere Einzelvarianz der Gruppen (= Varianz innerhalb der Gruppen): Zufällige Streuung, die durch unbekannte Faktoren entsteht (wie z.b. genotypische Unterschiede zwischen den Pflanzen) Unerklärte Varianz oder Residualvarianz Gruppe n df Mittelwert Varianz Ja 5 4 18,2 6 Nein 5 4 38,2 26 Mittlere Einzelvarianz 16 (6+26) / 2 = 16 Wenn H 0 richtig ist (m 1 = m 2 ), dann ist die Abweichung (Varianz) zwischen den beiden Gruppenmittelwerten rein zufällig (klein), d.h. nicht (viel) größer als die mittlere Einzelvarianz.

Varianz zwischen und innerhalb der Gruppen Streuung ist gleich groß oder größer als die Differenz der Mittelwerte H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = klein Mittlere Einzelvarianz innerhalb der Gruppen = klein Differenz der Mittelwerte ist groß, die Streuung ist klein: H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = groß Mittlere Einzelvarianz innerhalb der Gruppen = klein

Varianz zwischen und innerhalb der Gruppen H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = 37 Mittlere Einzelvarianz innerhalb der Gruppen = 30 H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = 984 Mittlere Einzelvarianz innerhalb der Gruppen = 16

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 Bildung des Varianzverhältnisses!!!

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 37 Verhältnis = = 1,2 = 30 klein Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 984 Verhältnis = = 61,5 = groß 16 Bildung des Varianzverhältnisses!!!

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 37 Verhältnis = = 1,2 = 30 klein H 0 annehmen? m 1 = m 2 Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 984 Verhältnis = = 61,5 = groß 16 H 0 ablehnen? m 1 m 2

F-Verhältnis Varianzquotient F: F-Verhältnis = Varianz zwischen Gruppe 1 und Gruppe 2 Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher muss H 0 abgelehnt werden

F als Testgröße F 1 Wenn beide Stichproben aus derselben Grundgesamtheit stammen Beide Varianzkomponenten schätzen dieselbe Varianz, nämlich die der Grundgesamtheit Um wieviel muss F größer als 1 sein, damit wir H 0 ablehnen können?

F-Verteilung Aus der Gesamtpopulation werden alle möglichen Kombinationen von 2 Stichproben (Gruppen) des Umfanges n=5 gezogen Für jeden Satz wird das F-Verhältnis ausgerechnet Gesamtpopulation n alle Messwerte 10 15 ; 17 ; 18 ; 20 ; 21 ; 31 ; 37 ; 38 ; 40 ; 45

F-Verteilung Eine mögliche Kombinbation der Werte = tatsächliche Messwerte F = 61,5 Gruppe n Messwerte Ja 5 15 ; 17 ; 18 ; 20 ; 21 Nein 5 31 ; 37 ; 38 ; 40 ; 45 Eine andere mögliche Kombination der Werte F = 0,237 Gruppe n Messwerte Ja 5 37 ; 17 ; 18 ; 20 ; 40 Nein 5 31 ; 15 ; 38 ; 21 ; 45

F-Verteilung Die relative Häufigkeitsverteilung der F-Werte ist die gesuchte Stichprobenverteilung Fisher konnte zeigen, dass die Stichprobenverteilung einer bestimmten theoretischen Verteilung folgt Funktion(F) ist abhängig von der Anzahl der Gruppen (df zwischen den Gruppen) und der Größe des Stichprobenumfanges (df innerhalb der Gruppen) In unserem Beispiel: 2 Gruppen df = 1 Je 5 Replikate df = 2 (n-1) = 8 F (1, 8)

F-Verteilung (1, 8) Wahrscheinlichkeitsdichte der F-Verteilung df(seq(0,10,0.1),df1=1,df2=8) Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen F = 6, d.h. die Varianz zwischen den Gruppen ist 6 mal größer als die Varianz innerhalb der Gruppen

F-Verteilung (1, 8) Die Auftretwahrscheinlichkeit von F 6 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 6 und entspricht 4%. Wahrscheinlichkeiten der F-Verteilung q = 1-pf(6,1,8)= 0.0399 F = 6, d.h. die Varianz zwischen den Gruppen ist 6 mal größer als die Varianz innerhalb der Gruppen

Kritische F-Werte Wo liegt der kritische F-Wert? F krit 0,05 = 5,3 Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha. 5% der Fläche

Voraussetzungen der ANOVA Unabhängigkeit der Stichproben Normalverteilung Homogene (ähnliche) Varianzen

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 25 x 15 cm 1: keine 2: mittel 3: hoch Experiment: Manipulation der Seeigeldichte (keine, mittel, hoch) Frage: Gibt es einen signifikanten Unterschied in den Mittelwerten dieser drei Gruppen, wobei der Mittelwert aus je 5 Replikaten ermittelt wurde? Nullhypothese: H 0 : m1 = m2 = m3

Beispiel: Ergebnisse 25 x 15 cm 25 x 15 cm 25 x 15 cm 1: keine 2: mittel 3: hoch Experiment: Manipulation der Seeigeldichte (keine, mittel, hoch) Gruppe n Messwerte keine 5 15 ; 17 ; 18 ; 20 ; 21 mittel 5 13 ; 20 ; 22 ; 25 ; 28 hoch 5 31 ; 37 ; 38 ; 40 ; 45

Aufteilung der Varianzen Gesamtvarianz = Varianz zwischen den Gruppen + Varianz innerhalb der Gruppen Varianz zwischen den Gruppen = 573 Varianz innerhalb der Gruppen = 21

Betrachtung der Varianzen Gruppe keine Einzelvarianz keine =6 Einzelvarianz mittel =33 Einzelvarianz hoch =25 Gesamtvarianz=100 Gruppe mittel Gruppe hoch Alle Messwerte µ 1 =18 µ 2 =22 µ Gesamt =28 µ 3 =38

Varianz innerhalb der Gruppen Mittlere Einzelvarianz der Gruppen: Zufällige Streuung, die durch unbekannte Faktoren (wie z.b. genotypische Unterschiede zwischen den Pflanzen) entsteht Unerklärte Varianz oder Residualvarianz Gruppe N df Mittelwert Varianz mittlere Varianz keine 5 4 18,2 6 mittel 5 4 21,6 33 21 hoch 5 4 38,2 25 (6+33+25) / 3 = 21

Varianz zwischen und innerhalb der Gruppen H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = klein Mittlere Einzelvarianz innerhalb der Gruppen = klein H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = groß Mittlere Einzelvarianz innerhalb der Gruppen = klein

Varianz zwischen und innerhalb der Gruppen Kann H 0 abgelehnt werden? Varianz zwischen Gruppe 1 und Gruppe 2 = 573 Mittlere Einzelvarianz innerhalb der Gruppen = 21 573 / 21 = 27.3

F-Verhältnis Varianzquotient F: F-Verhältnis = Varianz zwischen den Gruppen Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher muss H 0 abgelehnt werden

F als Testgröße Um wieviel muss F größer als 1 werden, damit wir H 0 ablehnen können? Was ist der kritische F-Wert? Beispiel: wenn F > 3,9 kann H 0 abgelehnt werden (F-Verteilung mit df 1 =2 und df 2 =12) F = 27.3 Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,05).

50 Ergebnis der ANOVA Sprossdichte der Seegräser 40 30 20 10 Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,05). 0 keine mittel hoch Manipulierte Seeigeldichte ABER: Welche Gruppe unterscheidet sich von welcher Gruppe? Multiple Vergleiche von Mittelwerten

t-test Sind nur zwei Stichproben miteinander zu vergleichen, führen die einfaktorielle Varianzanalyse und der t-test für unabhängige Stichproben zu identischen Ergebnissen. D.h. der two-sampled t-test ist einen Spezialfall Varianzanalyse für 2 Gruppen. Die Beziehung zwischen der t Statistik und der F Verteilung sieht wie folgt aus: F = t² Die t-statistik ist die Wurzel des F-Ratio aus der ANOVA. Das Quadrat einer t-verteilten Zufallsvariablen ist F-verteilt.