Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften t-test Varianzanalyse (ANOVA)

Übersicht Vergleich von Mittelwerten 2 Gruppen: t-test einfaktorielle ANOVA > 2 Gruppen: einfaktorielle ANOVA

Seeigel und Seegräser Mittelmeer: Der Seeigel Paracentrotus lividus beweidet Posidonia oceanica

Seeigel und Seegräser Nullhypothese: m 1 m 2 Die Seegrasdichten im Gebiet mit Seeigeln und ohne Seeigel unterscheiden sich nicht. (m 1 = m 2 )

Frage: IOW-Statistikseminar: 3. Veranstaltung Prinzipien der Varianzanalyse ANOVA: Beispiel Haben Seeigel einen Einfluss auf die Sprossdichte der Seegräser? Biologischer Hintergrund: Seeigel beweiden Seegräser, könnten aber auch das Wachstum über ihre Exkretionen fördern. Experiment: Manipulation der Seeigeldichte: Präsenz, Absenz

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Frage: Gibt es einen signifikanten Unterschied in den Mittelwerten dieser beiden Gruppen, wobei der Mittelwert aus je 5 Replikaten ermittelt wurde? Nullhypothese: H 0 : m1 = m2

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Nullhypothese: H 0 : m1 = m2 Achtung: Nicht nur der absolute Unterschied zwischen den Mittelwerten ist entscheidend, sondern auch die Stärke der Streuung der Messwerte um die Mittelwerte!

Streuungsparameter Die Varianz ist ein Maß für die Streuung der Einzelwerte x i um den Mittelwert m Varianz ist das Quadrat der Standardabweichung Varianz ist die mittlere Summe der Abweichungsquadrate ² = n i= 1 s ( xi m)² (n 1) Summe der Abweichungsquadrate ( Quadratsumme, SS, SQ ) Anzahl der Freiheitsgrade df Mittelwert und Varianz sind Kenngrößen der Normalverteilung!!!

Normalverteilung Dichtefunktion f(x) = σ 1 2π exp 1 2 x σ μ 2-3σ -2σ -σ μ 1σ 2σ 3σ Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² Symmetrisch um µ Nur abhängig von µ und σ 68,72% der Werte liegen im Bereich [- σ, σ ]

Beispiel: Ergebnisse 25 x 15 cm 25 x 15 cm 1: Ja 2: Nein Experiment: Manipulation der Seeigeldichte (Präsenz/Absenz) Gruppe n Messwerte Ja 5 15 ; 17 ; 18 ; 20 ; 21 Nein 5 31 ; 37 ; 38 ; 40 ; 45

Aufteilung der Varianzen Gesamtvarianz = Varianz zwischen den Gruppen + Varianz innerhalb der Gruppen Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16

Aufteilung der Varianzen Gruppe Ja Einzelvarianz ja = 6 Einzelvarianz nein = 26 Gesamtvarianz = 1000 Alle Messwerte Gruppe Nein µ Ja =18 µ Gesamt =28 µ nein =38

Varianz innerhalb der Gruppen Mittlere Einzelvarianz der Gruppen (= Varianz innerhalb der Gruppen): Zufällige Streuung, die durch unbekannte Faktoren entsteht (wie z.b. genotypische Unterschiede zwischen den Pflanzen) Unerklärte Varianz oder Residualvarianz Gruppe n df Mittelwert Varianz Ja 5 4 18,2 6 Nein 5 4 38,2 26 Mittlere Einzelvarianz 16 (6+26) / 2 = 16 Wenn H 0 richtig ist (m 1 = m 2 ), dann ist die Abweichung (Varianz) zwischen den beiden Gruppenmittelwerten rein zufällig (klein), d.h. nicht (viel) größer als die mittlere Einzelvarianz.

Varianz zwischen und innerhalb der Gruppen Streuung ist gleich groß oder größer als die Differenz der Mittelwerte H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = klein Mittlere Einzelvarianz innerhalb der Gruppen = klein Differenz der Mittelwerte ist groß, die Streuung ist klein: H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = groß Mittlere Einzelvarianz innerhalb der Gruppen = klein

Varianz zwischen und innerhalb der Gruppen H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = 37 Mittlere Einzelvarianz innerhalb der Gruppen = 30 H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = 984 Mittlere Einzelvarianz innerhalb der Gruppen = 16

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 Bildung des Varianzverhältnisses!!!

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 37 Verhältnis = = 1,2 = 30 klein Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 984 Verhältnis = = 61,5 = groß 16 Bildung des Varianzverhältnisses!!!

Prüfung von H 0 über die F-Verteilung Grundidee: Vergleich der Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Beispiel 1: theoretische Werte Varianz zwischen den Gruppen = 37 Varianz innerhalb der Gruppen = 30 37 Verhältnis = = 1,2 = 30 klein H 0 annehmen? m 1 = m 2 Beispiel 2: tatsächliche Messwerte Varianz zwischen den Gruppen = 984 Varianz innerhalb der Gruppen = 16 984 Verhältnis = = 61,5 = groß 16 H 0 ablehnen? m 1 m 2

F-Verhältnis Varianzquotient F: F-Verhältnis = Varianz zwischen Gruppe 1 und Gruppe 2 Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher muss H 0 abgelehnt werden

F als Testgröße F 1 Wenn beide Stichproben aus derselben Grundgesamtheit stammen Beide Varianzkomponenten schätzen dieselbe Varianz, nämlich die der Grundgesamtheit Um wieviel muss F größer als 1 sein, damit wir H 0 ablehnen können?

F-Verteilung Aus der Gesamtpopulation werden alle möglichen Kombinationen von 2 Stichproben (Gruppen) des Umfanges n=5 gezogen Für jeden Satz wird das F-Verhältnis ausgerechnet Gesamtpopulation n alle Messwerte 10 15 ; 17 ; 18 ; 20 ; 21 ; 31 ; 37 ; 38 ; 40 ; 45

F-Verteilung Eine mögliche Kombinbation der Werte = tatsächliche Messwerte F = 61,5 Gruppe n Messwerte Ja 5 15 ; 17 ; 18 ; 20 ; 21 Nein 5 31 ; 37 ; 38 ; 40 ; 45 Eine andere mögliche Kombination der Werte F = 0,237 Gruppe n Messwerte Ja 5 37 ; 17 ; 18 ; 20 ; 40 Nein 5 31 ; 15 ; 38 ; 21 ; 45

F-Verteilung Die relative Häufigkeitsverteilung der F-Werte ist die gesuchte Stichprobenverteilung Fisher konnte zeigen, dass die Stichprobenverteilung einer bestimmten theoretischen Verteilung folgt Funktion(F) ist abhängig von der Anzahl der Gruppen (df zwischen den Gruppen) und der Größe des Stichprobenumfanges (df innerhalb der Gruppen) In unserem Beispiel: 2 Gruppen df = 1 Je 5 Replikate df = 2 (n-1) = 8 F (1, 8)

F-Verteilung (1, 8) Wahrscheinlichkeitsdichte der F-Verteilung df(seq(0,10,0.1),df1=1,df2=8) Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen F = 6, d.h. die Varianz zwischen den Gruppen ist 6 mal größer als die Varianz innerhalb der Gruppen

F-Verteilung (1, 8) Die Auftretwahrscheinlichkeit von F 6 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 6 und entspricht 4%. Wahrscheinlichkeiten der F-Verteilung q = 1-pf(6,1,8)= 0.0399 F = 6, d.h. die Varianz zwischen den Gruppen ist 6 mal größer als die Varianz innerhalb der Gruppen

Kritische F-Werte Wo liegt der kritische F-Wert? F krit 0,05 = 5,3 Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha. 5% der Fläche

Voraussetzungen der ANOVA Unabhängigkeit der Stichproben Normalverteilung Homogene (ähnliche) Varianzen

Prinzipien der Varianzanalyse ANOVA 25 x 15 cm 25 x 15 cm 25 x 15 cm 1: keine 2: mittel 3: hoch Experiment: Manipulation der Seeigeldichte (keine, mittel, hoch) Frage: Gibt es einen signifikanten Unterschied in den Mittelwerten dieser drei Gruppen, wobei der Mittelwert aus je 5 Replikaten ermittelt wurde? Nullhypothese: H 0 : m1 = m2 = m3

Beispiel: Ergebnisse 25 x 15 cm 25 x 15 cm 25 x 15 cm 1: keine 2: mittel 3: hoch Experiment: Manipulation der Seeigeldichte (keine, mittel, hoch) Gruppe n Messwerte keine 5 15 ; 17 ; 18 ; 20 ; 21 mittel 5 13 ; 20 ; 22 ; 25 ; 28 hoch 5 31 ; 37 ; 38 ; 40 ; 45

Aufteilung der Varianzen Gesamtvarianz = Varianz zwischen den Gruppen + Varianz innerhalb der Gruppen Varianz zwischen den Gruppen = 573 Varianz innerhalb der Gruppen = 21

Betrachtung der Varianzen Gruppe keine Einzelvarianz keine =6 Einzelvarianz mittel =33 Einzelvarianz hoch =25 Gesamtvarianz=100 Gruppe mittel Gruppe hoch Alle Messwerte µ 1 =18 µ 2 =22 µ Gesamt =28 µ 3 =38

Varianz innerhalb der Gruppen Mittlere Einzelvarianz der Gruppen: Zufällige Streuung, die durch unbekannte Faktoren (wie z.b. genotypische Unterschiede zwischen den Pflanzen) entsteht Unerklärte Varianz oder Residualvarianz Gruppe N df Mittelwert Varianz mittlere Varianz keine 5 4 18,2 6 mittel 5 4 21,6 33 21 hoch 5 4 38,2 25 (6+33+25) / 3 = 21

Varianz zwischen und innerhalb der Gruppen H 0 ist richtig (m 1 = m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = klein Mittlere Einzelvarianz innerhalb der Gruppen = klein H 0 ist falsch (m 1 m 2 ) Varianz zwischen Gruppe 1 und Gruppe 2 = groß Mittlere Einzelvarianz innerhalb der Gruppen = klein

Varianz zwischen und innerhalb der Gruppen Kann H 0 abgelehnt werden? Varianz zwischen Gruppe 1 und Gruppe 2 = 573 Mittlere Einzelvarianz innerhalb der Gruppen = 21 573 / 21 = 27.3

F-Verhältnis Varianzquotient F: F-Verhältnis = Varianz zwischen den Gruppen Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher muss H 0 abgelehnt werden

F als Testgröße Um wieviel muss F größer als 1 werden, damit wir H 0 ablehnen können? Was ist der kritische F-Wert? Beispiel: wenn F > 3,9 kann H 0 abgelehnt werden (F-Verteilung mit df 1 =2 und df 2 =12) F = 27.3 Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,05).

50 Ergebnis der ANOVA Sprossdichte der Seegräser 40 30 20 10 Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,05). 0 keine mittel hoch Manipulierte Seeigeldichte ABER: Welche Gruppe unterscheidet sich von welcher Gruppe? Multiple Vergleiche von Mittelwerten

t-test Sind nur zwei Stichproben miteinander zu vergleichen, führen die einfaktorielle Varianzanalyse und der t-test für unabhängige Stichproben zu identischen Ergebnissen. D.h. der two-sampled t-test ist einen Spezialfall Varianzanalyse für 2 Gruppen. Die Beziehung zwischen der t Statistik und der F Verteilung sieht wie folgt aus: F = t² Die t-statistik ist die Wurzel des F-Ratio aus der ANOVA. Das Quadrat einer t-verteilten Zufallsvariablen ist F-verteilt.