Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter

Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal X), dessen Werte die Ergebnisse eines Zufallsexperimentes sind, heißt Zufallsvariable Beispiel: Wurf eines Würfels Anzahl der Seeigel auf 1 m² einer Seegraswiese Individuenlänge einer Dorschpopulation Eine Zufallsvariable heißt diskret, wenn sie endlich (oder abzählbar unendliche) viele Werte annehmen kann. Eine Zufallsvariable heißt stetig, wenn sie unendlich viele Werte in einem Intervall [a,b] annehmen kann.

Wahrscheinlichkeitsverteilungen diskret Beispiele: Verteilung der Ergebnisse eines Würfelspiels Binomialverteilung Zufallsexperiment Zufallsvariable X Verteilungsfunktion stetig Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsdichte Beispiele: Normalverteilung Andere stetige Verteilungen (t, F, χ²) Die Wahrscheinlichkeitsfunktion (diskret) bzw. die Wahrscheinlichkeitsdichte (stetig) beschreibt die Wahrscheinlichkeitsverteilung (gibt die Wahrscheinlichkeit des Auftretens der einzelnen Werte der Zufallsvariablen an). Die (kumulierte) Verteilungsfunktion ist das Aufsummieren der Werte der Wahrscheinlichkeitsfunktion bzw. ist das Integral über die Dichtefunktion

Zufallsexperiment und Wahrscheinlichkeitstheorie Zufallsexperiment: empirischen Häufigkeitsverteilung in einer Stichprobe unabhängiger Replikate Theorie: Wahrscheinlichkeitsverteilung Wird ein Zufallsexperiment häufig genug wiederholt (= die Stichprobe, n, Anzahl der Replikate wird immer weiter erhöht) konvergiert die Häufigkeitsverteilung gegen die wahre theoretische Wahrscheinlichkeitsverteilung.

Verteilungstypen Stetige Wahrscheinlichkeitsverteilung Normalverteilung Log-Normalverteilung Diskrete Wahrscheinlichkeitsverteilung Poissonverteilung (Negative) Binomialverteilung Fisher s F (z.b. ANOVA) Student s t (z.b. t-test) Exponentialverteilung

Normalverteilung die bekannteste stetige Wahrscheinlichkeitsverteilung Simulation von normalverteilten Zufallszahlen (Balken): rnorm(100,mean=24,sd=4) Wahrscheinlichkeitsdichte (rote Linie): dnorm(seq(10,40,1),mean=24,sd=4)

Normalverteilung f(x) = σ 1 2π exp 1 2 x σ μ 2 Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² (= Gaußschen Glockenkurve) Symmetrisch um µ Nur abhängig von µ und σ

Normalverteilung: Wie groß sind µ und σ?

Normalverteilung: Wie groß sind µ und σ? µ = 8 ; σ = 0,5 µ = 4 ; σ = 1 µ = 8 ; σ = 1

Normalverteilung Dichtefunktion Verteilungsfunktion (= Kumulierte Häufigkeiten) 50 % -3σ -2σ -σ μ 1σ 2σ 3σ -3σ -2σ -σ μ 1σ 2σ 3σ 68,72% der Werte liegen im Bereich [- σ, σ ]

z-transformation: Normierung Lineare Skalentransformation z i ( a µ) σ = i z i : neuer Wert a i : alter Wert µ: arithmetischer Mittelwert σ: Standardabweichung Eigenschaften der z-verteilung (=Standardnormalverteilung): Mittelwert µ = 0 Varianz σ² = 1 ohne Maßeinheit (dimensionslos)

Warum z-transformation? Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur Salzgehalt Phosphat Nitrat C PSU µm µm z-wert z-wert z-wert z-wert 01/01/1991 1.4 5.2 1.8 5.2-1.2-0.4 2.6-0.4 02/01/1991 1.4 4.7 0.2 24.0-1.2-0.8-0.8 0.1 03/01/1991 1.8 4.7 0.2 76.6-1.1-0.8-0.8 1.6 04/01/1991 2.0 4.9 0.3 34.5-1.1-0.6-0.6 0.4 05/01/1991 2.0 5.1 0.1 45.6-1.1-0.5-1.0 0.7 06/01/1991 2.8 5.0 0.3 35.7-1.0-0.6-0.6 0.4 07/01/1991 2.9 4.9 0.4 32.5-1.0-0.6-0.4 0.3 08/01/1991 2.7 4.8 0.4 59.5-1.0-0.7-0.4 1.1 MW 9.9 5.8 0.6 20.1 0.0 0.0 0.0 0.0 STABW 7.2 1.4 0.5 36.3 1.0 1.0 1.0 1.0 Verschiedene Größenordnungen und Einheiten 0,0 ± 1,0 Vergleichbarkeit: Die z-transformation ermöglicht eine Vergleichbarkeit verschiedener Variablen (bzgl. Größenordnungen und Einheiten.) Standardisierung: Die transformierten Variablen sind dimensionslos (ohne Maßeinheit). Variablen unterschiedlicher Maßeinheiten können so unter Verwendung ihrer z-werte verglichen oder zu neuen Variablen kombiniert werden.

Poissonverteilung: diskrete Wahrcheinlichkeitsverteilung Nur ein Parameter λ λ ist gleichzeitig Mittelwert und Varianz der Verteilung Linksschiefe Verteilung Sie ordnet den natürlichen Zahlen k=0, 1, 2,.. Die Wahrscheinlichkeiten wie folgt zu: f(x Simulation von poissonverteilten Zufallszahlen (Balken): rpois(400,lambda=2) k λ λ = k) = e k! Wahrscheinlichkeitsdichte(rote Punkte): dpois(c(0:10),lambda=2)

Poissonverteilung Parameter: µ (= lambda) kleine µ, stark l-form, je größer µ, desto mehr symmetrische (Normal-) Verteilung

Kenngrößen der Verteilungen Normalverteilung Poissonverteilung Log-Normalverteilung Fisher s F Student s t Chi-Quadrat-Verteilung (Negative) Binomialverteilung Mittelwert, Standardabweichung Mittelwert Mittelwert, Standardabweichung Zwei Freiheitsgrade (df1, df2) Freiheitsgrad (df) Freiheitsgrad (df) Stichprobenumfang (n), Wahrscheinlichkeit (p)

F-Verhältnis: Testgröße für die ANOVA Varianzquotient F: F-Verhältnis = Varianz zwischen Gruppe 1 und Gruppe 2 Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher Ablehnung von H 0 F ist abhängig von df1 (= zwischen den Gruppen) und df2 (= innerhalb der Gruppen)

F-Verteilung (df1=1, df2= 8) Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen z.b. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

F-Verteilung (df1=1, df2= 8) Die Auftretwahrscheinlichkeit von F 8 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 8 und entspricht 2,2%. z.b. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

Kritische F-Werte Wo liegt der kritische F-Wert? Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha. F krit 0,05 = 5,3 5% der Fläche

Biologische Beispiele für verschiedene Verteilungen Negative Binomialverteilung

Biologische Beispiele für verschiedene Verteilungen Log-Normalverteilung: Wachstums- oder Zerfallsprozesse

Biologische Beispiele für verschiedene Verteilungen Log-Normalverteilung

Wie sind die Messdaten verteilt? Balken sind Häufigkeitsverteilung eines Zufallexperiments Poissonverteilung(rote Punkte): dpois(c(0:10),lambda=2) Normalverteilung(blaue Punkte): dnorm(c(0:10),mean=2,sd=1)

Eine diskrete poisson-verteilte Zufallsvariable? Beispiel: Anzahl der Seeigel auf 200 quadratischen, zufällig ausgewählten Beobachtungsflächen in einer Seegraswiese. Anzahl der Seeigel (x i) beobachtete Häufigkeit des Eintretens (h i ) (x i * h i ) 0 28 0 1 69 69 2 42 84 3 34 102 4 13 52 5 8 40 6 5 30 7 1 7 8 0 0 (h i ) = 200 (x i *h i ) = 384 Mittelwert 1.92

Kolmogorov-Smirnov-Anpassungstest K- = größter Abstand wenn Messwerte über theoretischer Funktion liegen K+ = größter Abstand wenn Messwerte unter theoretischer Funktion liegen H 0 : empirische Verteilung entspricht einer theoretischen Verteilung (z.b. der Normalverteilung) Differenzen (K) zwischen empirischer und theoretischer Verteilungsfunktion Aus K errechnet sich Testgröße λ λ = K n H 0 wird verworfen, wenn λ- Wert den kritischen Wert für ein gegebenes α überschreitet

Parametrische versus nicht-parametrische Tests Kann den Daten eine bestimmte Verteilung zugeordnet werden? ja nein Parametrische Tests setzen eine bestimmte Verteilung voraus (z.b. Normalverteilung) Nicht-parametrische Tests setzen keine bestimmte Verteilung voraus

Lageparameter 1 Modalwert (= Modus) Die am häufigsten vorkommende Ausprägung eines Merkmals Verteilungsfreie Kenngröße! Beispiel: {1, 2, 3, 2, 4, 4, 2, 5, 1, 2}: M = 2

Lageparameter 2 Median Werte der Größe nach ordnen, der mittlere Wert (bei ungerader Anzahl) bzw. der Durchschnitt der beiden mittleren Werte (bei gerader Anzahl) entspricht dem Median Verteilungsfreie Kenngröße! Median teilt die Verteilung in zwei Hälften Beispiel: Lethale Dosis LD 50

Lageparameter 3 Arithmetisches Mittel Kenngröße der Normalverteilung! x 1 x = i n 1 n h a = i i Gewogenes arithmetisches Mittel Unterschiedliche Werte werden unterschiedlich stark gewichtet Bsp. Mittlere Korngröße x g 1 = n g = 1 i g i x i Geometrisches Mittel Bsp. Mittlere Wachstumsrate von Raten über mehre Zeitintervalle x geom log x = n geom x 1 1 = n x 2... x log x i n

Streuungsparameter 1 Minimum, Maximum, Spannweite Quantile 25% und 75%-Quantil (= oder 1. und 3. Quartil)

Box-Whisker-Plots Extremwerte 0.5 Maximaler Wert oder 90% Quantil mittlere Korngröße [mm] 0.4 0.3 0.2 0.1 75% Quantil Median = 50% Quantil 0.0 BGrArm BKlArm ZoRu ChRuci ChZoma Ruci Vegetationsform Zoma Nm MP 25% Quantil Minimaler Wert oder 10% Quantil Extremwerte Extremwerte: Werte, die mehr als das 1,5-fache des Abstandes zwischen 25% und 75%- Quantil entfernt sind (kann man aber selber festlegen )

Streuungsparameter 2 Varianz: Ein Maß für die Streuung der Einzelwerte x i um den Mittelwert Die Maßeinheit der Varianz entspricht nicht der Maßeinheit der Messwerte s² ( )² = x x i n 1 Standardabweichung: Ein Maß für die Streuung der Einzelwerte x i um den Mittelwert Die Maßeinheit der Standardabweichung entspricht der Maßeinheit der Messwerte s ( )² = x x i n 1 Parameter der Normalverteilung!!!

Streuungsparameter 3 Standardfehler eines Parameters, z.b. des arithmetischen Mittelwertes: Gibt die statistische Unsicherheit der Mittelwerte an Ein Standardfehler wird um so kleiner, je größer der Stichprobenumfang ist s x = s n

Streuungsparameter 4 Konfidenzintervall Ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.b. Mittelwert) mit vorgegebener Wahrscheinlichkeit (z.b. 95 %) überdeckt. Der wahre Wert ist unbekannt und würde sich nur durch unendlich viele Messungen bestimmen lassen. untere / obere Grenze = x ± z( α / 2) s x Mittelwert Standardfehler des Mittelwertes Z-Wert von α/2, z.b. 1,96 bei 95% kann der Tabelle zur Normalverteilung entnommen werden

Wovon hängt die Breite eines Konfidenzintervalls ab? 1. Je größer der Stichprobenumfang, desto kleiner der Standardfehler und desto schmaler das Konfidenzintervall. 2. Je größer die Sicherheit der Schätzung, desto breiter das Konfidenzintervall 3. Je größer die Standardabweichung desto breiter das Konfidenzintervall Konfidenzintervalle werden sehr breit, wenn sie aufgrund kleiner Stichproben bestimmt werden. Präzise Intervallschätzung erfordert große Stichproben