Statistische Methoden in den Umweltwissenschaften

Ähnliche Dokumente
Statistik I für Betriebswirte Vorlesung 14

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Einführung in die Statistik

I. Deskriptive Statistik 1

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

5. Spezielle stetige Verteilungen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zentraler Grenzwertsatz/Konfidenzintervalle

STATISTIK 1 - BEGLEITVERANSTALTUNG

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Klassifikation von Signifikanztests

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Zufallsvariablen [random variable]

Statistische Tests für unbekannte Parameter

Einführung in die computergestützte Datenanalyse

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Kapitel VI - Lage- und Streuungsparameter

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Schließende Statistik

Mathematik für Biologen

Statistik und Wahrscheinlichkeitsrechnung

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Willkommen zur Vorlesung Statistik (Master)

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Exponentialverteilung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

6. Schätzverfahren für Parameter

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

2 Aufgaben aus [Teschl, Band 2]

Inhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...

Grundlagen der Mathematik, der Statistik und des Operations Research für Wirtschaftswissenschaftler

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Übung zur Vorlesung: Geostatistik 1 Philipp, Mo. 15: Türcode: 1516

Kenngrößen von Zufallsvariablen

Probleme bei kleinen Stichprobenumfängen und t-verteilung

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

Statistik für Ökonomen

Numerische Methoden und Algorithmen in der Physik

Inhaltsverzeichnis. Teil I Einführung

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Univariates Datenmaterial

I. Zahlen, Rechenregeln & Kombinatorik

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Hydrologie und Flussgebietsmanagement

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

3 Konfidenzintervalle

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

Wahrscheinlichkeitsrechnung und schließende Statistik

Medizinische Biometrie (L5)

3 Statistische Schätzungen

Kapitel 3 Schließende Statistik

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Vorlesung Wirtschaftsstatistik 2 (FK ) Wiederholungen deskriptive Statistik und Einleitung Normalverteilungsverfahren. Dipl.-Ing.

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Standardnormalverteilung

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Klausur zu Statistik II

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Spezielle stetige Verteilungen

Stochastik und Statistik für Ingenieure Vorlesung 4

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Jost Reinecke. 7. Juni 2005

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Wahrscheinlichkeitstheorie Kapitel V - Stetige Verteilungen

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Inferenzstatistik (=schließende Statistik)

Die Maximum-Likelihood-Methode

Lehrinhalte Statistik (Sozialwissenschaften)

P (X = 2) = 1/36, P (X = 3) = 2/36,...

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften

3 Grundlagen statistischer Tests (Kap. 8 IS)

Theorie - Statistik und Wahrscheinlichkeitstheorie. 27. Mai 2008

Signalverarbeitung 2. Volker Stahl - 1 -

Übungsscheinklausur,

Vorlesung: Statistik II für Wirtschaftswissenschaft

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

1 Dichte- und Verteilungsfunktion

Stetige Verteilungen Rechteckverteilung

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Tabellarische und graphie Darstellung von univariaten Daten

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

8. Stetige Zufallsvariablen

Lage- und Streuungsparameter

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Transkript:

Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter

Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal X), dessen Werte die Ergebnisse eines Zufallsexperimentes sind, heißt Zufallsvariable Beispiel: Wurf eines Würfels Anzahl der Seeigel auf 1 m² einer Seegraswiese Individuenlänge einer Dorschpopulation Eine Zufallsvariable heißt diskret, wenn sie endlich (oder abzählbar unendliche) viele Werte annehmen kann. Eine Zufallsvariable heißt stetig, wenn sie unendlich viele Werte in einem Intervall [a,b] annehmen kann.

Wahrscheinlichkeitsverteilungen diskret Beispiele: Verteilung der Ergebnisse eines Würfelspiels Binomialverteilung Zufallsexperiment Zufallsvariable X Verteilungsfunktion stetig Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsdichte Beispiele: Normalverteilung Andere stetige Verteilungen (t, F, χ²) Die Wahrscheinlichkeitsfunktion (diskret) bzw. die Wahrscheinlichkeitsdichte (stetig) beschreibt die Wahrscheinlichkeitsverteilung (gibt die Wahrscheinlichkeit des Auftretens der einzelnen Werte der Zufallsvariablen an). Die (kumulierte) Verteilungsfunktion ist das Aufsummieren der Werte der Wahrscheinlichkeitsfunktion bzw. ist das Integral über die Dichtefunktion

Zufallsexperiment und Wahrscheinlichkeitstheorie Zufallsexperiment: empirischen Häufigkeitsverteilung in einer Stichprobe unabhängiger Replikate Theorie: Wahrscheinlichkeitsverteilung Wird ein Zufallsexperiment häufig genug wiederholt (= die Stichprobe, n, Anzahl der Replikate wird immer weiter erhöht) konvergiert die Häufigkeitsverteilung gegen die wahre theoretische Wahrscheinlichkeitsverteilung.

Verteilungstypen Stetige Wahrscheinlichkeitsverteilung Normalverteilung Log-Normalverteilung Diskrete Wahrscheinlichkeitsverteilung Poissonverteilung (Negative) Binomialverteilung Fisher s F (z.b. ANOVA) Student s t (z.b. t-test) Exponentialverteilung

Normalverteilung die bekannteste stetige Wahrscheinlichkeitsverteilung Simulation von normalverteilten Zufallszahlen (Balken): rnorm(100,mean=24,sd=4) Wahrscheinlichkeitsdichte (rote Linie): dnorm(seq(10,40,1),mean=24,sd=4)

Normalverteilung f(x) = σ 1 2π exp 1 2 x σ μ 2 Eine der wichtigsten Verteilungen ist die Normalverteilung (besser: Verteilungsdichte) mit Mittelwert µ und Varianz σ² (= Gaußschen Glockenkurve) Symmetrisch um µ Nur abhängig von µ und σ

Normalverteilung: Wie groß sind µ und σ?

Normalverteilung: Wie groß sind µ und σ? µ = 8 ; σ = 0,5 µ = 4 ; σ = 1 µ = 8 ; σ = 1

Normalverteilung Dichtefunktion Verteilungsfunktion (= Kumulierte Häufigkeiten) 50 % -3σ -2σ -σ μ 1σ 2σ 3σ -3σ -2σ -σ μ 1σ 2σ 3σ 68,72% der Werte liegen im Bereich [- σ, σ ]

z-transformation: Normierung Lineare Skalentransformation z i ( a µ) σ = i z i : neuer Wert a i : alter Wert µ: arithmetischer Mittelwert σ: Standardabweichung Eigenschaften der z-verteilung (=Standardnormalverteilung): Mittelwert µ = 0 Varianz σ² = 1 ohne Maßeinheit (dimensionslos)

Warum z-transformation? Wassertemperatur Salzgehalt Phosphat Nitrat Wassertemperatur Salzgehalt Phosphat Nitrat C PSU µm µm z-wert z-wert z-wert z-wert 01/01/1991 1.4 5.2 1.8 5.2-1.2-0.4 2.6-0.4 02/01/1991 1.4 4.7 0.2 24.0-1.2-0.8-0.8 0.1 03/01/1991 1.8 4.7 0.2 76.6-1.1-0.8-0.8 1.6 04/01/1991 2.0 4.9 0.3 34.5-1.1-0.6-0.6 0.4 05/01/1991 2.0 5.1 0.1 45.6-1.1-0.5-1.0 0.7 06/01/1991 2.8 5.0 0.3 35.7-1.0-0.6-0.6 0.4 07/01/1991 2.9 4.9 0.4 32.5-1.0-0.6-0.4 0.3 08/01/1991 2.7 4.8 0.4 59.5-1.0-0.7-0.4 1.1 MW 9.9 5.8 0.6 20.1 0.0 0.0 0.0 0.0 STABW 7.2 1.4 0.5 36.3 1.0 1.0 1.0 1.0 Verschiedene Größenordnungen und Einheiten 0,0 ± 1,0 Vergleichbarkeit: Die z-transformation ermöglicht eine Vergleichbarkeit verschiedener Variablen (bzgl. Größenordnungen und Einheiten.) Standardisierung: Die transformierten Variablen sind dimensionslos (ohne Maßeinheit). Variablen unterschiedlicher Maßeinheiten können so unter Verwendung ihrer z-werte verglichen oder zu neuen Variablen kombiniert werden.

Poissonverteilung: diskrete Wahrcheinlichkeitsverteilung Nur ein Parameter λ λ ist gleichzeitig Mittelwert und Varianz der Verteilung Linksschiefe Verteilung Sie ordnet den natürlichen Zahlen k=0, 1, 2,.. Die Wahrscheinlichkeiten wie folgt zu: f(x Simulation von poissonverteilten Zufallszahlen (Balken): rpois(400,lambda=2) k λ λ = k) = e k! Wahrscheinlichkeitsdichte(rote Punkte): dpois(c(0:10),lambda=2)

Poissonverteilung Parameter: µ (= lambda) kleine µ, stark l-form, je größer µ, desto mehr symmetrische (Normal-) Verteilung

Kenngrößen der Verteilungen Normalverteilung Poissonverteilung Log-Normalverteilung Fisher s F Student s t Chi-Quadrat-Verteilung (Negative) Binomialverteilung Mittelwert, Standardabweichung Mittelwert Mittelwert, Standardabweichung Zwei Freiheitsgrade (df1, df2) Freiheitsgrad (df) Freiheitsgrad (df) Stichprobenumfang (n), Wahrscheinlichkeit (p)

F-Verhältnis: Testgröße für die ANOVA Varianzquotient F: F-Verhältnis = Varianz zwischen Gruppe 1 und Gruppe 2 Varianz innerhalb der Gruppen Behandlungseffekt Residualvarianz Je größer F, desto wahrscheinlicher Ablehnung von H 0 F ist abhängig von df1 (= zwischen den Gruppen) und df2 (= innerhalb der Gruppen)

F-Verteilung (df1=1, df2= 8) Diese Verteilung muss herangezogen werden, um den kritischen F-Wert zu bestimmen z.b. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

F-Verteilung (df1=1, df2= 8) Die Auftretwahrscheinlichkeit von F 8 ist allerdings sehr gering. Sie ist repräsentiert von der Fläche unter der Kurve rechts von F = 8 und entspricht 2,2%. z.b. F = 8, d.h. die Varianz zwischen den Gruppen ist 8 mal größer als die Varianz innerhalb der Gruppen

Kritische F-Werte Wo liegt der kritische F-Wert? Er ist auch abhängig von der Irrtumswahrscheinlichkeit alpha. F krit 0,05 = 5,3 5% der Fläche

Biologische Beispiele für verschiedene Verteilungen Negative Binomialverteilung

Biologische Beispiele für verschiedene Verteilungen Log-Normalverteilung: Wachstums- oder Zerfallsprozesse

Biologische Beispiele für verschiedene Verteilungen Log-Normalverteilung

Wie sind die Messdaten verteilt? Balken sind Häufigkeitsverteilung eines Zufallexperiments Poissonverteilung(rote Punkte): dpois(c(0:10),lambda=2) Normalverteilung(blaue Punkte): dnorm(c(0:10),mean=2,sd=1)

Eine diskrete poisson-verteilte Zufallsvariable? Beispiel: Anzahl der Seeigel auf 200 quadratischen, zufällig ausgewählten Beobachtungsflächen in einer Seegraswiese. Anzahl der Seeigel (x i) beobachtete Häufigkeit des Eintretens (h i ) (x i * h i ) 0 28 0 1 69 69 2 42 84 3 34 102 4 13 52 5 8 40 6 5 30 7 1 7 8 0 0 (h i ) = 200 (x i *h i ) = 384 Mittelwert 1.92

Kolmogorov-Smirnov-Anpassungstest K- = größter Abstand wenn Messwerte über theoretischer Funktion liegen K+ = größter Abstand wenn Messwerte unter theoretischer Funktion liegen H 0 : empirische Verteilung entspricht einer theoretischen Verteilung (z.b. der Normalverteilung) Differenzen (K) zwischen empirischer und theoretischer Verteilungsfunktion Aus K errechnet sich Testgröße λ λ = K n H 0 wird verworfen, wenn λ- Wert den kritischen Wert für ein gegebenes α überschreitet

Parametrische versus nicht-parametrische Tests Kann den Daten eine bestimmte Verteilung zugeordnet werden? ja nein Parametrische Tests setzen eine bestimmte Verteilung voraus (z.b. Normalverteilung) Nicht-parametrische Tests setzen keine bestimmte Verteilung voraus

Lageparameter 1 Modalwert (= Modus) Die am häufigsten vorkommende Ausprägung eines Merkmals Verteilungsfreie Kenngröße! Beispiel: {1, 2, 3, 2, 4, 4, 2, 5, 1, 2}: M = 2

Lageparameter 2 Median Werte der Größe nach ordnen, der mittlere Wert (bei ungerader Anzahl) bzw. der Durchschnitt der beiden mittleren Werte (bei gerader Anzahl) entspricht dem Median Verteilungsfreie Kenngröße! Median teilt die Verteilung in zwei Hälften Beispiel: Lethale Dosis LD 50

Lageparameter 3 Arithmetisches Mittel Kenngröße der Normalverteilung! x 1 x = i n 1 n h a = i i Gewogenes arithmetisches Mittel Unterschiedliche Werte werden unterschiedlich stark gewichtet Bsp. Mittlere Korngröße x g 1 = n g = 1 i g i x i Geometrisches Mittel Bsp. Mittlere Wachstumsrate von Raten über mehre Zeitintervalle x geom log x = n geom x 1 1 = n x 2... x log x i n

Streuungsparameter 1 Minimum, Maximum, Spannweite Quantile 25% und 75%-Quantil (= oder 1. und 3. Quartil)

Box-Whisker-Plots Extremwerte 0.5 Maximaler Wert oder 90% Quantil mittlere Korngröße [mm] 0.4 0.3 0.2 0.1 75% Quantil Median = 50% Quantil 0.0 BGrArm BKlArm ZoRu ChRuci ChZoma Ruci Vegetationsform Zoma Nm MP 25% Quantil Minimaler Wert oder 10% Quantil Extremwerte Extremwerte: Werte, die mehr als das 1,5-fache des Abstandes zwischen 25% und 75%- Quantil entfernt sind (kann man aber selber festlegen )

Streuungsparameter 2 Varianz: Ein Maß für die Streuung der Einzelwerte x i um den Mittelwert Die Maßeinheit der Varianz entspricht nicht der Maßeinheit der Messwerte s² ( )² = x x i n 1 Standardabweichung: Ein Maß für die Streuung der Einzelwerte x i um den Mittelwert Die Maßeinheit der Standardabweichung entspricht der Maßeinheit der Messwerte s ( )² = x x i n 1 Parameter der Normalverteilung!!!

Streuungsparameter 3 Standardfehler eines Parameters, z.b. des arithmetischen Mittelwertes: Gibt die statistische Unsicherheit der Mittelwerte an Ein Standardfehler wird um so kleiner, je größer der Stichprobenumfang ist s x = s n

Streuungsparameter 4 Konfidenzintervall Ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.b. Mittelwert) mit vorgegebener Wahrscheinlichkeit (z.b. 95 %) überdeckt. Der wahre Wert ist unbekannt und würde sich nur durch unendlich viele Messungen bestimmen lassen. untere / obere Grenze = x ± z( α / 2) s x Mittelwert Standardfehler des Mittelwertes Z-Wert von α/2, z.b. 1,96 bei 95% kann der Tabelle zur Normalverteilung entnommen werden

Wovon hängt die Breite eines Konfidenzintervalls ab? 1. Je größer der Stichprobenumfang, desto kleiner der Standardfehler und desto schmaler das Konfidenzintervall. 2. Je größer die Sicherheit der Schätzung, desto breiter das Konfidenzintervall 3. Je größer die Standardabweichung desto breiter das Konfidenzintervall Konfidenzintervalle werden sehr breit, wenn sie aufgrund kleiner Stichproben bestimmt werden. Präzise Intervallschätzung erfordert große Stichproben