Mathematik für Biologen

Ähnliche Dokumente
3. Deskriptive Statistik

4 Statistische Maßzahlen

Fachrechnen für Tierpfleger

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Lage- und Streuungsparameter

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

Mathematik für Biologen

Mathematik für Biologen

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Verteilungsfunktion und Quantile

Beschreibende Statistik Eindimensionale Daten

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Wahrscheinlichkeits - rechnung und Statistik

Kapitel 1 Beschreibende Statistik

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

Mathematik für Biologen

Willkommen zur Vorlesung Statistik

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Empirische Verteilungsfunktion

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Statistik eindimensionaler Größen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Mathematik für Biologen

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Verteilungsfunktion und Quantile

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

2 Grundlagen der Statistik

Bitte am PC mit Windows anmelden!

2. Beschreibung von eindimensionalen (univariaten) Stichproben

4. Kumulierte Häufigkeiten und Quantile

Statistik und Wahrscheinlichkeitsrechnung

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

3 Lage- und Streuungsmaße

Mathematische und statistische Methoden I

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Hinweis: Es sind 4 aus 6 Aufgaben zu bearbeiten. Werden mehr als 4 Aufgaben bearbeitet, werden nur die ersten vier Aufgaben gewertet.

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Verteilungsfunktion und dquantile

I. Deskriptive Statistik 1

Grundlegende Eigenschaften von Punktschätzern

Mathematik für Biologen

Mathematik für Biologen

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistik I für Betriebswirte Vorlesung 2

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

2. Eindimensionale (univariate) Datenanalyse

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Mathematik für Biologen

Ausgewählte Lösungen zu den Tutoriumsaufgaben zu Statistik I

Beschreibung univariater Verteilungen

Einführung in die computergestützte Datenanalyse

Verteilungen und ihre Darstellungen

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

N

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Stochastik für die Naturwissenschaften

Statistik II: Grundlagen und Definitionen der Statistik

Statistik ohne Angst vor Formeln

Statistische Grundlagen I

Deskriptive Statistik

Übungsaufgaben zu Kapitel 2 und 3

2 Statistische Maßzahlen

Inhaltsverzeichnis: Aufgaben zur Vorlesung Statistik Seite 1 von 10 Prof. Dr. Karin Melzer, Prof. Dr. Gabriele Gühring, Fakultät Grundlagen

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Ulrich Rohland. Statistik. Erläuterung grundlegender Begriffe und Verfahren

Deskriptive Statistik

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Prüfung & Tutorium. Der 1. Prüfungstermin findet am 27. Juni 2011 um 10h im Audimaxstatt. Anmeldung in UNIVIS vom Juni

Anwendung A_0801_Quantile_Minimum_Maximum

1 Verteilungen und ihre Darstellung

Tabellarische und graphie Darstellung von univariaten Daten

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Beschreibende Statistik

Probeklausur Statistik Lösungshinweise

Deskriptive Statistik & grafische Darstellung

2. Mathematik-Schularbeit für die 6. Klasse Autor: Gottfried Gurtner

Beschreibung von Daten

Stochastik und Statistik für Ingenieure Vorlesung 10

Mittelwert und Standardabweichung

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Diskrete Wahrscheinlichkeitsverteilungen

Brückenkurs Statistik für Wirtschaftswissenschaften

Statistik I WS 2014/2015. Prof. Dr. Walter Krämer

Statistik Tutorium SS Aufgabensammlung

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Grundlagen der Statistik

Transkript:

Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 20. Oktober 2010

1 empirische Verteilung 2 Lageparameter Modalwert Arithmetisches Mittel Median 3 Streuungsparameter Variationsbreite Empirische Varianz und Stichprobenstreuung Interquartilabstand

Empirische Häufigkeitsverteilung Es liege eine Stichprobe vom Umfang n zu Grunde Die absolute Häufigkeit einer Merkmalsausprägung ist gleich der Anzahl der Beobachtungen dieser Ausgänge Die relative Häufigkeit ist gleich der absoluten Häufigkeit geteilt durch den Stichprobenumfang

Beispiel zur empirischen Häufigkeitsverteilung 7% 6% 5% 4% 3% 2% 1% 0% 0 10 20 30 40 50 60 Grafik der Absolutwerte.

Kumulierte empirische Häufigkeitsverteilung 100% 80% 60% 40% 20% 0% 0 10 20 30 40 50 60 Das bedeutet: der Wert an der Stelle 10 gibt beispielsweise den Prozentsatz aller Ergebnisse mit 10 oder weniger Punkten an.

Empirische Verteilungsfunktion Durch Kumulation der empirischen Häufigkeitsverteilung erhält man die empirische Verteilungsfunktion Genauer: Wir untersuchen ein quantitatives Merkmal. Die empirische Verteilungsfunktion F (t) gibt an, für welchen Anteil der Daten sein Wert höchstens gleich t ist

Beispiel für empirische Verteilungsfunktion 100% 80% 60% 40% 20% 0% 0 10 20 30 40 50 60

Häufigkeitsverteilung und Verteilungsfunktion Empirische Häufigkeitsverteilung 100% 80% 60% 40% 20% Empirische Verteilungsfunktion 100% 80% 60% 40% 20% 0% 1 2 3 4 5 0% 1 2 3 4 5 6

Vergleichbarkeit Hypothetisches Ergebnis einer Klausur mit 50 Punkten und 100 Teilnehmern 7% 6% 5% 4% 3% 2% 1% 0% 0 10 20 30 40 50

Vergleich der empirischen Häufigkeitsverteilungen 7% 6% 5% 4% 3% 2% 1% 0% 0 10 20 30 40 50 60 7% 6% 5% 4% 3% 2% 1% 0% 0 10 20 30 40 50

Vergleich der empirischen Verteilungen 100% 80% 60% 40% 20% 0% 0% 20% 40% 60% 80% 100%

Statistische Maßzahlen Lageparameter Modalwert Arithmetisches Mittel Median Streuungsparameter Variationsbreite Varianz und Standardabweichung Interquartilabstand

Modalwert Der Modalwert einer Menge von Messwerten ist der am häufigsten auftretende Wert. Wenn mehrere Werte am häufigsten auftreten, gibt es mehrere Modalwerte.

Modalwert im Beispiel 12 10 8 6 4 2 0 0 10 20 30 40 50 60 Für unsere Beispieldaten ist der Modalwert gleich 43.

Arithmetisches Mittel Das arithmetische Mittel ist der Durchschnitt der Messwerte. Formel: Beim Stichprobenumfang n seien x 1, x 2, x 3,..., x n die Messwerte, dann ist das arithmetische Mittel gleich x = 1 n (x 1 + x 2 + x 3 + + x n ) Man schreibt auch x = 1 n n j=1 x j

Arithmetisches Mittel im Beispiel 12 10 8 6 4 2 0 0 10 20 30 40 50 60 Das arithmetische Mittel der Beispieldaten beträgt 36.96.

Median Der Median ist ein Wert mit der Eigenschaft, dass in der Menge der nach Größe geordneten Messwerte gleich viele Daten unterhalb und oberhalb des Medians liegen. Beispiel: 7 Messwerte Nach Größe anordnen 10 5 4 9 10 1 5 1 4 5 5 9 10 10

Median für geraden Stichprobenumfang Falls die Anzahl der Daten gerade ist, stehen in der Menge der nach Größe geordneten Messwerte zwei Zahlen in der Mitte. Der Median x med ist dann deren arithmetisches Mittel. Beispiel Nach Größe anordnen Der Median ist x med = 6.5 10 5 4 9 10 1 5 8 1 4 5 5 8 9 10 10

Median im Beispiel 100% 80% 60% 40% 20% 0% 0 10 20 30 40 50 60 Den Median kann man aus dem Graphen der Verteilungsfunktion ablesen. Im Beispiel beträgt er 38.5

Robustheit Ein Ausreißer ist ein Messwert, der weit von fast allen anderen Messwerten entfernt ist. Ausreißer können z.b. von Messfehlern herrühren. Eine statistische Größe ist robust, wenn sie unempfindlich gegen Ausreißer ist. Das arithmetische Mittel ist nicht robust. Ausreißer gehen genauso ein wie alle anderen. Der Median ist robust.

Beispiel Robustheit Am Altägyptischen Seminar machen 5 Studierende Examen. Ihre Studiendauern betragen vor Lea Leo Leon Lena Leyla 7 10 8 7 9 Das arithmetische Mittel ihrer Studiendauern ist 8.2 Semester. Der Median beträgt 8 Semester Außerdem studiert Herbert dort bereits seit 30 Semestern. Falls er abschließt, ist das arithmetische Mittel gleich 11.8, und der Median beträgt 8.5

Variationsbreite Die Variationsbreite ist die Differenz zwischen dem kleinsten und dem größten Messwert In den Beispieldaten hat die Variationsbreite den Wert 60 Die Variationsbreite ist überhaupt nicht robust und auch sonst kein brauchbares Maß für die Streuung

Empirische Varianz Beim Stichprobenumfang n seien x 1, x 2, x 3,..., x n die Messwerte, dann ist das empirische Varianz gleich s 2 = (x 1 x) 2 + (x 2 x) 2 + (x 3 x) 2 + + (x n x) 2 n 1 Dabei ist x das arithmetische Mittel Ohne Pünktchen Die empirische Varianz wird mit s 2 bezeichnet. Die Zahl s heißt empirische Standardabweichung oder Stichprobenstreuung Die Stichprobenstreuung ist also die Quadratwurzel der empirischen Varianz

Varianz nicht robust Die Daten aus dem Beispiel zur Robustheit Lea Leo Leon Lena Leyla Herbert 7 10 8 7 9 30 Ohne Herbert ist die empirische Varianz gleich 1.7 und die Stichprobenstreuung ist 1.3 Erinnerung: Arithmetisches Mittel gleich 8.2 Mit Herbert ist die empirische Varianz gleich 81 und die Stichprobenstreuung ist 9 Erinnerung: Arithmetisches Mittel mit Herbert gleich 11.8

Stichprobenstreuung vs. Varianz Der Vorteil der Stichprobenstreuung gegenüber der Varianz ist, dass die Stichprobenstreuung richtig skaliert Das bedeutet folgendes: Wenn ich alle Daten verdoppele, dann verdoppelt sich das arithmetische Mittel vervierfacht sich die Varianz verdoppelt sich die Stichprobenstreuung

Formeln für die Varianz Die Definition ohne Pünktchen s 2 = 1 n 1 n (x j x) 2 j=1 Mit Pünktchen Eine etwas einfachere Formel, deren Richtigkeit leicht nachgerechnet werden kann s 2 = 1 ( ( n ) ) xj 2 nx 2 n 1 j=1

Warum n 1 im Nenner? Das Stichwort ist erwartungstreuer Schätzer Das bedeutet ungefähr, dass man, wenn man für viele Datensätze die Varianz mit dieser Methode feststellt, im Mittel näher an der wahren Varianz ist, als wenn man den Nenner n benutzt Die großen Software-Pakete machen das auch so

Stichprobenstreuung im Beispiel 12 10 8 6 4 2 0 0 10 20 30 40 50 60 Für die Beispieldaten ist die Streuung gleich 14.6

Quartile im Beispiel 12 10 8 6 4 2 0 0 10 20 30 40 50 60 Für die Beispieldaten teilen wir die Beobachtungen in vier gleich große Blöcke. Die Grenzen der beiden äußeren Blöcke sind das erste und das dritte Quartil.

Quartile Das Quartile Q 1 ist als derjenige Wert definiert, unter dem 25% und über dem 75% der Messwerte liegen Das Quartile Q 3 ist als derjenige Wert definiert, über dem 25% und unter dem 75% der Messwerte liegen Im Beispiel: Q 1 = 28 und Q 3 = 49

Quartile und Verteilungsfunktion Verteilungsfunktion für die Daten aus dem Beispiel Seminar 100% 75% 50% 25% 0% Q 3 = 9 x med = 8 Q 1 = 7 7 8 9 10

Interquartilabstand Der Interquartilabstand ist definiert als I 50 = Q 3 Q 1 Der Interquartilabstand ist ein robustes Maß für die Streuung Für die Beispieldaten aus der Klausur ist I 50 = 21

Robustheit des Interquartilabstands Lea Leo Leon Lena Leyla Herbert 7 10 8 7 9 30 Ohne Herbert ist Q 1 = 7 und Q 3 = 9, also I 50 = 2 Mit Herbert ist Q 1 = 7 und Q 3 = 10, also I 50 = 3

Box-Whisker-Plot Ein Box-Whisker-Plot zeigt von oben nach unten den größten Datenwert Q 3 den Median Q 1 den kleinsten Datenwert

Box-Whisker-Plot der Beispieldaten 60 50 40 30 20 10 0 Klausur 1. Nkl. 2. Nkl.