Stochastik für die Naturwissenschaften

Ähnliche Dokumente
Stochastik für die Naturwissenschaften

4. DIE ABLEITUNG (DERIVATIVE)

Statistik eindimensionaler Größen

Fachrechnen für Tierpfleger

Stochastik für die Naturwissenschaften

E. AUSBAU DER INFINITESIMALRECHNUNG 17. UMKEHRFUNKTIONEN (INVERSE FUNCTION)

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

WISTA WIRTSCHAFTSSTATISTIK

Statistik II: Grundlagen und Definitionen der Statistik

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Statistik und Wahrscheinlichkeitsrechnung

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

3. Merkmale und Daten

Bitte am PC mit Windows anmelden!

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

3.5 Beschreibende Statistik. Inhaltsverzeichnis

2. Beschreibung von eindimensionalen (univariaten) Stichproben

WISTA WIRTSCHAFTSSTATISTIK

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

MATHEMATIK MTA 12 SCHULJAHR 07/08 STATISTIK

Beschreibende Statistik

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

3. Deskriptive Statistik

Kapitel 1 Beschreibende Statistik

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Zufallsvariablen [random variable]

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Statistische Grundlagen I

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

Kapitel 2. Häufigkeitsverteilungen

Angewandte Statistik 3. Semester

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Statistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

1) Warum ist die Lage einer Verteilung für das Ergebnis einer statistischen Analyse von Bedeutung?

2. Eindimensionale (univariate) Datenanalyse

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Kapitel 1: Deskriptive Statistik

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel III - Merkmalsarten

Kapitel 1: Deskriptive Statistik

Tabellarische und graphie Darstellung von univariaten Daten

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Felix Klug SS Tutorium Deskriptive Statistik

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

2 ZAHLEN UND VARIABLE

Lage- und Streuungsparameter

D. DIFFERENTIALGLEICHUNGEN DGL 15. DER BEGRIFF DER DIFFERENTIALGLEICHUNG (DIFFERENTIAL EQUATION)

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.


Deskriptive Statistik 1 behaftet.

Deskriptive Statistik Kapitel III - Merkmalsarten

Verteilungen und ihre Darstellungen

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe

Wahrscheinlichkeits - rechnung und Statistik

Auswertung und Darstellung wissenschaftlicher Daten (2)

Lösungen zu Übung 1 (Kap. 1.5) Prof. Dr.B.Grabowski

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Forschungsmethoden in der Sozialen Arbeit

Forschungsstatistik I

Auswertung und Darstellung wissenschaftlicher Daten (1)

Wolf-Gert Matthäus, Jörg Schulze. Statistik mit Excel. Beschreibende Statistik für jedermann. 3./ überarbeitete und erweiterte Auflage.

3 Lage- und Streuungsmaße

Elemente der Stochastik (SoSe 2016) 10. Übungsblatt

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Faustformeln / Zusammenhänge a) Binomialverteilung als Poissonverteilung:

Kapitel VI - Lage- und Streuungsparameter

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Deskriptive Statistik

Übungsaufgaben zu Kapitel 2 und 3

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Beschreibende Statistik Eindimensionale Daten

Deskriptive Statistik

Datenerhebung, Skalenniveaus und Systemdatei

Kapitel 3: Eindimensionale Häufigkeitsverteilungen

Skalenniveaus =,!=, >, <, +, -

Einwohner, welche 0.6 p zur Verfügung haben. Das macht der restlichen Welt. Daraus ergibt sich das Verhältnis: 10 p w =

Willkommen zur Vorlesung Statistik

Angewandte Statistik (für HRG)

Über den Autor 7 Über den Fachkorrektor 7. Einführung 19

Deskriptive Statistik

4. Erstellen von Klassen

Daten, Datentypen, Skalen

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 8 2. Semester ARBEITSBLATT 8 DIE REELLEN ZAHLEN

Beschreibende Statistik

Teil I: Deskriptive Statistik

Einführung in die computergestützte Datenanalyse

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Transkript:

Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 2. Beschreibende Statistik (descriptive Statistics) Literatur Kapitel 2 * Storrer: Kapitel 29-31 * Stahel: Kapitel 1-3 * Statistik in Cartoons: Kapitel 1-2 2.1 Merkmale und Skalen (Scales) In diesem ersten Teil werden wir eine wichtige Klassifikation von Datentypen vornehmen. Es ist davon auszugehen, dass die meisten von Ihnen im Umgang mit Daten automatisch und gefühlsmässig richtig handeln würden. Ich nehme in dieser Vorlesung aus Zeitgründen und weil es intellektuell nicht sehr anspruchsvoll ist dieses Kapitel nur kurz zusammenfassend durch. Es ist aber wichtig: lesen Sie es also bitte im Verlauf der ersten Semesterwoche durch und lösen Sie aufmerksam die entsprechenden Aufgaben in den Übungen. In Umfragen/Untersuchungen kann man von verschiedenen Personen zum Beispiel unter anderem auch das Geschlecht registrieren. Es wird bei Menschen entweder männlich oder weiblich sein. In EDV-Systemen wird diese Information oft nicht ausgeschrieben als männlich oder weiblich abgelegt, sondern man codiert diese Information mit 0 und 1 (bzw. 1 und 0) und gibt in der Beschreibung der Statistik an, ob 0 bzw. 1 männlich oder weiblich bedeutet. 13

Sie haben dann eine Kolonne mit lauter Folgen wie..., 0, 1, 1, 0, 0, 1, 1, 1, 0, 1... (1) Eine weitere Zahlenfolge in der gleichen Erhebung kann zum Beispiel Schweregrad einer Krankheit sein. Eine Krankheit ist bei den Personen 0 = nicht vorhanden, 1 = in der leichtesten Form vorhanden, 2 = in einer mittelschweren Form vorhanden oder gar 3 = in schwerer Form vorhanden. Die entsprechenden Zahlenfolgen sehen dann also zum Beispiel auszugsweise folgendermassen aus:..., 0, 0, 3, 0, 2, 1, 3, 0, 0, 1... (2) Eine weitere Zahlenfolge in der gleichen Erhebung kann zum Beispiel die Körpertemperatur der Person sein. Diese wird hier in Celsius angegeben und sieht folgendermassen aus:..., 36, 36, 37, 39, 41, 36, 37... (3) Eine weitere Zahlenfolge in der gleichen Erhebung kann zum Beispiel das Gewicht der Person sein. Dieses wird hier in kg angegeben und sieht folgendermassen aus:..., 80, 66, 73, 104, 82, 51, 73... (4) Vergleichen Sie die 4 Datentypen miteinander. Überlegen Sie sich, ob zum Beispiel die Differenzen von 2 Zahlen eine konkrete Bedeutung haben oder gar das Verhältnis; (wo) ist es sinnvoll, das arithmetische Mittel zu bestimmen? Eine erste Ordnung von Merkmalen sieht folgendermassen aus (Storrer Seite 4): 14

Des weiteren kann man sich überlegen, welche (Rechen-)Operationen wo sinnvoll sind. Dazu unterscheiden wir 4 Arten von Merkmalen (Storrer Seite 8): Nominalskala Keine Rangordnung; Rechenoperationen sinnlos (qualitatives Merkmal) Ordinalskala Rangordnung festgelegt; Rechenoperationen sinnlos (qualitatives Merkmal) Intervallskala Rangordnung festgelegt; Abstände zwischen Zahlen haben Bedeutung, Nullpunkt willkürlich, Bildung von Verhältnissen (und Prozenten) nicht sinnvoll (quantitatives Merkmal) Verhältnisskala Rangordnung festgelegt; Abstände zwischen Zahlen haben Bedeutung, Nullpunkt absolut, Bildung von Verhältnissen (und Prozenten) sinnvoll (quantitatives Merkmal) Lesen Sie jetzt (nach der Vorlesung) Kapitel 29 von Storrer durch. Dazu in der Vlsg ein paar Bemerkungen zum Begriff abzählbar unendlich (countably infinite) (vgl Storrer p 3). 15

2.2 Darstellung von Versuchsergebnissen Wir folgen hier den Ausführungen in Storrer ab p 10: DISKRET (discrete): Wir betrachten Prüfungsnoten (welche ev. sehr umfangreich sein können - vgl diese Vlsg mit über 400 Studis). Anstelle einer ungeordneten Urliste oder Rohdaten wollen wir die Daten übersichtlicher darstellen. Eine erste Zwischenstufe kann eine Strichliste sein. Anstelle von (n=) 40 (bzw über 400 Zahlen) haben wir jetzt lediglich eine Folge von 11 Zahlen. Es sind dies die absoluten Häufigkeiten (absolute frequencies) des betrachteten Merkmalswerts. Abstrakt können wir dies formalisieren in der folgenden Art: die möglichen Werte seien ω 1, ω 2,..., ω k. In unserem Beispiel ist ω 1 = 1, ω 2 = 1.5,..., ω 11 = 6 und somit k = 11. Die absolute Häufigkeit des Merkmalswerts ω i bezeichnen wir mit H i (hier also H 1 = 1,..., H 11 = 3). Es gilt dann immer k H i = n. Aussagekräftiger als die absoluten Häufigkeiten H i sind die relativen Häufigkeiten (relative frequencies) h i ; dazu teilen wir die H i jeweils durch die Anzahl der Untersuchungsobjekte n: bzw h i := H i n h i := H i n 100%. (Theorie) (Praxis) In Storrer p 11 finden wir in einer Tabelle die Prüfungsnoten derart kompakt zusammengefasst. Bilder sagen mehr als 1000 Worte und wohl auch mehr als Zahlen; wir wenden uns kurz p 12 in Storrer zu; das Stabdiagramm (bar chart) gibt auf den ersten Blick wohl den schnellsten und besten Überblick. STETIG (continuous): In 2.1 haben wir kurz diskrete und stetige Daten unterschieden. Die Prüfungsnoten sind klar diskret (von Lehrer/innen und Dozent/innen so gemacht). Wenn 16

man 50 Küken wiegt, so ist das Gewicht (abgesehen von physikalisch / philosophischen Fragen) sicher stetig. Wir werden aber meist (unbewusst) Klassen bilden: wir fassen alle Küken mit Gewicht zwischen 103.5 und 104.5 zu 104 g zusammen. Wieder können wir sowohl Urliste wie auch Strichliste und (absolute/relative) Häufigkeiten in einer Tabelle zusammenfassen (Storrer p 12-13). Anstelle des Stabdiagramms (diskret - Stäbe berühren sich nicht) haben wir jetzt ein sogenanntes Histogramm oder Blockdiagramm. Die Balken liegen hier aneinander - dies soll illustrieren, dass eigentlich jeder Wert vorkommen kann. Selbsterklärende Begriffe sind dann auch Klassenbreite (bin width) und Klassenmitte - Storrer p 14 oben. Zur Frage der Klassenbreite: Frage ans Publikum: Wie gross sollte man diese wählen? Zur Frage des Klassenwechsels: Erstens werden Klassenwechsel meist vollzogen, um tendenziös etwas zu beweisen, was vielleicht gar nicht da ist. Zweitens sollte man nach Möglichkeit darauf achten, dass der Flächeninhalt total 1 ist (vor allem, wenn man thematisch auf eine Dichtefunktion (vgl Kapitel 4) hinarbeiten will). Auf Storrer p 15 oben ist der Flächeninhalt gerade nicht 1 (trotz anderslautendem Text). Der Klassenwechsel wird in dieser Vorlesung nicht wichtig sein. Unbestritten sind die Bemerkungen auf Storrer p 15 unten, wenn man in einem Diagramm mehrere Klassenbreiten hat. 17

(Storrer p 16: Idealisierung I) Eine weitere wichtige Darstellung ist die Summenhäufigkeitsverteilung (empirical cumulative distribution function). DISKRET: Wir betrachten erneut die Noten der Prüfung. Frage sei: Wie viele Personen haben eine ungenügende Note? Das ist die Frage nach der Anzahl (oder Anteil) Personen mit Note 3.5. Dies ist leider nicht direkt aus der Tabelle oder dem Stabdiagramm ablesbar. Man muss die Häufigkeit der Noten bis 3.5 addieren. Dies macht man vorteilhaft gleich für alle möglichen Fragen dieser Art und kommt dann zur Summenhäufigkeit oder kumulativen Häufigkeit. Wir gelangen so zu den Darstellungen in Storrer p 17 und 18 (graphische Darstellung desselben). STETIG: Im Kükenbeispiel von Storrer p 19, 20 und 21 tritt hier ein kleines Problem auf: weil das Merkmal stetig ist und wir Klassen gebildet haben, kommen sämtliche Gewichte, welche eigentlich im Intervall (86.5, 87.5] wären, auf einem Punkt 87 zu liegen. Wenn man dann die graphische Darstellung der Summenhäufigkeit bildet, kann man sich (zu Recht) darüber streiten, wo der Sprung stattfinden sollte (Klassenmitte oder Ende). Weiter hat eine grosse Klassenbreite hier einen ganz klaren Nachteil; der Verlust an Information kommt klarer zum Vorschein als bei den Histogrammen. (Storrer p 21, 22: Idealisierung II) Lesen Sie jetzt (nach der Vorlesung) Kapitel 30 von Storrer durch. 18

2.3 Statistische Masszahlen Die Armen werden immer ärmer, die Reichen immer reicher! Wer von Ihnen glaubt, dass diese Aussage richtig ist? 19

Wir haben auf der letzten Seite bei einer bekannten und trivialen Aussage gesehen, dass Daten sehr komplex sein können. Wünsche darf man haben: wir wollen komplexe Datensätze mit möglichst wenigen Zahlen möglichst umfassend beschreiben. Für s erste dienen dazu Lagemasse (measures of location; Durchschnitt (average, mean), Median (median), Modus (mode)) sowie Streuungsmasse (measures of scale; Variationsbreite, Interdezilbereich, Varianz (Variance), Standardabweichung (Standard deviation)). Betrachten wir erstmal das arithmetische Mittel (Durchschnitt) einer Folge von n = 7 Zahlen (zb Noten): 3.5, 4, 4, 6, 2.5, 6, 5. Der Durchschnitt ist hier: Allgemein definieren wir für eine Folge von n reellen Zahlen x 1, x 2,..., x n das arithmetische Mittel (oder auch Durchschnitt) als x := x 1 + x 2 +... + x n n = 1 n n x i. In Storrer p 28 finden Sie noch den Fall der Berechnung eines Durchschnitts, wenn die Daten in Klassen eingeteilt sind. In der einführenden Diskussion haben wir gesehen, dass bei Löhnen nicht einfach über den Durchschnitt gesprochen werden sollte. Mindestens der Median x sollte auch angeschaut werden. Was ist der Median in obigem Datensatz von Noten 3.5, 4, 4, 6, 2.5, 6, 5? Problem wenn n gerade Zahl? Vorteil von x gegenüber x? 20

In Storrer p 30-31 finden Sie noch den Fall der Berechnung von x, wenn die Daten in Klassen eingeteilt sind. Als letzter Ausdruck folgt der Modus: In der Legislaturperiode 2015-2019 ist die Sitzverteilung im Zürcher Kantonsrat folgendermassen: BDP 5, CVP 9, EDU 5, EVP 8, FDP.Die Liberalen 31, Grüne 13, GLP 14, AL 5, SP 36, SVP 54. Der Modus liegt hier bei der SVP - sie hat zur Zeit am meisten Sitze! Arithmetisches Mittel, Median und Modus können alle gleich sein (Situation A) oder auch zum Beispiel alle verschieden (Situation B): Wir kommen zu den Streuungsmassen - 2 davon kann man sehr schnell abhaken: die Variationsbreite ist einfach der grösste Wert minus den kleinsten Wert (bei den Noten also 6 2.5 = 3.5). Das ist einfach die Spannweite der Daten. Man sollte nie nur diese Zahl anschauen (Ausreisser! (outlier)). Wir können bei den der Grösse nach geordneten Daten einfach die kleinsten 10 % und die grössten 10 % der Daten ignorieren und die Spannweite der verbleibenden Daten berechnen - das ist der Interdezilbereich. Man ist dann schon robuster gegenüber Ausreissern. 21

Nach diesen (sehr einfachen) Massen kommen zwei zentral wichtige Masse: Varianz und Standardabweichung. Wir wollen ein sinnvolles Mass für die Streuung der Daten um das Lagemass (zum Beispiel um das arithmetische Mittel) definieren. Wenn wir Daten x 1, x 2,..., x n mit arithmetischem Mittel x haben, so kann man die Werte (x 1 x), (x 2 x),..., (x n x) berechnen (Differenz zum arithmetischen Mittel). Berechnen Sie hiervon den Durchschnitt: 22

Nach diesem Fehlschlag fallen folgende Vorschläge ein, um ein sinnvolles Streuungsmass zu definieren: und 1 n 1 n n x i x n (x i x) 2. Beide Masse werden (zu Recht) verwendet. Wir werden uns in dieser Vorlesung auf den zweiten Ausdruck mit dem Quadrat konzentrieren (es ist mathematisch übrigens einfacher). Die Summe SS xx := n (x i x) 2 (Sum of Squares x and x) und Varianten werden in dieser Vorlesung noch oft vorkommen - untersuchen wir sie: 23

Wir definieren die empirische Varianz s 2 als s 2 := 1 n 1 SS xx. Wir werden später in dieser Vlsg begründen, warum wir hier durch (n 1) statt durch n teilen. Nach den Berechnungen vor einer Seite haben wir also die folgenden drei gleichwertigen Formeln zur Auswahl: s 2 = 1 n 1 n (x i x) 2 = 1 ( n x 2 i nx 2) n 1 = 1 ( n x 2 i 1 n n 1 n ( x i ) 2). Berechnen Sie bei den Noten 3.5, 4, 4, 6, 2.5, 6, 5 die empirische Varianz. Das letzte Streuungsmass, welches wir definieren, ist die empirische Standardabweichung: s := s 2 = 1 n 1 n (x i x) 2. Zwei Bemerkungen zu Varianz und Standardabweichung: 1) Die Varianz ist ein quadratisches Mass; wenn wir davon die Wurzel ziehen, erhalten wir ein Mass, welches mit den Differenzen direkt in Bezug gesetzt werden kann. 2) Im Gegensatz zum Storrer lege ich Wert auf die Bezeichnung empirische Varianz bzw Standardabweichung, wenn wir durch (n 1) teilen. 24

Aufgabe 31-8: Untersuchen Sie x und s 2 wenn n = 1: Wichtig: 1. Lesen Sie jetzt das komplette Kapitel im Storrer II selber durch (Kapitel 29-31). 2. Lösen Sie danach mindestens 5 Aufgaben hinten im Kapitel und vergleichen Sie mit den Lösungen am Schluss des Buches. Bei Bedarf lösen Sie mehr Aufgaben. 3. Gehen Sie in die Übungsstunde. Drucken Sie das Übungsblatt dazu vorher aus, lesen Sie vorher die Aufgaben durch und machen sich erste Gedanken dazu (zum Beispiel, wie man sie lösen könnte). 4. Dann lösen Sie das Übungsblatt: zuerst immer selber probieren, falls nicht geht: Tipp von Mitstudi benutzen, falls immer noch nicht geht: Lösung von Mitstudi anschauen, 1 Stunde warten, versuchen, aus dem Kopf heraus wieder zu lösen, falls immer noch nicht geht: Lösung von Mitstudi abschreiben (und verstehen - also sollte man insbesondere keine Fehler abschreiben!). 5. Lösen Sie die entsprechenden Prüfungsaufgaben im Archiv. 25