Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2016
Anmeldung in Basis: 06. 10.06.2016 Organisatorisches
Einführung Statistik Analyse empirischer Daten beschreibende (deskriptive) Statistik: Darstellung von Daten Charakterisierung durch Kennzahlen schließende (induktive) Statistik Interpretation von Daten als Realisierung von Zufallsvariablen Rückschlüsse auf die zugrundeliegende Verteilung Verallgemeinerung aus endlich vielen Erfahrungswerten
Software Verschiedene Ansätze von Software allgemeine Software mit Statistikfunktionen Tabellenkalkulation (MS Excel, OpenOffice,... ) Mathematica MatLab / GNU Octave GeoGebra dedizierte Statistiksoftware SAS SPSS / PSPP S-Plus / GNU R Mehr z.b. auf http://en.wikipedia.org/wiki/comparison_of_statistical_packages
Grundbegriffe Begriffe Merkmal zu untersuchende Eigenschaft/Variable Ausprägung Element des Wertebereichs eines Merkmals Grundgesamtheit Menge aller Merkmalsträger Erhebungseinheit untersuchte Menge von Merkmalsträgern Stichprobe Untersuchung einer (zufälligen) Teilmenge der Grundgesamtheit Vollerhebung Untersuchung der Grundgesamtheit
Grundlagen Arten von Merkmalen diskret das Merkmal hat endlich viele mögliche Ausprägungen stetig das Merkmal hat (theoretisch) unendlich viele mögliche Ausprägungen quasi-stetig durch praktische Beschränkungen (Messgenauigkeit, Zahlendarstellung im Rechner) wieder endlich viele mögliche Ausprägungen
Grundlagen Skalentypen Nominalskala diskrete Kategorien ohne Ordnungsrelation z.b. Geschlecht, Beruf Ordinalskala Ausprägungen mit Ordnungsrelation z.b. Schulnoten, Windstärke (Beaufort) Kardinalskala (auch metrische Skala) Ordinalskala mit Rechenoperationen Intervallskala Kardinalskala ohne absoluten Nullpunkt; nur Differenzen sinnvoll z.b. Datum, Temperatur in Celsius Verhältnisskala hat absoluten Nullpunkt; auch Verhältnisse sinnvoll z.b. Alter, Temperatur in Kelvin
Grundlagen Notation Zufallsvariablen Großbuchstaben z.b. {X 1, X 2,..., X n }, X konkrete Realisierung Kleinbuchstaben z.b. {x 1, x 2,..., x n }, x
Lokalisierung Lokalisierung: verschiedenen Sprachversionen einer Software Office-Software lokalisiert auch Funktions- und Befehlsnamen z.b. dt. MITTELWERT(...) en. AVERAGE(...) Gespeicherte Dateien sind sprachunabhängig: mit jeder Sprachversion verwendbar Übersetzungslisten deutsch/englisch z.b. bei: http://www.ooowiki.de/deutschenglischcalcfunktionen.html http://www.calc-info.de/files/funktionen de-en.pdf
Lageparameter Extrema kleinster und größter vorkommender Wert Modalwert der häufigste Wert Quantile Median Md 50% der Messwerte Quartile Q 1, Q 3 25% bzw. 75% der Messwerte Perzentil P z z% der Messwerte Mittelwert arithmetisches Mittel x = 1 n n i=1 x n
Lageparameter Excel-/OpenOffice-Funktionen: Alle Funktionen arbeiten auf einem Zellbereich oder einer Liste von Einzelwerten MODALWERT(Daten) Modalwert der gegebenen Daten MIN(Daten) Minimum MAX(Daten) Maximum MEDIAN(Daten) Median QUARTILE(Daten; n) n-tes Quartil QUANTIL(Daten; z) z-perzentil
Streuungsparameter Interquartilsabstand I 50 = Q 3 Q 1 empirische Varianz s 2 = 1 n n i=1 (x i x) 2 korrigierte Stichprobenvarianz s 2 = 1 n i=1 (x i x) 2 n 1 Standardabweichung der Stichprobe s bzw. s erwartungstreuer Schätzer
Streuungsparameter Excel-/OpenOffice-Funktionen: VARIANZ(Daten) korrigierte Varianz ( 1 n 1 (xi x) 2 ) VARIANZEN(Daten) empirische Varianz ( 1 n (xi x) 2 ) STABW(Daten) korrigierte Schätzung der Standardabweichung STABWN(Daten) empirische Standardabweichung
Darstellung Häufigkeitsdiagramm für diskrete Merkmale direkt darstellbar Beispiel: Webbrowser
Darstellung Häufigkeitsdiagramme sind nur für diskrete Merkmale sinnvoll Zusammenfassung in Klassen künstliche Diskretisierung Für m Klassen konstanter Breite h gilt: h = x max x min m Verschiedene Richtlinien zur Klasseneinteilung: (m: Anzahl der Klassen, h: Klassenbreite, n: Anzahl der Werte, s: Standardabweichung) Sturges m = 1 + log 2 n Rice m = 2 3 n Scott h = 3,49s 3 n Freedman-Diaconis h = 2 I 50 3 n
Darstellung Häufigkeitsdiagramm mit Klassen: Histogramm Beispiel: Antwortzeiten des Webservers
Histogramm Excel/OpenOffice Klassenanzahl/-breite festlegen Spalte mit Klassenobergrenzen erzeugen, beginnend bei Min+h Zielbereich für Häufigkeitszähler markieren (Spalte neben Klassenobergrenzen) Formel =HÄUFIGKEIT(Daten; Klassen) eingeben und mit STRG+SHIFT+ENTER abschließen Die letzte Klassenobergrenze ist der Maximalwert und muss ausgelassen werden; d.h. es werden