Blockpraktikum zur Statistik mit R



Ähnliche Dokumente
Blockpraktikum zur Statistik mit R

QM: Prüfen -1- KN

4. Erstellen von Klassen

STATISTIK. Erinnere dich

1 Verteilungen und ihre Darstellung

Einfache statistische Auswertungen mit dem TI-Nspire

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

1 Darstellen von Daten

Melanie Kaspar, Prof. Dr. B. Grabowski 1

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Datenerhebung und deskriptive Statistik

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Primzahlen und RSA-Verschlüsselung

Felix Klug SS Tutorium Deskriptive Statistik

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Korrelation (II) Korrelation und Kausalität

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Erstellen von x-y-diagrammen in OpenOffice.calc

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Überblick über die Tests

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Statistische Auswertung:

Evaluation der Normalverteilungsannahme

R ist freie Software und kann von der Website.

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Einfache statistische Auswertungen mit dem Programm SPSS

7 Rechnen mit Polynomen

Forschungsstatistik I

Fachhochschule Düsseldorf Wintersemester 2008/09

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

Statistik II für Betriebswirte Vorlesung 2

Data Mining: Einige Grundlagen aus der Stochastik

1.3 Die Beurteilung von Testleistungen

1 Mathematische Grundlagen

Die Näherung durch die Sekante durch die Punkte A und C ist schlechter, da der Punkt C weiter von A entfernt liegt.

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft


B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Lineare Gleichungssysteme

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Statistik I für Betriebswirte Vorlesung 2

Statistik I für Betriebswirte Vorlesung 11

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

Auswertung zur. Hauptklausur Unternehmensbesteuerung. vom und Ergebnisse der Kundenbefragung

Dokumentation. estat Version 2.0

Handbuch ECDL 2003 Basic Modul 6: Präsentation Diagramm auf einer Folie erstellen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Statistik für Studenten der Sportwissenschaften SS 2008

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Plotten von Linien ( nach Jack Bresenham, 1962 )

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Zahlen auf einen Blick

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Kleine Einführung in die lineare Regression mit Excel

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

Histogramm und Wahrscheinlichkeitsnetz 1/16

Einführung in die Statistik mit EXCEL und SPSS

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Die Optimalität von Randomisationstests

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Statistik I für Betriebswirte Vorlesung 5

9. Schätzen und Testen bei unbekannter Varianz

Statistische Thermodynamik I Lösungen zur Serie 1

Einführung in die Algebra

Abiturprüfung Mathematik 2008 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis, Aufgabe 1

Informatik Kurs Simulation. Hilfe für den Consideo Modeler

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss

Umsetzung und Akzeptanz des Persönlichen Budgets; Modul 1: Quantitative Datenanalyse

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Mathematischer Vorbereitungskurs für Ökonomen

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Stichprobenauslegung. für stetige und binäre Datentypen

1 topologisches Sortieren

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Teil I: Deskriptive Statistik

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Kapitel 13 Häufigkeitstabellen

Die Größe von Flächen vergleichen

W-Rechnung und Statistik für Ingenieure Übung 11

Zeichen bei Zahlen entschlüsseln

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Zusammenhänge zwischen metrischen Merkmalen

Lösung. Prüfungsteil 1: Aufgabe 1

Musterlösungen zur Linearen Algebra II Blatt 5

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Transkript:

Blockpraktikum zur Statistik mit R 2. April 2014 Fabian Buckmann Institut für Mathematische Statistik Universität Münster WS 13/14

Gliederung 1 Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik 2 Datenerhebung Grundlegende Begriffe Merkmalstypen 3 Funktionsverläufe skizzieren Funktionen plotten Verteilungen und Häufigkeitsverteilungen 4 Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beschreibung von Verteilungen (Kenngrößen) Quantile, Boxplots und Normal-Quantil-Plots 2 / 70

Gliederung Überblick über die Statistik 1 Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik 2 Datenerhebung Grundlegende Begriffe Merkmalstypen 3 Funktionsverläufe skizzieren Funktionen plotten Verteilungen und Häufigkeitsverteilungen 4 Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beschreibung von Verteilungen (Kenngrößen) Quantile, Boxplots und Normal-Quantil-Plots 3 / 70

Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik Was ist Statistik? Wikipedia: Statistik ist die Lehre von Methoden zum Umgang mit quantitativen Informationen (Daten). [...] Sie ist damit unter anderem die Zusammenfassung bestimmter Methoden, um empirische Daten zu analysieren. [...] Statistik wird einerseits als eigenständige mathematische Disziplin über das Sammeln, die Analyse, die Interpretation oder Präsentation von Daten betrachtet, andererseits als Teilgebiet der Mathematik, insbesondere der Stochastik, angesehen. Aufgaben der Statistik: Daten sammeln Daten darstellen und analysieren Daten interpretieren Prognosen und Entscheidungen treffen 4 / 70

Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik Beispiel: Klassenspiegel 30 Schüler bekommen ihre Klausur zurück. Ziel: Durchschnittsnote berechnen und Notenverteilung skizzieren Notenpiegel der Stochastikklausur im Mathe LK Noten 1 2 3 4 5 6 3 8 11 6 2 0 Durchschnittsnote: 2.866 Anzahl der Schüler 0 2 4 6 8 10 1 2 3 4 5 6 Noten 5 / 70

Überblick über die Statistik Beispiel: Einkommensverteilung Ziele in der Statistik und der deskriptiven Statistik 11.242 Personen werden zu ihrem Einkommen befragt. Ziel: Darstellung der Einkommensverteilung, Lage und Streuung einschätzen 6 / 70

Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik Beispiel: Düngemittel Fragestellung: Wie stark ist der Zusammenhang zwischen der eingesetzten Menge eines Düngemittels und der Erntemenge? Ziel: Quantifizierung des Einflusses gewisser Merkmale. 7 / 70

Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik Beispiel: Glühbirne Fragestellung: Wie groß ist die Lebensdauer einer Glühbirne aus einer bestimmten Produktion Ziel: Schätzen der mittleren Lebensdauer einer Glühbirne 8 / 70

Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik Arten der Datenanalyse Man unterscheidet zwischen deskriptiver (beschreibender), explorativer (suchender) und induktiver (schließender) Datenanalyse. deskriptiv: Beschreiben und Darstellen von Daten & Datenvalidierung Grafiken (Tortendiagramm, Histogramm, Boxplot,...) Tabellen und Kenngrößen (Mittelwert, Streuung,...) keine Stochastik explorativ: Auffinden von Strukturen und Besonderheiten in Daten Ableiten von Fragestellungen und Hypothesen keine Stochastik induktiv: Über Daten hinaus Aussagen über Grundgesamtheit treffen Testen (Ist Therapie A besser als Therapie B?) Schätzen (Wie lange hält eine Glühbirne?) braucht Stochastik, Wahrscheinlichkeitstheorie 9 / 70

Gliederung Datenerhebung 1 Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik 2 Datenerhebung Grundlegende Begriffe Merkmalstypen 3 Funktionsverläufe skizzieren Funktionen plotten Verteilungen und Häufigkeitsverteilungen 4 Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beschreibung von Verteilungen (Kenngrößen) Quantile, Boxplots und Normal-Quantil-Plots 10 / 70

Grundlegende Begriffe Datenerhebung Grundlegende Begriffe Statistische Einheiten: Grundgesamtheit: Teilgesamtheit: Stichprobe: Merkmal (Variable): Merkmalsausprägung: auf bestimmte Merkmale untersuchte Personen bzw. Objekte Menge aller für die Fragestellung relevanten statistischen Einheiten Teilmenge der Grundgesamtheit tatsächlich untersuchte Teilgesamtheit interessierende Größe konkreter Wert des Merkmals für eine bestimmte statistische Einheit 11 / 70

Datenerhebung Grundlegende Begriffe Beispiel: Mietspiegel Städte und Gemeinden erstellen Mietspiegel bieten Mietern und Vermietern eine Marktübersicht zu Miethöhen zur Entscheidung in Mietstreitprozessen herangezogen Nach 558 BGB ist die ortsübliche Vergleichsmiete wie folgt definiert: Die ortsübliche Vergleichsmiete wird gebildet aus den üblichen Entgelten, die in der Gemeinde oder einer vergleichbaren Gemeinde für Wohnraum vergleichbarer Art, Größe, Ausstattung, Beschaffenheit und Lage in den letzten vier Jahren vereinbart oder, von Erhöhungen nach 560 abgesehen, geändert worden sind. 12 / 70

Datenerhebung Grundlegende Begriffe Beispiel: Mietspiegel Statistische Einheiten: Grundgesamtheit: Stichprobe: Merkmale: Merkmalsausprägungen: Wohnungen in Münster Menge aller Wohnungen in Münster Wohnungen, deren Daten erfasst wurden Baujahr, Größe, Preis/qm Baujahr: bis 1929,..., 2004-2005 Größe: 21-30 qm,..., 151-160qm Preis/qm: x (0, ) 13 / 70

Datenerhebung Grundlegende Begriffe Stichprobenarten Man unterscheidet zwischen einer Vollerhebung (Erfassung aller statistischen Einheiten einer Grundgesamtheit) und Teilerhebung (Ziehen einer Stichprobe). Vollerhebung nicht immer möglich Stichprobe Stichprobenarten: einfache Zufallsstichprobe, bewußtes Auswahlverfahren etc.. Einfache Zufallsstichprobe: zufälliges Ziehen aus der Grundgesamtheit technisch häufig schwer umsetzbar Ziehungsmethode kann systematischen Fehler enthalten Bewußtes Auswahlverfahren: Stichprobe wird vom Interviewer ausgewählt Vor- und Nachteil: Kontrolle durch den Interviewer 14 / 70

Datenerhebung Grundlegende Begriffe Stichprobenarten Man unterscheidet zwischen einer Vollerhebung (Erfassung aller statistischen Einheiten einer Grundgesamtheit) und Teilerhebung (Ziehen einer Stichprobe). Vollerhebung nicht immer möglich Stichprobe Stichprobenarten: einfache Zufallsstichprobe, bewußtes Auswahlverfahren etc.. Einfache Zufallsstichprobe: zufälliges Ziehen aus der Grundgesamtheit technisch häufig schwer umsetzbar Ziehungsmethode kann systematischen Fehler enthalten Bewußtes Auswahlverfahren: Stichprobe wird vom Interviewer ausgewählt Vor- und Nachteil: Kontrolle durch den Interviewer 14 / 70

Verzerrte Stichproben Datenerhebung Grundlegende Begriffe Werden jedoch Elemente der Grundgesamtheit bei der Ziehung nicht berücksichtigt, spricht man von einer verzerrten Stichprobe. Mögliche Verzerrungen sind: Verzerrung (Bias) Selektion-Bias Nonresponse-Bias Selfselection-Bias Ursache und Beispiel bewusster Ausschluss von Elementen von der Ziehung Bsp: Internet- oder Zeitungsumfrage (unangenehme) Fragen bleiben unbeantwortet Bsp: Fragen zum Sexualverhalten etc. Umfragen auf freiwilliger Basis Nur Interessierte nehmen teil 15 / 70

Datenerhebung Merkmalstypen Merkmale und Ausprägungen - Mietspiegel Baujahr: bis 1929, 1930-1945,..., 2004-2005, nach 2006 Größe: 20 qm, 21-30 qm,..., 151-160 qm, 161 qm Preis/qm: x (0, ) Badausstattung: mit Badewanne, ohne Badewanne Was lässt sich hinsichtlich Beschaffenheit, Ordnung und Abstand der Merkmalsausprägungen sagen? 16 / 70

Datenerhebung Merkmalstypen Stetige und diskrete Mermale diskret: stetig: quasi-stetig: endlich oder abzählbar unendlich viele Ausprägungen alle Werte eines Intervalls sind mögliche Ausprägungen diskret messbare, aber fein abgestufte Daten Beispiel (Mietspiegel) diskret: Baujahr, Badeausstattung stetig: Preis/qm quasi-stetig: Größe, Preis/qm (wird gerundet auf zwei Nachkommastellen) 17 / 70

Datenerhebung Merkmalstypen Skalenarten nominalskaliert: ordinalskaliert: intervallskaliert: verhältnisskaliert: metrisch skaliert: Ausprägungen sind Namen, keine Ordnung möglich Ausprägungen können geordnet, aber Abstände nicht interpretiert werden Ausprägungen sind Zahlen, Interpretation der Abstände möglich Quotienten der Ausprägungen können sinnvoll interpretiert werden intervallskaliert und verhältnisskaliert Beispiel nominalskaliert: Badeausstattung (Mietspiegel), Geschlecht ordinalskaliert: Baujahr (Mietspiegel), Zufriedenheitsskala intervallskaliert: Temperatur in Celsius verhältnisskaliert: Preis/qm (Mietspiegel) 18 / 70

Datenerhebung Merkmalstypen Qualitative und quantitative Mermale Qualitative Mermale geben keine Intensität bzw. Ausmaß wieder. Sie besitzen endlich viele Ausprägungen und sind höchstens ordinalskaliert. Quantitative Mermale geben Intensitäten bzw. Ausmaße wieder. Intervall- / verhältnisskalierte Merkmale sind stets quantitativ. 19 / 70

Der Abschnitt 5 (Grundlegende Definitionen) des Aufgabenblattes kann jetzt bearbeitet werden.

Gliederung Funktionsverläufe skizzieren 1 Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik 2 Datenerhebung Grundlegende Begriffe Merkmalstypen 3 Funktionsverläufe skizzieren Funktionen plotten Verteilungen und Häufigkeitsverteilungen 4 Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beschreibung von Verteilungen (Kenngrößen) Quantile, Boxplots und Normal-Quantil-Plots 21 / 70

Funktionsverläufe skizzieren Funktionen plotten Punkte plotten Mit der Funktion plot(x, y, type= p ) zeichnet man Punkte mit den x-werten x und y-werten y in ein Koordinatensystem. Dabei müssen die Vektoren x und y die gleiche Länge haben. Wählt man als Typ l, wird eine Linie durch die Punkte gezeichnet. Mit points(x,y) kann man weitere Punkte und mit lines(x,y) Linien in eine bestehende Grafik einfügen. Weitere nützliche Parameter sind unter anderem: type, pch, lty, col, main, xlab, ylab Beispiel plot(c(2,6,4), c(1,-3,0)) x <- seq(-10,10,length=30) plot(x, x, main= Gerade, xlab= x, ylab= y, type= o ) points(x, xˆ2-4, type= l, col= red ) 22 / 70

Funktionsverläufe skizzieren Funktionen plotten Kurven plotten Mit curve(expr, from, to) kann man die Funktion expr von from bis to zeichnen. Die Standardvariable der Funktion ist x. Mit dem Parameter add=true können mehrere Funktionen in eine Grafik gezeichnet werden. Weitere Parameter siehe help(curve) Beispiel curve(sin(x), from=0, to=2*pi) points(c(0,pi/2,pi,3/2*pi,2*pi), c(0,1,0,-1,0), pch=19) curve(cos(x), from=0, to=2*pi, add=true) 23 / 70

Funktionsverläufe skizzieren Sinus- und Cosinus-Kurven Funktionen plotten sin(x) 1.0 0.5 0.0 0.5 1.0 0 1 2 3 4 5 6 x 24 / 70

Funktionsverläufe skizzieren Funktionen plotten Hilfreiches Mit par(mfrow=c(nrow,ncol)) oder par(mfcol=c(nrow,ncol)) kann man nrow x ncol Grafiken in ein Fenster zeichnen. Die Grafiken werden dann entweder zeilenweise oder spaltenweise in das Fenster gefüllt. Der Befehl dev.off() schließt das Grafikfenster. Mit pdf(file="name") schreibt man die bis zum Befehl dev.off() folgenden Grafiken in eine PDF-Datei. Das Verzeichnis kann mit setwd("pfad") gewählt werden, ansonsten findet sich die Datei auf dem Desktop wieder. 25 / 70

Verteilungen in R Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen Verteilung Name in R Parameter in R Parameter B(n, p) binom size, prob n, p Poisson(λ) pois lambda λ N(µ, σ 2 ) norm mean, sd µ, σ R(a, b) unif min, max a, b Exp(λ) exp rate λ Γ(n, λ) gamma shape, rate n, λ t (k Freiheitsgr.) t df k χ 2 n chisq df n s. S. 28 Skript von S. Ahlers 26 / 70

Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen Aufruf von Verteilungen in R Beispiel: Normalverteilung Dichtefunktion: dnorm Verteilungsfunktion: pnorm Quantilsfunktion: qnorm Zufallsdaten: rnorm (z.b. qnorm(1/2)=0) Beispiel rnorm(100, mean=0, sd=2) curve(dgamma(x, shape = 5), from = 0, to = 20, n = 200) quant <- c(0.1, 0.25, 0.5, 0.75, 0.99) qexp(quant, 4) 27 / 70

Funktionsverläufe skizzieren Absolute und relative Häufigkeiten Verteilungen und Häufigkeitsverteilungen Sei x 1,..., x n eine Liste von Beobachtungen des Merkmals X und a 1,..., a k, k n deren Ausprägungen. h j = n i=1 1 {xi =a j } absolute Häufigkeit von a j f j = h j n h 1,..., h k f 1,..., f k relative Häufigkeit von a j absolute Häufigkeitsverteilung relative Häufigkeitsverteilung Das Aufführen von absoluten/relativen Häufigkeiten ist nur sinnvoll, falls k deutlich kleiner ist als n. Oftmals ist es sinnvoll (z.b. bei (quasi-)stetigen Merkmalen) die Beobachtungsliste in Gruppen zu unterteilen. 28 / 70

Beispiel: Notenspiegel Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen 30 Studenten haben eine Statistikklausur mitgeschrieben. Student i hat die Punktzahl x i [0, 80] erreicht. Unterteilung der Punkteskala: [0, 16] mangelhaft, [17, 32] ausreichend,..., [64, 80] sehr gut Häufigkeitstabelle: Notenspiegel Notenpiegel der Stochastikklausur im Mathe LK sehr gut 3 gut 8 befriedigend 11 ausreichend 6 mangelhaft 2 Anzahl der Schüler 0 2 4 6 8 10 1 2 3 4 5 6 Noten 29 / 70

Funktionsverläufe skizzieren Kumulierte Häufigkeiten Verteilungen und Häufigkeitsverteilungen Addiert man die Häufigkeiten sukzessive auf, so spricht man von kumulierten Häufigkeiten. h 1, 2 j=1 h j,..., k j=1 h j f 1, 2 j=1 f j,..., k j=1 f j absolute kumulierte Häufigkeiten relative kumulierte Häufigkeiten Die Funktion cumsum(x) addiert sukzessive die Werte des Vektors x auf. Kumulierte Häufigkeiten Kumulierter Klassenspiegel 1 sehr gut 3 gut 11 befriedigend 22 ausreichend 28 mangelhaft 30 Anzahl Schüler 0 5 10 15 20 25 30 2 3 4 5 6 Note 30 / 70

Funktionsverläufe skizzieren Kumulierte Häufigkeitsverteilung Verteilungen und Häufigkeitsverteilungen Definition Die absolute kumulierte Häufigkeitsverteilung eines (mindestens ordinalskalierten) Merkmals X ist durch die Funktion H mit H(x) = n i=1 1 (,x] (x i ) = Anzahl der Werte x i mit x i x gegeben. Bemerkung Es gilt also auch H(x) = h i i a i x 31 / 70

Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen Die empirische Verteilungsfunktion Definition Die empirische Verteilungsfunktion F ist definiert durch F (x) = H(x)/n = f i i a i x = n 1 n 1 (,x] (x i ). i=1 Satz (von Glivenko und Cantelli) Seien X 1, X 2,... eine Folge u. i. v. Zufallsgrößen mit Werten in R. F n ( ) = F n (, x 1,..., x n ) sei die empirische Verteilungsfunktion von x 1,..., x n. Dann konvergiert F n (, X 1,..., X n ) für n P-f. s. gleichmäßig in x R gegen die Verteilungsfunktion F von X 1. 32 / 70

Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen Die empirische Verteilungsfunktion Definition Die empirische Verteilungsfunktion F ist definiert durch F (x) = H(x)/n = f i i a i x = n 1 n 1 (,x] (x i ). i=1 Satz (von Glivenko und Cantelli) Seien X 1, X 2,... eine Folge u. i. v. Zufallsgrößen mit Werten in R. F n ( ) = F n (, x 1,..., x n ) sei die empirische Verteilungsfunktion von x 1,..., x n. Dann konvergiert F n (, X 1,..., X n ) für n P-f. s. gleichmäßig in x R gegen die Verteilungsfunktion F von X 1. 32 / 70

Funktionsverläufe skizzieren Verteilungen und Häufigkeitsverteilungen Empirische Verteilungsfunktion y 0.0 0.2 0.4 0.6 0.8 1.0 emp. Vertfkt Normalvert 4 3 2 1 0 1 2 3 Testdaten 33 / 70

Der Abschnitt 6 (Funktionsverläufe) des Aufgabenblattes kann jetzt bearbeitet werden.

Gliederung Datendarstellungen in der univariaten Analyse 1 Überblick über die Statistik Ziele in der Statistik und der deskriptiven Statistik 2 Datenerhebung Grundlegende Begriffe Merkmalstypen 3 Funktionsverläufe skizzieren Funktionen plotten Verteilungen und Häufigkeitsverteilungen 4 Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beschreibung von Verteilungen (Kenngrößen) Quantile, Boxplots und Normal-Quantil-Plots 35 / 70

Datendarstellungen in der univariaten Analyse Uni- und multivariate Analyse Univariate Analyse betrifft die Auswertung der Erhebung eines Merkmals. Darstellungsarten: Tabellen (Häufigkeitstabellen,...) Kenngrößen zur Lage und Streuung (Mittelwert, Median,...) Diagramme (Histogramm, Tortendiagramm,...) Boxplot, Quantil-Plot,... Multivariate Analyse betrifft die Auswertung der Erhebung mehrerer Merkmale Fragestellung: Wie stark ist der Zusammenhang zwischen der eingesetzten Menge eines Düngemittels und der Erntemenge? Beispiel: Lineare Modelle,... 36 / 70

Datendarstellungen in der univariaten Analyse Daten- / Häufigkeitstabellen Aufbereitung und grafische Darstellung Fahrgastbefragung: Aus welchem Grund fahren Sie heute mit dem Bus? Fahrt zum Arbeitsplatz Fahrt zum Studium/Schule Besuch von Familie/Freunden Einkauf/Shopping Urlaub Sonstiges 37 / 70

Datendarstellungen in der univariaten Analyse Häufigkeitstabelle Aufbereitung und grafische Darstellung Antworten von 1000 befragten Fahrgästen abs. Häufigk. rel. Häufigk. Fahrt zum Arbeitsplatz 203 0.2 Fahrt zum Studium/Schule 463 0.46 Besuch von Familie/Freunden 87 0.087 Einkauf/Shopping 101 0.1 Urlaub 4 0.004 Sonstiges 142 0.14 38 / 70

Datendarstellungen in der univariaten Analyse Grafische Darstellungsmöglichkeiten Aufbereitung und grafische Darstellung Diagramm Beschreibung Befehl in R Stab- a 1,..., a k werden auf der x- Achse abgetragen, orthogonal zur x-achse wird über a j ein Strich proportional zu h j abgetragen Säulen- wie das Stabdiagramm nur mit Säulen statt Strichen Balken- wie Säulendiagramm, jedoch mit vertauschten Achsen Torten- die Flächen der Kreissektoren sind proportional zu den Häufigkeiten: f j 360 plot(..., type="h") barplot barplot(..,horiz=true) pie 39 / 70

Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Stabdiagramm Beispiel x <- c(203, 463, 87, 101, 4, 142) names(x) <- c( Fahrt zum Arbeitsplatz,...) plot(x, type= h, xaxt= n ) axis(1, at=1:length(x), labels=names(x), cex.axis=0.75) Die Funktion axis(n, at=.., labels=..) fügt an der Grafikseite n (s.?axis für genauere Information) eine Achse hinzu mit Markierungen an den Stellen at und Beschriftung labels. 40 / 70

Stabdiagramm Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Stabdiagramm der Fahrgastbefragung (abs. Häufigkeiten) Anzahl an Fahrgästen 0 100 200 300 400 Arbeitsplatz Studium/Schule Familie/Freunde Einkauf Urlaub Sonstiges Fahrtgrund 41 / 70

Datendarstellungen in der univariaten Analyse Säulendiagramm Aufbereitung und grafische Darstellung barplot(x, cex.names=0.6) Säulendiagramm Fahrgastbefragung (abs, Häufigkeiten) Anzahl an Fahrgästen 0 100 200 300 400 Arbeitsplatz Studium/Schule Familie/Freunde Einkauf Urlaub Sonstiges 42 / 70

Datendarstellungen in der univariaten Analyse Balkendiagramm Aufbereitung und grafische Darstellung barplot(x, horiz=true, cex.names=0.6) Balkendiagramm Fahrgastbefragung (abs, Häufigkeiten) Arbeitsplatz Studium/Schule Familie/Freunde Einkauf Urlaub Sonstiges 0 100 200 300 400 Anzahl an Fahrgästen 43 / 70

Datendarstellungen in der univariaten Analyse Tortendiagramm Aufbereitung und grafische Darstellung pie(x) Arbeitsplatz Studium/Schule Sonstiges Urlaub Familie/Freunde Einkauf 44 / 70

Datendarstellungen in der univariaten Analyse Klasseneinteilung Aufbereitung und grafische Darstellung Ist die Anzahl der unterschiedlichen Beobachtungen eines Merkmals sehr groß (z.b. bei stetigen/quantitativen Merkmalen), so ist die Darstellung dieses Merkmales in Häufigkeitstabellen oder durch die vorher genannten Diagramme nicht sinnvoll, da diese unübersichtlich werden. ( vgl. abs./rel. Häufigkeiten) Blattlänge von Irispflanzen 0 1 2 3 4 5 6 Einteilung der Beobachtungen in Klassen 45 / 70

Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Der Befehl cut In R benutzt man dafür cut(x, breaks=..). Dieser ersetzt die Werte eines Vektors durch die Klasse, innerhalb derer er liegt. breaks gibt dabei entweder die Bruchpunkte der Klassen oder die Anzahl an Klassen (alle gleiche Länge) an. Das Merkmal muss mindestens ordinal skalliert sein. Beispiel (Blattlänge der Pflanzengattung Iris) bl <- iris$petal.length bl.kl.5 <- cut(bl, breaks=5, include.lowest=true) bl.kl.ind <- cut(bl, breaks=c(1,2,5,7), include.lowest=true) bl.kl.5 46 / 70

Histogramme Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Ein Histogramm ist ein Balkendiagramm, welches die absoluten/relativen Häufigkeiten von Beobachtungen in bestimmten Intervallen angibt. Teilt die Merkmalsausprägungen in k N 2 Intervalle [c 0, c 1 ),..., [c k 1, c k ) ein Zeichnet über den Klassen [c 0, c 1 ),..., [c k 1, c k ) Rechtecke mit Breite: Höhe: Fläche: d j = c j c j 1 proportional zu h j /d j bzw. f j /d j proportional zu h j bzw. f j h j und f j ist dabei die absolute bzw. relative Zahl der Beobachtungen in [c j 1, c j ). Problem, falls die Daten über ein sehr großes Intervall gestreut und nicht beschränkt sind. Dann können die Säulen die Höhe 0 haben. 47 / 70

Datendarstellungen in der univariaten Analyse Der hist-befehl Aufbereitung und grafische Darstellung Histogramme erzeugt man in R mit hist(x, breaks=..). x ist Datenvektor (mindestens ordinalskaliert) breaks gibt entweder die Bruchpunkte der Klassen oder die Anzahl an Klassen (alle gleiche Länge) an. Es gibt folgende Optionen: c(c 0,..., c k ) Intervalle [c 0, c 1 ),..., [c k 1, c k ). 20 k = 20 Intervalle gleicher Länge "Sturges" (default) k log 2 (n) + 1 Intervalle gleicher Länge "Scott" wie oben, jedoch mit k n 1/3 freq gibt an, ob absolute (TRUE) oder relative (FALSE) Häufigkeiten angezeigt werden sollen. 48 / 70

Datendarstellungen in der univariaten Analyse Aufbereitung und grafische Darstellung Beispiel: Blattlänge der Irispflanze Beispiel hist(bl) hist(bl, breaks=c(1,2,5,7), include.lowest=true) Blattlänge Iris, breaks=sturges Blattlänge Iris, breaks=c(1,2,5,7) 0.30 30 0.25 Frequency 20 Density 0.20 0.15 10 0.10 0.05 0 0.00 1 2 3 4 5 6 7 Blattlänge 1 2 3 4 5 6 7 Blattlänge 49 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Beschreibung von Verteilungen Bei der Datenanalyse ergeben sich häufig Fragen der folgenden Art: Ist die Verteilung symmetrisch oder schief? Wo liegt das Zentrum der Daten? Wie stark streuen die Daten um das Zentrum? Gibt es Ausreißer? 50 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Unimodale und multimodale Verteilungen Viele (empirische) Verteilungen weisen einen oder mehrere Gipfel in deren Dichte auf. Man nennt eine solche Verteilung: unimodal, falls die Verteilung nur einen Gipfel hat und zu den Randbereichen abfällt ohne dass ein zweiter Gipfel auftritt. (Beispiel: Normalverteilung) bimodal, falls ein zweiter (und kein weiterer) Gipfel aufritt. (Beispiel: Blattlänge der Irispflanze) multimodal, falls weitere Nebengipfel auftreten. 51 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Symmetrie Definition Eine empirische Verteilung heißt symmetrisch, wenn es eine Symmetrieachse gibt, so dass die linke und die rechte Hälfte der Verteilung annähernd spiegelbildlich zueinander sind. (Beispiel: Normalverteilung,... ) Bemerkung Exakte Symmetrie ist bei empirischen Verteilungen selten gegeben. 52 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Symmetrisch 0.00 0.05 0.10 0.15 0.20 0.25 0 1 2 3 4 5 6 7 8 53 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Schiefe Definition Eine (empirische) Verteilung heißt linkssteil oder rechtsschief, wenn der überwiegende Anteil der Daten linksseitig konzentriert ist. Analog heißt eine (empirische) Verteilung rechtssteil oder linksschief, wenn der überwiegende Anteil der Daten rechtsseitig konzentriert ist. Typische Beispiele für linkssteile Verteilungen sind Einkommensverteilungen. 54 / 70

Datendarstellungen in der univariaten Analyse Beschreibung von Verteilungen Linkssteil Rechtssteil 0.30 0.25 0.25 0.20 0.20 0.15 0.15 0.10 0.10 0.05 0.05 0.00 0.00 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 55 / 70

Datendarstellungen in der univariaten Analyse Das arithmetische Mittel Kenngrößen metrischer Merkmale (Lage- und Streumaße) Definition Das arithmetische Mittel wird aus der Urliste x 1,..., x n durch berechnet. x = 1 n n x i i=1 Für Häufigkeitsdaten mit Ausprägungen a 1,..., a k und relative Häufigkeiten f 1,..., f k gilt x = k i=1 f i a i. In R lässt sich das arithmetische Mittel eines Vektors x mit dem Befehl mean(x) berechnen. 56 / 70

Datendarstellungen in der univariaten Analyse Eigenschaften des arithmetischen Mittels Kenngrößen metrischer Merkmale (Lage- und Streumaße) Das arithmetische Mittel ist für intervallskalierte Daten sinnvoll. Das arithmetische Mittel besitzt die Schwerpunkteigenschaft n i=1 (x i x) = 0. x minimiert den quadratischen Abstand, d.h. n i=1 (x i x) 2 = min (x i z) 2 n z R i=1 Das arithmetische Mittel reagiert empfindlich auf extreme Werte und Ausreißer. Das arithmetische Mittel stimmt i. A. mit keiner der möglichen Ausprägungen überein. 57 / 70

Datendarstellungen in der univariaten Analyse Der (Stichproben-)Median Kenngrößen metrischer Merkmale (Lage- und Streumaße) Ein robustes Lagemaß ist der Median. Um ihn zu bilden, betrachtet man die geordnete Liste x (1),..., x (n). Definition Der Median x med von x (1)... x (n) ist durch x med = x ( n+1 ), falls n ungerade ist, 2 1 2 (x (n/2) + x (n/2+1) ), falls n gerade ist, definiert. Der Median wird in R mit dem Befehl median berechnet. 58 / 70

Datendarstellungen in der univariaten Analyse Eigenschaften des (Stichproben-)Medians Kenngrößen metrischer Merkmale (Lage- und Streumaße) Der Median ist ab dem Ordinalskalenniveau sinnvoll. Der Median x med ist robust gegenüber Ausreißern Mindestens 50% der Daten sind x med und mindestens 50% der Daten sind x med. x med minimiert die absolute Abweichung, d.h. n i=1 x i x med = min z R n x i z i=1 59 / 70

Datendarstellungen in der univariaten Analyse Kenngrößen metrischer Merkmale (Lage- und Streumaße) Der Modus Ein weiteres gebräuchliches Lagemaß ist der Modus. Definition Ein Modus x mod ist eine Ausprägung mit größter Häufigkeit. Eigenschaften des Modus: Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Der Modus ist bereits auf Nominalskalenniveau sinnvoll. Der Modus ist robust gegenüber Ausreißern. Der Modus ist eine Ausprägung des Merkmals. 60 / 70

Streuung Datendarstellungen in der univariaten Analyse Kenngrößen metrischer Merkmale (Lage- und Streumaße) Folgende Maßzahlen messen die Abweichung quantitativer Daten von ihrem Zentrum: Mittlere absolute Abweichung 1 n n i=1 x i x Mittlere quadratische Abweichung d 2 = 1 n n i=1(x i x) 2 Stichprobenvarianz s 2 = 1 n 1 n i=1(x i x) 2 = Spannweite R(x) = max(x) min(x) Interquartilsabstand IQR(x) = x 0.75 x 0.25 n n 1 d 2 Stichprobenvarianz eines Vektors x wird in R mit dem Befehl var(x) berechnet. Die Spannweite unter anderem mit diff(range(x)) 61 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Quantile Definition Für 0 < p < 1 heißt jeder Wert x p, für den ein Anteil von mindestens p der Daten x p und mindestens ein Anteil von 1 p x p ist, p-quantil. Bemerkung x 0.5 ist der Median. x 0.25 und x 0.75 heißen unteres bzw. oberes Quartil. In R werden Quantile mit dem quantile-befehl aufgerufen, z.b. quantile(x,probs=c(0.25,0.75)). 62 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Quantilfunktion einer Verteilung Entsprechend ist die Quantilsfunktion F 1 einer Verteilung Q auf (R, B) definiert: Definition (Quantilsfunktion) F 1 (p) = inf{x R F (x) p} = inf{x R Q((x, )) 1 p} für p (0, 1) Sie wird auch als Pseudo-Inverses der Verteilungsfunktion oder als (1 p)-fraktil bezeichnet. Ihr Aufruf in R erfolgt mittels q + Name der Verteilung (z.b. qnorm). 63 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Fünf-Punkte-Zusammenfassung, summary Definition Die Fünf-Punkte-Zusammenfassung besteht aus des Datensatzes. x min, x 0.25, x med, x 0.75, x max Die Fünf-Punkte-Zusammenfassung ist in R im Befehl summary enthalten. Beispiel summary(bl) summary(iris) 64 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Boxplots Die Fünf-Punkte-Zusammenfassung eines Datensatzes x 1,..., x n wird in einem Boxplot visualisiert. Es wird dabei in ein Koordinatensystem gezeichnet: Ein Rechteck (eine Box), welches durch das obere Quartil und untere Quartil begrenzt ist. Eine Linie auf der Höhe des Medians durch die Box. Linien (Whiskers) ausgehend von der Box bis min{x 0.75 + 1.5IQR, x max } bzw. bis max{x 0.25 1.5IQR, x min }, wo die Linien durch senkrechte Linien begrenzt werden. Einzelnen Punkte für Werte jenseits der Whiskers (Extremwerte). 65 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Beispiel: Boxplot boxplot(bl, horizontal=true) boxplot(iris, main="boxplot der irispflanzen", cex.axis=0.75 ) Boxplot der irispflanzen 0 2 4 6 8 Sepal.Length Sepal.Width Petal.Length Petal.Width Species 66 / 70

NQ-Plots: Idee Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots Häufig wird bei Daten angenommen, dass diese normalverteilt sind, da sie dann meist statistisch einfacher zu behandeln sind. Frage: Ist es sinnvoll anzunehmen, dass die Daten normalverteilt sind? Diese Fragestellung ist mit einem Normal-Quantil-Plot leichter zugänglich. Bei diesem Plot trägt man in einem Koordinatensystem die k-te kleinste Beobachtung auf der y-achse gegen die erwartete k-te kleinste Beobachtung eines Vektors mit n standardnormalverteilten Zufallsgrößen ab. Ziel: Unabhängig von Erwartungswert und Varianz sollte sich bei normalverteilten Daten eine Gerade abzeichnen. 67 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots NQ-Plot Definition Sei x (1),..., x (n) die geordnete Urliste. Für i = 1,..., n werden die (i 0.5)/n-Quantile z (i) der N(0, 1)-Verteilung berechnet. Der Normal-Quantil-Plot (NQ-Plot) besteht aus den Punkten im z-x-koordinatensystem. Bemerkung (z (1), x (1) ),..., (z (n), x (n) ) Sind die Daten normalverteilt mit Erwartungswert µ und Varianz σ 2, so liegen die Daten in etwa auf der Geraden x = µ + σz. Einen NQ-Plot erhält man in R mit dem Befehl qqnorm. 68 / 70

Datendarstellungen in der univariaten Analyse Quantile, Boxplots und Normal-Quantil-Plots QQ-Plots Um Daten mit einer beliebigen Verteilung oder einem anderen Datensatz visuell zu vergleichen, kann man den Quantile-Quantile-Plot (QQ-Plot) benutzen. Sind die Verteilungen gleich, so entsteht eine Gerade (wie beim NQ-Plot). Einen QQ-Plot erhält man in R mit dem Befehl qqplot(x,y), wobei x und y Vektoren der zu vergleichenden Daten sind. 69 / 70

Der Abschnitt 7 (Darstellung univariater Daten) des Aufgabenblattes kann jetzt bearbeitet werden.