Empirische Softwaretechnik. Boxplots. Graphische Darstellung. Median

Ähnliche Dokumente
5 Exkurs: Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

Deskriptive Statistik

Statistik und Wahrscheinlichkeitsrechnung

3. Deskriptive Statistik

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

2. Beschreibung von eindimensionalen (univariaten) Stichproben

Empirische Verteilungsfunktion

Deskriptive Statistik II. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

W-Rechnung und Statistik für Ingenieure Übung 4

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Statistik und Wahrscheinlichkeitsrechnung

BOXPLOT 1. Begründung. Boxplot A B C

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Kapitel 1 Beschreibende Statistik

Eindimensionale Darstellungen

Statistik und Wahrscheinlichkeitsrechnung

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Statistik I für Betriebswirte Vorlesung 2

Willkommen zur Vorlesung Statistik

Mathematische Statistik. Zur Notation

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Mathematik IV: Statistik

4 Statistische Maßzahlen

2. Deskriptive Statistik

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

4 Statistische Maßzahlen

Deskriptive Statistik & grafische Darstellung

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

2 Grundlagen der Statistik

STATISTIK. Erinnere dich

Einfache statistische Auswertungen mit dem TI-Nspire

Beispiel 4 (Einige weitere Aufgaben)

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

13,86. Schritt 4: Berechnung des Quartilsabstandes. Unteres Quartil! #5,5.

Statistik I für Betriebswirte Vorlesung 9

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Mathematik für Biologen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Vorsicht, Boxplots! Wie aussagekräftig sind Kastenschaubilder? Dr. Bernhard Salzger. St. Pölten, 17. Feber 2016

3. Übung Deskription und Diagnose Wer oder was ist normal?

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Korrelation, Regression und Signifikanz

Arithmetischer Mittelwert

Daten systematisch auswerten und vergleichen

Verteilungsfunktion und Quantile

Kreisdiagramm, Tortendiagramm

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Fachrechnen für Tierpfleger

Beschreibende Statistik Eindimensionale Daten

Grafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen

Grundlagen der empirischen Sozialforschung

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Bitte am PC mit Windows anmelden!

So lügt man mit Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Grundlagen der Datenanalyse anhand praktischer Beispiele

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Verteilungsfunktion und Quantile

Population und Stichprobe Wahrscheinlichkeitstheorie II

Mathematik 3 für Informatik

7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17

Statistik eindimensionaler Größen

Verteilungsfunktion und Quantile

6. a) 12 3 = 36 b) 14 = Median, weil die Datenmenge eine ungerade Zahl ist. c) 7, 14, 15 oder 6, 14, 16 oder 5; 14, 17.

Arbeitsblatt: Erstellen von Boxplots. Aufgabe: Frisörbesuch (Lernstandserhebung NRW 2008)

1 Beschreibende Statistik

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Maße der zentralen Tendenz

Unterlagen zum Tutorium der Lehrveranstaltung. MATHEMATIK für NATURWISSENSCHAFTEN (STATISTIK) Christoph Huber FB Mathematik der Universität Salzburg

3. Übung Deskription und Diagnose Wer oder was ist normal?

Empirische Softwaretechnik

Mathematische und statistische Methoden I

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Das harmonische Mittel

Lage- und Streuungsparameter

Mathematik für Naturwissenschaften, Teil 2

Einführung in Quantitative Methoden

Formel ± 0,5 D ± 1,0 D ± 2,0 D Haigis 56,4 90,9 98,2 Hoffer Q 52,7 85,5 100,0 Holladay-1 53,6 85,5 100,0 SRK/T 53,6 83,6 100,0 SRK II 41,8 73,6 99,1

Übersicht über Informatik und Softwaresystemtechnik WS 99/00, Prof. Dr. Andreas Schwill

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Prüfung & Tutorium. Der 1. Prüfungstermin findet am 27. Juni 2011 um 10h im Audimaxstatt. Anmeldung in UNIVIS vom Juni

4. Erstellen von Klassen

Datenanalyse und Statistik

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Eine zweidimensionale Stichprobe

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Statistik Skalen (Gurtner 2004)

Transkript:

Empirische Softwaretechnik Boxplots Prof. Dr. Walter F. Tichy Fakultät für Informatik 1 Graphische Darstellung Median gegeben eine sortierte Stichprobe Median gibt den mittleren Wert der sortierten Stichprobe an eine Hälfte der Stichproben-Werte ist kleiner als der Median, die andere Hälfte ist größer veranschaulicht die Werte einer Stichprobe Fakultät für Informatik 3 Fakultät für Informatik 4

Berechnung des Median Median (Forts.) ungerade, dann Median gleich Stichprobenwert ummer + 1 gerade, dann Median mittig zwischen den Median ist unempfindlicher gegen Ausreißer als der Mittelwert Beispiele: Stichprobe 3,4,8,9,15 hat Median 8,Mittelwert 7,8 Stichprobenwerten ummer und Fakultät für Informatik 5 + 1 Stichprobe 3,4,8,9,100 hat auch Median 8,Mittelwert 4,8. Stichprobe 1,3,4,8,9,15 hat Median 4 + 8 = 6 Fakultät für Informatik 6 Quartile Berechnung der Quartile das erste und dritte Quartil Q 1 und Q 3 geben (in etwa) die Schranken für das untere und obere Viertel der sortierten Stichprobe an der Interquartil-Bereich umfasst (in etwa) die mittlere Hälfte der Datenpunkte das zweite Quartil Q ist genau der Median Vorsicht: es gibt mehrere Berechnungsvorschriften, die aber leicht unterschiedliche Ergebnisse liefern das liegt daran, daß J. W. Tukey für seine Boxplots mit den sogenannten hinges gearbeitet hat, die aber nur für = 4 k +1 genau die Quartile liefern Fakultät für Informatik 7 Fakultät für Informatik 8

auf 3/4 der Strecke zwischen den Stichprobenwerten ummer k und k +1 mittig zwischen den Stichprobenwerten ummer k und k +1 auf 1/4 der Strecke zwischen den Stichprobenwerten ummer 3k und 3k +1 = 4 k = 4 k +1 = H 1 gleich dem Stichprobenwert ummer k +1 = M gleich dem Stichprobenwert ummer k +1 = H gleich dem Stichprobenwert ummer 3k +1 Fakultät für Informatik 9 Fakultät für Informatik 10 hinge = Angelpunkt, Scharnier = 4 k + auf 1/4 der Strecke zwischen den Stichprobenwerten ummer k +1 und k + mittig zwischen den Stichprobenwerten ummer k +1 und k + auf 3/4 der Strecke zwischen den Stichprobenwerten ummer 3k +1 und 3k + D.h. im Interquartil-Bereich liegen k Werte, außerhalb k + Werte = 4 k + 3 mittig zwischen den Stichprobenwerten ummer k +1 und k + ist der Stichprobenwerten ummer k + mittig zwischen den Stichprobenwerten ummer 3k + und 3k +3 Fakultät für Informatik 11 Fakultät für Informatik 1

Quartile mit R Beispiel: Stichprobe 10,15,18,33,34,36,51,73,80,86,9 Median ist 36 (mittlerer Datenpunkt) das erste Quartil ist 5,5 (mittig zwischen 18 und 33) das dritte Quartil ist 76,5 (mittig zwischen 73 und 80) a <- c(10,15,18,33,34,36,51,73,80,86,9) median(a) [1] 36 Quantile(a) 0% 5% 50% 75% 100% 10.0 5.5 36.0 76.5 9.0 der Interquartilbereich ist [5,5; 76,5]......und hat die Länge Q 3 Q 1 = 51 Fakultät für Informatik 13 Fakultät für Informatik 14 Quartile mit R (Forts.) Quartile mit R (Forts.) b <- c(99,61,18,98,80,95,118,93,36,14) sort(b) [1] 14 18 36 61 80 93 95 98 99 118 quantile(b) 0% 5% 50% 75% 100% 14.00 4.5 86.50 97.5 118.00 c <- c(10,15,18,33,34,36,51,73,80,86,9,93) quantile(c) 0% 5% 50% 75% 100% 10.00 9.5 43.50 81.50 93.00 Fakultät für Informatik 15 Fakultät für Informatik 16

Whiskers Boxplots mit R der untere whisker ( Schnurrhaar ) entspricht dem kleinsten Datenpunkt, der um nicht mehr als1,5 ( Q 3 Q1) unterhalb des ersten Quartils Q 1 liegt der obere whisker ist analog definiert die whisker verdeutlichen die Schwankung in der Stichprobe Außerhalb der whisker liegende Punkte heißen Ausreisser. a <- c(10,15,18,33,34,36,51,73,80,86,9) boxplot(a) Fakultät für Informatik 17 Fakultät für Informatik 18 Multiple Boxplots mit R b <- c(99,61,18,98,80,95,118,93,36,14) boxplot(list(eins=a,zwei=b)) Fakultät für Informatik 19