Anzahl( X ) Histogramm. Freizeit. S1 = Anzahl ( Groesse) S3 =

Größe: px
Ab Seite anzeigen:

Download "Anzahl( X ) Histogramm. Freizeit. S1 = Anzahl ( Groesse) S3 ="

Transkript

1 3 Beschreibung von Verteilungen von numerischen Merkmalen 93 n 1 ( : = ( i = var( Summe ( X amittel( X s X x x X n i = 1 ( Anzahl( X oder PopStdAbw (X Wir betrachten als Beispiel die Körpergrößen im Muffins-Datensatz. Die mittlere absolute Abweichung, die wir auf zwei verschiedene Weisen ausgerechnet haben, und die Standardabweichung sind von derselben Größenordnung, in Einheiten gesprochen ist die s X = 0,090 m = 9,0 cm ist. Die Varianz MADmean ( X = 0,075 m = 7,5 cm, während ( var ( X = 0,0081m = 81cm. Die Einheit der Varianz passt gar nicht, während die anderen beiden Maße eine anschauliche Bedeutung im Histogramm haben. Man kann zum Beispiel Intervalle um den Mittelwert einzeichnen. Es ist zunächst nicht plausibel, warum man überhaupt erst quadriert und dann die Wurzel zieht, um dann, was Einheiten und Größenordnung angeht, wieder in interpretierbare Regionen zu kommen. Im Wesentlichen sprechen theoretische Gründe für die Varianz, u. a. die Tatsache, dass das arithmetische Mittel die mittlere quadratische Abweichung minimiert Histogramm 1,5 1,6 1,7 1,8 1,9,0,1 Groesse amittel ( = 1,7539 0, , , , , Summe ( ( Groesse amittel ( Groesse S1 = Anzahl ( Groesse S = PopVar ( Groesse Summe ( Groesse amittel ( Groesse S3 = Anzahl ( Groesse S4 = amittel ( Groesse amittel ( Groesse S5 = PopStdAbw ( Groesse Ferner hat die Varianz (von Zufallsgrößen in der Wahrscheinlichkeitstheorie eine zentrale Bedeutung und wenn man Wahrscheinlichkeitsmodelle und Daten in Verbindung bringen will, sind diese Streuungsmaße nützlich. Die aus der schulischen Stochastik vielleicht bekannten σ-umgebungen um den Erwartungswert entsprechen die s-umgebungen um den arithmetischen Mittelwert. Definition 3.7 Streuungsmaße als mittlere Abweichung von x X sei eine numerische Variable mit Werten x1, x, xn. Folgende Streuungsmaße sind als Abweichungen vom Median denkbar (i Mittlere absolute Abweichung von x : n 1 MAD X : = x x median ( n i = 1 i (Mean absolute deviation vom Median (ii Mediane absolute Abweichung von x : Elementare Stochastik Rolf Biehler WS 006/007

2 94 ( MedAD ( : median X = median R, wobei R wie in Definition 3.3 das Merkmal ist, welches die Abweichungen vom Me- r x r x R = X median X dian enthält, d. h. ( (, also ( 1, n Man kann diese Maße in Fathom ausrechnen lassen: n 1 MAD X : = x x median ( i n Summe( X Median( X i = 1 ( MedAD ( : median X median R Anzahl( X ( = Median X Median( X ( ( = amittel X Median X Bei der Körpergröße erhalten wir Werte in ähnlicher Größenordnung. In der folgenden Tabelle haben wir den MAD median auf zwei Weisen ausgerechnet. 0, , ,07 Summe ( Groesse Median ( Groesse S1 = Anzahl ( Groesse Summe ( Groesse Median ( Groesse S = Anzahl ( Groesse S3 = Median ( Groesse Median ( Groesse Wir notieren eine kleine Beobachtung: Es ist amittel Groesse Median(Groesse = 0, < 0, = amittel Groesse amittel(groesse Das muss so sein, denn der Median (Groesse minimiert die mittleren absoluten Abweichungen. Wenn man stattdessen das arithmetische Mittel einsetzt, muss ein größerer Wert herauskommen. Wir betrachten an einem Beispiel, wie die verschiedenen Streuungsmaße auf eine Datenveränderung reagieren. ( ( X amittelres absmittelres quadrmitteles MedianRes AbsMedianRes X amittel ( X X amittel ( X ( X amittel ( X X Median ( X X Median ( X = ,375,375 5,6406 -,5,5 5-0,375 0,375 0, ,5 0,5 6 0,65 0,65 0, ,5 0,5 7 1,65 1,65,6406 1,5 1,5 8,65,65 6,8906,5,5 9 3,65 3,65 13,1406 3,5 3,5 4-1,375 1,375 1,8906-1,5 1,5 Wir ändern jetzt den siebten Wert von 9 auf 19; dann weiter von 59 auf 190. Elementare Stochastik Rolf Biehler WS 006/007

3 3 Beschreibung von Verteilungen von numerischen Merkmalen 95 X amittelres absmittelres quadrmitteles MedianRes AbsMedianRes X amittel ( X X amittel ( X ( X amittel ( X X Median ( X X Median ( X = ,65 3,65 13,1406 -,5,5 5-1,65 1,65,6406-0,5 0,5 6-0,65 0,65 0, ,5 0,5 7 0,375 0,375 0, ,5 1,5 8 1,375 1,375 1,8906,5,5 19 1,375 1, ,141 13,5 13,5 4 -,65,65 6,8906-1,5 1,5 Bei den zugehörigen Streuungsmaßen ergibt sich: X 6,34375,496873,15,15 S1 = PopVar ( S = PopStdAbw ( S3 = amittel ( X amittel ( X S4 = amittel ( X Median ( X S5 = Median ( X Median ( X X 6, , ,5315 3,375 S1 = PopVar ( S = PopStdAbw ( S3 = amittel ( X amittel ( X S4 = amittel ( X Median ( X S5 = Median ( X Median ( X x 7 = 9 X 34, , , ,375 S1 = PopVar ( S = PopStdAbw ( S3 = amittel ( X amittel ( X S4 = amittel ( X Median ( X S5 = Median ( X Median ( X x 7 = 19 X 3753,5 61, ,5 4,75 S1 = PopVar ( S = PopStdAbw ( S3 = amittel ( X amittel ( X S4 = amittel ( X Median ( X S5 = Median ( X Median ( X x 7 = 59 x 7 = 190 Man sieht, wie empfindlich die Standardabweichung gegenüber Ausreißern ist, während die anderen Streuungsmaße weniger empfindlich bis völlig unempfindlich gegenüber diesen Änderungen. Sucht man ein Streuungsmaß, das nicht so empfindlich gegenüber Ausreißern reagiert, muss man an eine Alternative zur Standardabweichung denken. Merke: Standardabweichung und Varianz sind nicht robust gegenüber Ausreißern! Elementare Stochastik Rolf Biehler WS 006/007

4 Streuungsmaße als Ausdehnung von mittleren Bereichen der Verteilung Mit dem Median haben wir die Daten im Verhältnis 50:50 zerschnitten. Wir suchen jetzt entsprechende Werte, die so genannten Quantile oder Perzentile, die die Daten im Verhältnis 0:80 30:70 80:0 oder allgemein im Verhältnis p :(1 p aufteilen. Hiermit kann man dann mittlere Bereiche definieren und deren Ausdehnung messen. Der Wert, der für p zwischen 0 und 1 die Daten einer Variable X im Verhältnis p: (1-p aufteilt heißt p-quantil oder p*100% - Perzentil der Variable X, in FATHOM Perzentil(100p, X. Eine genaue Definition erfolgt gleich. Wir schauen uns erstmal verschiedene mittlere Bereiche am Beispiel der Körpergrößen an. Histogramm Histogramm ,5 1,6 1,7 1,8 1,9,0,1 Groesse Perzentil ( 1 ;? = 1,57 Perzentil ( 99 ;? = 1,97 Mittlere 98 % 1,5 1,6 1,7 1,8 1,9,0,1 Groesse Perzentil ( 5 ;? = 1,6 Perzentil ( 95 ;? = 1,9 Mittlere 90 % Histogramm Histogramm ,5 1,6 1,7 1,8 1,9,0,1 Groesse Perzentil ( 10 ;? = 1,65 Perzentil ( 90 ;? = 1,87 Mittlere 80% 1,5 1,6 1,7 1,8 1,9,0,1 Groesse Perzentil ( 5 ;? = 1,68 Perzentil ( 75 ;? = 1,83 Mittlere 50 % Elementare Stochastik Rolf Biehler WS 006/007

5 3 Beschreibung von Verteilungen von numerischen Merkmalen 97 Vorüberlegungen zur Definition der Quantile Die Perzentile können wir ähnlich wie beim Median festlegen, indem wir die Daten der Größe nach ordnen. Bei einem Umfang von n Daten berechnen wir zunächst die Zahl np. Ist dies eine eine natürliche Zahl, so bilden die Zahlen x(1, x( np den Anteil p der Datenmenge und die Zahlen x( np+ 1, x( n den Anteil (1-p der Datenmenge. Man kann also wieder den Schnitt zwischen die Punkte x( np und x ( np + 1 legen und erhält die gewünschte Einteilung exakt. Falls np keine natürliche Zahl ist, so liegt sie zwischen zwei natürlichen Zahlen r 1< np< r. In diesem Fall soll x( r als das p-quantil von X, das wir als qp ( X bezeichnen, genommen werden. Da r 1 < p < gilt, ist der Anteil von Daten, die kleiner als q ( p r 1 r X sind, also et- n n n was geringer als p, der Anteil der kleiner gleich qp ( x ist, ist r also ein wenig größer als p. n Bei Bindungen an dieser Stelle erhöht sich der Anteil der Daten, die kleiner gleich q ( p X sind. Wir fassen zusammen: Definition 3.8 p-quantile X sei eine numerische Variable mit Werten x1, x, xn und p eine Zahl zwischen 0 und 1. Wir definieren das p-quantil der Variable X durch ( ( + np ( np+ 1 1 x x, falls np ganz ist, ansonsten: q ( : p X = x(, wobei r die jeweilige ganze Zahl ist, für die r 1 < np < r gilt. r Wir nennen das p-quantil auch das p*100-perzentil. Bem.: Für p=0,5 ergibt sich genau die bereits bekannte Definition des Medians. Der Fall np ganz entspricht dem Fall n gerade. Falls np nicht ganz ist, also n/ nicht ganz ist, so ist n ungerade und das obige r =. Somit stimmen die Definitionen über ein, es ist n + 1 q ( X = median( X. 0,5 Es gilt die folgende Aussage, die wir mit unseren Vorüberlegungen bereits begründet haben: Satz 3.1 Trennungseigenschaft der p-quantile X sei eine numerische Variable mit Werten x1, x, xn und p eine Zahl zwischen 0 und 1. Dann gilt für das p-quantil und die relativen Häufigkeiten: ( p ( ( p ( ( p ( p ( p h X < q X p h X q X p h X = q ( X 0 h X q ( X 1 p h X > q ( X 1 p Bei großen n und wenigen Bindungen kann man wie beim Median auch alle Vergleichszeichen durch ersetzen. Elementare Stochastik Rolf Biehler WS 006/007

6 98 Satz 3.1 enthält insbesondere die Halbierungseigenschaft des Medians (Satz 3.. Auf dieser Basis können wir nun die Streuung der mittleren α% definieren: Definition 3.9 Streuung der mittleren α% X sei eine numerische Variable mit Werten x1, x, xn und α eine Zahl zwischen 0 und 100. Wir definieren das Streuungsmaß der mittleren α% für die Variable X durch 1 α s %( : 1 ( (, wobei 100 α X = q p X qp X p= Zwischen qp ( X und q1 p ( X α 1 liegt dann ein Anteil von α p = = = α%. 100 q liegen jeweils Das war der Grund für die Wahl von p. Oberhalb q1 p und unterhalb p 100 α %. Aus den obigen Histogrammen mit eingezeichneten Quantilen kann man die Streuungsmaße für die verschiedenen α entnehmen. Die Aussage über den Anteil, der zwischen den beiden Grenzen liegt, kann man folgendermaßen präzisieren: Satz 3.13 Abschätzung der Streuung der mittleren Bereiche X sei eine numerische Variable mit Werten x1, x, xn und p eine Zahl zwischen 0 und 0,5. Dann gilt mit ( p ( p( 1 p( ( ( ( p 1 p α = h q X < X < q X 1 p= α% h q X X q X 1 p= α% Bei großem n und wenigen Bindungen auf den Grenzen können die Vergleichszeichen durch ersetzt werden. Beweis: Die gesamten Daten werden im ersten Fall vollständig und disjunkt in die 3 Bereiche (, q p, ( qp, q1 p, q1 p, + eingeteilt. Nach Satz 3.1 (Trennungseigenschaft enthält das linke Intervall mindestens den Anteil p, das ganz rechte mindestens den Anteil 1 (1 p = p, also kann das mittlere höchstens den Anteil 1 p enthalten. Die zweite Aufteilung erfolgt gemäß der Intervalle (, q, p qp, q 1 p,( q1 p, +. In den beiden Randintervallen sind jeweils höchstens der Anteil p untergebracht, also in der Mitte mindestens 1 p. 3.9 Die Quartile und der Boxplot Wir betrachten nun den Spezialfall der mittleren 50%. Für q0,5 und q 0,75 führen wir Spezialbezeichnungen ein. Elementare Stochastik Rolf Biehler WS 006/007

7 3 Beschreibung von Verteilungen von numerischen Merkmalen 99 Definition 3.10 Quartile X sei eine numerische Variable, dann nennen wir q ( 0,5 X auch das erste Quartil, q ( X das dritte Quartil und bezeichnen sie mit 0,75 Q1( X bzw. Q3( X. Das zweite Quartil q ( 0,5 X ist identisch mit dem Median. Definition 3.11 Streuungsmaße mit Quartilen, Interquartilabstand Die Streuung der mittleren 50% s50% wird auch mit Interquartilabstand (Quartilsdifferenz bezeichnet qd( X : = Q3( X Q1( X. Die Differenzen qdoben : = Q3( X x und qdunten = x Q1( X bezeichnen die Streuungen im zweiten und im dritten Viertel. Kommandos in Fathom q ( p X Perzentil (p*100; X Q1( X bzw. Q3( X Q1(X bzw. Q3(X Perzentil(5;X bzw. Perzentil(75;X qd( X qd(x Die Quartile teilen den Datensatz in praktisch 4 gleich große Hälften. Diese Einteilung ist die Grundlage für eine einfache Visualisierung, den Boxplot. Dies wäre ein einfacher Boxplot. Der von John Tukey vorgeschlagene Boxplot, den Fathom auch verwendet, zeichnet i.d.r. die Antennen nicht bis zu den Extremwerten, sondern stellt nach einer bestimmten Faustregel weit entfernt liegende Werte als einzelne Ausreißerpunkte dar. Elementare Stochastik Rolf Biehler WS 006/007

8 100 Definition 3.1 Boxplot nach Tukey X sei eine numerische Variable. Dann definiert man als Zäune (fences: fo : = Q3+ 1,5 ( Q3 Q1 f : = Q 1,5 Q Q u ( Anrainer werden die extremen Datenpunkte genannt, die noch innerhalb der Zäune liegen (einschließlich der Grenzen selber. Die Antennen werden bis zu den Anrainer gezeichnet. Weiter außerhalb liegende Werte werden im Tukey-Boxplot als einzelne Punkte dargestellt, wobei an einzelnen Stellen Bindungen auftreten können, die dann aus der Graphik nicht ersichtlich sind. Wir haben die einzelnen Kennzahlen im Beispiel der Wochenstunden am Computer im Muffins dargestellt, um die Konstruktion eines Boxplots transparent zu machen. Wir sehen, dass der untere Zaum irrelevant ist, da das Minimum (0 Stunden größer als der untere Zaun ist. Elementare Stochastik Rolf Biehler WS 006/007

9 3 Beschreibung von Verteilungen von numerischen Merkmalen 101 Wir haben das Aufeinanderschichten der Punkte im Punktediagramm (Dotplot in der zweiten Graphik aufgehoben und sehen, dass sich hinter den einzelnen Punkten im Boxplot u. U. mehrere Fälle verbergen können. Das Beispiel illustriert ferner, dass die Festlegung dessen, was als Ausreißer gezeichnet wird, etwas willkürlich ist. In diesem Fall liegen der Anrainer und der ersten Ausreißer im Sinne der Faustregel dicht beieinander. Die Verteilung der Daten läuft langsam zu größeren Werten hin aus. Man darf die Faustregel nicht zu strikt nehmen und sollte immer beim Boxplot genau prüfen, wie die Ausreißer zu bewerten sind. Gegenüber dem Histogramm mit denselben eingezeichneten Werten reduziert der Boxplot die Informationen auf wenige Kennzahlen. Der Bereich der mittleren Streuung wird betont, aber Details an den Rändern nicht vernachlässigt. Der Boxplot ist eine graphische Zusammenfassung der Daten, die sich vor allem für den Verteilungsvergleich eignet. Bemerkung zur Ausreißer-Faustregel Wir betrachten die Zeit, die am Computer verbracht wird insgesamt und getrennt nach Geschlecht und berechnen die Quartilsdifferenz und den oberen Zaun. Ausreißer im Sinne der Faustregel beginnen bei den Männern erst ab 5,5 Wochenstunden Computernutzung, bei den Frauen beginnt das Ausreißer-Dasein bereits ab 5 Wochenstunden. Summary Table Geschlecht Row maennlich weiblich Zeit_Comp 5.5 Summ S1 = Q3 ( ( Q3 ( Q1 ( S = Q3 ( Q1 ( Elementare Stochastik Rolf Biehler WS 006/007

10 10 Box Plot Zeit_Comp Q3 ( ( Q3 ( Q1 ( = 16 Box Plot Geschlecht maennlich weiblich Zeit_Comp Q3 ( ( Q3 ( Q1 ( = 16 In die Graphik haben wir den jeweils oberen Zaun eingezeichnet. Für die Gesamtdaten liegt er bei 16 und ist numerisch auch in der gesplitteten Graphik angegeben. Man beachte, dass bei den Männern kein Wert an der Stelle des Zaunes liegt, die Antennen werden ja immer nur bis zu den Anrainern gezeichnet. Die Faustregel misst den Abstand der Datenpunkte zum Zentrum in Vielfachen des Interquartilabstands, also als Vielfaches der Streuung. Ausreißer ist man einerseits relativ zum Zentrum der Daten, andererseits relativ zur Streuung in den Daten. Im obigen Fall scheint es in der Tat sinnvoll die Frage, ob jemand sich weit von der Hauptgruppe der Daten unterscheidet, relativ zur Streuung zu beantworten: Frauen über 5 Wochenstunden machen (vergleichsweise ungewöhnlich lange Gebrauch vom Computer, bei Männern beginnt dies bei 5, 5 Stunden. Die Geschlechtsunterschiede im verhalten sind übrigens bei der Computernutzung am größten. Die Daten sind bekanntlich aus dem Jahre 000, neuere Muffins-Daten aus 003 zeigen, dass sich beide Boxplots deutlich zu höheren Werten verschoben haben, der Vorsprung der Männer ist aber noch größer geworden. Elementare Stochastik Rolf Biehler WS 006/007

11 3 Beschreibung von Verteilungen von numerischen Merkmalen 103 Satz 3.14 Relative Häufigkeiten im Boxplot Für die im Boxplot sichtbaren Intervalle gilt Wenn keine Bindungen in den Grenzpunkten vorliegen und n nicht zu klein ist, dann kann man die Vergleichszeichen durch ersetzen. 3 Beweis: Die Aussagen sind schlicht eine Anwendung von Satz 3.13 für p = 0, Umdeutung der Streuungsmaße im Boxplot Bevor wir uns systematisch mit dem befassen, was man im Boxplot sehen kann, wollen wir uns fragen, warum ausgerechnet der mittlere Streuungsbereich so hervorgehoben wird. Man hätte ja auch die mittleren 70% oder 80% nehmen können. Eine Erklärung dafür ist die folgende, mit der wir den Streuungen im zweiten und im dritten Viertel eine Umdeutung verleihen. Die unterschiedliche Streuung im zweiten und im dritten Viertel bei obigem Boxplot wird auch durch die Unsymmetrie der Box deutlich. Die Daten weichen nach oben stärker vom Median ab, als nach unten. Wir wollen sehen, wie wir die erste Grundidee der Streuungsmessung als Abweichung vom Median hier zur Geltung bringen können. Wie groß ist die mittlere Abweichung der Daten vom Median nach oben, wie stark ist sie im Mittel nach unten. Q3 halbiert die Datenmenge über dem Median und Q1 halbiert die Daten unterhalb des Medians. Wenn man die Variable R aus den Residuen ri( x = xi x betrachtet, so kann man sagen, dass Q3 x die Menge der positiven Residuen halbiert, während x Q1 die Menge der negativen Residuen halbiert. Die 3 Die Graphik enthält einen Fehler: Im unteren Bereich muss das erste Intervall links abgeschlossen und rechts offen sein, statt wie durch die eckige Klammer angedeutet rechts abgeschlossen. Elementare Stochastik Rolf Biehler WS 006/007

12 104 Hälfte der oberen Hälfte der Daten liegt überq 3, also liegt auch die Hälfte der positiven Residuen über Q3 x. Q3 x entspricht dem Median der positiven Residuen. Diese Überlegung beruht auf der Aussage, dass Q3 der Median der oberen Hälfte ist. Dies stimmt immer, wenn wir genau festlegen, was wir unter der oberen Hälfte verstehen wollen. Wir müssen 4 Fälle betrachten, je nachdem, welcher Rest beim Teilen von n durch 4 bleibt, also die Fälle n = 4 k, n = 4k + 1, n = 4k +, n = 4k + 3. Wenn man die Positionen der Quartile ausrechnet, ergibt sich die folgende Tabelle: Fall (1 n = 4k ( n = 4k+1 (3 n = 4k+ (4 n = 4k+3 x Q : = 1 + x [ k] [ k+ 1] x Q : = = [ ] Q 3 : = x [ 3k + 1] Q : x + 1 k 1 = [ ] Q 3 : = x [ 3k + ] Q : x + 1 k 1 = [ ] Q 3 : = x [ 3k + 3] Q : x + 1 k x [ 3k] [ 3k+ 1] Wir veranschaulichen die vier Fälle für k = Fall: n = 16 (n=4k Dot Plot Rangplatz_X Q1 ( = 4.5 median ( = 8.5 Q3 ( = 1.5 Die Graphik ist so zu verstehen, dass die Rangplätze dargestellt werden und Q1 = 4,5 bedeutet, dass das Q1 zwischen dem 4. und 5. Wert der Daten liegt, also Q1 =. Der Medi- x( + x 4 ( 5 x( + x 8 ( 9 an ist, also zwischen dem 8. und 9. Wert. Die obere Hälfte beginnt bei dem 9. Punkt, das heißt der Median dieser oberen 8 Punkte liegt zwischen dem 4. und 5. dieser Punkte, also in der Tat genau bei Q3.. Fall: n = 17 (n=4k+1 Elementare Stochastik Rolf Biehler WS 006/007

13 3 Beschreibung von Verteilungen von numerischen Merkmalen 105 Dot Plot Rangplatz_X Q1 ( = 5 median ( = 9 Q3 ( = 13 Wenn wir jetzt den 9. Punkt, d. h. den Gesamtmedian mit zur oberen Hälfte rechnen, dann liegt der Median dieser oberen 9 Punkte auf dem 5. dieser Punkte, also in der Tat genau bei Q3. Eine analoge Aussage zu Q1 können wir hier wieder machen, wenn wir den Gesamtmedian, den 9. Punkt auch zur unteren Hälfte hinzurechnen. 3. Fall: n = 18 (n = 4k + Dot Plot Rangplatz_X Q1 ( = 5 median ( = 9.5 Q3 ( = 14 Die obere Hälfte beginnt beim 10. Punkt, das heißt der Median dieser 9 Punkte liegt auf dem 5. dieser Punkte, also in der Tat genau bei Q3. 4. Fall: n = 19 (n = 4k +3 Dot Plot Rangplatz_X Q1 ( = 5 median ( = 10 Q3 ( = 15 Nur wenn wir hier die obere Hälfte mit dem 11. Punkt beginnen (also den Gesamtmedian aus der oberen Hälfte herausnehmen, das liegt der Median dieser 9 Punkte liegt auf dem 5. dieser Punkte, also in der Tat genau bei Q3. Analog gilt, dass Q1 der Median der unteren Hälfte ist (wobei auch hier der Gesamtmedian nicht hinzugerechnet werden darf. Elementare Stochastik Rolf Biehler WS 006/007

14 106 Satz 3.15 Quartile als Mediane der Datenhälften X sei eine numerische Variable mit n Werten. Unter der unteren bzw. oberen Datenhälfte verstehen wir folgende Datenpunkte: Fall n=4k n=4k+1 n=4k+ n=4k+3 Untere Datenhälfte x x Obere Datenhälfte (, x, x 1 n n ( n x x (, 1 n 1 x, x n+ 1 ( n x x (, x, x 1 n n ( n + 1 (, n x, x n+ ( n x x Bemerkung Median liegt zwischen den Hälften: x + x n n + 1 Median x n + 1 wird doppelt gezählt Median liegt zwischen den Hälften: x + x n n + 1 Beide Hälften ohne Median x n + 1 Mit dieser Vereinbarung gilt: (a Das erste Quartil Q1 ist der Median der unteren Datenhälfte. (b Das dritte Quartil Q3 ist der Median der oberen Datenhälfte. Wir halten fest bezüglich der Residuen: Satz 3.16 Streuung als Abweichung vom Median im Boxplot X sei eine numerische Variable. Dann gilt qd ( X = Q ( X x = Median x x x aus der oberen "Datenhälfte" oben 3 i i unten 1 i i ( ( ( ( ( ( qd ( X = x Q ( X = Median x x x aus der unteren Datenhälfte Beweis: Die Aussagen sind anschaulich klar. Die Aussage aus Satz.19 bleibt nämlich richtig, wenn man links und rechts den Median subtrahiert. Die Aussagen über Q ( 1 X folgen analog. Interpretation (Umdeutung der Streuungsmaße Die Differenzen der Quartile entsprechen den beiden inneren Abständen in der Box beim Boxplot. Sie geben also an, wie weit die Daten im Mittel nach oben und im Mittel nach unten vom Median abweichen. Dabei wird die Mittenbildung durch den Median vorge- Elementare Stochastik Rolf Biehler WS 006/007

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

Function Plot. no data

Function Plot. no data 3 Beschreibung von Verteilungen von numerischen Merkmalen 69 Die S-förmigen Kurven, die man in den Diagrammen zu den kumulativen Häufigkeiten bzw. im Perzentilplot sieht, kann man oft durch mathematische

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0.

3.2 Streuungsmaße. 3 Lage- und Streuungsmaße 133. mittlere Variabilität. geringe Variabilität. große Variabilität 0.0 0.1 0.2 0.3 0.4 0. Eine Verteilung ist durch die Angabe von einem oder mehreren Mittelwerten nur unzureichend beschrieben. Beispiel: Häufigkeitsverteilungen mit gleicher zentraler Tendenz: geringe Variabilität mittlere Variabilität

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung

Mehr

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht.

benötigen. Die Zeit wird dabei in Minuten angegeben und in einem Boxplot-Diagramm veranschaulicht. , D 1 Kreuze die richtige Aussage an und stelle die anderen Aussagen richtig. A Das arithmetische Mittel kennzeichnet den mittleren Wert einer geordneten Datenliste. B Die Varianz erhält man, wenn man

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Beschreibende Statistik Eindimensionale Daten

Beschreibende Statistik Eindimensionale Daten Mathematik II für Biologen 16. April 2015 Prolog Geordnete Stichprobe Rang Maße für die mittlere Lage der Daten Robustheit Quantile Maße für die Streuung der Daten Erkennung potentieller Eindimensionales

Mehr

Stochastik für die Naturwissenschaften

Stochastik für die Naturwissenschaften Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 5. Erwartungswert E und Varianz V Literatur Kapitel 5 * Storrer: (37.9)-(37.12), (38.4), (40.6)-(40.9), (41.2) * Stahel: Kapitel 5 und 6 (nur

Mehr

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung? Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße Von Florian Modler In diesem Artikel möchte ich einen kleinen weiteren Exkurs zu meiner Serie Vier Wahrscheinlichkeitsverteilungen geben

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

Berechnung von W für die Elementarereignisse einer Zufallsgröße

Berechnung von W für die Elementarereignisse einer Zufallsgröße R. Albers, M. Yanik Skript zur Vorlesung Stochastik (lementarmathematik) 5. Zufallsvariablen Bei Zufallsvariablen geht es darum, ein xperiment durchzuführen und dem entstandenen rgebnis eine Zahl zuzuordnen.

Mehr

BOXPLOT 1. Begründung. Boxplot A B C

BOXPLOT 1. Begründung. Boxplot A B C BOXPLOT 1 In nachstehender Tabelle sind drei sortierte Datenreihen gegeben. Zu welchem Boxplot gehört die jeweilige Datenreihe? Kreuze an und begründe Deine Entscheidung! Boxplot A B C Begründung 1 1 1

Mehr

Graphische Darstellung einer univariaten Verteilung:

Graphische Darstellung einer univariaten Verteilung: Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

5 Exkurs: Deskriptive Statistik

5 Exkurs: Deskriptive Statistik 5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe

Mehr

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52 Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43 1) Ermittle jeweils das arithmetische Mittel. Ordne die Datenerhebungen nach der Größe der arithmetischen Mittel. Beginne mit dem Größten. 1 45, 39, 44, 48, 42, 39, 40, 31 2 35, 31, 46, 35, 31, 42, 51,

Mehr

Der Mittelwert (arithmetisches Mittel)

Der Mittelwert (arithmetisches Mittel) Der Mittelwert (arithmetisches Mittel) x = 1 n n x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut

Mehr

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Prof. Dr. Michael Havbro Faber 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Im ersten Schritt werden wir die Daten nur beschreiben:

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte

Mehr

Bivariate explorative Datenanalyse in R

Bivariate explorative Datenanalyse in R Bivariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-09 In der LV Statistik 1 haben wir auch den Zusammenhang von 2 Variablen untersucht. Hier werden die dazugehörenden R-Befehle

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 20. Oktober 2010 1 empirische Verteilung 2 Lageparameter Modalwert Arithmetisches Mittel Median 3 Streuungsparameter

Mehr

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen?

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen? STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme 1 Kurze Wiederholung Warum nur zwei grafische Darstellungsformen? Im Rahmen der Vorlesungen haben wir kurz eine ganze Reihe grafischer Darstellungsformen

Mehr

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt

Mehr

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte

Mehr

Stochastik für die Naturwissenschaften

Stochastik für die Naturwissenschaften Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 5. Erwartungswert E und Varianz V Literatur Kapitel 5 * Storrer: (37.9)-(37.12), (38.4), (40.6)-(40.9), (41.2) * Stahel: Kapitel 5 und 6 (nur

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Beispiel 4 (Einige weitere Aufgaben)

Beispiel 4 (Einige weitere Aufgaben) 1 Beispiel 4 (Einige weitere Aufgaben) Aufgabe 1 Bestimmen Sie für die folgenden Zweierstichproben, d. h. Stichproben, die jeweils aus zwei Beobachtungen bestehen, a) den Durchschnitt x b) die mittlere

Mehr

4 Statistische Maßzahlen

4 Statistische Maßzahlen 4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box Plot Ziel: Charakterisierung einer

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

1 Beschreibende Statistik

1 Beschreibende Statistik 1 1 Beschreibende Statistik In der beschreibenden Statistik geht es darum, grosse und unübersichtliche Datenmengen so aufzubereiten, dass wenige aussagekräftige Kenngrössen und Graphiken entstehen. 1.1

Mehr

Univariate explorative Datenanalyse in R

Univariate explorative Datenanalyse in R Univariate explorative Datenanalyse in R Achim Zeileis, Regina Tüchler 2006-10-03 1 Ein metrisches Merkmal Wir laden den Datensatz: R> load("statlab.rda") und machen die Variablen direkt verfügbar: R>

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Das harmonische Mittel

Das harmonische Mittel Das harmonische Mittel x H := 1 1 n n 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t 1 t Beispiel: x 1,..., x n Geschwindigkeiten, mit denen konstante Wegstrecken l zurückgelegt

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen

Mehr

2. Beschreibung von eindimensionalen (univariaten) Stichproben

2. Beschreibung von eindimensionalen (univariaten) Stichproben 1 2. Beschreibung von eindimensionalen (univariaten) Stichproben Bei eindimensionalen (univariaten) Daten wird nur ein Merkmal untersucht. Der Fall von zwei- oder mehrdimensionalen Daten wird im nächsten

Mehr

4 Statistische Maßzahlen

4 Statistische Maßzahlen 4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box Plot Ziel: Charakterisierung einer

Mehr

1 Beschreibende Statistik

1 Beschreibende Statistik 1 1 Beschreibende Statistik In der beschreibenden Statistik geht es darum, grosse und unübersichtliche Datenmengen so aufzubereiten, dass wenige aussagekräftige Kenngrössen und Graphiken entstehen. 1.1

Mehr

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke

Mehr

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker Übungsblatt 3 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker 08.11.01 Modell Temperatur unter Last Anschluss in Grad Celsius in Grad Fahrenheit Corsair Force 10

Mehr

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter? STATISTIK I Übung 04 Spannweite und IQR 1 Kurze Wiederholung Was sind Dispersionsparameter? Die sogenannten Dispersionsparameter oder statistischen Streuungsmaße geben Auskunft darüber, wie die Werte einer

Mehr

2 Grundlagen der Statistik

2 Grundlagen der Statistik 2 Grundlagen der Statistik Wir haben nun das theoretische Handwerkszeug beisammen, um uns praktischen Fragen der Art zu widmen, wie wir sie zu Anfang des ersten Kapitels gestellt haben: Wenn Sie beispielsweise

Mehr

Statistische Kennzahlen für die Lage

Statistische Kennzahlen für die Lage Statistische Kennzahlen für die Lage technische universität ach der passenden grafischen Darstellung der Werte eines Merkmals auf der Gesamtheit der Beobachtungen interessieren jetzt geschickte algebraische

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/62 Summenzeichen

Mehr

7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17

7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17 7. Lösungen weitere Übungsaufgaben Statistik für Ingenieure WiSe 16/17 1. Aufgabe: a) Grundgesamtheit sind alle Reifen aus der Produktion von Langstone aus dem Monat März der entsprechenden Reifentypen.

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 3 1 Inhalt der heutigen Übung Vorrechnen der Hausübung B.7 Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben C.1: Häufigkeitsverteilung C.2: Tukey

Mehr

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2 Häufigkeiten Deskriptive Statistiken Häufigkeiten Beruflicher Bildungsabschluss (Mbfbil4) Zielvariablenliste OK Er erscheint: Statistiken beruflicher Bildungsabschluss incl. N Gültig 3445 Fehlend 0 beruflicher

Mehr

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik Informationsbestände analysieren Statistik 8. Statistik Nebst der Darstellung von Datenreihen bildet die Statistik eine weitere Domäne für die Auswertung von Datenbestände. Sie ist ein Fachgebiet der Mathematik

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative

Mehr

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal Beispiel 37 Wir werfen eine Münze so lange, bis zum ersten Mal Kopf erscheint. Dies geschehe in jedem Wurf unabhängig mit Wahrscheinlichkeit p. Wir definieren dazu die Zufallsvariable X := Anzahl der Würfe.

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Statistik II: Grundlagen und Definitionen der Statistik

Statistik II: Grundlagen und Definitionen der Statistik Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen

Mehr

Deskriptive Statistik & grafische Darstellung

Deskriptive Statistik & grafische Darstellung Deskriptive Statistik & grafische Darstellung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Deskriptive

Mehr

3. Übung Deskription und Diagnose Wer oder was ist normal?

3. Übung Deskription und Diagnose Wer oder was ist normal? Querschnittsbereich 1: Epidemiologie, Medizinische Biometrie und Medizinische Informatik - Übungsmaterial - Erstellt von Mitarbeitern des IMISE und des ZKS Leipzig 3. Übung Deskription und Diagnose Wer

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

6. a) 12 3 = 36 b) 14 = Median, weil die Datenmenge eine ungerade Zahl ist. c) 7, 14, 15 oder 6, 14, 16 oder 5; 14, 17.

6. a) 12 3 = 36 b) 14 = Median, weil die Datenmenge eine ungerade Zahl ist. c) 7, 14, 15 oder 6, 14, 16 oder 5; 14, 17. 127 187 189 4. a) siehe c) b) Arithmetische Mittel x Teilnehmerzahl = gelaufene Gesamtstrecke 2596,4 23 = 59 096,2 m 59,1 km. Der Median ist der mittlere Wert (Zentralwert) aller Daten. Er beträgt 2400

Mehr

Empirische Softwaretechnik. Boxplots. Graphische Darstellung. Median

Empirische Softwaretechnik. Boxplots. Graphische Darstellung. Median Empirische Softwaretechnik Boxplots Prof. Dr. Walter F. Tichy Fakultät für Informatik 1 Graphische Darstellung Median gegeben eine sortierte Stichprobe Median gibt den mittleren Wert der sortierten Stichprobe

Mehr

3. Übung Deskription und Diagnose Wer oder was ist normal?

3. Übung Deskription und Diagnose Wer oder was ist normal? Querschnittsbereich 1: Epidemiologie, Medizinische Biometrie und Medizinische Informatik - Übungsmaterial - Erstellt von Mitarbeitern des IMISE und des ZKS Leipzig 3. Übung Deskription und Diagnose Wer

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03

I.V. Methoden 2: Deskriptive Statistik WiSe 02/03 I.V. Methoden 2: Deskriptive Statistik WiSe 02/03 Vorlesung am 04.11.2002 Figures won t lie, but liars will figure. General Charles H.Grosvenor Dr. Wolfgang Langer Institut für Soziologie Martin-Luther-Universität

Mehr

Streuungsmaße Worum geht es in diesem Modul? Allgemeines zu Streuungsmaßzahlen Spannweite und Interquartilsabstand

Streuungsmaße Worum geht es in diesem Modul? Allgemeines zu Streuungsmaßzahlen Spannweite und Interquartilsabstand Streuungsmaße Worum geht es in diesem Modul? Allgemeines zu Streuungsmaßzahlen Spannweite und Interquartilsabstand Berechnung der mittleren quadratischen Abweichung und der Varianz aus einer Urliste Standardabweichung

Mehr

2. Deskriptive Statistik

2. Deskriptive Statistik Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten

Mehr

Mathematik für Biologen

Mathematik für Biologen Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine Universität Düsseldorf 19. Oktober 2009 Hinweise Internetseite zur Vorlesung: http://blog.ruediger-braun.net Dort können Sie Materialien

Mehr

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung

Mathematik: LehrerInnenteam Arbeitsblatt Semester ARBEITSBLATT 12. Erwartungswert, Varianz und Standardabweichung Mathematik: LehrerInnenteam Arbeitsblatt 7-7. Semester ARBEITSBLATT Erwartungswert, Varianz und Standardabweichung Die Begriffe Varianz und Standardabweichung sind uns bereits aus der Statistik bekannt

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 2C a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Bei HHEINK handelt es sich um eine metrische Variable. Bei den Analysen sollen Extremwerte ausgeschlossen werden. Man sollte

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Lösungen zur Klausur zur Statistik Übung am

Lösungen zur Klausur zur Statistik Übung am Lösungen zur Klausur zur Statistik Übung am 28.06.2013 Fabian Kleine Staatswissenschaftliche Fakultät Aufgabe 1 Gegeben sei die folgende geordneten Urliste des Merkmals Y. 30 Punkte Y : 5 5 5 5 10 10 10

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG Markus.Schumacher@physik.uni-freiburg.de

Mehr

Verteilungsfunktion und dquantile

Verteilungsfunktion und dquantile Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist.

Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. .3. Stochastik Grundlagen Die ABSOLUTE HÄUFIGKEIT einer Merkmalsausprägung gibt an, wie oft diese in der Erhebung eingetreten ist. Die RELATIVE HÄUFIGKEIT einer Merkmalsausprägung gibt an mit welchem Anteil

Mehr

Eindimensionale Darstellungen

Eindimensionale Darstellungen Deskriptive Statistik Eindimensionale Darstellungen, Fraktile, Trimean, Box-Plot; Stem-and-Leaf 27.04.2009 1/52 Fraktile, Quantile und Quartile Allgemein werden Zerlegungen der geordneten Beobachtungsreihen

Mehr

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche 30. November 2007 Michael

Mehr

Auf dem Schulfest bietet Peter als Spielleiter das Glücksspiel "GlücksPasch" an.

Auf dem Schulfest bietet Peter als Spielleiter das Glücksspiel GlücksPasch an. Aufgabe 4 Glückspasch" (16 Punkte) Auf dem Schulfest bietet Peter als Spielleiter das Glücksspiel "GlücksPasch" an. Spielregeln: Einsatz 1. Der Mitspieler würfelt mit 2 Oktaederwürfeln. Fällt ein Pasch,

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben? Thema: Mittelwert einer Häufigkeitsverteilung Beispiel: Im Mittel werden deutsche Männer 75,1 Jahre alt; sie essen im Mittel pro Jahr 71 kg Kartoffel(-produkte) und trinken im Mittel pro Tag 0.35 l Bier.

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:

Mehr

1.5 Erwartungswert und Varianz

1.5 Erwartungswert und Varianz Ziel: Charakterisiere Verteilungen von Zufallsvariablen durch Kenngrößen (in Analogie zu Lage- und Streuungsmaßen der deskriptiven Statistik). Insbesondere: a) durchschnittlicher Wert Erwartungswert, z.b.

Mehr

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007 Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte

Mehr

W-Rechnung und Statistik für Ingenieure Übung 4

W-Rechnung und Statistik für Ingenieure Übung 4 W-Rechnung und Statistik für Ingenieure Übung 4 Aufgabe 1 : Zementdaten Lösung in R: Lade den Datensatz SETTING.DAT: Die erste Spalte von setting gibt die prozentualen Anteile von a wieder, die Zweite

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 8.-10. Januar 2010 BOOTDATA.GDT: 250 Beobachtungen für die Variablen... cm:

Mehr

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen Kapitel 6 Verteilungsparameter Wie bei einem Merkmal wollen wir nun die Lage und die Streuung der Verteilung einer diskreten Zufallsvariablen durch geeignete Maßzahlen beschreiben. Beginnen wir mit Maßzahlen

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik 1. Deskriptive Statistik 2. Induktive Statistik 1. Deskriptive Statistik 1.0 Grundbegriffe 1.1 Skalenniveaus 1.2 Empirische Verteilungen 1.3 Mittelwerte 1.4 Streuungsmaße 1.0

Mehr