Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält man, indem man die absolute Häufigkeit durch die Gesamtzahl dividiert. Beispiel: Die Augenfarbe von 12 Personen (=Gesamtzahl aller Daten) einer Autofirma wird erhoben: Urliste: blau, grün, blau, braun, grau, blau, blau, grün, braun, blau, blau, grün Darstellung der absoluten und relativen Häufigkeiten in einer Tabelle: Augenfarbe Absolute Häufigkeit: H i Relative Häufigkeit: h i blau grün grau braun Darstellung der Häufigkeiten in drei verschiedenen Abbildungen: Wie heißen sie? 7 6 5 4 3 2 1 0 blau grün grau braun 8% 17% 25% 50% 50% 25% 8% 17% 0% 50% % Beispiel: Bei einer Wahl wählen 35% die Partei A, 30% die Partei B, 15% die Partei C, 5% die Partei D, der Rest wählt ungültig. Die Gesamtzahl der abgegebenen Stimmen beträgt 250000. a) Gib die absoluten Häufigkeiten der Stimmen an. b) Absolute Häufigkeit der Stimmen Partei A 35% von 250000 = 35 Partei B 30% von 250000 = 30 Partei C 15% von 250000 = 15 250000= 87500 250000= 75000 250000= 37500 Partei D 5% von 250000 = 5 250000= 12500 ungültig 15% von 250000 = 15 250000= 37500
c) Fertige ein Kreisdiagramm an: Relative Häufigkeit der Stimmen Partei A 35% Partei B 30% Partei C 15% Partei D 5% ungültig 15% Beachte: 15% 5% 15% 35% Partei A Partei B Partei C Partei D % 360 1%..3,6 30% ungültig Zentralmaße und Quartile Modus: Der Modus einer Datenliste ist der am häufigsten vorkommende Wert der untersuchten Variablen. Dieser Wert ist nicht immer eindeutig bestimmt, da es mehrere häufigste Werte geben kann (d.h. es kann auch zwei Modi geben) Median(Zentralwert): Ordnet man eine Liste von Zahlen der Größe nach, so heißt bei einer ungeraden Anzahl von Zahlen die in der Mitte stehende Zahl der Median der Liste, bei einer geraden Anzahl von Zahlen bezeichnet man das arithmetische Mittel der beiden in der Mitte stehenden Zahlen als den Median der Liste. 112234456 1123355567 Median 3 + 5 2 4 Median Arithmetisches Mittel (Mittelwert, Durchschnitt): Unter dem arithmetischen Mittel einer Zahlenliste x 1, x 2, x n versteht man die reelle Zahl:
x = x 1 + x 2 + + x n n Beispiel: Die durchschnittlichen Temperaturen werden an jedem Augusttag gemessen. Sie sind in der folgenden Urliste zusammengefasst: 24, 20, 22, 23, 25, 26, 25, 23, 27, 27, 27, 30, 29, 30, 30, 31, 28, 27, 27, 25, 26, 25, 24, 22, 21, 22, 23, 22, 21, 20, 21 Liste ordnen: 20, 20, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 24, 24, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 27, 28, 29, 30, 30, 30, 31 Median Modus: 27 ( = der am häufigsten auftretende Wert der Liste) Arithmetisches Mittel: x = x 1+ x 2 + + x n = n 20+20+21+21+21+22+22+22+22+23+23+23+24+24+25+25+25+25+26+26+27+27+27+27+27+28+29+30+30+30+31 31 24,94 Ausreißer: Betrachtet man die folgende Liste von Daten: 1, 1, 1, 2, 3, 3, 4, 4, 0, so sieht man, dass die Liste extreme Einzelwerte (=Ausreißer) enthalten kann. (Hier ist es die Zahl 0) Wie wirkt sich ein Ausreißer auf die verschiedenen Zentralmaße der Liste aus? Liste Arithmetisches Mittel Modus Median 1, 1, 1, 2, 3, 3, 4, 4, 0 x = 3 1+1 2+2 3+2 4+1 0 =113,22 1 3 9 1, 1, 1, 2, 3, 3, 4, 4 x = 3 1+1 2+2 3+2 4 =2,375 1 2,5 9 Man sieht: Das arithmetische Mittel, das aus allen Einzelwerten der Liste berechnet wird, reagiert empfindlich auf Ausreißer. Modus und Median ändern sich durch Ausreißer dagegen wenig oder auch gar nicht, denn ihr Wert hängt nicht davon ab, wie groß die Extremwerte im einzelnen sind. Um Datenmanipulationen zu vermeiden, dürfen Ausreißer nicht ohne Weiteres aus Datenlisten ausgeschlossen werden. Vielmehr ist zu klären, welche Ursachen die Ausreißer haben könnten. Quartile: In einer geordneten Liste liegen vor dem Median gleich viele Zahlen wie nach dem Median. Man bezeichnet den Median mit q 2. 1, 2, 2, 3, 4, 5, 5, 6, 6, 7, 8, 8, 8, 9, 10 Median (q 2 )
Bildet man für die Zahlen vor q 2 wiederum den Median q 1 und für die Zahlen nach q 2 den Median q 3, so erhält man drei Zahlen q 1, q 2 und q 3, die man als Quartile der geordneten Liste bezeichnet. 1, 2, 2, 3, 4, 5, 5, 6, 6, 7, 8, 8, 8, 9, 10 Median (q 2 ) q 1 q 3 Durch die Quartile wird die geordnete Liste in vier gleich große Abschnitte zerlegt. Es gilt: Vor q 1 liegen ca. 25% aller Daten der geordneten Liste Vor q 2 liegen ca. 50% aller Daten der geordneten Liste Vor q 3 liegen ca. 75% aller Daten der geordneten Liste Quartilabstand (=Interequartilspannweite): Die Differenz q 3 q 1 wird Quartilabstand genannt. Zwischen q 1 und q 3 liegen ungefähr 50% der Daten der geordneten Liste. Spannweite: Die Differenz zwischen dem größten Wert (max) und dem kleinsten Wert (min) einer geordneten Liste heißt Spannweite. Fünfzahlenzusammenfassung: Die fünf markanten Werte min, q1, q2, q3 und max einer geordneten Liste können wie folgt, zusammengefasst werden. Zusätzlich wird noch der Quartilabstand (=Interquartilspannweite) und die Spannweite angegeben. q 2 q 1 q 3 Quartilabstand min max Spannweite Die graphische Darstellung dieser Werte kann in einem Kastenschaubild (Box-Plot) erfolgen: Der Bereich von q 1 bis q 3, in dem sich etwa 50% der Werte befinden, wird als Rechteck wiedergegeben. In diesem Bereich wird auch der Median q 2 eingetragen. Die übrigen Bereiche werden als Strecken gekennzeichnet, sofern die Werte relativ dicht liegen. Einzelne Punkte werden als Ausreißer gekennzeichnet. Welche Werte als Ausreißer gelten legt der Anwender aufgrund seiner Kenntnis des untersuchten Sachzusammenhangs fest. Betrachten wir noch einmal das folgende Beispiel: 25 Schülerinnen und Schüler werden gefragt, wie viele Minuten sie durchschnittlich pro Tag online sind. Urliste: 12, 45, 21, 13, 24, 39, 10, 7, 56, 42, 37, 75, 19, 23, 38, 26, 22, 20, 39, 16, 39, 39, 18, 61, 30 Gesucht: Modus, Median, Arithmetisches Mittel, Quartile, Fünfzahlenzusammenfassung, Boxplot (Zusatzblatt)
Beispiele zu Kastenschaubildern (Box Plots): 1)Die beiden Kastenschaubilder stellen die Studiendauern der Kunst- und Wirtschaftsstudierenden eines Landes dar. Vervollständige die folgenden Sätze: a) % der Kunststudierenden benötigen für ihr Studium 14 bis 17 Semester. b) 75% aller Wirtschaftsstudierenden benötigen für ihr Studium länger als Semester. c) Im Mittel studieren Kunststudierende um Semester länger als Wirtschaftsstudierende. d) Studiendauern über Semester sind bei Wirtschaftsstudierenden extreme Einzelfälle. e) Nur % aller Kunststudierenden beenden ihr Studium in höchstens 14 Semestern. 2) Grundwehrdienst Beim Stellungstermin wurden unter anderem die Körpergrößen von 120 Rekruten festgehalten. Diese sind hier zusammengefasst in Form eines Diagramms dargestellt: Aufgabenstellung: Setzen Sie in den folgenden Aussagen die richtigen Zahlen ein: Aus dem Diagramm kann man entnehmen, dass ca. 50% der Rekruten kleiner als.. cm sind. ca. 75% der Rekruten größer als.. cm sind. die Rekruten höchstens... cm groß sind. jeder Rekrut mindestens cm groß ist. von den 120 Rekruten ca.. Rekruten mindestens 181 cm groß sind. von den 120 Rekruten ca. Rekruten größer als 168 cm sind. ca. Rekruten zwischen 168 cm und 181 cm groß sind.
3) In 33 Wirtschaftsbereichen werden von 66 Beschäftigten die Bruttogehälter (in ) erhoben, wovon jeweils 33 von den Männern und 33 von den Frauen sind. Wie allgemein bekannt, klaffen die Gehälter von Männern und Frauen auseinander. In der nachfolgenden Abbildung ist die Verteilung der Gehälter getrennt nach Frauen und Männern in zwei Kastenschaubildern dargestellt. Bruttoeinkommen von 33 Frauen und 33 Männern (in ) Interpretiere und vergleiche: (Lösung) Frauengehälter Das höchste Gehalt liegt bei ca. 2700. Das niedrigste Gehalt liegt bei ca. 650. Drei Gehälter sind Ausreißer. Die meisten Mitarbeiterinnen verdienen zwischen 950 und 1700. 50% der Frauen verdienen höchstens 1300 und 50% der Frauen verdienen mindestens 1300. 50% der Frauen verdienen zwischen 1150 und 1450. Die Gehälter der Frauen, die die mittleren 50% darstellen, sind symmetrisch verteilt. Jedoch ist im dichten Bereich eine Asymmetrie nach oben vorhanden. Männergehälter Das höchste Gehalt liegt bei ca. 3200. Das niedrigste Gehalt liegt bei ca.700. Sieben Gehälter sind sogenannte Ausreißer. Die meisten Mitarbeiter verdienen zwischen 1550 und 2300. 50% der Männer verdienen höchstens 1800 und 50% der Männer verdienen mindestens 1800. 50% der Männer verdienen zwischen 1650 und 2200. Im dichten Bereich ist eine leichte Asymmetrie nach oben vorhanden. Vergleich: Der Median liegt bei den Männern bei ca. 1800 und bei den Frauen bei ca. 1300. Dies bedeutet, dass nur eine Mitarbeiterin (Gehalt: 2700 ) mit ihrem Gehalt in jenen Bereich fällt, in welchem 50% der Männer liegen. Von dieser einen Mitarbeiterin ausgenommen, verdient keine Frau so viel wie 50% der Männer. Die Ausreißer nach oben sind ebenfalls bei den Männern höher.
4) Beispiel: Die durchschnittlichen Temperaturen werden an jedem Augusttag gemessen. Sie sind in der folgenden Urliste zusammengefasst: 24, 20, 22, 23, 25, 26, 25, 23, 27, 27, 27, 30, 29, 30, 30, 31, 28, 27, 27, 25, 26, 25, 24, 22, 21, 22, 23, 22, 21, 20, 21 Erstelle ein Kastenschaubild. 20, 20, 21, 21, 21, 22, 22, 22, 22, 23, 23, 23, 24, 24, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 27, 28, 29, 30, 30, 30, 31 q 1 q 2 q 3 Kastenschaubild (Box-Plot) Beispiel: Berechne den Mittelwert und die empirische Standardabweichung der Liste: 3, 1, 2, 5, 4 x = 3+1+2+5+4 5 = 15 = 3 s = +(1 3) 2 +(2 3) 2 +(5 3) 2 +(4 3) 2 5 (3 3)2 5 1,41 Empirische Standardabweichungen können zum Vergleich von Verteilungen herangezogen werden. Dabei kann nur entschieden werden, ob eine Verteilung stärker streut als eine andere. Was der konkrete Wert von s für jede einzelne Verteilung angibt, lässt sich nur ungenau beschreiben. Bei vielen Verteilungen liegt der Großteil der Daten im Intervall [x s, x + s]. Vereinfachung: Verschiebungssatz für die empirische Varianz Für die empirische Varianz s² einer Liste x 1, x 2,.., x n mit dem Mittelwert x gilt: s² = x 1²+ x 2 ²+ +x n ² - x ² n Somit kann die Standardabweichung für das obige Beispiel auch so berechnet werden: s² = 3²+1²+2²+5²+4² 3² = 2 s = 2 1,41 5