Wahrscheinlichkeitsrechnung anhand realer Situationen



Ähnliche Dokumente
Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

4. Erstellen von Klassen

Zeichen bei Zahlen entschlüsseln

Primzahlen und RSA-Verschlüsselung

Was meinen die Leute eigentlich mit: Grexit?

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Anleitung über den Umgang mit Schildern

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Professionelle Seminare im Bereich MS-Office

Was tust du auf Suchmaschinen im Internet?

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Titel der Stunde: TELEFONIEREN, HÖFLICHKEIT

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

1. LINEARE FUNKTIONEN IN DER WIRTSCHAFT (KOSTEN, ERLÖS, GEWINN)

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Zahlen auf einen Blick

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Daten sammeln, darstellen, auswerten

Diagnostisches Interview zur Bruchrechnung

Lineare Gleichungssysteme

STATISTIK. Erinnere dich

1. Was ihr in dieser Anleitung

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Qualitätsbedingungen schulischer Inklusion für Kinder und Jugendliche mit dem Förderschwerpunkt Körperliche und motorische Entwicklung

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Welche Staatsangehörigkeit(en) haben Sie?... Mutter geboren?...

1 Darstellen von Daten

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Multicheck Schülerumfrage 2013

Umfrage der Klasse 8c zum Thema "Smartphones"

Kapitel 3 Frames Seite 1

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)


5. Bildauflösung ICT-Komp 10

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Gantt-Diagramm - Diagramm zur Projektverfolgung

EINFACHES HAUSHALT- KASSABUCH

CSS-Grundlagen. Etwas über Browser. Kapitel. Die Vorbereitung

Berechnung der Erhöhung der Durchschnittsprämien

3. Verpackungskünstler. Berechnungen am Quader, Umgang mit Termen, räumliche Vorstellung

1 Mathematische Grundlagen

Berechnungen in Access Teil I

Kulturelle Evolution 12

Computeria Rorschach Mit Excel Diagramme erstellen

Physik & Musik. Stimmgabeln. 1 Auftrag

Deine Meinung ist wichtig. Informationen für Kinder und Jugendliche zur Anhörung

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Informationsblatt Induktionsbeweis

Einkaufen im Internet. Lektion 5 in Themen neu 3, nach Übung 10. Benutzen Sie die Homepage von:

Statistische Auswertung:

Was sind Soziale Netzwerke? Stelle dazu selbstständig Überlegungen an!

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

Didaktisierungsvorschläge zum Kalender. Jugend in Deutschland UNTERRICHTSENTWURF Juli. Alles, was Spaß macht: HOBBY UND FREIZEIT

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Repetitionsaufgaben Wurzelgleichungen

Materialien für den Unterricht zum Film Crazy von Hans-Christian Schmid Deutschland 2000, 93 Minuten

Media Teil III. Begriffe, Definitionen, Übungen

QM: Prüfen -1- KN

Wir machen neue Politik für Baden-Württemberg

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Statistische Thermodynamik I Lösungen zur Serie 1

Der Tag hat 24 Stunden. Bitte schreibt in die linke Spalte alles auf, was ihr gestern getan habt und euch noch einfällt: War es ein stressiger

Umgekehrte Kurvendiskussion

Die Größe von Flächen vergleichen

Wie halte ich Ordnung auf meiner Festplatte?

7 Rechnen mit Polynomen

Geld Verdienen im Internet leicht gemacht

Zeit lässt sich nicht wie Geld für schlechte Zeiten zur Seite legen. Die Zeit vergeht egal, ob genutzt oder ungenutzt.

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Das Leitbild vom Verein WIR

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Studieren- Erklärungen und Tipps

Der Klassenrat entscheidet

1 C H R I S T O P H D R Ö S S E R D E R M A T H E M A T I K V E R F Ü H R E R

Spielmaterial. Hallo! Ich bin der kleine AMIGO und zeige euch, wie dieses Spiel funktioniert. Viel Spaß! von Liesbeth Bos

M03a Lernstraße für den Unterricht in Sekundarstufe I

Inhalt. Allgemeine Einführung. Argumentationsvermögen. Räumliches Vorstellungsvermögen. Begabungen und Fähigkeiten messen

Felix Klug SS Tutorium Deskriptive Statistik

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Was ist PZB? Personen-zentrierte Begleitung in einfacher Sprache erklärt

Kreativ visualisieren

Modellbildungssysteme: Pädagogische und didaktische Ziele

Kleine Einführung in die lineare Regression mit Excel

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Papierverbrauch im Jahr 2000

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Datenbanken Kapitel 2

Video-Thema Manuskript & Glossar

Alle gehören dazu. Vorwort

1. Allgemeine Hinweise

Transkript:

MaMaEuSch Management Mathematics for European Schools http://www.mathematik.unikl.de/ mamaeusch Wahrscheinlichkeitsrechnung anhand realer Situationen Paula Lagares Barreiro 1 Frederico Perea Rojas-Marcos 1 Justo Puerto Albandoz 1 MaMaEuSch 2 Management Mathematics for European Schools 94342 - CP - 1-2001 - DE - COMENIUS - C21 1 Universität Sevilla 2 MaMaEuSch wurde unterstützt durch die EU mittels einer teilweisen Förderung im Rahmen des Socrates Programmes und einer teilweisen Förderung durch das Land Rheinland-Pfalz. Der Inhalt des Projektes reflektiert nicht notwendigerweise den Standpunkt der EU, noch unterliegt es irgendeiner Verantwortung seitens der EU.

Inhaltsverzeichnis 1 Eindimensionale beschreibende Statistik 3 1.1 Ziele............................................... 3 1.2 Das Beispiel: Eine Meinungsumfrage............................. 3 1.3 Grundgesamtheit und Stichprobe................................ 4 1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative..... 5 1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit.............. 6 1.6 Graphische Methoden...................................... 8 1.6.1 Balkendiagramm.................................... 8 1.6.2 Histogramm...................................... 9 1.6.3 Häufigkeitspolygon................................... 10 1.6.4 Kreisdiagramm..................................... 11 1.6.5 Piktogramm....................................... 12 1.6.6 Stengel-Blatt-Diagramm................................ 12 1.6.7 Einige Anmerkungen.................................. 14 1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil................. 14 1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung.................. 17 1.9 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson scher Variationskoeffizient, z-scores........................ 20 1.9.1 Tchebicheff Theorem.................................. 20 1.9.2 Pearson scher Variationskoeffizient.......................... 21 1.9.3 z-scores........................................ 22 2 Analyse der Meinungsumfrage 23 2.1 Schlussfolgerungen....................................... 27 3 Zweidimensionale, beschreibende Statistik 28 3.1 Ziele............................................... 28 3.2 Das Beispiel: Eine Meinungsumfrage............................. 29 3.3 Einleitung und einfache Tabellen................................ 29 3.4 Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen............... 30 3.5 Punktwolke........................................... 32 3.6 Funktionale Abhängigkeit und statistische Abhängigkeit................... 33 3.7 Kovarianz............................................ 34 3.8 Lineare Korrelation....................................... 35 1

3.9 Regressionsgerade....................................... 37 2

Kapitel 1 Eindimensionale beschreibende Statistik Wir wollen eine Meinungsumfrage durchführen. Ihr werdet einen Fragebogen ausfüllen, so dass wir feststellen können, was ihr über eine Vielzahl von Themen denkt. Weiters wollen wir einige Eigenschaften wie Größe, Gewicht, Anzahl von Brüdern und Schwestern etc. erheben. Wir wollen überprüfen ob deine Meinung mit denen deiner Freunde übereinstimmt und auch ob es viele KlassenkameradInnen mit ähnlichen Eigenschaften wie deinen gibt. Zum Beispiel, wieviele deiner Mitschüler sind größer als du und wieviele davon haben die gleiche Anzahl an Geschwistern? Bevor wir beginnen wollen wir die Hauptziele die wir in diesem Kapitel erreichen wollen darstellen. 1.1 Ziele Die verschiedenen Arten von Statistiken unterscheiden lernen. Bestimmen welche Art von Statistik wir verwenden sollen, abhängig von der Art der Daten die wir benützen. Das Konzept Zentralmaße und Streuungsmaße von einem Datensatz begreifen. Die Parameter einer statistischen Verteilung bestimmen. Den Variationskoeffizient untersuchen. Durch Informationen in den Beispielen und Aufgaben zu sozialen, ökologischen und wirtschaftlichen Themen anregen. 1.2 Das Beispiel: Eine Meinungsumfrage Von jetzt an arbeiten wir an einer Meinungsumfrage. Wir wollen einige Dinge über eure KlassenkameradInnen herausfinden. Wir werden nach ein paar persönlichen Daten fragen und dann bitten wir euch, uns 3

Informationen und eure Meinung zu einigen Themen wie z.b. Sport, Ernährung etc. zu geben. Die Umfrage ist anonym, so dass ihr frei antworten könnt und euch keine Sorgen darüber machen braucht, wer eure Meinungen später liest. Mit diesen Daten wollen wir interessante Fragen über uns als Gruppe aufwerfen, die wir dann vielleicht als Orientierungshilfe zur Beantwortung von anderen Fragen über eine größere Gruppe von Leuten verwenden können. Zum Beispiel: Welche ist die häufigste Größe in eurer Klasse? Erscheint dir dein wöchentliches Taschengeld normal, verglichen mit dem deiner KlassenkameradInnen? Wieviele von euch betreiben oft Sport? Wieviele essen Frühstück bevor sie in die Schule kommen? Welche Nahrungsmittel konsumiert ihr öfter: Früchte, Milch, Kaffee, Fisch...? Wir werden festellen wie wir durch die Auswertung der Antworten aus der Meinungsumfrage, all die oben gestellten Fragen beantworten können. Bis zum Ende des Kapitels haben wir sicher all die Antworten, aber zuerst wollen wir die Konzepte die ihr brauchen werdet vorstellen. 1.3 Grundgesamtheit und Stichprobe Bevor wir all die Fragen beantworten können, müssen wir noch einige Dinge klären. Über wen wollen wir Informationen bekommen? Wir haben schon festgehalten, dass wir Dinge über die SchülerInnen eurer Schulstufe erfahren wollen. Also wird unsere Grundgesamtheit nicht nur aus den SchülerInnen eurer Klasse, sondern aus allen SchülerInnen eurer Schulstufe bestehen. Es würde jedoch zu lange dauern, alle SchülerInnen dieser Schulstufe zu befragen. Daher haben wir uns entschieden eine repräsentative Gruppe aus all den Klassen eurer Schulstufe zu nehmen, das ist in diesem Fall eure Klasse. Ihr seid daher die so genannte Stichprobe. Weiters wird jedes einzelne Mitglied der Grundgesamtheit als Untersuchungselement bezeichnet. Vielleicht sollten wir noch ein paar Anmerkungen zu dem Gesagten machen. Erstens, manchmal möchte man vielleicht Eigenschaften von Tieren, Pflanzen, Dingen, z.b. die Lebensdauer von Batterien in Mobiltelefonen untersuchen. In diesem Falle ist die Grundgesamtheit nicht menschlich, sondern sachlich, sie besteht nämlich aus den verschiedenen Arten von Mobiltelefonen. Weiters gibt es Situationen, in denen die Verwendung von Stichproben aus verschiedenen Gründen noch mehr gerechtfertigt ist als in unserem Fall. Wenn wir z.b. das Wahlergebnis der Spanier wissen wollen, können wir nicht alle Spanier über 18 befragen, da dies Millionen von Menschen wären und das würde eine Menge an Zeit und Geld in Anspruch nehmen. Oder, um die durschnittliche Lebensdauer von Glühbirnen zu untersuchen, können wir nicht alle Glühbirnen überprüfen, da jede Überprüfung das Zerstören einer Glühbirne bedeutet. Dies ist ein Beispiel für Situationen in denen die Stichprobenerhebung mit der Zerstörung eines Untersuchungselementes verbunden ist. Insgesamt gesehen ist die Stichprobenerhebung daher in vielen Situationen durch den Zeitfaktor, das Geld oder aus Gründen der Zerstörung des Untersuchungselementes gerechtfertigt. Aufgabe 1.3.1 In Andalusien wurde 2001 eine Umfrage zur Auswahl von Universitätsstudien durchgeführt, um herauszufinden was die 65.356 MaturantInnen studieren wollten und warum. Um das zu bekommen, wurden die Daten von 8500 MaturantInnen von ganz Andalusien gesammelt. Kannst du erklären was die Grundgesamtheit und was die Stichprobe in diesem Beispiel ist? Was sind die Gründe dafür hier eine Stichprobe zu verwenden? 4

1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative Bevor wir unsere Fragen richtig beantworten können, müssen wir zuerst entscheiden, welche Methode wir für unsere Daten verwenden wollen. Dabei ist zu beachten, dass nicht alle Daten die wir sammeln können die gleiche Art von Daten sind. Wir können uns zum Beispiel die Antworten zu den drei folgenden Fragen unsere Umfrage überlegen: 1. Die Antwort zu der Frage nach dem Geschlecht (männlich oder weiblich). 2. Die Antwort zu der Frage nach der Anzahl der Geschwister. 3. Die Antwort zu der Frage nach der Größe. Was uns als erstes auffällt ist, dass die Antwort zu der ersten Frage nicht numerisch ist, während die Antworten zu den beiden anderen Fragen numerisch sind. Die Eigenschaft, welche auf die erste Antwort zutrifft, nennt man qualitativ während jene die auf die Antworten zwei und drei zutrifft als quantitativ bezeichnet wird. Daraus ist leicht ersichtlich, dass quantitative Variablen Vorgehensweisen erlauben, die mit qualitativen Eigenschaften nicht möglich sind. Wir sagen Kategorien zu den verschiedenen Möglichkeiten von qualitativen Variablen und Werte zu jenen der quantitativen Variablen. Schauen wir uns jetzt den Unterschied zwischen den Variablen aus Antwort 2 und Antwort 3 an, da dieser schon etwas komplizierter ist. Die Variable Anzahl von Geschwistern wird in numersichen Werten ausgedrückt, die wir als isoliert bezeichnen können, 0,1,2,3,..., aber sie können keinen Wert dazwischen annehmen, z.b. den Wert 3.5. Dies trifft jedoch nicht auf die Variable Größe zu. In der Tat kann die Größe jeden beliebigen Wert in einem bestimmten Bereich annehmen, wir können die Größe so genau messen wie wir wollen. Wir können also zusammenfassen, dass die Größe jeden Wert innerhalb eines bestimmten Intervalls haben kann. Daher wird die Variable in der Frage 2 als diskret und die Variable in Frage 3 als stetig bezeichnet. Aufgabe 1.4.1 Entscheide ob folgende Variablen qualitativ oder quantitativ sind und wenn sie quantitativ sind, ob sie diskret oder stetig sind. 1. Die Anzahl der an einem Tag geborenen Kinder. 2. Die Blutgruppe einer Person. 3. Die Zeit die man braucht um ein Problem zu lösen. 4. Die Anzahl der Fragen bei einer Prüfung. 5. Die Körpertemperatur einer Person. 6. Die politische Partei die bei den letzten Wahlen gewählt wurde. 7. Die Anzahl der Tore die von einem Spieler in einer Saison geschossen wurden. 5

1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit Es ist jetzt an der Zeit die Daten die wir in unserer Meinungsumfrage erhalten haben aufzubereiten. Die Daten die wir zur Anzahl der Geschwister haben sind: 0 1 3 2 0 1 0 1 1 2 2 3 1 2 1 1 1 1 0 0 4 2 3 1 2 1 2 1 1 0 während wir für das Gewicht folgende haben: 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 Wir können eine Menge an Fragen aufstellen: Wie viele meiner KlassenkameradInnen haben die gleiche Anzahl an Geschwistern wie ich? Wie viele davon haben mehr oder weniger als ich? Wieviele meiner KlassenkameradInnen wiegen mehr, bzw. weniger als ich? Um diese Fragen zu beantworten, müssten wir zählen, wie oft jede Antwort vorkommt. Beginnen wir mit der Anzahl der Geschwister: 0 6 1 13 2 7 3 3 4 1 Wir wissen jetzt, dass es 13 Personen mit 1 Bruder/Schwester gibt. Diese Zahl wird absolute Häufigkeit genannt und wir notieren sie mit n i. Wieviele Personen haben nun höchstens 1 Bruder/Schwester? In unserem Falle sind die Personen die 0 oder 1 Bruder/Schwester haben, 6 + 13 = 19. Diese Zahl wird kumulative absolute Häufigkeit genannt und wir notieren sie mit N i. Wir können jetzt eine Tabelle mit kumulativen und absoluten Häufigkeiten aufstellen: Anz. Geschwister absolute H. kum. absolute H. 0 6 6 1 13 13 + 6 = 19 2 7 13 + 6 + 7 = 26 3 3 13 + 6 + 7 + 3 = 29 4 1 13 + 6 + 7 + 3 + 1 = 30 Es ist wichtig die Werte der Variable in der Reihenfolge von der niedrigste zur höchsten anzuordnen, wenn wir die kumulative Häufigkeit auf die richtige Art berechnen wollen. Wir werden jetzt noch andere Arten von Häufigkeiten bestimmen, da es interessant ist das Verhältnis zur Gesamtmenge zu wissen. Dieses können wir nämlich in ganzen Zahlen angeben um dann leichter mit anderen Grundgesamtheiten vergleichen zu können. In unserem Fall gibt es 6 SchülerInnen die 0 Geschwister haben. Aber wir haben auch eine Gruppe von 50 Personen befragt und wir wissen, dass es in jener 9 Personen mit 0 Geschwistern gibt. In welcher dieser zwei Gruppen gibt es nun einen größeren Anteil an Personen mit 0 Geschwistern? Es ist leicht erkennbar, dass die Verhältnisse so aussehen: 6 30 = 0.2 und 9 50 = 0.18 Offensichtlich ist also der Anteil in unserer Gruppe mit 30 Personen höher. Dieses Verhältnis wird relative Häufigkeit genannt und wir notieren sie mit f i. Wenn wir sie in Prozent ausdrücken (mit 100 multiplizieren) erhalten wir die prozentuelle Häufigkeit, die in unserem Falle 20% bzw. 18% ist. Wir notieren diese prozentuelle Häufigkeit mit p i. Wir fügen jetzt alle diese Häufigkeiten zu unserer Tabelle von vorher dazu 6

und erhalten folgende Zusammenstellung: Geschwister absolute H. relative H. prozentuelle H. kum. absolute H. kum. relative H. 6 0 6 30 = 0.2 20% 6 0.2 13 1 13 30 = 0.4 3 43. 3% 13 + 6 = 19 0.6 3 7 2 7 30 = 0.2 3 23. 3% 13 + 6 + 7 = 26 0.8 6 3 3 3 30 = 0.1 10% 13 + 6 + 7 + 3 = 29 0.9 6 1 4 1 30 = 0. 3 3. 3% 13 + 6 + 7 + 3 + 1 = 30 1 Wir wollen uns jetzt die Gewichtsdaten ansehen und zählen dafür die verschiedenen Werte: 46 1 47 1 49 1 50 2 52 3 53 1 54 2 55 1 57 1 58 1 59 1 60 1 62 1 63 1 66 1 67 2 68 1 69 1 70 1 72 1 74 1 75 1 77 1 80 1 82 1 Wie wir sehen haben die meisten Werte die Häufigkeit 1 und unsere Variable hat 25 verschiedene Werte. Das sind zu viele verschiedene Werte um sie in einer Tabelle darzustellen. Wie können wir also eine anschaulichere Darstellung der Verteilung dieser Daten bekommen? Es erscheint logisch, ähnliche Daten in Intervalle zu gruppieren. Es gibt eine eigene Theorie darüber wie man Daten richtig gruppieren soll, wir wollen uns die wichtigsten Punkte kurz ansehen: Die Anzahl der Klassen/Gruppen soll weder zu hoch (zwischen 6 8 liegt die maximale Anzahl mit der man normalerweise arbeitet) noch zu niedrig (es macht keinen Sinn in 2 oder 3 Klassen einzuteilen, da wir dadurch zu viel an Information verlieren) sein. 7

Abgesehen von den extremen Klassen sollten alle Intervalle die gleiche Breite haben, da sonst Informationen misinterpretiert werden können. Könnt ihr euch vorstellen welche Intervalle wir suchen? Ihr könnt z.b. an die Anzahl von Klassen denken, die ihr haben wollt. Wir wollen festhalten, dass zwischen dem höchsten Wert (82) und dem niedrigsten Wert (46) ein Unterschied von 36kg ist. Wenn wir also z.b. in 6 Klassen einteilen wollen, sollte die Breite des Intervalls 36 6 = 6 sein. Also erhalten wir die folgenden Intervalle: [46,52],(52,58], (58,64], (64,70], (76,82].Wir erhalten somit eine mögliche Klassifizierung obwohl es natürlich noch viele mehr gibt. In manchen Analysen findet man die Angabe, dass das erste Intervall kleiner als 52 und das letzte Intervall größer als 76 sein soll. Hat man sich einmal für eine Einteilung entschieden, kann man die Häufigkeiten berechnen: Gewicht absolute H. relative H. prozentuelle H. kum. absolute H. kum. relative H. [46,52] 8 0.2 6 26. 6% 8 0.2 6 (52,58] 6 0.2 20% 14 0.4 6 (58,64] 4 0.1 3 13. 3% 18 0.6 (64,70] 6 0.2 20% 24 0.8 (70,76] 3 0.1 10% 27 0.9 (76,82] 3 0.1 10% 30 1 Weiters, wenn wir mit gruppierten Daten arbeiten, brauchen wir einen Vertreter jedes Intervalls und wir nennen jenen Klassenmarke. Dieser ist die Klassen/Intervallsmitte (niedrigstes Extrem eines Intervals plus höchstes Extrem, dividiert durch 2). Aufgabe 1.5.1 Erstelle die Häufigkeitstabelle zur Variable Antworten zur Frage 1.3 und zu den Antworten zu der Frage nach der Größe. Bevor du beginnst, entscheide ob es notwendig ist die Daten in Intervalle einzuteilen oder nicht. 1.6 Graphische Methoden Wenn wir die Häufigkeitstabellen erstellt haben, könnte euer Lehrer euch ja auch fragen, eure Ergebnisse dem Rest der Klasse zu präsentieren. Ihr könnt eure Tabellen zeigen und über die wichtigsten Ergebnisse sprechen, aber gibt es da nicht eine Möglichkeit die Daten so zu präsentieren, dass die wichtigsten Ergebnisse auf anschauliche Art sichtbar werden? Wie ihr euch denken könnt ist die Antwort zu dieser Frage ja. Vielleicht habt ihr in Büchern oder in den Medien schon gesehen, dass solche Daten für gewöhnlich graphisch dargestellt sind, um sie attraktiver für die Betrachter und besser interpretierbar zu machen. In diesem Abschnitt wollen wir alle Arten von Diagrammen besprechen und hervorheben, wie wichtig die richtige Wahl der graphischen Darstellung ist, abhängig von der Art der Daten mit denen wir arbeiten. Da wir nun die Häufigkeitstabellen zu den Variablen Gewicht und Anzahl an Geschwistern haben, werden wir diese verwenden um die verschiedenen Diagramme vorzustellen. 1.6.1 Balkendiagramm Die erste Art von Diagramm die wir uns näher ansehen wollen ist das Balkendiagramm. Dieses Diagramm 8

wird für qualitative, sowie für diskrete, in Intervalle gruppierte Variablen verwendet. Wir wissen bereits, dass unsere Daten über die Anzahl der Geschwister eine diskrete Variable ist, also versuchen wir daraus ein Balkendiagramm zu erstellen. Auf der x-achse haben wir die Kategorien, wenn wir mit qualitativen Variablen bzw. in unserem Fall mit diskreten Variablen arbeiten und jene sind hier 0, 1, 2, 3 und 4. Über jeden dieser Werte zeichnen wir ein Rechteck bzw. einen Balken von gleicher Breite und mit einer Höhe proportional zu der dazugehörigen Häufigkeit. In unserem Falle sollten wir so ein Balkendiagramm bekommen: Abbildung 1.1: Geschwister (vertikale Balken) Manchmal wird dieses Diagramm auch mit horizontalen Balken gezeichnet, was dann so aussieht: Abbildung 1.2: Geschwister (horizontale Balken) 1.6.2 Histogramm Ein Histogramm ist ein Diagramm das dem Balkendiagramm sehr ähnlich ist, dieses wird für in Intervalle gruppierte Variablen verwendet. Wir wollen ein Histogramm für die Variable Gewicht erstellen. Wie beim Balkendiagramm haben wir auf der x-achse die Intervalle und über jenen ein Rechteck welches die gleiche Breite hat wie das Intervall. Die Höhe wird so gewählt, dass die Fläche des Rechteckes proportional zur Häufigkeit des Intervalls ist. In diesem Diagramm sind die Flächen der Rechtecke sehr wichtig, da wir es 9

nicht mit einem Balken zu tun haben bei dem die Höhe einen bestimmten Wert anzeigt, sondern die Breite des Balken repräsentiert das Intervall. Haben unsere Intervalle also die gleiche Breite, sollte die Höhe die Häufigkeit sein. Haben sie nicht die gleiche Breite, müssen wir die Höhe ändern um das Verhältnis zwischen Häufigkeit und Fläche zu erhalten. Unser Histogramm für die schon gruppierte Variable Gewicht ist also: Abbildung 1.3: Gewicht (Histogramm) Auch hier können horizontale Rechtecke verwendet werden: Abbildung 1.4: Gewicht (Histogramm) Bestimmt habt ihr in den Medien schon einmal eine Bevölkerungspyramide gesehen. Vielleicht bemerkt ihr jetzt, dass diese Pyramide eigentlich aus zwei horizontalen Histogrammen besteht (eines für Frauen und eines für Männer), in denen die Anzahl der EinwohnerInnen, gruppiert nach dem Alter, wiedergegeben wird. 1.6.3 Häufigkeitspolygon Die nächste Art von Diagramm die wir uns ansehen wollen, ist das Häufigkeitspolygon. Es wird verwendet wenn man quantitative Variablen hat, diskrete oder stetige. Um es zeichnen zu können, starten wir vom Histogramm oder vom Balkendiagramm, je nachdem ob wir eine gruppierte oder nicht gruppierte Variable 10

haben. Mit einer Linie verbinden wir nun die Mittelpunkte der oberen Grenzen im Balkendiagramm oder im Histogramm. Für unser Beispiel über die Anzahl der Geschwister, erhalten wir folgendes Diagramm: Abbildung 1.5: Geschwister (Häufigkeitspolygon) Im Falle des Gewichtes ist es etwas anders. Hier repräsentiert die Fläche unter der Linie die Daten die wir haben, wie beim Histogramm, da wir von der ganzen Breite der Intervalle sprechen. Das Diagramm sieht folgendermaßen aus: Abbildung 1.6: Gewicht (Häufigkeitspolygon) Alle bisher besprochenen Diagramme können auch für relative und kumulative Häufigkeiten gezeichneverwendett werden. 1.6.4 Kreisdiagramm Die nächste Art von Diagramm ist eine der bekanntesten, das Kreisdiagramm. In einem Kreisdiagramm ordnen wir jeder Kateogrie oder jedem Wert einen Teil eines Kreises zu, und zwar so, dass die Fläche eines solchen Kreissegmentes proportional zur Häufigkeit sein soll. Dieses Diagramm wird normalerweise für qualitative Variablen und nicht für gruppierte, diskrete Variablen verwendet. 11

Abbildung 1.7: Geschwister (Kreisdiagramm) 1.6.5 Piktogramm Wir kommen hier zu einem Diagramm das sehr häufig in den Medien verwendet wird, das sogenannte Piktogramm. Es handelt sich hier um Diagramme, wo ein Symbol welches die Variable widerspiegeln soll verwendet wird um die Häufigkeiten auszudrücken. Wieder müssen wir etwas wichtiges hervorheben: die Größe (und nicht nur die Höhe) muss proportional zu der Häufigkeit sein die wir aufzeigen wollen. Es ist auch üblich die Häufigkeit dazu zu schreiben um Missverständnisse zu verhindern. 1.6.6 Stengel-Blatt-Diagramm Es gibt eine Art der Darstellung, die zwischen einem Diagramm und einer Datenaufzählung liegt, das Stengl-Blatt-Diagramm. Wir werden uns dieses jetzt am Beispiel des Gewichtes ansehen. Wir erinnern uns an die Daten: 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 Was wir bei einem Stengel-Blatt-Diagramm als erstes machen müssen, ist die Zehnerschritte unserer Daten in eine Spalte zu schreiben. In unserem Fall, da unsere Werte zwischen 46 und 82 liegen, müssen wir 4, 5, 6, 7 und 8 folgendermaßen aufschreiben: 4 5 6 7 8 Als nächstes nehmen wir den ersten Wert aus unserer Datenaufzählung, 52, und schreiben die erste Stelle der Zahl neben die dazugehörige Zehnerzahl: 12

4 5 2 6 7 8 Wir plazieren also alle ersten Stellen neben die dazugehörigen Zehnerstellen und erhalten folgendes: 4 697 5 249078423502 6 62837097 7 07425 8 02 Ihr werdet bemerken, dass wir etwas ähnliches (aber nicht gleiches) wie ein Balkendiagramm oder ein Histogramm vor uns haben. Offensichtlich könnten wir unser Stengl-Blatt-Diagramm ja auch vertikal machen und würden in etwa so etwas herausbekommen: 2 0 5 3 2 7 4 9 8 0 7 7 5 0 3 2 7 9 8 4 9 4 2 7 2 6 2 6 0 0 4 5 6 7 8 es sieht aus wie ein Histogramm oder ein Balkendiagramm, ist es jedoch nicht. Aber das Stengl-Blatt- Diagramm kann als eine Annäherung zur Verteilung der Daten angesehen werden. Eigentlich haben wir ja nur in Zehnerschritten unterschieden (von 40 bis 49, von 50 bis 59,... ). Wir könnten aber noch weiter unterteilen, in Fünferschritte (von 40 bis 44, von 45 bis 49, von 50 bis 54,... und müssten nun jede Zehnerzahl zweimal aufschreiben, wobei zur ersten Zehnerzahl die einstelligen Zahlen von 0 bis 4 und zur zweiten jene von 5 bis 9 dazu geschrieben werden. In unserem Fall und in horizontaler Form, wuürde das so aussehen: 4 4 697 5 24042302 5 9785 6 230 6 68797 7 042 7 75 8 02 8 13

1.6.7 Einige Anmerkungen Stellt euch vor ihr seht die folgenden zwei Diagramme, die die Gewinne eines Betriebes widerspiegeln sollen. Welchen von den zwei Betrieben würdet ihr als euren Betrieb auswählen? Abbildung 1.8: Gewinne (Betrieb 1 und Betrieb 2) Die meisten von euch werden vermutlich Betrieb 2 wählen, da ihr sicher zustimmt, dass dieser besser ist als Betrieb 1. In der Tat haben die zwei Diagramme aber genau die gleichen Daten, wir haben nur die Skalierung der y-achse verändert. Daher einige Anmerkungen bevor wir mit dem nächsten Abschnitt beginnen. Diagramme sind ein wichtiges Instrument um Schlüsse aus unseren Daten zu ziehen, aber wir müssen sie auf die richtige Art und Weise zeichnen, um Missdeutungen zu vermeiden. Es ist wichtig die Proportionen in unserer Abbildung richtig einzuhalten, so dass die Skalen der Achsen auch im richtigen Verhältnis stehen. Kleine Änderungen an den Skalen können große Unterschiede im Erscheinungsbild verursachen und die Diagramme können dann auch leicht missverstanden werden. 1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil Nehmen wir an, wir wollen mit unserer Klasse einen Ausflug machen und wollen dafür etwas Geld sammeln. Wir haben uns daher entschieden T-Shirts zu verkaufen, aber wir wissen nicht was ein angemessener Preis dafür wäre. Das einzige was wir wissen ist, dass wir für ein T-Shirt 4 Euro zahlen. Wir würden natürlich gerne Gewinn daraus machen, aber wir können die Preise auch nicht zu hoch ansetzen, da wir ja wollen dass so viele Leute wie möglich unsere T-Shirts kaufen. Wir glauben das wöchentliche Taschengeld ist ein guter Indikator dafür wieviel sich SchülerInnen leisten können. Also werden wir als Daten das wöchentliche Taschengeld hernehmen, das wir ja schon erfragt haben: 6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9 Wir haben 30 Werte, aber wir brauchen nur einen Wert um alle diese darzustellen. Welchen Wert können wir nehmen? Eine erste Lösung wäre, einen Wert zu nehmen, der in der Mitte von allen Daten die wir haben liegt. Um jenen zu bekommen, zählen wir alle Zahlen zusammen und dividieren sie durch die Gesamtanzahl der Werte: 14

x = 6 + 8 + 10 + 5 + 15 + 20 + 9 + 10 + 9 + 9 + 20 + 15 + 12 + 6 + 15 + 12 + 10 + 25 + 30 20 + 30 + 15 + 12 + 9 + 20 + 6 + 9 + 10 + 25 + 9 + 9 + = 390 30 30 = 13 So erhalten wir also den ersten möglichen Preis pro T-shirt, 13 Euro. Die Zahl die wir gerade berechnet haben nennt sich arithmetisches Mittel. Aber es gibt auch noch andere Möglichkeiten um unsere Daten zu repräsentieren, wir können zum Beispiel den Wert nehmen, der am öftesten vorkommt. In unserem Beispiel ist der Wert der am öftesten vorkommt 9, was auch eine gute Wahl für einen Preis sein könnte. Den Wert der am öftesten vorkommt nennen wir Modus. Aber keine dieser beiden Zahlen die wir jetzt errechnet haben sagt aus, wieviele Personen sich so ein T-Shirt leisten können. Also haben wir eine neue Idee, wir können die Daten die wir haben ja der Größe nach sortieren: 5 6 6 6 8 9 9 9 9 9 9 9 10 10 10 10 12 12 12 15 15 15 15 20 20 20 20 25 25 30 Jetzt wollen wir den Wert finden, der die Hälfte der Daten auf jeder Seite übrig lässt. Der Wert zwischen dem 15. und den 16. Platz lässt genau 14 Werte auf jeder Seite. Da Nummer 15 und 16 beide die gleiche Zahl haben, nämlich 10, können wir also annehmen dass 10 der Wert ist, der die Hälfte der Daten auf jeder Seite lässt. Diese Zahl wird Median genannt. Genau so wie wir einen Wert vorgeschlagen haben der 50% der Daten auf jeder Seite lässt, können wir auch einen Wert suchen, der von 75% der Klasse leistbar ist. Wir wollen also einen Wert finden, der 25% auf der linken Seite lässt (das heisst, dass nur 25% der Daten niedriger sind als dieser Wert), oder einen beliebigen anderen Prozensatz. Diese Zahl wird Quantil genannt. Wir können jetzt irgendeinen dieser drei Werte nehmen, abhängig davon was wir im jeweiligen Fall vorgeben wollen bzw. welcher Wert unsere Daten am besten repräsentiert. Diese drei Werte sind nicht immer für jeden Fall gültig, sie können uns aber helfen herauszufinden wo das Zentrum einer Verteilung ist. Dieses sind die wichtigsten Vertreter der Zentralmaße. Wir werden jetzt auf formale Weise die oben eingeführten Konzepte definieren. Von jetzt an sprechen wir von Variablen. Nehmen wir an, wir haben eine Variable bei n Untersuchungselementen beobachtet und wir haben k verschiedene Werte erhalten x 1, x 2,... x k, jeder davon mit einer Häufigkeit von n 1, n 2,... n k wobei n i die absolute Häufigkeit des Wertes x i ist. Wir notieren die kumulative, absolute Häufigkeit des Wertes x i mit N i = j i n j und die relative Häufigkeit mit f i = ni n. Wenn die Werte der Variablen gruppiert sind, können wir annehmen, dass wir h Intervalle haben und wir können dies folgendermaßen notieren: (L 0, L 1 ], (L 1, L 2 ],... (L h 1, L h ] und die Klassenmarken sind c 1, c 2,... c h. In diesem Fall wird die absolute Häufigkeit mit n 1, n 2,..., n h, die kumulative, absolute Häufigkeit mit N 1, N 2,..., N h = n und die relative Häufigkeit mit f 1, f 2,..., f h bezeichnet. Daraus folgt, dass das arithmetische Mittel, für nicht gruppierte Variablen, folgendermaßen definiert wird: n i=1 x = x in i n Wenn wir eine gruppierte Variable haben, verwenden wir die Klassenmarken c i statt den Werten x i. Die wichtigsten Merkmale des arithmetischen Mittel sind: Es ist der Schwerpunkt der Verteilung und es ist einzigartig. 15

Wenn wir Extremwerte haben, oder wenig repräsentative Werte (zu große oder zu kleine), dann ist das arithmetische Mittel nicht repräsentativ. Es macht keinen Sinn das arithmetische Mittel für qualitative Variablen zu ermittlen, oder wenn wir gruppierte Daten haben und irgendeines der Intervalle nicht begrenzt ist. Für gruppierte Daten verwenden wir die Klassenmarke von jedem Intervall um das arithmetische Mittel zu berechnen. Weiters hat das arithmetische Mittel folgende Eigenschaften: Wenn eine Konstante zu jedem Wert addiert wird, ist auch das arithemtische Mittel um diese Konstante erhöht. Wenn wir alle Werte mit einer Konstanten multiplizieren, wird auch das Mittel mit der gleichen Konstante multipliziert. Der Modus wird gewöhnlich als der häufigste Wert bezeichnet. Im Falle einer nicht gruppierten Variable ist es der Wert, der am öftesten vorkommt. Bei Variablen die in Intervalle der gleichen Breite gruppiert sind, brauchen wir das Intervall mit der höchsten Häufigkeit (Modalintervall) und die Annäherung an den Modus wird durch die folgende Formel erreicht: n i n i 1 Mo = L i 1 + (n i n i 1 ) + (n i n i+1 ) c i wo: L i 1 die untere Grenze des Modalintervalls ist. n i ist die absolute Häufigkeit des Modalintervalls. n i 1 is die absolute Häufigkeit des vorangehenden Intervalls zum Modalintervall. n i+1 ist die absolute Häufigkeit des nachfolgenden Intervalls nach dem Modalintervall. c i ist die Breite des Intervalls. Der Modus verifiziert, dass: Man kann mehr als einen Modus für eine Verteilung haben, dann sprechen wir von einer bimodalen, trimodalen... Verteilung, abhängig von der Anzahl an Werten, welche die höchste Häufigkeit aufweisen. Der Modus ist für gewöhnlich der schlechtere Repräsentant im Vergleich zum arithmetischen Mittel, außer bei qualitativen Daten. Wenn wir Intervalle mit verschiedenen Breiten haben, müssen wir jenes Intervall suchen, mit der höchsten Häufigkeitsdichte (normalerweise ist das der Fall wenn wir die absolute Häufigkeit durch die Breite der Intervalle dividieren ni c i ) und dann verwenden wir die vorangegangene Formel. Der Median ist im Falle von nicht gruppierten Variablen und nachdem wir unsere Daten der Reihe nach geordnet haben, der zentrale Wert bei einer ungeraden Anzahl an Daten und das Mittel der zwei zentralen Werte wenn wir eine gerade Anzahl an Daten haben. Wenn wir eine gruppierte Variable haben, müssen wir nach dem zentralen Intervall suchen (jenes in dem wir den zentralen Wert finden können), das heisst jenes, wo N i zum ersten Mal größer als n 2 ist. Dann können wir die folgende Formel anwenden: 16

n 2 Me = L i 1 + N i 1 c i n i wobei L i 1 die untere Grenze des Intervalls ist. n i ist die absolute Häufigkeit des zentralen Intervalls. N i 1 ist die kumulative, absolute Häufigkeit des Intervalls vor dem zentralen Intervall. n ist die Anzahl der Daten c i ist die Breite des Intervalls. Weiters ist das Quantil ein Lagemaß, welches das Konzept des Medians verallgemeinert. Wir wollen jetzt die Konzepte von Centil oder Percentile, Quartile und Dezil definieren. Wir nehmen an, dass unsere Daten sortiert sind. Centil oder Percentil nennt man jene Werte der Variable, die auf der linken Seite eine konkrete Prozentzahl übrig lassen. Wir notieren sie mit P h oder C h, wobei h die Prozentzahl, h = 1, 2,..., 99. Wenn wir eine gruppierte Variable haben, müssen wir zuerst das Intervall finden in dem das Centil liegt und dann können wir folgende Formel anwenden: P h = C h = L i 1 + h n 100 N i 1 c i n i Die verschiedenen Elemente haben hier die gleiche Bedeutung wie beim Median. Das Quartil ist jener Wert, nachdem wir die Daten sortiert haben, der die Variable in 4 gleiche Gruppen unterteilt. Zwischen jeder davon finden wir 25% der Untersuchungselemente. Wir schreiben sie folgendermaßen auf: Q 1, Q 2 und Q 3 und sie verifizieren, dass Q 1 = C 25, Q 2 = C 50 = Me, Q 3 = C 75. Das Dezil ist jener Wert, nachdem wir die Daten sortiert haben, der die Daten in 10 gleiche Gruppen teilt, wobei zwischen jeweils 2 davon 10% der Untersuchungselemente sind. Wir schreiben sie folgendermaßen auf: D 1, D 2, D 3,..., D 9. Sie verifizieren, dass D 1 = C 10, D 2 = C 20, D 3 = C 30,... D 9 = C 90. Aufgabe 1.7.1 Berechnet für die Anzahl der Geschwister und für das Gewicht, das arithmetische Mittel, den Modus, den Median und die Quartile: Q 1, Q 3, C 30, C 74, D 4, D 9. 1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung Stellt euch vor wir haben 3 verschiedene Datensätze zum Gewicht von bestimmten Leuten und wir wissen, dass in allen in 3 Fällen, das arithmetische Mittel der Variable Gewicht 55 ist. Heißt das, dass die 3 Datensätze gleich oder ähnlich sind? Die Daten der 3 Sätze sind wie folgt: Satz 1: 55 55 55 55 55 55 55 Satz 2: 47 51 54 55 56 59 63 Satz 3: 39 47 53 55 57 63 71 Wir bemerken, dass obwohl das arithmetische Mittel gleich ist, die Datensätze sehr verschieden sind. Sehen wir uns ihre Stengl-Blatt-Diagramme an: 17

5 5 5 5 5 5 5 3 4 5 6 7 9 6 5 4 7 1 3 3 4 5 6 7 7 5 9 7 1 3 1 3 4 5 6 7 Wie können wir also diese Unterschiede zwischen den Datensätzen herausfinden? Offensichtlich können uns die Zentralmaße hier nicht genügend Informationen über die Entfernung zwischen dem arithmetischen Mittel und den Daten geben. Wir müssen uns daher mit dem Konzept der Streuung der Daten auseinandersetzen. Was uns als erstes auffällt ist, dass im ersten Datensatz alle Daten gleich sind, im zweiten gibt es größere Unterschiede zwischen dem höchsten und dem niedrigsten Wert und im dritten gibt es noch offensichtlichere Unterschiede. Genau gesagt haben wir: 55 55 = 0 63 47 = 16 71 39 = 32 Diese Unterschiede bezeichnet man als die Spannweite der Daten und diese ist offensichtlich ein sehr leicht zu berechnendes Maß. Sie wird allerdings nicht sehr oft verwendet, da sie nicht für jede Situation geeignet ist. Wenn wir z. B. einen extrem kleinen oder einen extrem großen Wert in unseren Daten haben, verändert sich die Spannweite beachtlich und kann daher manchmal nicht mehr ganz so aussagekräftig sein. Wie können wir also ein Maß finden, das uns eine Annäherung an die Entfernung zwischen den Daten und dem arithmetischen Mittel gibt? Wir können die Entfernungen von jedem Untersuchungselement zum arithmetischen Mittel (in absoluten Zahlen) berechnen und dann das Mittel dieser Entfernungen. Dies nenne wir mittlere Abweichung. Berechnen wir die mittlere Abweichung des 2. Datensatzes: 47 55 + 51 55 + 54 55 + 55 55 + 56 55 + 59 55 + 63 55 7 = 8 + 4 + 1 + 0 + 1 + 4 + 8 = 26 7 7 = 3.714 Trotzdem verwenden wir normalerweise noch ein anderes Maß für die Streuung und zwar das Mittel der quadratischen Abweichung der Daten vom arithmetischen Mittel und erreichen damit, dass größere Abweichungen einen kleineren Einfluß haben. Wir werden uns jetzt die formale Definition dieser Konzepte ansehen. Die Spannweite ist die Differenz zwischen dem höchsten und dem niedrigsten Wert der Daten, wenn diese nicht gruppiert sind. Wenn wir eine gruppierte Variable haben, berechnen wir die Differenz zwischen der oberen Grenze des letzten Intervalls und der unteren Grenze des ersten Intervalls. Die Spannweite hängt nur von dem größten und dem kleinsten Element und nicht vom Rest der Daten ab. Wir können z.b. die folgenden zwei Datensätze mit der gleichen Spannweite haben: Es ist leicht zu erkennen, dass der Unterschied zwischen x k und x 1 in beiden Situationen der gleiche ist, obwohl die zwei Datensätze verschieden sind. Die Interquartil-Spannweite ist der Unterschied zwischen des dritten und des ersten Quartils und wir bekommen eine Zone wo wir 50% der Verteilung finden. Die mittlere Abweichung ist das Mittel der Abweichungen der Daten vom arithmetischen Mittel. Wir nennen die Abweichungen vom Mittel, den absoluten Wert des Unterschiedes zwischen den Werten der Variable und dem arithmetischen Mittel ( x i x ), daraus folgt folgende Definition der mittleren Abweichung: = 18

Abbildung 1.9: Spannweite k i=1 DM = x i x n i n Dieses Maß wird nicht sehr oft verwendet, da es auf Grund der absoluten Betragsfunktion schwierig zu berechnen ist. Wie auch immer, eine kleine mittlere Abweichung bedeutet, dass die Daten sich dicht um den Mittelwert konzentrieren. Wir können auch die Median-Abweichung definieren, obwohl diese noch weniger gebräuchlich ist: k i=1 D = x i Me n i n Die Varianz ist das Mittel der quadratischen Abweichungen der Daten vom Mittelwert. Wir bezeichnen sie mit S 2 und beschreiben sie wie folgt: Die Varianz verifiziert: k S 2 i=1 = (x i x) 2 n i n k i=1 = x2 i n i x 2 n Da wir die Quadrate der Abweichung nehmen, haben die größeren mehr Einfluß auf das Ergebnis. Die Einheit des Maßes S 2 ist nicht die gleiche wie die in der Stichprobe, da wir mit quadratischen Zahlen der Abweichung arbeiten. Die Varianz ist immer positiv. Sie ist 0, wenn alle Werte mit dem Mittelwert übereinstimmen. Wir definieren die Quasivarianz wie folgt: k s 2 i=1 = (x i x) 2 n i n 1 der Zusammenhang mit der Varianz ist S 2 = n 1 n s2. Dies ist ein brauchbares Maß wenn wir mit Inferenzen arbeiten. Manchmal wird sie auch als Sc 2 ausgedrückt. Die Standardabweichung ist die Quadratwurzel aus der Varianz. Wir bezeichnen sie mit S und berechnen sie wie folgt: S = + k Ihre Hauptmerkmale sind: i=1 (x i x) 2 n i n = + k i=1 x2 i n i n x 2 = + x 2 x 2 19

Sie ist das häufigst verwendete Streuungsmaß. Sie hat die gleiche Maßeinheit wie die Stichprobe. Die Standardabweichung ist immer positiv oder 0. Weiters, Varianz und Standardabweichung verifizieren, dass: Wenn wir alle Werte mit einer Konstanten addieren, bleiben die Varianz und die Standardabweichung gleich. Wenn wir alle Werte mit einer positiven Konstante multiplizieren, wird die Varianz mit dem Quadrat der Konstante und die Standardabweichung mit der Konstante multipliziert. 1.9 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson scher Variationskoeffizient, z-scores 1.9.1 Tchebicheff Theorem Wir haben bereits Maße gefunden die uns das Zentrum unserer Daten und ihre Streuung angeben, aber wir brauchen noch mehr Informationen. Erinnern wir uns noch einmal an die Daten über die Anzahl der Geschwister: also haben wir: Anz. Geschwister absolute H. 0 6 1 13 2 7 3 3 4 1 x = 1.33333, S 2 = 1.022, S = 1.011 Wieviele Leute haben Geschwister um den Mittelwert? Gibt es viele SchülerInnen die 1 oder 2 Geschwister haben? Nehmen wir ein Intervall, welches um den Mittelwert kreist,(x a, x + a). Wir wissen, dass Varianz und Standartabweichung die Streuung messen, also werden wir sie jetzt anwenden. Welche der zwei sollen wir verwenden? Wir verwerfen die Varianz, da wir sie nicht zum Mittelwert zählen können, da sie ja eine andere Maßeinheit hat. Nehmen wir also die Standardabweichung, a = S. Dann bekommen wir das Interval (1.3333 1.011, 1.3333 + 1.011) = (0.3223, 2.3443). Innerhalb dieses Intervalls finden wir die SchülerInnen mit 1 oder 2 Geschwistern. Das sind 20 von den 30 SchülerInnenn, d.h. 66% davon. Was würde passieren wenn wir 2S statt S verwenden? Dann bekommen wir das Intervall (1.3333 2.022, 1.3333+2.022) = ( 0.6887, 3.3553). Innerhalb dieses Intervalls haben wir nun 29 von 30 SchülerInnenn, d.h. 96%. Folglich, wenn wir das Intervall mit 3S annehmen, finden wir alle Daten innerhalb 20

des Intervalls. Die nächste Frage lautet, passiert das immer? Sind diese Konzentrationen der Daten immer die gleichen? Schauen wir uns das Beispiel des wöchentlichen Taschengeldes an. Hier haben wir: Weiters, x = 13, S 2 = 39.2, S = 6.26 (13 6.26, 13 + 6.26) = (6.74, 19.26) beinhaltet 19 Daten (63%) (13 12.52, 13 + 12.52) = (0.48, 25.52) beinhaltet 29 Daten (96%) (13 18.78, 13 + 18.78) = ( 5.78, 31.78) beinhaltet 30 Daten (100%) Wir ihr sehen könnt bekommen wir ähnliche Ergebnisse. Dies basiert auf einem Theorem, welches sicherstellt, dass in diesen Intervallen ein bestimmter Prozentanteil der Daten vorkommt. Genauer gesagt, das Theorem besagt, dass wir in einem Intervall wie (x as, x as) mindestens 100(1 1 a 2 )% der Daten haben. Diese Aussage ist bekannt als das Tchebicheff Theorem. 1.9.2 Pearson scher Variationskoeffizient Wir werden jetzt mit Daten über Höhe und Gewicht arbeiten. Für das Gewicht haben wir: und für die Höhe haben wir: x = 60.8, S 2 = 99.56, S = 9.97 x = 1.7133, S 2 = 0.0128, S = 0.1132 In welchem Fall haben wir mehr Streuung? Wir würden annehmen für das Gewicht, da die Varianz und die Standardabweichung größer sind. Aber was passiert, wenn wir das selbe für die Höhedaten in Zentimeter berechnen? x = 171.33, S 2 = 128.35, S = 11.32 Wenn wir die Frage jetzt wiederholen, was müssen wir dann antworten? In der Tat können wir weder Standardabweichung noch Varianz vergleichen, da beide wieder von der Einheit abhängig sind, so wie beim Mittel. Wir brauchen also ein dimensionsloses Maß. Bis jetzt wissen wir nur, dass das Mittel und die Standardabweichung die gleiche Maßeinheit haben, wie können wir also ein dimensionsloses Maß von ihnen bekommmen? Wir können sie teilen und bekommen dann den Pearson schen Variationskoeffizient CV = S x Wir können ihn für unsere Beispiele berechnen. Für das Gewicht haben wir und für die Höhe CV = 9.97 60.8 = 0.163 CV = 11.32 171.33 = 0.1132 1.7133 = 0.066 daraus folgt, dass wir mehr Streuung bei dem Gewicht als bei der Höhe herausbekommen. 21

1.9.3 z-scores Wir haben jedoch immer noch mehr Informationen in unseren Daten enthalten. Stell dir vor deine Körpergröße ist 1.74m und du hast einen Freund in einer anderen Klasse mit genau der gleichen Größe. Welcher von euch zwei ist innerhalb seiner Klasse größer? Wie können wir die zwei Daten vergleichen, wenn wir nur wissen, dass das Mittel in der Klasse deines Freundes 1.708m ist und die Standardabweichung 12.53? Es gibt da eine Möglichkeit die beiden Daten zu vergleichbaren Werten zu verändern. Das ist was wir als z-scores bezeichnen. Es wird berechnet indem wir die Differenz zwischen dem Wert und seinem Mittel nehmen und durch die Standardabweichung dividieren. Die zwei neuen Werte gehören dann zu einer Verteilung mit dem Mittel 0 und der Standardabweichung 1 und sind daher vergleichbar. In unserem Beispiel bekommen wir die folgenden z-scores 1.74 1.7133 z 1 = = 0.235 0.1132 1.74 1.708 z 2 = = 0.255 0.1253 und wir schliessen daraus, dass dein Freund größer ist als du (jeder innerhalb seiner Klasse), da der z-wert größer ist. Die Formel für die standardisierte Variable zu z i ist: z i = x i x S 22

Kapitel 2 Analyse der Meinungsumfrage Wir wollen eine tiefergehende Analyse von einigen Aufgaben aus der Meinungsumfrage machen. Dazu haben wir folgende 3 Aufgaben gewählt: 2.1 Du rauchst 2.3 Du liest andere Bücher als Schulbücher 3.1 Du betreibst Sport außerhalb der Schule Die Daten die wir zu Frage 2.1. haben lauten: 1 3 5 5 5 5 5 1 1 5 1 3 3 1 5 1 5 5 5 5 5 5 1 5 1 5 4 4 3 5 zu Frage 2.3. haben wir: 1 1 1 2 2 2 3 4 4 4 1 3 2 4 1 2 1 3 2 1 1 1 2 1 1 1 1 2 2 4 und von 3.1: 3 1 3 5 3 4 2 1 3 3 3 5 5 1 2 1 2 3 5 1 2 5 3 2 4 1 5 5 4 3 Als erstes werden wir die Häufigkeiten von allen 3 Fällen berechnen, um die Häufigkeitstabellen von allen zu bekommen. Für Frage 2.1. haben wir: Antwort (2.1) abs. H. rel. H. prozent. H. kum. abs. H. kum. rel. H. 1 8 0.2 6 26. 6% 8 0.2 6 2 0 0 0% 8 0.2 6 3 4 0.1 3 13. 3% 12 0.4 4 2 0.0 6 6. 6% 14 0.4 6 5 16 0.5 3 53. 3% 30 1 Für die Frage 2.3 haben wir folgende Häufigkeitstabelle: 23

Antwort (2.3) abs. H. rel. H. prozent. H. kum. abs. H. kum. rel. H. 1 13 0.4 3 43. 3% 13 0.5 3 2 9 0.3 30% 22 0.7 3 3 3 0.1 10% 25 0.8 3 4 5 0.1 6 16. 6% 30 1 5 0 0 0% 30 1 und schließlich, die Häufigkeitstabelle für 3.1.: Antwort (3.1) abs. H. rel. H. prozent. H. kum. abs. H. kum. rel. H. 1 6 0.2 20% 6 0.2 2 5 0.1 6 1.6 6% 11 0.3 6 3 9 0.3 30% 20 0. 6 4 3 0.1 10% 23 0.7 6 5 7 0.2 3 23. 3% 30 1 Bei Anbetracht der Daten in den Tabellen fällt uns auf, dass die drei Tabellen sehr unterschiedlich sind. Wir schauen uns jetzt graphisch an wie diese Variablen verteilt sind und dann können wir die ersten Schlüsse ziehen. Wie ihr feststellen könnt haben wir drei diskrete Variablen, also werden wir das Balkendiagramm und das Kreisdiagramm verwenden. Hier sind die Diagramme für die Frage 2.1 Abbildung 2.1: Antworten zu Frage 2.1 Schauen wir uns jetzt die Diagramme zu Frage 2.3 an: und hier haben wir jene für Frage 3.1 24

Abbildung 2.2: Antworten zu Frage 2.3 Abbildung 2.3: Antworten zu Frage 3.1 Jetzt können wir über die ersten Schlussfolgerungen sprechen. Es ist ziemlich offensichtlich, dass für Frage 2.1. die häufigsten Werte die extremen Werte sind, d.h. 1 und 5. Das ergibt sich daraus, dass man dazu tendiert entweder nicht zu rauchen, was mit der Nummer 1 belegt ist oder zu rauchen, was mit der Nummer 5 belegt ist. Wie auch immer, die meisten Daten sind bei den höheren Werten (3,4 und 5) angesiedlet. Im Gegensatz dazu können wir sehen, dass in Frage 2.3 häufigsten Werte die niedrigeren sind. Wir können also sagen, dass lesen nicht ein sehr populäres Hobby ist. Die dritte Frage ist etwas mehr verstreut über alle Werte. Es ist auch interessant, sich in diesem Beispiel ein Balkendiagramm mit der kumulativen, absoluten Häufigkeit zu zeichnen. Wir zeigen euch die drei Diagramme, wo ihr sehen könnt, dass die Häufigkeiten am gleichmäßigsten ansteigend im dritten Fall verteilt sind: Jetzt werden wir was wir bisher gesagt haben, durch die Berechnung der wichtigsten Zentralmaße bestätigen und in Tabellenform darstellen, um das Vergleichen zu vereinfachen: 25

Abbildung 2.4: Kumulative Balkendiagramme Mittel Median Modus Q. 2.1 3.6 5 5 Q. 2.3 2 2 1 Q. 3.1 3 3 3 Diese Tabelle gibt uns einige interessante Informationen. Es ist leicht zu erkennen, dass obwohl das Mittel für die 2.1 Frage 3,6 ist, die meisten Daten größer als das Mittel sind, da beide, der Median und der Modus 5 sind. Für Frage 2.3 ist die Situation ganz anders, wir sehen, dass die meisten Daten um den kleinsten Wert kreisen und auch der Modus ist der kleinste von allen dreien. In Frage 3.1 sehen wir, dass alle drei Werte gleich sind und daraus schließen wir, dass 3 die Zahl ist, die unsere Daten am besten repräsentiert. Berechnen wir jetzt die wichtigsten Streuungsmaße und versuchen wir dann damit heraus zu finden, welche Variable am meisten gestreut ist. Spannweite Varianz Standardabweichung Q. 2.1 4 3 1.73 Q. 2.3 3 1.24 1.11 Q. 3.1 4 2.06 1.43 In unserem Beispiel ist die Spannweite nicht besonders relevant, da sich alle Antworten zwischen 1 und 26

5 bewegen. Das einzige was wir daraus erkennen können ist, dass in Frage 2.3, die Spannweite 3 (kleiner als die der anderen) ist und daher einer der Extremwerte (in diesem Falle 5) die Häufigkeit 0 hat. Aber, wir können das gleiche nicht für Frage 2.1 bemerken, obwohl die Häufigkeit für den Wert 2 auch 0 ist. Aus der Standardabweichung können wir schließen, dass die Antworten zu Frage 2.1 sehr gestreut sind. Dies ist wahr, da wir, wenn wir uns die Daten nocheinmal ansehen bemerken, dass die meisten davon Extremwerte sind, 1 oder 5. Die anderen zwei Variablen sind etwas mehr um das Mittel konzentriert, insbesondere die Antworten zu Frage 2.3. Lasst uns jetzt überprüfen, ob das Mittel für unsere Variablen repräsentativ ist. Wir müssen also den Variationskoeffizient für jeden der drei Fälle berechnen: Variationskoeffizient Q. 2.1 0.48 Q. 2.3 0.55 Q. 3.1 0.47 Der Mittelwert ist also repräsentativ für die drei Fälle die wir untersuchen. 2.1 Schlussfolgerungen In diesem letzten Abschnitt der Analyse, müssen wir die Bedeutung der Daten die wir untersuchen hervorheben. Bis jetzt haben wir über statistische Merkmale gesprochen, aber wir dürfen nicht auf die Bedeutung unserer Ergebnisse für die Wirklichkeit vergessen. Wir haben herausgefunden, dass rauchen etwas sehr populäres unter jungen Leuten ist. Mehr als die Hälfte eurer Klasse sagt, dass sie täglich rauchen, aber nur 8 SchülerInnen sagen dass sie nie rauchen. Wenn wir die Häufigkeiten der SchülerInnen zusammenfassen, die zumindest manchmal rauchen, sehen wir dass dies 22 von euch sind, fast 3/4 der gesamten Klasse. Im Gegensatz dazu sind sehr wenige am Lesen interessiert. 22 von euch sagen, dass sie nie oder sehr selten ein anderes Buch als jene die sie für die Schule brauchen lesen. Das ist wohl einer der größten Gegensätze die wir in dieser Meinungsumfrage bekommen können. Keiner von euch sagt, dass er jeden Tag liest, nur 5 SchülerInnen sagen sie lesen manchmal. Sport ist das Mittel zwischen den drei Fällen. Die häufigste Antwort (sie ist auch der Mittelwert und der Median) ist manchmal. Das kommt vermutlich daher, dass viele von euch am Wochenende Sport machen oder wenn das Wetter schön ist, während SchülerInnen die sehr oft Sport machen von denen die fast nie Sport betreiben ausgeglichen werden. 27

Kapitel 3 Zweidimensionale, beschreibende Statistik Im vorhergehenden Kapitel haben wir mit den Daten der Meinungsumfrage gearbeitet und erste Schlüsse daraus gezogen. Aber wir wollen noch mehr herausfinden und mit diversen Methoden, die wir uns jetzt ansehen werden, können wir noch mehr Informationen aus unseren Daten herausholen. Bevor wir jedoch beginnen, wollen wir die Ziele dieses Kapitels festhalten. 3.1 Ziele Daten in Bezug auf zwei Variablen anhand einer Punktwolke darstellen und analysieren. Einen Datensatz in Bezug auf zwei Variablen, gegeben in einer Tabelle oder als Punktwolke, als zweidimensionale Verteilung erkennen. Den Zusammenhang zweier Variablen anhand ihrer Punktwolken analysieren und dabei durch Intuition feststellen, ob dieser Zusammenhang positiv oder negaitv ist, ob er funktional ist oder nicht und ob er sich im gegebenen Fall einer Linie annähert. Globale Aufgaben von mehreren Verteilungen durch ihre Punktwolken vergleichen. Gegebene Punktwolken verschiedenen Situationen zuordnen. Den Zusammenhang verschiedener Mittelwerte durch ihre Punktwolken bestimmen. Graphisch eine Linie finden, die zur Punktwolke passt. Den Korrelationskoeffizienten einer Punktwolke schätzen. 28