Kapitel 2. Univariate Analyse. 2.1 Darstellung univariater Datensätze Darstellung qualitativer Merkmale

Größe: px
Ab Seite anzeigen:

Download "Kapitel 2. Univariate Analyse. 2.1 Darstellung univariater Datensätze Darstellung qualitativer Merkmale"

Transkript

1 Kapitel 2 Univariate Analyse Wir wollen nun Strukturen in Datensätzen finden. Dabei betrachten wir zunächst jeweils nur ein Merkmal. Man spricht auch von univariater Datenanalyse. Jede Analyse beginnt mit dem Zählen. Es werden die absoluten Häufigkeiten werden tabellarisch oder grafisch dargestellt. Die einzelnen Messniveaus bieten unterschiedliche Möglichkeiten der Darstellung der Daten. 2.1 Darstellung univariater Datensätze Wir wollen zunächst darstellen, wie man Datensätze tabellarisch aufbereiten kann. Außerdem werden wir einige grafische Verfahren betrachten, mit denen man schnell einen Überblick über Datensätze erhält Darstellung qualitativer Merkmale Qualitative Merkmale zeichnen sich dadurch aus, dass die Merkmalsausprägungen Kategorien sind, wobei diese Kategorien bei einem nominalskalierten Merkmal ungeordnet und bei einem ordinalskalierten Merkmal geordnet sind. Nominal- und ordinalskalierte Merkmale werden bis auf einen Ausnahme auf die gleiche Art und Weise dargestellt. Bei ordinalskalierten Merkmalen erlaubt die Ordnungsstruktur eine weitere Darstellung. Wir bezeichnen die Ausprägungsmöglichkeiten eines Merkmals im Folgenden mit a 1,a 2,...,a k. Jeder Merkmalsträger weist eine der Ausprägungsmöglichkeiten auf. Man spricht von der Merkmalsausprägung des Merkmalsträgers. Bei der Datenanalyse interessiert uns, wie viele Merkmalsträger die einzelnen Merkmalsausprägungen aufweisen. Wir sprechen von der absoluten Häufigkeit n(a i ) der Merkmalsausprägung a i, i =1,...,k.Für n(a i ) schreiben wir kurz n i. 11

2 12 KAPITEL 2. UNIVARIATE ANALYSE Ob der Wert einer absoluten Häufigkeit klein oder groß ist, hängt von der Merkmalsträger ab. Sind 8 Personen von 10 Personen weiblich, so ist das viel; sind hingegen 8 Personen von 100 Personen weiblich, so ist dies wenig. Wir beziehen die absolute Häufigkeit auf die Anzahl der Merkmalsträger und erhalten die sogenannte relative Häufigkeit. relative Häufigkeit = absolute Häufigkeit Anzahl Befragter Wir bezeichnen die relative Häufigkeit der i-ten Merkmalsausprägung mit h(a i ). Hierfür schreiben wir kurz h i. Es gilt also h i = n i n wobei n die Anzahl der Merkmalsträger ist. Für i =1,...,k gilt 0 h i 1. Ist die relative Häufigkeit einer Merkmalsausprägung 0, so weist kein Merkmalsträger diese Merkmalsausprägung auf, ist sie hingegen 1, so weisen alle Merkmalsträger diese Merkmalsausprägung auf. Multiplizieren wir die relativen Häufigkeiten mit 100, so erhalten wir Prozentangaben. Die Summe aller Prozentangaben muss den Wert 100 ergeben. Beispiel 5 Das Merkmal Geschlecht in Tabelle 1.2 auf Seite 9 hat nominales Messniveau. Es besitzt die zwei Ausprägungen männlich und weiblich. Wir bezeichnen die Merkmalsausprägung weiblich beim Merkmal Geschlecht mit a 1 und die Merkmalsausprägung männlich mit a 2. Beim Merkmal Geschlecht aus dem Beispiel 1 auf Seite 1 stehen die Beobachtungen in der zweiten Spalte der Tabelle 1.2 auf Seite 9. Sie sind m w w m m m w m w m w m m w w m m m w w w w w w m Es gilt also n 1 = 13 und n 2 = 12. Die relative Häufigkeit der Merkmalsausprägung weiblich ist h 1 =13/25 = 0.52 und die relative Häufigkeit der Merkmalsausprägung männlich gleich h 2 =12/25 = Im Lehrgang sind also ungefähr genauso viele Frauen wie Männer. 52 Prozent der Teilnehmer sind weiblich und 48 Prozent männlich. Wir stellen die absoluten und relativen Häufigkeiten in einer sogenannten Häufigkeitstabelle zusammen. Der allgemeine Aufbau einer Häufigkeitstabelle ist in Abbildung 2.1 zu finden.

3 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 13 Tabelle 2.1: Allgemeiner Aufbau einer Häufigkeitstabelle Nummer Realisations- absolute relative möglichkeit Häufigkeit Häufigkeit 1 a 1 n 1 h k a k n k h k Beispiel 5 (fortgesetzt von Seite 12) Für das Merkmal Geschlecht erhalten wir folgende Häufigkeitstabelle. Geschlecht absolute Häufigkeit relative Häufigkeit w m Wir können die relativen Häufigkeiten in einem Stabdiagramm grafisch darstellen. Dabei trägt man über jeder Merkmalsausprägung eine Säule ab, deren Höhe gleich der absoluten oder relativen Häufigkeit ist. Beispiel 5 (fortgesetzt von Seite 13) Abbildung 2.1 zeigt das Stabdiagramm des Merkmals Geschlecht. Abbildung 2.1: Stabdiagramm des Merkmals Geschlecht m w Trägt man die Merkmalesausprägungen in der Reihenfolge ihrer Häufigkeit ab, so spricht man von einem Paretodiagramm. Bei einem Paretodiagramm

4 14 KAPITEL 2. UNIVARIATE ANALYSE kann man auf einen Blick erkennen, welche Merkmale am häufigsten auftreten. Beispiel 6 Die Anfangssemester des Wintersemesters 1996/1997 wurden befragt, welche Partei sie wählen würden. Es ergab sich folgendes Ergebnis. Partei CDU SPD FDP Grüne keine weiß nicht absolue Häufigkeit Abbildung 2.2 zeigt das Stabdiagramm und das Paretodiagramm des Wahlverhaltens. Das Paretodiagramm bietet meinen viel besseren Überblick über das Wahlverhalten, da die Merkmalsausprägungen nach ihrer Häufigkeit sortiert sind. Abbildung 2.2: Stabdiagramm und Paretodiagramm des Wahlverhaltens Stabdiagramm CDU SPD FDP GRUENE keine weiss nicht Paretodiagramm CDU weiss nicht SPD GRUENE keine FDP

5 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 15 Die Merkmalsausprägungen a 1,a 2,...,a k sind bei einem ordinalskalierten Merkmal geordnet. Deshalb können wir die absoluten und relativen Häufigkeiten kumulieren. Das heißt, dass wir die Summe der ersten beiden absoluten beziehungsweise relativen Häufigkeiten bilden, dann die Summe der ersten drei, u.s.w.. Wir erhalten die kumulierten absoluten Häufigkeiten und kumulierten relativen Häufigkeiten. Sinda 1,a 2,...,a k die geordneten Merkmalsausprägungen, so bestimmen wir die i-te kumulierte absolute Häufigkeit durch n 1 + n n i = i n j (2.1) j=1 und die i-te kumulierte relative Häufigkeit durch h 1 + h h i = i h j. (2.2) j=1 Wir ergänzen die Häufigkeitstabelle eines ordinalen Merkmals um eine Spalte, die die kumulirten relativen Häufigkeitn enthält. Der allgemeine Aufbau einer Häufigkeitstabelle eines ordinalskalierten Merkmals ist in Abbildung 2.2 zu finden. Tabelle 2.2: Allgemeiner Aufbau einer Häufigkeitstabelle eines ordinalskalierten Merkmals Nummer Realisations- absolute relative kumulierte möglichkeit Häufigkeit Häufigkeit relative Häufigkeit 1 a 1 n 1 h 1 h 1 2 a 2 n 2 h 2 h 1 + h k a k n k h k 1 Beispiel 7 Im Beispiel 1 auf Seite 1 wurden die Teilnehmer gefragt, wie ihnen der Film Titanic gefallen hat. Da sehr gut besser als gut und gut besser als

6 16 KAPITEL 2. UNIVARIATE ANALYSE mittelmäßig ist, sind die Merkmalsausprägungen geordnet. Die Daten steheninderfünften Spalte von Tabelle 1.2 auf Seite 9. Es gibt bei diesem Merkmal sehr viele fehlende Beobachtungen, da nur Personen den Film bewerten können, die ihn auch gesehen haben. Wir berücksichtigen die fehlenden Beobachtungen in der Aufzählung nicht: g g g sg sg sg g sg g g g g sg m sg g m Die Häufigkeitstabelle des Merkmals Bewertung sieht folgendermaßen aus: Tabelle 2.3: Häufigkeitstabelle des Merkmals Bewertung Bewertung absolute relative kumulierte rela- Häufigkeit Häufigkeit tive Häufigkeit sehr gut gut mittelmäßig 2 0, Den kumulierten relativen Häufigkeiten können wir unter anderem entnehmen, dass 88 Prozent der Teilnehmer den Film mindestens gut finden. Wir wollen an einem Beispiel darstellen, wozu man Häufigkeitsverteilungen verwenden kann. Beispiel 8 Jede Sprache besitzt eine charakteristische Häufigkeitsverteilung der Buchstaben. Tabelle 2.4 zeigt die Häufigkeitsverteilung der Buchstaben in der deutschen Sprache. Tabelle 2.4: Häufigkeitsverteilung der Buchstaben in der deutschen Sprache(in Prozent) a 6.51 e 17.4 i 7.55 m 2.53 q 0.09 u 4.35 y 0.04 b 1.89 f 1.66 j 0.27 n 9.78 r 7.00 v 0.67 z 1.13 c 3.06 g 3.01 k 1.21 o 2.51 s 7.27 w 1.89 d 5.08 h 4.76 l 3.44 p 0.79 t 6.15 x 0.03 Quelle: R. Kippenhahn: Verschlüsselte Botschaften

7 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 17 Es ist sinnvoll, die Häufigkeitsverteilung mit einem Paretodiagramm darzustellen, da man sofort erkennen kann, welche Buchstaben am häufigsten vorkommen. Abbildung 2.3 zeigt das Paretodiagramm der Buchstaben in der deutschen Sprache. Abbildung 2.3: Paretodiagramm der Buchstaben in der deutschen Sprache e n i s r a t d h u l c g o b f k z p v j q y x Wir sehen, dass das e der häufigste Buchstabe ist. Man kann diese Häufigkeitstabelle benutzen, um Texte zu dekodieren, die nach einem einfachen Verfahren verschlüsselt wurden. Schauen wir uns ein Beispiel an. Beispiel 9 Im Begleitheft der ersten Fünf Freunde CD-ROM finden sich Lösungshinweise, die aber kodiert sind. So findet sich unter Wie komme ich auf die Insel? folgender Text: Yq hmi Mrwip fixvixir dy osirrir, fveyglwx hy jspkirhi Kikirwxeirhi: Imri Ebx yrh hew Wimp eyw hiq Wglyttir yrh hmi Vyhiv eyw hiq Zivwxigo zsr Kisvki. Eywwivhiq qeglx iwivwx Wmrr, hmi Mrwip dy ivjsvwglir, airr hy hir Wglexdtper irxhigox lewx. Jedem Buchstaben des Alphabets wurde ein anderer Buchstabe des Alphabets zugeordnet. In der Lösungshilfe steht, dass der Text mit Hilfe einer Cäsar-Verschlüsselung kodiert worden ist. Bei dieser wird jeder Buchstabe durch den Buchstaben verschlüsselt, der eine bestimmte Anzahl von Buchstaben hinter ihm steht. Wird also zum Beispiel das a durch das h verschlüsselt,

8 18 KAPITEL 2. UNIVARIATE ANALYSE so wird das b durch das i verschlüsselt, das c durch das j, u.s.w.. Mit dieser Zusatzinformation ist die Entschlüsselung einfach. Wir wissen, dass das e der häufigste Buchstabe in deutschen Texten ist. Wir bestimmen also nur den häufigsten Buchstaben im obigen Text und sind fertig. Der häufigste Buchstabe ist das i. Wir erstezen also jedes i durch ein e, jedes j durch ein f, u.s.w.. Wir erhalten folgenden Text: Um die Insel betreten zu koennen, brauchst du folgende Gegenstaende: eine Axt und das Seil aus dem Schuppen und die Ruder aus dem Versteck von George. Ausserdem macht es erst Sinn, die Insel zu erforschen, wenn du den Schatzplan entdeckt hast Ist eine Botschaft mit dem Caesar-Verfahren verschlüsselt, so kann man sie leicht entschlüsseln. Kompliziertere Verfahren der Verschlüsselung werden von Albrecht Beutelsbacher in seinem Buch Moderne Verfahren der Kryptographie beschrieben. Ein populärwissenschaftliches Buch zur Kryptographie wurde von Simon Singh geschrieben. Es trägt den Titel Geheime Botschaften Darstellung quantitativer Merkmale Die Merkmalsausprägungen quantitativer Merkmale sind Zahlen, mit denen man rechnen darf. Im Verhältnis zu qualitativen Merkmalen bestehen deshalb bei quantitativen Merkmalen eine Vielzahl zusätzlicher Möglichkeiten der Auswertung. Ausgangspunkt ist bei allen quantitativen Merkmalen die Urliste x 1,x 2,...,x n. Dabei ist x 1 die Merkmalsausprägung des ersten Merkmalsträgers, x 2 die Merkmalsausprägung des zweiten Merkmalsträgers, u.s.w.. Auch bei metrischen Merkmalen bestimmen wir absolute Häufigkeiten. Bei diskreten Merkmalen gehen wir genauso vor wie bei ordinalskalierten Merkmalen, während die Natur stetiger Merkmale eine andere Vorgehensweise fordert. Diskrete Merkmale Die Anzahl Ausprägungsmöglichkeiten diskreter Merkmale ist endlich oder abzählbar unendlich. In der Praxis fassen wir Merkmale als diskret auf, die wenig Ausprägungsmöglichkeiten besitzen. So ist im Beispiel 1 auf Seite 1 ist das Merkmal Trinkgeld ein quantitatives Merkmal mit wenigen Merkmalsausprägungen, also ein diskretes Merkmal. Als Ausgangspunkt der Darstellung eines diskreten Merkmals wählen wir die Urliste x 1,x 2,...,x n aus. Die Urliste ist unübersichtlich. Wir können

9 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 19 zum Beispiel schwer erkennen, was der kleinste oder der größte Wert ist. Wir bilden den geordneten Datensatz x (1),x (2),...,x (n). Die kleinste Beobachtung bezeichnen wir also mit x (1), die zweitkleinste mit x (2) und die größte mit x (n). Beispiel 10 Wir betrachten das Merkmal Trinkgeld im Beispiel 1 auf Seite 1. Die Daten stehen in der sechsten Spalte von Tabelle 1.2 auf Seite 9. Die Urliste sieht folgendermaßen aus: Es gilt z.b. x 4 =2.80. Der geordnete Datensatz lautet: Wir sehen, dass der kleinste Wert 0.80 und der größte 3.80 ist. Wie auch bei einem qualitativen Merkmal bestimmen wir die absoluten Häufigkeiten n i und die relativen Häufigkeiten h i der einzelnen Merkmalsausprägungen a i. Diese stellen wir in der Häufigkeitstabelle zusammen, bei der wir noch die kumulierten relativen Häufigkeiten berücksichtigen. Die Häufigkeitstabelle ist aufgebaut wie Tabelle 2.2 auf Seite 15. Beispiel 10 (fortgesetzt von Seite 19) Die Häufigkeitstabelle ist in Tabelle 2.5 zu finden. Tabelle 2.5: Häufigkeitstabelle des Merkmals Trinkgeld Trinkgeld absolute relative kumulierte relative Häufigkeit Häufigkeit Häufigkeit Hier können wir schon sehen, dass mehr als die Hälfte der Teilnehmer ein Trinkgeld von 1.80 DM geben würde. Noch deutlicher ist dies am Stabdiagramm zu sehen. Dieses ist in Abbildung 2.4 zu finden.

10 20 KAPITEL 2. UNIVARIATE ANALYSE Abbildung 2.4: Stabdiagramm des Merkmals Trinkgeld Abbildung 2.5 zeigt unterschiedliche Stabdiagramme. Abbildung 2.5: Unterschiedliche Stabdiagramme

11 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 21 Beim Merkmal in der Abbildung links oben werden die relativen Häufigkeiten mit wachsendem x immer kleiner. Kleine Merkmalsausprägungen treten also viel häufiger auf als große. Man spricht von einer rechtsschiefen oder auch linkssteilen Verteilung. Beim Merkmal in der Abbildung rechts oben ist es genau umgekehrt. Große Merkmalsausprägungen treten also viel häufiger auf als kleine. Man spricht von einer linksschiefen oder auchrechtssteilen Verteilung. Beim Merkmal in der Abbildung links unten liegen die Stäbe nahezu symmetrisch um das Zentrum der Verteilung. Die Merkmalsausprägungen in der Mitte treten sehr häufig auf. Geht man von der Mitte zu den Rändern, so werden die Merkmalsausprägungen immer seltener beobachtet. Man spricht auch von einer symmetrischen Verteilung. In der Abbildung rechts unten gibt es zwei Maxima. Man spricht auch von einer zweigipfligen oder auch bimodalen Verteilung. Bisher haben wir die kumulierten relativen Häufigkeiten nur für die Merkmalsausprägungen bestimmt. Ist das Merkmal quantitativ, so können wir die kumulierten relativen Häufigkeiten für alle reellen Zahlen bestimmen. Wir bezeichnen diese mit h(x x). Dies ist der Anteil der Beobachtungen, die kleiner oder gleich x sind. Jeder reellen Zahl wird also ein Wert zugeordnet. Wir nennen die zugehörige Funktion die empirische Verteilungsfunktion. Sie ist definiert durch ˆF : IR [0, 1] mit x ˆF (x) =h(x x) Beispiel 10 (fortgesetzt von Seite 19) Die empirische Verteilungsfunktion des Merkmals Trinkgeld ist: 0 für x< für 0.80 x< ˆF (x) = für 1.80 x< für 2.80 x< für x 3.80 Abbildung 2.6 zeigt die empirische Verteilungsfunktion des Merkmals Trinkgeld.

12 22 KAPITEL 2. UNIVARIATE ANALYSE Abbildung 2.6: Empirische Verteilungsfunktion des Merkmals Trinkgeld Fn(x) x Wir sehen, dass die empirische Verteilungsfunktion eine Treppenfunktion ist. Die Sprungstellen liegen an den Merkmalsausprägungen, die beobachtet wurden. Die Höhe der Sprünge an den Sprungstellen ist gleich den relativen Häufigkeiten der jeweiligen Merkmalsausprägungen. Außerdem ist sie monoton wachsend. Es gilt also: Sie ist beschränkt. Es gilt nämlich: Stetige Merkmale x 1 <x 2 = ˆF (x 1 ) ˆF (x 2 ). 0 ˆF (x) 1 für alle x R Steige Merkmale können theoretisch alle Werte aus einem Intervall annehmen. In der Praxis behandelt man quantitative Merkmale als stetig, die sehr viele Merkmalsausprägungen besitzen. So ist das Merkmal Alter im Beispiel 1 auf Seite 1 ein stetiges Merkmal. Wie bei bei einem diskreten Merkmal bildet die Urliste x 1,...,x n bei einem stetigen Merkmal den Ausgangspunkt der Analyse. Wir bilden auch hier den geordneten Datensatz x (1),x (2),...,x (n).

13 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 23 Beispiel 11 Die Werte des Merkmals Alter sind in der dritten Spalte von Tabelle 1.2 auf Seite 9 zu finden. Die Urliste sieht folgendermaßen aus Der geordnete Datensatz ist: Im Beispiel gibt es 13 unterschiedliche Markmalsausprägungen, von denen 5 nur einmal auftreten. Eine Häufigkeitstabelle wie im Fall eines quantitativen Merkmals mit wenigen Merkmalsausprägungen wäre sehr unübersichtlich. Aus diesem Grunde bildet man sogenannte Klassen. Man fasst also mehrere Werte zusammen. Wir bezeichnen die Untergrenze der i-ten Klasse mit x i 1 und die Obergrenze mit x i.diei-te Klasse ist also [x i 1,x i ). Beispiel 11 (fortgesetzt von Seite 23) Wir bilden die vier Klassen [20, 25), [25, 30), [30, 35) und [35, 40). Es gilt x 0 = 20 und x 1 = 25. Man beachte, dass die 20 zur ersten Klasse gehört, die 25 hingegen nicht. Wir bestimmen die absolute Häufigkeit n i und die relative Häufigkeit h i der i-ten Klasse. Die absoluten und relativen Häufigkeiten stellen wir in der Häufigkeitstabelle zusammen. Der allgemeine Aufbau der Häufigkeitstabelle ist in Tabelle 2.6 zu finden. Tabelle 2.6: Allgemeiner Aufbau einer Häufigkeitstabelle mit klassierten Beobachtungen Klasse Intzervall absolute relative Häufigkeit Häufigkeit 1 [x 0,x 1) n 1 h 1 2 [x 1,x 2) n 2 h k [x k 1,x k ) n k h k

14 24 KAPITEL 2. UNIVARIATE ANALYSE Beispiel 11 (fortgesetzt von Seite 23) Von den 25 Teilnehmern sind 4 jünger als 25 Jahre, 12 mindestens 25 aber jünger als 30 Jahre, 5 mindestens 30 aber jünger als 35 Jahre und 4 mindestens 35 Jahre alt. Wir erstellen die Häufigkeitstabelle mit den absoluten und relativen Häufigkeiten. Tabelle 2.7: Die Häufigkeitstabelle des Merkmals Alter Alter absolute relative kumulierte relative Häufigkeit Häufigkeit Häufigkeit von 20 bis unter ,16 0,16 von 25 bis unter ,48 0,64 von 30 bis unter ,20 0,84 von 35 bis unter ,16 1,00 Graphisch stellen wir die relativen Häufigkeiten mit einem Histogramm dar. Dabei tragen wir in einem rechtwinkligen Koordiantensystem über jeder Klasse ein Rechteck ab, dessen Fläche gleich der relativen Häufigkeit der Klasse ist. Um dies zu erreichen, wählen wir als Höhe des Rechtecks den Quotienten aus relativer Häufigkeit f i und Klassenbreite i.diezugehörige Funktion heißt empirische Dichtefunktion ˆf : IR IR mit ˆf(x) = h i i für x i 1 x<x i 0 sonst (2.3) Beispiel 11 (fortgesetzt von Seite 23) Abbildung 2.7 zeigt das Histogramm des Merkmals Alter.

15 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 25 Abbildung 2.7: Histogramm des Merkmals Alter Density Alter Wir sehen, dass fast die Hälfte der Teilnehmer zwischen 25 und 30 Jahren alt sind. Die restlichen Klassen sind ungefähr gleich dicht besetzt. Beim Erstellen des Histogramms muss man die Anzahl der Klassen, die Breite der Klassen und die Untergrenze der ersten Klasse wählen. Die Gestalt des Histogramms hängt davon ab, wie man diese Größen wählt. Abbildung 2.8 zeigt 4 Histogramme des Merkmals Alter. Die Abbildung links oben zeigt, dass durch zu wenige Klassen Informationen über Details verlorengehen, während bei einer zu hohen Anzahl von Klassen die vielen Details die allgemeine Struktur verdecken. Bei der Abbildung links unten wurde für die Untergrenze der ersten Klasse im Gegensatz zur Abbildung 2.7 der Wert 23 gewählt. Die Anzahl der Klassen und die Klassenbreite sind hingegen identisch. Die Histogramme unterscheiden sich stark und liefern unterschiedliche Interpretationen. In der Abbildung rechts unten wurden unterschiedliche Klassenbreite gewählt. Wie soll man die drei Größen wählen? Es gibt eine Reihe von Vorschlägen, von denen sich einige durchgesetzt haben und in Programmpaketen verwendet werden. So sollten alle Klassen gleichgroß sein. Man wählt also äquidistante Klassen. Die Untergrenze der ersten Klasse sollte eine runde Zahl sein. Im Beispiel war das Minimum 23. Also sollte man als Untergrenze der ersten Klasse den Wert 20 wählen. Für die Anzahl der Klassen verwendet man die Formel von Sturges: k = log 2 n +1 Dabei ist u der ganzzahlige Anteil von u mit u 0, z.b. 2.3 =2.Soist 3.3 = 3 und 3.9 =3.

16 26 KAPITEL 2. UNIVARIATE ANALYSE Abbildung 2.8: 4 Histogramme des Merkmals Alter Density 0.03 Density Alter Alter Density 0.04 Density Alter Alter Im Artikel Aesthetic Frequency Classification geht David P. Doane detailliert auf die Regeln ein. Der Artikel ist im American Statistician von 1976 auf Seite 181 zu finden. Abbildung 2.9 zeigt unterschiedliche Histogramme. Wir können diese so interpretieren, wie die Stabdiagramme in Abbildung 2.5 auf Seite 20. Die Abbildung links oben zeigt das Histogramm der Anzahl CDs. Sehr viele personen haben wenige CDs, während wenige viele CDs besitzen. Es handelt sich um eine rechtsschiefe Verteilung. Bei der Verteilung in der Abbildung rechts oben liegt der entgegengesetzte Fall vor. Es handelt sich hier um eine linksschiefe Verteilung. Die Verteilung in der Abbildung links unten ist symmetrisch. Hier wurde die Körpergröße von männlichen Studienanfängern bestimmt. Die Merkmalsausprägungen im Zentrum der Verteilung treten am häufigsten auf. Je weiter man sich vom Zentrum entfernt, um so seltener werden die Merkmalsausprägungen. In der Abbildung rechts unten ist eine zweigipflige Verteilung zu sehen. Dies deutet darauf hin, dass zwei Gruppen vorliegen. Im Beispiel handelt es sich um die Teilnehmer einer Weiterbildungsveranstaltung. Hier konnte man zwei Gruppen von Teilnehmern unterscheiden.

17 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 27 Abbildung 2.9: Unterschiedliche Histogramme Anzahl CD Mathematische Grundbildung Groesse Alter Bei einem diskreten Merkmal haben wir die empirische Verteilungsfunktion ˆF (x) betrachtet. Dabei gibt ˆF (x) den Anteil der Merkmalsträger an, deren Merkmalsausprägung höchstens x beträgt. Wir wollen diese nun für ein stetiges Merkmal bestimmen. An den Klassengrenzen ist dies einfach. Es gilt i ˆF (x i )= j=1 Ist x ein Wert innerhalb einer Klasse, so nehmen wir die empirische Dich- h j

18 28 KAPITEL 2. UNIVARIATE ANALYSE tefunktion als Ausgangspunkt zur Bestimmung von ˆF (x). Die empirische Verteilungsfunktion ˆF (x) an der Stelle x ist gleich der Fläche unter dem Histogramm bis zur Stelle x. Nehmen wir an, der Wert x liegt in der i-ten Klasse mit den Klassengrenzen x i 1 und x i. Dann erhalten wir den gesuchten Wert, indem wir die Fläche unter dem Histogramm bis zu dieser Stelle bestimmen. Den Wert von ˆF (x) an der Untergrenze ist ˆF (x i 1). Dazu kommt noch die Fläche innerhalb der Klasse hinzu. Diese beträgt Also gilt (x x i 1) hi i = x x i 1 i h i. 0 für x<x 0 ˆF (x) = ˆF (x i 1)+ x x i 1 h i für x i 1 x<x i i 1 für x x k (2.4) Innerhalb der i-ten Klasse gilt: ˆF (x) =a + b x (2.5) mit a = ˆF (x i 1) h i x i 1 i und b = h i i. Die Funktion in Gleichung (2.5) ist eine in x lineare Funktion. Die empirische Verteilungsfunktion verläuft also innerhalb jeder Klasse linear. Sie kann also ganz einfach gezeichnet werden. Wir tragen in einem kartesischen Koordiantensystem an jeder Klassengrenze die kumulierte relative Häufigkeit ein und verbinden je zwei aufeinanderfolgende Punkte durch eine Gerade. Beispiel 11 (fortgesetzt von Seite 24) Abbildung 2.10 zeigt die empirische Verteilungfunktion.

19 2.1. DARSTELLUNG UNIVARIATER DATENSÄTZE 29 Abbildung 2.10: empirische Verteilungfunktion des Merkmals Alter emp. VF Alter Wir bestimmen den Anteil der Teilnehmer, die höchstens 28 Jahre alt sind. Gesucht ist also ˆF (28). Es gilt ˆF (28) = = Prozent der Teilnehmer sind also höchstens 28 Jahre alt. Abbildung 2.11 zeigt noch einmal graphisch die Vorgehensweise: Abbildung 2.11: Bestimmung des Werts der empirische Verteilungfunktion emp. VF Alter

20 30 KAPITEL 2. UNIVARIATE ANALYSE 2.2 Beschreibung univariater Datensätze Ist das Merkmal quantitativ, so will man die Verteilung durch eine oder mehrere Maßzahlen charakterisieren. Die wesentlichen Charakteristika sind die Lage und die Streuung. Maßzahlen für die Lage zeigen, wo das Zentrum der Verteilung liegt, während Maßzahlen für die Streuung angeben, wie dicht die Beobachtungen um das zentrum liegen Maßzahlen für die Lage Es gibt mehrere Möglichkeiten, das Zentrum der Verteilung durch eine Maßzahl zu beschreiben. Beginnen wir mit dem Mittelwert. Der Mittelwert Für die Beobachtungen x 1,x 2,...,x n ist der Mittelwert x folgendermaßen definiert: x = 1 n (x 1 + x x n )= 1 n x i (2.6) Beim Mittelwert verteilen wir die Summe aller Beobachtungen gleichmäßig auf alle Merkmalsträger. Bevor wir uns Eigenschaften des Mittelwerts anschauen, zeigen wir, wie wir den Mittelwert aus einer Häufigkeitstabelle bestimmen können. Beginnen wir mit diskreten Merkmalen. Es liegen also die Merkmalsausprägungen a 1,...,a k mit den absoluten Häufigkeiten n 1,...,n k und den relativen Häufigkeiten h 1,...,h k vor. Dann ist der Mittelwert x gleich: x = 1 n a a }{{} a k a k }{{} n 1 mal n k mal = 1 n (a n 1 1 n a k n k )=a 1 n a n k k n = a 1 h a k h k

21 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 31 Es gilt also x = k a i h i (2.7) Beispiel 10 (fortgesetzt von Seite 21) Die Häufigkeitstabelle des Merkmals Trinkgeld ist in Tabelle 2.5 auf Seite 19 zu finden. Es gilt 2 13 x = =2.175 Wir sehen, dass das durchschnittliche Trinkgeld DM beträgt. Das Beispiel zeigt, dass der Mittelwert einen Wert annehmen kann, der nicht zu den Merkmalsausprägungen gehört. Keine Person würde ein Trinkgeld von DM geben. Schauen wir uns ein stetiges Merkmal an. Hier liegen nur relative Häufigkeiten der Klassen vor. Mit welchem Wert sollen wir die relativen Häufigkeiten multiplizieren? Da die empirische Dichtefunktion in jeder Klasse konstant ist, wählen wir den Mittelpunkt m i der i-ten Klasse. Es gilt m i = x i 1 + x i 2 Den Mittelwert bestimmen wir dann durch x = m i h i (2.8) Beispiel 11 (fortgesetzt von Seite 28) Schauen wir uns dies für das Alter an. Die Häufigkeitstabelle ist in Tabelle 2.7 auf Seite 24 zu finden. Die Klassenmitten sind m 1 = =22.5 m 2 = =27.5 m 3 = =32.5 m 4 = =37.5 Somit gilt x = = 29.3

22 32 KAPITEL 2. UNIVARIATE ANALYSE Wir hätten den Mittelwert auch aus den Originaldaten bestimmen können. Für diese beträgt er Jahre. Wir sehen, dass die Werte sich unterscheiden. Dies ist kein Wunder, denn bei der Klassenbildung geht Information verloren. Oft werden Beobachtungen x 1,...,x n linear transformiert: y i = a + b x i (2.9) Es gilt y = a + b x (2.10) Mit den Eigenschaften des Summenzeichens Σ auf Seite 429 gilt nämlich ( y = 1 n y i = 1 ) n (a + b x i ) (A.2) = 1 n a + b x i (A.1) = 1 n ( n a + b ) x i = 1 n n a + b 1 n x i = a + b x Beispiel 12 Im Beispiel 3 auf Seite 4 haben wir die Höchsttemperatur in Celsius betrachtet. Die Durchschnittstemperatur beträgt x = Wir wollen die Durchschnittstemperatur in Fahrenheit bestimmen. Rechnet man zum Beispiel die Temperatur von Celsius x in Fahrenheit y um, so bildet man y = x Aus x =15.85 folgt also y = x = In der angewandten Statistik werden häufig die Beobachtungen x 1,...,x n zentriert. Dabei subtrahiert von jeder Beobachtung x i den Mittelwert x aller Beobachtungen: x i = x i x (2.11)

23 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 33 Der Mittelwert der zentrierten Beobachtungen ist gleich 0. Es gilt also: x i = (x i x) =0 (2.12) Dies sieht man folgendermaßen: (x i x) = x i x = x i n x = x i n 1 n x i = x i x i =0 Sind x 1,...,x n Beobachtungen und a eine reelle Zahl, so gilt (x i a) 2 = (x i x) 2 + n( x a) 2 (2.13) Die Gültigkeit dieser Beziehung sieht man folgendermaßen: (x i a) 2 = = = (2.12) = (x i x + x a) 2 (x i x) 2 + ( x a) 2 +2 (x i x)( x a) (x i x) 2 + n( x a) 2 +2( x a) (x i x) 2 + n( x a) 2 (x i x) Gleichung 2.13 zeigt, dass x derwertvona ist, für den der Ausdruck (x i a) 2 minimal wird.

24 34 KAPITEL 2. UNIVARIATE ANALYSE Der Median Beim Mittelwert verteilen wir die Summe der Merkmalsausprägungen der Untersuchungseinheiten gleichmäßig auf die Untersuchungseinheiten. Der Median x 0.5 teilt den geordneten Datensatz x (1),...,x (n) in zwei gleichgroße Teile. Ist der Stichprobenumfang n ungerade, so ist der Median eindeutig definiert. Ist n ungerade, so wählen wir den Median als Mittelwert der beiden mittleren Beobachtungen in der geordneten Stichprobe x (1),...,x (n). Es gilt also x ((n+1)/2) x 0.5 = x (n/2) + x (1+n/2) 2 falls n ungerade ist falls n gerade ist (2.14) Beispiel 10 (fortgesetzt von Seite 31) Der geordnete Datensatz lautet: Also ist Median gleich Liegen die Werte eines diskreten Merkmals in einer Häufigkeitstabelle vor, so bestimmen wir den Median mit Hilfe der kumulierten relativen Häufigkeiten. Es gilt a j x 0.5 = a j + a j+1 2 falls j 1 falls j h i =0.5 h i < 0.5 und j h i > 0.5 (2.15) Wir können den Median also auch für ein ordinalskaliertes Merkmal bestimmen. Beispiel 5 (fortgesetzt von Seite 15) Der Median der Bewertung ist die Merkmalsausprägung gut. Liegt bei stetigen Merkmalen der geordnete Datensatz vor, so können wir den Median problemlos mit der Gleichung 2.14 bestimmen. Liegen die Werte in einer Häufigkeitstabelle vor, so suchen wir den Wert x, für den ˆF (x) =0.5

25 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 35 gilt. Setzen wir in die Gleichung 2.4 auf Seite 28 für x den Median x 0.5 ein, so gilt mit ˆF (x 0.5 )=0.5: 0.5 = ˆF (x i 1)+ x 0.5 x i 1 h i. i Lösen wir diese Gleichung nach x 0.5 auf, so erhalten wir falls gilt ˆF (x i 1) 0.5 < ˆF (x i ). x 0.5 = x i ˆF (x i 1) h i i (2.16) Beispiel 11 (fortgesetzt von Seite 31) Schauen wir uns noch einmal die Häufigkeitstabelle an. i [x i 1,x i h i i ˆF (x i 1 ) ˆF (x i ) 1 [20, 25) [25, 30) [30, 35) [35, 40) Der Median liegt in der zweiten Klasse. Es gilt x 0.5 =25+ 5= Aus dem geordneten Datensatz erhalten wir 28 als Wert des Medians. Die Werte des Medians für den geordneten Datensatz und die Tabelle mit Klassenbildung unterscheiden sich. Dies ist kein Wunder, da durch die Klassenbildung Information verlorengeht. Wir nehmen ja an, dass die Beobachtungen innerhalb jeder Klasse gleichverteilt sind. Ist x 0.5 der Median der Beobachtungen x 1,...,x n,soista+bx 0.5 der Median der Beobachtungen a + bx i, i =1,...,n. Der Median der zentrierten Beobachtungen ist nicht notwendigerweise gleich 0. Dies zeigt der Datensatz 1, 2, 6. Der Mittelwert ist 3 und die zentrierten Beobachtungen sind 2, 1, 3. Der Median dieses datensatzes ist gleich 1.

26 36 KAPITEL 2. UNIVARIATE ANALYSE Vergleich von Mittelwert und Median Worin unterscheiden sich der Mittelwert und der Median? Nehmen wir an, wir haben 5 Personen nach ihrem Nettoeinkommen befragt und erhalten folgende Werte: Der Mittelwert beträgt 5000 DM und der Median 3000 DM. Der Median gibt die Lage der Verteilung viel besser wieder als der Mittelwert, da die meisten Beobachtungen um den Wert 3000 DM liegen. Woran liegt das? Wir haben mit dem Wert DM eine extreme Beobachtung im Datensatz. Diese Beobachtung hat einen starken Einfluss auf den Mittelwert. Sie zieht den Mittelwert zu sich. Den Median beeinflusst sie nicht. Extreme Beobachtungen haben einen großen Einfluss auf den Mittelwert. Wir sagen auch, dass der Mittelwert ausreißerempfindlich ist, der Median hingegegen nicht. Wir sagen auch, dass der Median robust ist. Schauen wir uns die relative Lage von Mittelwert und Median bei symmetrischen und schiefen Verteilungen an. Beginnen wir mit einer symmetrischen Verteilung. Das Bild links unten in Abbildung 2.9 auf Seite 27 zeigt das Histogramm der Körpergröße von Studenten. Aus Tabelle 2.10 auf Seite 63 können wir den Mittelwert und Median bestimmen. Der Mittelwert ist cm und der Median 183 cm. Dies ist das Symmetriezentrum der Verteilung. Bei einer symmetrischen Verteilung nimmt der Mittelwert ungefähr den gleichen Wert an wie der Median. Schauen wir uns eine rechtsschiefe Verteilung an. Wir betrachten das Bild links oben in Abbildung 2.9 auf Seite 27. Aus den Daten in Tabelle 2.8 auf Seite 62 erhalten wir für den Mittelwert den Wert 63 und für den Median den Wert Bei einer rechtsschiefen Verteilung ist der Mittelwert immer größer als der Median. Bei einer linksschiefen Verteilung ist der Mittelwert immer kleiner als der Median. Im Bild rechts oben in Abbildung 2.9 auf Seite 27 ist eine linksschiefe Verteilung zu finden. Aus den Daten in Tabelle 2.9 auf Seite 62 erhalten wir für den Mittelwert den Wert und für den Median den Wert 503. Zwischen dem Mittelwert x und dem Median x 0.5 besteht also in Abhängigkeit von der Schiefe der Verteilung folgende Beziehung: rechtsschief x>x 0.5 symmetrisch x = x 0.5 linksschief x<x 0.5

27 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 37 Getrimmte Mittelwerte Das arithmetische Mittel ist empfindlich gegenüber extremen Beobachtungen. Schätzer, bei denen dies nicht der Fall ist, heißen robust. Es ist naheliegend, extreme Beobachtungen aus der Stichprobe zu entfernen und den Mittelwert der übriggebliebenen zu bestimmen. Dabei wird einer fester Anteil α von beiden Rändern der geordneten Stichprobe x (1),...,x (n) entfernt. Man spricht in diesem Fall von einem α-getrimmten Mittelwert. Man gibt einen Anteil α vor und berechnet x α = 1 n 2 nα n nα + nα x (i) (2.17) Dabei ist u der ganzzahlige Anteil von u mit u 0, z.b. 2.3 =2. Beispiel 11 (fortgesetzt von Seite 35) Wir wählen α =0.2. Mit n = 25 gilt = 5. Wir entfernen also 5 Beobachtungen von den Rändern der geordneten Stichprobe. Es bleiben folgende 15 Beobachtungen übrig: Der Mittelwert dieser Beobachtungen ist x 0.2 = Quantile Die empirische Verteilungsfunktion an der Stelle x gibt den Anteil der Merkmalsträger an, die den vorgegebenen Wert x nicht überschreiten. Oft sucht man den Wert x, der von einem bestimmten Anteil der Merkmalsträger nicht überschritten wird. So ist der Median x 0.5 der Wert, der von 50 Prozent der Merkmalsträger nicht überschritten wird. Wir bezeichnen den Wert, der von 100 p Prozent der Merkmalsträger nicht überschritten wird, mit x p und sprechen vom Quantil oder Perzentil x p.für die Praxis sind folgende Quantile wichtig: x 0.01, x 0.05, x 0.10, x 0.25, x 0.75, x 0.90, x 0.95, x 0.99 Die Quantile x 0.25 und x 0.75 heißen Quartile,wobeix 0.25 das untere Quartil und x 0.75 das obere Quartil heißt.

28 38 KAPITEL 2. UNIVARIATE ANALYSE Ist das Merkmal stetig und liegen die Daten in Form einer Häufigkeittabelle mit Klassen vor, so gilt ˆF (x p )=p. In diesem Fall gilt falls gilt ˆF (x i 1) p< ˆF (x i ). x p = x i 1 + p ˆF (x i 1) h i i (2.18) Beispiel 11 (fortgesetzt von Seite 37) Es gilt x 0.25 =25+ 5= Man kann Quantile auch aus einer Urliste bestimmen. Wir betrachten dies nur für x 0.25, x 0.5 und x Man muss zunächst den geordneten Datensatz bestimmen. Schauen wir uns nun an, wie man die beiden Quartile bestimmt. Beginnen wir mit dem unteren Quartil. Das untere Quartil ist der Median der unterenhälfte des geordneten Datensatzes. Ist die Anzahl der Beobachtungen ungerade, so ist die untere Hälfte nicht eindeutig definiert. Was machen wir mit dem Median des Datensatzes? Es ist üblich, diesen zur unteren Häfte hinzuzunehmen. Beispiel 11 (fortgesetzt von Seite 38) Wir erhalten also für das Alter folgende untere Hälfte des geordneten Datensatzes: und hieraus das untere Quartil als 26. Das obere Quartil ist der Median der oberen Hälfte des geordneten Datensatzes. Ist die Anzahl der Beobachtungen ungerade, so nehmen wir den Median zur oberen Häfte hinzu. Beispiel 11 (fortgesetzt von Seite 38) Wir erhalten also für das Beispiel folgende obere Hälfte des geordneten Datensatzes: und hieraus das obere Quartil als 31. Wir haben für das Merkmal Alter die Quartile und den Median zum einen aus den klassierten Daten und zum anderen aus den Rohdaten bestimmt. Die Werte unterscheiden sich. Dies liegt daran, dass durch die Klassenbildung Information verlorengeht

29 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE Maßzahlen für die Variabilität Bisher haben wir nur die Lage eines datensatzes durch eine Maßzahl beschrieben. Wir wollen nun ein weiteres Charakteristikum iner Verteilung durch geeignete Maßzahlne beschreiben. Beispiel 13 Bei einer Befragung wurde eine Gruppe von drei Kindern nach der Höhe ihres monatlichen Taschengelds gefragt. Es beträgt 4, 5 bzw. 6 EURO. Bei einer zweiten Gruppe wurden die Beträge 3, 5 und 7 EURO genannt. Der Mittelwert des Taschengelds beträgt in beiden Gruppen 5 EURO. Die folgende Abbildung zeigt, dass die Werte der ersten Gruppe viel dichter um den Mittelwert liegen als die Werte der zweiten Gruppe. Wir sagen auch, dass die Werte in der ersten Gruppe weniger streuen Um eine Maßzahl für die Streuung zu gewinnen, bestimmen wir den Abstand x i x jeder Beobachtung vom Mittelwert. Es liegt nahe, den Mittelwert dieser Abstände als Maßzahl für die Streuung zu wählen: 1 n x i x (2.19) Diese heißt mittlere absolute Abweichung. Beispiel 13 (fortgesetzt von Seite 39) In der ersten Gruppe gilt 1 n x i x = 1 3 ( ) =2 3 In der zweiten Gruppe gilt 1 n x i x = 1 3 ( ) =4 3

30 40 KAPITEL 2. UNIVARIATE ANALYSE Aus technischen Gründen betrachtet man aber die quadrierten Abstände. Wir erhalten hierdurch die mittlere quadratische Abweichung d 2 : d 2 = 1 n (x i x) 2 (2.20) Beispiel 13 (fortgesetzt von Seite 39) In der ersten Gruppe gilt d 2 = 1 3 [ (4 5) 2 +(5 5) 2 +(6 5) 2] = 2 3. In der zweiten Gruppe gilt d 2 = 1 3 [ (3 5) 2 +(5 5) 2 +(7 5) 2] = 8 3. In der Regel dividiert man die Summe der quadrierten Abweichungen aber nicht durch n, sondern durch n 1. In diesem Fall erhält man die Stichprobenvarianz s 2. s 2 = 1 n 1 (x i x) 2 (2.21) Warum es sinnvoller ist, durch n 1 und nicht durch n zu dividieren, werden wir später sehen. Beispiel 13 (fortgesetzt von Seite 40) In der ersten Gruppe gilt s 2 = 1 2 [ (4 5) 2 +(5 5) 2 +(6 5) 2] =1. In der zweiten Gruppe gilt s 2 = 1 2 [ (3 5) 2 +(5 5) 2 +(7 5) 2] =4. Zwischen der mittleren quadratischen Abweichung d 2 und der Stichprobenvarianz s 2 besteht folgender Zusammenhang: s 2 = n n 1 d2 (2.22)

31 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 41 Dies sieht man folgendermaßen: s 2 = 1 n 1 (x i x) 2 = n n 1 1 n Beispiel 13 (fortgesetzt von Seite 40) In der ersten Gruppe gilt s 2 = =1. In der zweiten Gruppe gilt s 2 = =4. Schauen wir uns den Ausdruck (x i x) 2 noch einmal genauer an. Es gilt (x i x) 2 = (x i x) 2 = n n 1 d2 x 2 i n x 2 Dies sieht man folgendermaßen: (x i x) 2 = (x 2 i 2 y i x + x 2 )= x 2 i 2 x i x + x 2 = x 2 i 2 x x i + n x 2 = x 2 i 2 xnx + n x 2 Es gilt also = x 2 i 2 n x 2 + n x 2 = x 2 i n x 2 d 2 = x 2 x 2 (2.23) mit x 2 = 1 n Mit Hilfe dieser Beziehung können wir die mittlere quadratische Abweichung und damit auch die Stichprobenvarianz leichter bestimmen. x 2 i

32 42 KAPITEL 2. UNIVARIATE ANALYSE Beispiel 13 (fortgesetzt von Seite 41) In beiden Gruppen gilt x = 5. Außerdem gilt in der ersten Gruppe Also gilt x 2 = 1 3 ( ) = 77 3 d 2 = x 2 x 2 = = 2 3 Die Varianz weist nicht nicht die Maßeinheiten der Beobachtungen auf. Die Wurzel aus der Varianz heißt Standardabweichung und weist die Maßeinheiten der Beobachtungen auf. s = s 2 (2.24) Beispiel 13 (fortgesetzt von Seite 42) Die Stichprobenvarianz des Taschengelds in der ersten Gruppe beträgt 1. Also beträgt die Standardabweichung ebenfalls 1. Die Stichprobenvarianz des Taschengelds in der zweiten Gruppe beträgt 4. Also beträgt die Standardabweichung 2. Wir haben im letzten Kapitel zentrierte Beobachtungen betrachtet. Teilt man die zentrierten Beobachtungen durch ihre Standardabweichung, so erhält man standardisierte Beobachtungen: z i = x i x s. (2.25) Beispiel 13 (fortgesetzt von Seite 42) Die standardisierten Werte der ersten Gruppe sind 1, 0 und 1. Die standardisierten Werte der zweiten Gruppe sind ebenfalls 1, 0 und 1. Der Mittelwert eines standardisierten Merkmals ist gleich 0. Dies sieht man folgendermaßen: z = 1 z i = 1 x i x = 1 (x i x) =0. n n s ns Die Stichprobenvarianz der standardisierten Merkmale ist gleich 1. Dies sieht man folgendermaßen: 1 ( ) 2 xi x = 1 1 (x n 1 s s 2 i x) 2 = 1 n 1 s 2 s2 =1.

33 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 43 Schauen wir uns an wie sich die Varianz bei linearen Transformationen der Daten verhält. Transformieren wir die Beobachtungen x 1,x 2,...,x n in y i = a + b x i,sogilt s 2 y = b 2 s 2 x (2.26) Dies sieht man folgendermaßen: s 2 y = 1 n 1 (y i y) 2 = 1 n 1 (a + b x i a b x) 2 = 1 n 1 (b (x i x)) 2 = 1 n 1 b 2 (x i x) 2 = b 2 1 n 1 (x i x) 2 = b 2 s 2 x Beispiel 12 (fortgesetzt von Seite 32) Für die Stichprobenvarianz s 2 x der Temperatur in Celsius gilt s 2 x =8.24. Also beträgt die Stichprobenvarianz s 2 y der Temperatur in Fahrenheit s 2 y =1.8 2 s 2 x = = Eine weitere Maßzahl für die Streuung ist die Spannweite (Range) R, die als Differenz aus der größten und kleinsten Beobachtung definiert ist. R = x (n) x (1) (2.27) Beispiel 13 (fortgesetzt von Seite 42) In Gruppe 1 gilt R =6 4=2. In Gruppe 2 gilt R =7 3=4. Die Spannweite hat den Nachteil, dass sie von den Extremen abhängt. Ist eine Beobachtung ein Ausreißer, so hat dieser einen starken Einfluss auf den Wert der Spannweite. Deshalb betrachtet man in der Regel die Differenz aus dem oberen und dem unteren Quartil. Diese heißt Interquartilsabstand(Inter Quartil Range) IQR. Es gilt also IQR = x 0.75 x 0.25 (2.28)

34 44 KAPITEL 2. UNIVARIATE ANALYSE Der Boxplot Der Boxplot ist ein effizientes Mittel, um die Verteilung eines quantitativen Merkmals zu visualisieren. Um einen Boxplot zu erstellen, benötigen wir das Minimum x (1), das untere Quartil x 0.25,denMedianx 0.5, das obere Quartil x 0.75 und das Maximum x (n). Ein Boxplot ist eine graphische Darstellung dieser fünf Zahlen. Wir zeichnen einen Kasten vom unteren Quartil bis zum oberen Quartil. In diesem Kasten kennzeichnen wir den Median als Linie. Von den Rändern des Kastens bis zu den Extremen werden Linien gezeichnet, die an sogenannten Zäunen enden. Um Ausreißer zu markieren, wird der letzte Schritt modifiziert: Sind Punkte mehr als das 1.5-fache der Kastenbreite von den Quartilen entfernt, so wird die Linie nur bis zum 1.5-fachen der Kastenbreite gezeichnet. Alle Punkte, die außerhalb liegen, werden markiert. Beispiel 14 Wir schauen uns das Alter der Teilnehmer aus Beispiel 1 auf Seite 1 an. Die Daten sind in Tabelle 1.2 auf Seite 9 zu finden. Schauen wir uns den geordneten Datensatz an Für den Datensatz gilt x (1) =23 x 0.25 =26 x 0.5 =28 x 0.75 =31 x (n) =38 Abbildung 14 zeigt den Boxplot des Merkmals Alter

35 2.2. BESCHREIBUNG UNIVARIATER DATENSÄTZE 45 Wie interpretiert man einen Boxplot? Durch den Boxplot werden vier Bereiche definiert: - Minimum bis unteres Quartil - unteres Quartil bis Median - Median bis oberes Quartil - oberes Quartil bis Maximum Die Interpretation beruht im Wesentlichen darauf, dass jeder der vier Bereiche genau 25 Prozent der Beobachtungen enthält. Als Indikator für die Lage nimmt man den Median und als Indikator für die Streuung die Breite der Box vom unteren Quartil bis zum oberen Quartil. Die Lage der Medianlinie innerhalb der Box zeigt Symmetrie beziehungsweise Asymmetrie auf. Liegt die Medianlinie ungefähr in der Mitte der Box, so deutet dies auf eine symmetrische Verteilung hin. Die Länge der Striche außerhalb der Box im Verhältnis zur Breite der Box erlaubt es, Ausreißer zu identifizieren. Die Verteilung des Alters ist nicht symmetrisch. Ausreißer scheinen nicht vorzuliegen. Boxplot und Histogramm haben Vor- und Nachteile. In einem Boxplot kann man erkennen, ob eine Verteilung symmetrisch ist, und ob Ausreißer vorliegen. Man kann aber an einem Boxplot nicht erkennen, ob mehrere Gipfel in einem Datensatz vorliegen. Dies erkennt man sofort am Histogramm, in dem man auch Symmetrie und Ausreißer erkennen kann. Das Aussehen des Histogramms hängt aber stark von der Wahl der Klassen ab, die der Benutzer vorgibt. Um die Vorteile beider Darstellungen nutzen zu können, sollte man beide in einer Graphik gemeinsam darstellen. Abbildung 2.12 zeigt einige Beispiele. Die Abbildung links oben zeigt eine rechtsschiefe Verteilung. Dies kann man sowohl am Boxplot als auch am Histogramm erkennen. Der Boxplot zeigt aber noch deutlicher als das Histogramm, dass bei dieser Verteilung einige Ausreißer vorliegen. Bei der Verteilung in der Abbildung rechts oben liegt der entgegengesetzte Fall vor. Es handelt sich hier um eine linksschiefe Verteilung. Dies legt zumindest das Histogramm nahe. Der Boxplot deutet auf eine andere Interpretation hin. Es scheint sich um eine symmetrische Verteilung mit sehr wenig Wahrscheinlichkeitsmasse an den Rändern zu handeln. Die zwei extremen Ausreißer machen im Histogramm aus dieser symmetrischen Verteilung eine schiefe Verteilung. Die Verteilung in der Abbildung links unten ist symmetrisch. Dies sieht man am Boxplot und am Histogramm. In der Abbildung rechts unten ist im Histogramm eine zweigipflige Verteilung zu sehen. Dies kann man aber nur am Histogramm sehen. Der Boxplot liefert keinen Hinweis.

36 46 KAPITEL 2. UNIVARIATE ANALYSE Die Ausführungen verdeutlichen, dass man sich sowohl das Histogramm als auch den Boxplot anschauen sollte. Abbildung 2.12: Histogramm und Boxplot der Anzahl der CDs

Statistik I. Universität Rostock SS 2008 (Diese Präsentation ist eine Zusammenfassung des Skripts Einführung in die Statistik mit R von Dr. A.

Statistik I. Universität Rostock SS 2008 (Diese Präsentation ist eine Zusammenfassung des Skripts Einführung in die Statistik mit R von Dr. A. Statistik I Universität Rostock SS 2008 (Diese Präsentation ist eine Zusammenfassung des Skripts Einführung in die Statistik mit R von Dr. A. Handl) Universität Rostock, Statistik I, SS 2007, 1 1. Grundbegriffe

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/57 Die Deskriptivstatistik

Mehr

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal Kapitel 3 Bivariate Analyse In Kapitel 2 haben wir gesehen, wie man ein Merkmal auswertet. Mit Hilfe statistischer Verfahren kann man aber auch untersuchen, ob zwischen mehreren Merkmalen Abhängigkeiten

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen interessiert, sondern an der Häufigkeit von Intervallen. Typische Fragestellung:

Mehr

Weitere Lagemaße: Quantile/Perzentile I

Weitere Lagemaße: Quantile/Perzentile I 3 Auswertung von eindimensionalen Daten Lagemaße 3.3 Weitere Lagemaße: Quantile/Perzentile I Für jeden Median x med gilt: Mindestens 50% der Merkmalswerte sind kleiner gleich x med und ebenso mindestens

Mehr

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 6, 2012

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 6, 2012 Statistik SS 2012 Bernhard Spangl 1 1 Institut für angewandte Statistik und EDV Universität für Bodenkultur March 6, 2012 B. Spangl (Universität für Bodenkultur) Statistik SS 2012 March 6, 2012 1 / 19

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/62 Summenzeichen

Mehr

Verteilungsfunktion und dquantile

Verteilungsfunktion und dquantile Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

Graphische Darstellung einer univariaten Verteilung:

Graphische Darstellung einer univariaten Verteilung: Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das auszuwertende Merkmal

Mehr

3. Deskriptive Statistik

3. Deskriptive Statistik 3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

Statistik K urs SS 2004

Statistik K urs SS 2004 Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke

Mehr

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population

Mehr

Statistik eindimensionaler Größen

Statistik eindimensionaler Größen Statistik eindimensionaler Größen Michael Spielmann Inhaltsverzeichnis 1 Aufgabe der eindimensionalen Statistik 2 2 Grundbegriffe 2 3 Aufbereiten der Stichprobe 3 4 Die Kennzahlen Mittelwert und Streuung,

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik 1 Ziele In der deskriptiven (=beschreibenden) Statistik werden Untersuchungsergebnisse übersichtlich dargestellt, durch Kennzahlen charakterisiert und grafisch veranschaulicht. 2

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () Überblick. Deskriptive Statistik I - Grundlegende

Mehr

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen Kapitel 6 Verteilungsparameter Wie bei einem Merkmal wollen wir nun die Lage und die Streuung der Verteilung einer diskreten Zufallsvariablen durch geeignete Maßzahlen beschreiben. Beginnen wir mit Maßzahlen

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 06. Juni 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

2. Deskriptive Statistik

2. Deskriptive Statistik Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten

Mehr

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Deskriptive Statistik. (basierend auf Slides von Lukas Meier) Deskriptive Statistik (basierend auf Slides von Lukas Meier) Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst

Mehr

Kreisdiagramm, Tortendiagramm

Kreisdiagramm, Tortendiagramm Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte

Mehr

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält

Mehr

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man: a) Die absoluten Häufigkeit: Sie gibt an, wie oft ein Variablenwert vorkommt b) Die relative Häufigkeit: Sie erhält

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Beispiel 4 (Einige weitere Aufgaben)

Beispiel 4 (Einige weitere Aufgaben) 1 Beispiel 4 (Einige weitere Aufgaben) Aufgabe 1 Bestimmen Sie für die folgenden Zweierstichproben, d. h. Stichproben, die jeweils aus zwei Beobachtungen bestehen, a) den Durchschnitt x b) die mittlere

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

3 Häufigkeitsverteilungen

3 Häufigkeitsverteilungen 3 Häufigkeitsverteilungen 3.1 Absolute und relative Häufigkeiten 3.2 Klassierung von Daten 3.3 Verteilungsverläufe 3.1 Absolute und relative Häufigkeiten Datenaggregation: Bildung von Häufigkeiten X nominal

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

4 Statistische Maßzahlen

4 Statistische Maßzahlen 4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box Plot Ziel: Charakterisierung einer

Mehr

Sommersemester Marktforschung

Sommersemester Marktforschung Dipl.-Kfm. Sascha Steinmann Universität Siegen Lehrstuhl für Marketing steinmann@marketing.uni-siegen.de Sommersemester 2010 Marktforschung Übungsaufgaben zu den Themen 3-6 mit Lösungsskizzen Aufgabe 1:

Mehr

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte

Mehr

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der

Mehr

Der Mittelwert (arithmetisches Mittel)

Der Mittelwert (arithmetisches Mittel) Der Mittelwert (arithmetisches Mittel) x = 1 n n x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut

Mehr

Verfahren für metrische Variable

Verfahren für metrische Variable Verfahren für metrische Variable Grafische Methoden Histogramm Mittelwertsplot Boxplot Lagemaße Mittelwert, Median, Quantile Streuungsmaße Standardabweichung, Interquartilsabstand Lagemaße und Streumaße

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

Verteilungen und ihre Darstellungen

Verteilungen und ihre Darstellungen Verteilungen und ihre Darstellungen Übung: Stamm-Blatt-Diagramme Wie sind die gekennzeichneten Beobachtungswerte eweils zu lesen? Tragen Sie in beiden Diagrammen den Wert 0.452 an der richtigen Stelle

Mehr

Deskriptive Statistik Auswertung durch Informationsreduktion

Deskriptive Statistik Auswertung durch Informationsreduktion Deskriptive Statistik Auswertung durch Informationsreduktion Gliederung Ø Grundbegriffe der Datenerhebung Total-/Stichprobenerhebung, qualitatives/quantitatives Merkmal Einteilung der Daten (Skalierung,

Mehr

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 4 Gerhard Tutz, Jan Ulbricht, Jan Gertheiss WS 07/08 Lösung Aufgabe 9 (a) Lage und Streuung: Arithmetisches Mittel x = n i=

Mehr

4 Statistische Maßzahlen

4 Statistische Maßzahlen 4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box Plot Ziel: Charakterisierung einer

Mehr

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht

Mehr

Ü B U N G S S K R I P T S T A T I S T I K

Ü B U N G S S K R I P T S T A T I S T I K Ü B U N G S S K R I P T S T A T I S T I K A. Ploner H. Strelec C. Yassouridis Universität für Bodenkultur Department für Raum, Landschaft und Infrastruktur Institut für Angewandte Statistik & EDV Peter-Jordan-Strasse

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa

Mehr

Wahrscheinlichkeits - rechnung und Statistik

Wahrscheinlichkeits - rechnung und Statistik Michael Sachs Mathematik-Studienhilfen Wahrscheinlichkeits - rechnung und Statistik für Ingenieurstudenten an Fachhochschulen 4., aktualisierte Auflage 2.2 Eindimensionale Häufigkeitsverteilungen 19 absolute

Mehr

Mathematische Statistik. Zur Notation

Mathematische Statistik. Zur Notation Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Kapitel 2. Mittelwerte

Kapitel 2. Mittelwerte Kapitel 2. Mittelwerte Im Zusammenhang mit dem Begriff der Verteilung, der im ersten Kapitel eingeführt wurde, taucht häufig die Frage auf, wie man die vorliegenden Daten durch eine geeignete Größe repräsentieren

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

Statistik I für Humanund Sozialwissenschaften

Statistik I für Humanund Sozialwissenschaften Statistik I für Humanund Sozialwissenschaften 1 Übung Lösungsvorschlag Gruppenübung G 1 Auf einer Touristeninsel in der Karibik wurden in den letzten beiden Juliwochen morgens zur gleichen Zeit die folgenden

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52 Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012 Statistik SS 2012 Deskriptive Statistik Bernhard Spangl 1 1 Institut für angewandte Statistik und EDV Universität für Bodenkultur March 1, 2012 B. Spangl (Universität für Bodenkultur) Statistik SS 2012

Mehr

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: . Einführung und statistische Grundbegriffe Beispiele aus dem täglichen Leben Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik: Quantitative Information Graphische oder tabellarische

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.)

Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Dr. Reinhard Vonthein, Dipl. Statistiker (Univ.) Reinhard.Vonthein@imbs.uni-luebeck.de Institut für Medizinische Biometrie und Statistik Universität zu Lübeck / Universitätsklinikums Schleswig-Holstein

Mehr

Grundlagen der empirischen Sozialforschung

Grundlagen der empirischen Sozialforschung Grundlagen der empirischen Sozialforschung Sitzung 10 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 22. Dezember 2008 1 / 21 Online-Materialien Die Materialien

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 3 1 Inhalt der heutigen Übung Vorrechnen der Hausübung B.7 Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben C.1: Häufigkeitsverteilung C.2: Tukey

Mehr

Statistik für Ingenieure Vorlesung 3

Statistik für Ingenieure Vorlesung 3 Statistik für Ingenieure Vorlesung 3 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 14. November 2017 3. Zufallsgrößen 3.1 Zufallsgrößen und ihre Verteilung Häufig sind

Mehr

Streuungsmaße von Stichproben

Streuungsmaße von Stichproben Streuungsmaße von Stichproben S P A N N W E I T E, V A R I A N Z, S T A N D A R D A B W E I C H U N G, Q U A R T I L E, K O V A R I A N Z, K O R R E L A T I O N S K O E F F I Z I E N T Zentrale Methodenlehre,

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen.

Der Modus ist. Der Median ist. 3. Übung. Aufgabe 1. a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen. 3. Übung Aufgabe 1 Der Modus ist a) der häufigste Wert. b) der Wert unter dem 50 % aller anderen Werte liegen. c) der Durchschnitt aller Werte. d) der Wert mit der größten Häufigkeitsdichte. e) der Schwerpunkt

Mehr

Das harmonische Mittel

Das harmonische Mittel Das harmonische Mittel x H := 1 1 n n 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t 1 t Beispiel: x 1,..., x n Geschwindigkeiten, mit denen konstante Wegstrecken l zurückgelegt

Mehr

2 Häufigkeitsverteilungen

2 Häufigkeitsverteilungen 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation An n Einheiten ω 1,,ω n sei das Merkmal X beobachtet worden x 1 = X(ω 1 ),,x n = X(ω n ) Also

Mehr

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011 Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011 Aufgabenstellung und Ergebnisse Dr. Martin Becker Hinweise für die Klausurteilnehmer

Mehr

Prüfung aus Statistik 1 für SoziologInnen

Prüfung aus Statistik 1 für SoziologInnen Prüfung aus Statistik 1 für SoziologInnen 27. Juni 2009 Nachname: Vorname: Matrikelnummer: Studienkennzahl: Beispiel 1: (6 Punkte) a) Wie viel Prozent der Beobachtungen liegen beim Box-Plot außerhalb der

Mehr

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km):

Aufgabe 3 Bei 16 PKWs desselben Typs wurde der Benzinverbrauch pro 100 km gemessen. Dabei ergab sich die folgende Urliste (in Liter pro 100km): Mathematik II für Naturwissenschaften Dr. Christine Zehrt 21.02.19 Übung 1 (für Pharma/Geo/Bio/Stat) Uni Basel Besprechung der Lösungen: 26./27. Februar 2019 in den Übungsstunden Bestimmen Sie zu den folgenden

Mehr

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung

Mehr

Beschreibende Statistik Eindimensionale Daten

Beschreibende Statistik Eindimensionale Daten Mathematik II für Biologen 16. April 2008 Stichproben Geordnete Stichprobe Rang Maße für die mittlere Lage der Daten Robustheit Quantile Maße für die Streuung der Daten Erkennung potentieller Eindimensionales

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter

Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter Deskriptive Statistik Kapitel VI - Lage- und Streuungsparameter Georg Bol bol@statistik.uni-karlsruhe.de Markus Höchstötter, hoechstoetter@statistik.uni-karlsruhe.de Agenda 1. Ziele 2. Lageparameter 3.

Mehr

Lagemasse und Streuung

Lagemasse und Streuung Lagemasse und Streuung Benjamin Schlegel 07. März 2016 Lagemasse sagen etwas über die Lage und das Zentrum der Daten aus, Streuungsmasse, wie die Daten um dieses Zentrum gestreut sind. Lagemasse Lagemasse

Mehr

Kapitel VII - Konzentration von Merkmalswerten

Kapitel VII - Konzentration von Merkmalswerten Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VII - Konzentration von Merkmalswerten Deskriptive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc

Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durc SS 2017 Torsten Schreiber 222 Diese Lücken sollten nicht auch bei Ihnen vorhanden sein: Aufgrund einer statistischen Untersuchung entsteht eine geordnete bzw. ungeordnete, die durch Summierung je Ausprägung

Mehr

Kapitel 1 Beschreibende Statistik

Kapitel 1 Beschreibende Statistik Beispiel 1.25: fiktive Aktienkurse Zeitpunkt i 0 1 2 Aktienkurs x i 100 160 100 Frage: Wie hoch ist die durchschnittliche Wachstumsrate? Dr. Karsten Webel 53 Beispiel 1.25: fiktive Aktienkurse (Fortsetzung)

Mehr

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11. Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Wintersemester 2010/11 Namensschild Dr. Martin Becker Hinweise für die Klausurteilnehmer

Mehr

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011.

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011. Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Deskriptive Statistik und Wahrscheinlichkeitsrechnung Sommersemester 2011 Namensschild Dr. Martin Becker Hinweise für die Klausurteilnehmer ˆ

Mehr

5.4 Verteilungsfunktion Verteilungsfunktion diskreten Zufallsvariablen stetigen Zufallsvariablen Verteilungsfunktion

5.4 Verteilungsfunktion Verteilungsfunktion diskreten Zufallsvariablen stetigen Zufallsvariablen Verteilungsfunktion 5. Verteilungsfunktion Die Verteilungsfunktion gibt an welche Wahrscheinlichkeit sich bis zu einem bestimmten Wert der Zufallsvarialben X kumuliert Die Verteilungsfunktion F() gibt an, wie groß die die

Mehr

5 Exkurs: Deskriptive Statistik

5 Exkurs: Deskriptive Statistik 5 EXKURS: DESKRIPTIVE STATISTIK 6 5 Ekurs: Deskriptive Statistik Wir wollen zuletzt noch kurz auf die deskriptive Statistik eingehen. In der Statistik betrachtet man für eine natürliche Zahl n N eine Stichprobe

Mehr

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative

Mehr

2. Statistisches Rüstzeug

2. Statistisches Rüstzeug 03. JULI 006: BLATT 9. Statistisches Rüstzeug.1. Grundbegriffe der Statistik Grundgesamtheit (a. Population Menge aller statistischen Einheiten, über die man Aussagen gewinnen will. In der Computerlinguistik

Mehr

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik INSTITUT FÜR STOCHASTIK WS 2007/08 UNIVERSITÄT KARLSRUHE Blatt 1 Dr. B. Klar Übungen zur Vorlesung Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik Musterlösungen

Mehr

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung Datenstrukturen Datenstrukturen Querschnitt Panel Zeitreihe 2 Querschnittsdaten Stichprobe von enthält mehreren Individuen (Personen, Haushalte, Firmen, Länder, etc.) einmalig beobachtet zu einem Zeitpunkt

Mehr