Lösungen zur deskriptiven Statistik

Ähnliche Dokumente
Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

5 Zusammenhangsmaße, Korrelation und Regression

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Veranstaltung Statistik (BWL) an der FH Frankfurt/Main im WS 2004/05 (Dr. Faik) Klausur GRUPPE A - BEARBEITER/IN (NAME, VORNAME):

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Statistik I für Wirtschaftswissenschaftler Klausur am ,

Statistik I für Betriebswirte Vorlesung 2

Teil II: Einführung in die Statistik

Felix Klug SS Tutorium Deskriptive Statistik

Fachhochschule Düsseldorf Wintersemester 2008/09

Expertenrunde Gruppe 1: Wiederholungsgruppe EXCEL (Datenerfassung, Darstellungsformen, Verwertung)

Datenanalyse mit Excel. Wintersemester 2013/14

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Einführung in statistische Analysen

Herzlich Willkommen zur Vorlesung Statistik

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Einfache statistische Auswertungen mit dem Programm SPSS

Klausur: Einführung in die Statistik

Probematura Mathematik

Klausur Wirtschaftsmathematik Lösungshinweise

9. Schätzen und Testen bei unbekannter Varianz

Tutorial: Homogenitätstest

Modul 14 (BA Bw) bzw. Modul 3 (BA IB) bzw. Modul 4 (BA IBM): Wirtschaftsstatistik Teil 1: Beschreibende Statistik

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

2. Eindimensionale (univariate) Datenanalyse

Standardisierte kompetenzorientierte schriftliche Reifeprüfung. Mathematik. Probeklausur März Teil-1-Aufgaben

Statistik und Wahrscheinlichkeitsrechnung

Prof. Dr. P. von der Lippe Statistik I NK SS 2002 Seite 1

Quadratwurzel. Wie lassen sich die Zahlen auf dem oberen und unteren Notizzettel einander sinnvoll zuordnen?

Klausur Statistik Lösungshinweise

Unterlagen zum Tutorium der Lehrveranstaltung. MATHEMATIK für NATURWISSENSCHAFTEN (STATISTIK) Christoph Huber FB Mathematik der Universität Salzburg

Teil II. Nichtlineare Optimierung

Statistische Auswertung der Daten von Blatt 13

Einfache Statistiken in Excel

Abitur - Grundkurs Mathematik. Sachsen-Anhalt Gebiet G1 - Analysis

Statistik I für Wirtschaftswissenschaftler Klausur am ,

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

5.1 Drei wichtige Beweistechniken Erklärungen zu den Beweistechniken... 56

Eignungstest Mathematik

Korrelation (II) Korrelation und Kausalität

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Weitere Aufgaben Mathematik (BLF, Abitur) Hinweise und Beispiele zu hilfsmittelfreien Aufgaben

Ministerium für Bildung und Wissenschaft des Landes Schleswig-Holstein. Zentrale Abschlussarbeit Realschulabschluss

MATHEMATIKLEHRPLAN 4. SCHULJAHR SEKUNDARSTUFE

1 Verteilungen und ihre Darstellung

UNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG

DIA Ausgewählte Trends August Klaus Morgenstern, Deutsches Institut für Altersvorsorge, Berlin Bettina Schneiderhan, YouGov Deutschland, Köln

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

STUDIERENDENMONITORING

Analyse klassierter Daten: Vor der Analyse fasst man jeweils mehrere Merkmalsausprägungen in (Merkmalswerte-)Klassen zusammen.

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Grundkurs Mathematik

1 Darstellen von Daten

Willkommen zur Vorlesung Statistik (Master)

einfache Rendite

THÜRINGER KULTUSMINISTERIUM

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Dokumentation. estat Version 2.0

Lernen an Stationen Thema: Flächenberechnung

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/

ZUSAMMENFASSUNG...I VORWORT...II INHALTSÜBERSICHT... IV INHALTSVERZEICHNIS... VI ABBILDUNGSVERZEICHNIS... IX TABELLENVERZEICHNIS...

Gefahrene km Anzahl der. eine Summenlinie beziehungsweise Summentreppe zur graphischen Darstellung einer Häufigkeitsverteilung geeignet? 3.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Analyse bivariater Kontingenztafeln

Varianzanalyse ANOVA

Eine computergestützte Einführung mit

MINT-Circle-Schülerakademie

Schätzung des Lifetime Values von Spendern mit Hilfe der Überlebensanalyse

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Angewandte Mathematik

Kommentierter SPSS-Ausdruck zur logistischen Regression

25 kann ohne Rest durch 5 geteilt werden! ist wahr

Kontingenzkoeffizient (nach Pearson)

Informationssicherheit - Lösung Blatt 2

Mathematik. Vom Bachelorabschluss in der Regel direkt ins Masterstudium

4. Erstellen von Klassen

Vorlesung Dokumentation und Datenbanken Klausur

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Mathematik I Prüfung für den Übertritt aus der 9. Klasse

Diskriminanzanalyse Beispiel

Der Einfluß von Existenzgründerseminaren

Zusammenhänge zwischen metrischen Merkmalen

Fortgeschrittene Statistik Logistische Regression

Linearer Zusammenhang von Datenreihen

Schriftliche Prüfungsarbeit zum mittleren Schulabschluss 2010 im Fach Mathematik. 26. Mai 2010

Bearbeitungshinweise. (20 Punkte)

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Aufgaben zur Flächenberechnung mit der Integralrechung

Maristengymnasium Fürstenzell zuletzt geändert am Aufgaben zur Kombinatorik (mit Lösungen)

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

2 Lineare Gleichungen mit zwei Variablen

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

1. Allgemeine Hinweise

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Transkript:

Lösungen zur deskriptiven Statistik Aufgabe 1. Bei einer Stichprobe von n = Studenten wurden folgende jährliche Ausgaben (in e) für Urlaubszwecke ermittelt. 1 58 5 35 6 8 1 6 55 4 47 56 48 1 6 115 8 5 65 Erstellen Sie hieraus ein Histogramm. Verwenden die Klassengrenzen, 3, 5, 7 und 1, sowie, 3, 6, 9 und 1. Lösung. Wir konstruieren zunächst das Histogramm mit den Klassengrenzen [, 3), [3, 5), [5, 7), [7, 1). Dieses würde man naiv wie folgt zeichnen, siehe linkes Histogramm. 8 1 3 Häufigkeit 6 4 rel. Häufigkeit 1.5 1.5 3 5 7 1, 3 5 7 1, Allerdings ist dieses Histogramm verfälscht, da die Klassenbreiten nicht konstant sind. Hier muss also normiert werden. Dazu sollen die Flächeninhalte der Rechtecke gerade die entsprechende relative Häufigkeit ergeben. Für das erste Intervall [, 3) haben wir eine relative Häufigkeit von 3/. Damit ergibt sich eine Rechteckshöhe von 1/, denn 3 (1/) = 3/. Analog berechnen wir die Höhen der restlichen Rechtecke. Wir erhalten das rechte Histogramm in obiger Abildung. Bei den Klassengrenzen [, 3), [3, 6), [6, 9), [9, 1) muss nicht normiert werden, da alle die gleiche Intervalllänge besitzen. Wir erhalten die folgenden Histogramme. 8.4 Häufigkeit 6 4 rel. Häufigkeit.3..1 3 6 9 1, 3 6 9 1,

Aufgabe. In einem Unternehmen wird auf Grund vorhandener Belege festgestellt, dass der Hauplieferant für die letzten n = 5 Bestellungen folgende Lieferzeiten (in Tagen) benötigt hatte: 4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 5 4 7 5 (a) Geben Sie tabellarisch die absolute und relative Häufigkeit der Lieferzeit an. (b) Geben Sie weiterhin die absolute und relative kommulierte Häufigkeitsverteilung an. (c) In wie vielen Fällen beträgt die Lieferzeit höchstens 5 Tage? In wie viel Prozent der Fälle beträgt die Lieferzeit mehr als 3 Tage. Lösung. Absolute und relative Häufigkeiten: Lieferzeit a j 1 3 4 5 6 7 abs. H. h(a j ) 1 1 1 17 9 8 rel. H. f(a j ) 1/5 1/5 /5 1/5 17/5 9/5 8/5 Für die absolute kommulierte Häufigkeitsverteilung H(x) und die relative kommulierte Häufigkeitsverteilung F (x) erhalten wir für x < 1 für x < 1 1 für 1 x < für x < 3 4 für 3 x < 4 H(x) = 16 für 4 x < 5 33 für 5 x < 6 4 für 6 x < 7 5 für 7 x 1/5 für 1 x < /5 für x < 3 4/5 für 3 x < 4 und F (x) =. 16/5 für 4 x < 5 33/5 für 5 x < 6 4/5 für 6 x < 7 5/5 für 7 x In 33 Fällen beträgt die Lieferzeit höchstens 5 Tage. In 1 F (3) = 1 4/5 = 9 % der Fälle beträgt die Lieferzeit mehr als 3 Tage.

Aufgabe 3. (a) Berechnen Sie zu den Daten aus Aufgabe das arithmetische Mittel, den Median, die mittlere quadratische Abweichung und die Standardabweichung. (b) Durch einen Schreibfehler sei als letzter Wert statt 5 der Wert 5 eingetragen worden. Wie wirkt sich dieser Fehler auf das arithmetische Mittel und den Median aus. Lösung. Der Median ist 5 und für den rest errechnen wir (mit n = 5) x = 1 n x i = 5.4 s = 1 n 1 arithmetisches Mittel (x i x) = 1.75 (korrigierte) Stichprobenvarianz s = s = 1.3 Standartabweichung Wenn der letze Wert 5 anstatt 5 ist erhalten wir immernoch als Median 5, jedoch x = 1 n x i = 5.94 s = 1 n 1 arithmetisches Mittel (x i x) = 4.18 (korrigierte) Stichprobenvarianz s = s = 6.49 Standartabweichung

Aufgabe 4. Die Umsätze von 6 Unternehmen der Automobilbranche sind der folgenden Tabelle zu entnehmen: Unternehmen 1 3 4 5 6 Umsatz in Mio e 5 5 5 1 3 (a) Skizzieren Sie die Lorenzkurve. Bestimmen Sie wieviel Umsatz sich auf /3 der Unternehmen konzentriert. (b) Erklären Sie die Idee des (normierten) Gini-Koeffizienten und berechnen Sie diesen. (c) In welcher Weise müssen die Umsätze verteilt sein, damit der Gini-Koeffizient den Wert Null annimmt? Lösung. Zunächst berechnen wir die Koordinaten der Lorenzkurve. Die Lorenzkurve sieht also wie folgt aus. k 1 3 4 5 6 u k 1/6 /6 3/6 4/6 5/6 6/6 v k.4.1..3.5 1. 1 kumm. proz. Marktanteil 8 6 4 4 6 8 1 kumm. proz. Anteil der Unternehmen Der Verlauf der Lorenzkurve beschreibt die Gleichmäßigkeit der Verteilung der Daten (hier Umsätze). Ist die eingeschlossene Fläche (mit der Diagonalen) groß, sind die Daten sehr ungleichmäßig verteilt. Umgekehrt, ist die Fläche sehr klein, hat jedes Unternehmen etwa den gleichen Anteil am Gesamtumsatz. a Der Anteil dieser Fläche am Dreieck durch die Punkte (, ), (, 1) und (1, 1), ist daher ein Maß für die (Un-)Gleichverteilung der Daten. Diesen Anteil nennt man den Gini- Koeffizient G Für den Gini-Koeffizienten und den normierten Gini-Koeffizienten erhalten wir G = 6 ix i (n + 1) n x i n n x i =.7 und G = n n 1 G =.8. Der Gini-Koeffizient wird Null, falls die Umsätze gleichverteilt auf die Unternehmen sind.

Aufgabe 5 (Bravais-Pearson Korrelationskoeffizient). Wir befragen n = 1 Personen zu ihrer Schuhgröße und ihrem monatlichem Einkommen (in e). Die Daten sind in folgender Tabelle zusammengefasst. Schuhgröße 37 38 39 4 41 4 43 44 45 46 Einkommen 1 13 135 15 15 145 13 155 15 16 Skizzieren Sie das zugehörige Streudiagramm. Berechnen Sie einen geeigneten Korrelationskoeffizienten. Interpretieren Sie das Ergebnis hinsichtlich Korrelation und Kausalität. Lösung. Zunächst das Streudiagramm: 1,6 Einkommen 1,5 1,4 1,3 1, 38 4 4 44 46 Schuhgröße Für den Bravais-Pearson-Korrelationskoeffizienten erhalten wird n r = (x i x)(y i y) n (x i x) n (y i y) =.83633. Es liegt also eine stark positive Korrelation vor. Wir sehen also einen Zusammenhang zwischen den beiden Variablen, der auch tatsächlich vorhanden ist, und durch den Korrelationskoeffizienten berechnet werden kann. Es wäre jetzt aber falsch, deswegen auch auf eine Auswirkung von einer der beiden Variablen auf die andere zu schließen. Eine Korrelation (oder einen Zusammenhang) formuliert man so: Menschen mit größerer Schuhgröße haben tendenziell ein höheres Einkommen. Eine Kausalität würde aber so formuliert werden: Die Schuhgröße hat einen Einfluss auf das Nettoeinkommen. Wenn der zweite Satz stimmen würde, dann könnte man sich morgen Schuhe der Größe 65 kaufen, und bekäme deswegen eine saftige Gehaltserhöhung. Das macht natürlich keinen Sinn. Auch umgekehrt wäre eine Kausalität sinnlos, denn dann hätte das Einkommen eine Auswirkung auf die Schuhgröße. Wenn ich also eine Gehaltserhöhung bekäme, würden deswegen meine Füße wachsen. Eine Korrelation zwischen zwei Merkmalen X und Y bedeutet also noch nicht, dass Y ein Verursacher von X ist (oder X ein Verursacher von Y ). Dieses Phänomen nennt man Scheinkorrelation. Was allerdings hier wahr ist: Wenn man zwei Menschen mit unbekanntem Einkommen auf einem Blatt Papier stehen hat, und einer eine viel größere Schuhgröße hat, erwarten wir von dieser Person ein höheres Einkommen als von der anderen.

Aufgabe 6 (Rangkorrelationskoeffizient). Zehn Studenten der Uni Bonn erzielen folgende Ergebnisse in ihrer Statistik- und in ihrer VWL-Klausur: Student Statistik-Note VWL-Note 1 sehr gut befriedigend gut ausreichend 3 befriedigend gut 4 mangelhaft ausreichend 5 mangelhaft befriedigend 6 ausreichend ausreichend 7 mangelhaft ausreichend 8 gut gut 9 gut mangelhaft 1 befriedigend befriedigend Gib in einer einzigen Kennzahl an, wie stark die Noten zusammenhängen. Lösung. Zunächst ordnen wir den Daten Ränge zu. Bei gleichen Rängen wird der mittlere Rang gebildet. Die Studenten wurden so sortiert, dass der Rang der Statistik-Note aufsteigend ist. Student i Statistik-Note R i VWL-Note R i 1 sehr gut 1 befriedigend 4 gut 3 ausreichend 7.5 8 gut 3 gut 1.5 9 gut 3 mangelhaft 1 3 befriedigend 5.5 gut 1.5 1 befriedigend 5.5 befriedigend 4 6 ausreichend 7 ausreichend 7.5 4 mangelhaft 9 ausreichend 7.5 5 mangelhaft 9 befriedigend 4 7 mangelhaft 9 ausreichend 7.5 Der Rangkorrelationskoeffizient berechnet sich nun zu r sp = 1 6 1 (R i R i) (1 1)1(1 + 1) = 1 771 99 =.. Es gibt also eine fehlende Korrelation zwischen den beiden Merkmalen.

Aufgabe 7. Folgende Kontingenztabelle sei gegeben. Sie zeigt wie bei Studenten die Variablen überwiegende Finanzierung des Studiums und Studienfach zusammenhängen. Psych. Jura Wirt. Päd. Math. Rand Bafög 5 7 11 4 3 5 elterl.geld 1 1 6 1 31 Jobs 8 6 15 3 4 36 Beruf 14 1 9 37 Rand 39 5 4 38 1 154 (a) Errechnetn Sie die Randhäufigkeiten (b) Berechnen Sie die bedingte Verteilung der Studiengänge der Elterngeldempfänger. (c) Berechnen Sie den Kontingenzkoeffizienten. Lösung. Die Randhaufigkeiten werden in der Tabelle eingetragen. Die bedingte Verteilung der Studiengänge der Elterngeldempfänger ist in der folgenden Tabelle zusammenefasst. Studiengang Psych. Jura Wirt. Päd. Math. h j /h 1/31 1/31 6/31 /31 1/31 Um den Kontingenzkoeffizienten zu berechnen, errechnen wir zunächst die aus der Unabhängigkeitsprämisse resultierenden Häufigkeiten h ij und fassen die Ergebnisse in einer Tabelle zusammen. h ij Psych. Jura Wirt. Päd. Math. Bafög 1.66 8.1 13.64 1.34 3.5 elterl.geld 7.85 5.3 8.45 7.65.1 Jobs 9.1 5.84 9.8 8.88.34 Beruf 9.37 6.1 1.9 9.13.4 Für die als χ bezeinete Größe erhalten wir χ = 4 5 j=1 (h ij h ij ) h ij =.45. Der Kontingenzkoeffizient und der normierte Kontingenzkoeffizient ergeben sich nun zu χ K = 154 + χ =.54, K max = 4 14 =.866, K = K =.6. K max