ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Ähnliche Dokumente
Bitte am PC mit Windows anmelden!

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Deskriptive Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Sommersemester Marktforschung

Statistik und Wahrscheinlichkeitsrechnung

W-Seminar: Versuche mit und am Menschen 2017/2019 Skript

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Hypothesentests mit SPSS

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Statistik und Wahrscheinlichkeitsrechnung

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

VS PLUS

Verfahren für metrische Variable

3. Lektion: Deskriptive Statistik

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Statistik II: Grundlagen und Definitionen der Statistik

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Klausurvorbereitung - Statistik

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Lagemasse und Streuung

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Statistik und Wahrscheinlichkeitsrechnung

Die erhobenen Daten werden zunächst in einer Urliste angeschrieben. Daraus ermittelt man:

Skalenniveaus =,!=, >, <, +, -

Lage- und Streuungsparameter

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Parametrische vs. Non-Parametrische Testverfahren

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Ü B U N G S S K R I P T S T A T I S T I K

Grundlagen der empirischen Sozialforschung

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Statistische Grundlagen I

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Kapitel 1: Deskriptive Statistik

Der Mittelwert (arithmetisches Mittel)

5 Exkurs: Deskriptive Statistik

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Tutorium Mathematik in der gymnasialen Oberstufe 1. Veranstaltung: Beschreibende Statistik 19. Oktober 2016

Datenstrukturen. Querschnitt. Grösche: Empirische Wirtschaftsforschung

Datenanalyse Klausur SS 2014 (nicht wortwörtlich) Lösung (aus einer Nachbesprechung mit Elsenbeer)

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Teil: lineare Regression

Diagnostik von Regressionsmodellen (1)

Statistik. Jan Müller

Statistik I. Übungklausur. Prof. Dr. H. Toutenburg

Informationen zur KLAUSUR am

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Statistik für Betriebswirte I 1. Klausur Wintersemester 2014/

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable.

Prof, Dr. Jens Luedtke SoSe Klausur Einführung in die angewandte Statistik für Sozialwissenschaftler/innen. Name Vorname..

Inhalt. Vorwort Univariate Verteilungen Verteilungen Die Normalverteilung... 47

Stichwortverzeichnis. Symbole

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Angewandte Statistik 3. Semester

Deskriptive Statistik Erläuterungen

Streuungsmaße von Stichproben

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Auswertung und Darstellung wissenschaftlicher Daten (1)

Lösungen. w58r4p Lösungen. w58r4p. Name: Klasse: Datum:

Mathematische und statistische Methoden I

Aufgabe 1. Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler

Wiederholung. Statistik I. Sommersemester 2009

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistik K urs SS 2004

Name Vorname Matrikelnummer Unterschrift

Gegen ist das Geschlecht y mit y = 1 für Männer und der Rohwert aus einem Intelligenztest

Der Korrelationskoezient nach Pearson

Deskriptive Statistik Winfried Zinn

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Fachrechnen für Tierpfleger

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Statistik in R Block 1: April 1

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Grundlagen der Datenanalyse anhand praktischer Beispiele

Transkript:

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE 1.1 Füllen Sie bitte folgenden Lückentext aus. Daten, die in Untersuchungen erhoben werden, muss man grundsätzlich nach ihrem unterscheiden. Denn in Abhängigkeit von dessen Art eröffnen sich unterschiedliche Möglichkeiten der der Daten. Die einfachste Art, Daten darzustellen, ist die Angabe von und. Damit kann man zahlreiche Datenpunkte effizient und auf einen Blick darstellen. Diese Form der Darstellung eignet sich allerdings nur bei Daten. Daten auf und sind jedoch zu differenziert, um sie mit Anteilen und Häufigkeiten sinnvoll zusammenfassen zu können. Anteile und Häufigkeiten lassen sich in Form von und anschaulich darstellen. 1.2 Ein Bezirk wird lediglich von zehn Personen bewohnt. Fünf dieser Personen haben ein Monatseinkommen von je 2500, die fünf übrigen Personen haben ein Monatseinkommen von 2600 bzw. 2700 bzw. 2800 bzw. 2900 bzw. 3000. In dem Bezirk lässt sich eine weitere Person nieder, deren Monatseinkommen 100.000 beträgt: a) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000 b) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000, 100000 Welche Auswirkungen ergeben sich dadurch bezüglich des Modus, des Medians und des arithmetischen Mittels der Monatseinkommen aller Bewohner des Bezirks? Berechnen Sie zunächst jeweils die Lagemaße und vervollständigen Sie anschließend die beiden folgenden Aussagen. Modus und Median sind gegenüber dem Ausreißer von 100000 relativ, wodurch sie für die Stichprobe weiterhin repräsentative Lagemaße darstellen. Das arithmetische Mittel wird stark in Richtung des Ausreißers, sodass eine repräsentative Aussage für die Stichprobe nicht mehr möglich ist. 1.3 Welche der Aussagen über die Anwendung von Streuungsmaßen ist richtig? a) Range und Interquartilsabstand verwendet man bei Ordinaldaten, Varianz und Standardabweichung hingegen bei metrischen Daten b) Varianz und Standardabweichung verwendet man bei Ordinaldaten, Range und Interquartilsabstand hingegen bei metrischen Daten 1.4 Was sind Lagemaße? Wozu gibt man zusätzlich Streuungsmaße an? Vervollständigen Sie dazu bitte den Lückentext. Zentrale Lagemaße geben uns Auskunft über den Wert einer Verteilung von Stichprobendaten. Maße der zentralen Lage sind der, der und der. Diese Maße spiegeln zwar den Schwerpunkt der wieder, sie geben jedoch keine Auskunft über die Variation der. Um dieses Problem zu lösen, verwenden wir zusätzlich Streuungsmaße wie,, und. Durch sie

erfahren wir, wie breit sich die Einzelwerte verteilen und wie die Maße der zentralen Tendenz für die Verteilung sind. 1.5 Wir gehen von folgendem Zusammenhang aus: Das Geschlecht hat einen Einfluss auf die Körpergröße eines Menschen, das heißt Männer sind größer als Frauen. Wenn wir eine repräsentative Stichprobe von Erwachsenen ziehen und deren Körpergröße erfassen, werden wir viele verschiedene Ausprägungen der Körpergröße erhalten. Wir werden jedoch feststellen, dass weder alle Frauen noch alle Männer gleich groß sind, sondern dass sich die Werte jeweils um den Mittelwert der Frauen und um den Mittelwert der Männer verteilen. Wir werden weiterhin feststellen, dass die Verteilung der Körpergrößen der Frauen die Verteilung der Körpergrößen der Männer überlappt, insgesamt jedoch nach links verschoben ist. Ordnen sie den beschriebenen Sachverhalten die Begriffe Fehlervarianz, systematische Varianz und Gesamtvarianz zu. die gemessenen Körpergrößen aller Personen in der Stichprobe Fehlervarianz Verteilung aller Personen eines Geschlechts um den jeweiligen Mittelwert systematische Varianz Die durch das Geschlecht hervorgerufene unterschiedliche Lage der Verteilungen Gesamtvarianz 1.6 Ordnen Sie bitte den verschiedenen Verteilungen die richtige Bezeichnung zu. Verteilung 1 Verteilung 2 Verteilung 3 Verteilung 4 links-schief und unimodal bimodal rechts-schief und unimodal multimodal

1.7 Maria ist 174 cm groß (der Mittelwert der Frauen betrage 165 cm und die Standardabweichung 8 cm). Tom ist 188 cm groß (der Mittelwert der Männer betrage 178 cm und die Standardabweichung 10 cm). Wir wollen herausfinden, wer von beiden relativ zu seiner Gesamtpopulation (also Frauen und Männer) am größten ist. Es geht nicht darum, die beiden Körpergrößen zu vergleichen, sondern darum, die Körpergrößen in Relation zum jeweiligen Durchschnitt zu setzen und dieses Verhältnis zu vergleichen. Dazu sollen Sie für beide Werte die entsprechenden z-werte berechnen und diese anschließend vergleichen. 2.1 In einem Konzentrationstest haben zwölf Schüler folgende Punktwerte erreicht: 26, 27, 29, 29, 11, 25, 27, 23, 27, 28, 26, 24 Zeichnen Sie ein Stamm-und-Blatt-Diagramm! Konstruieren Sie ein Box-Plot für diese Werte! 2.2 In der folgenden Tabelle ist die Regierungszeit (in Monaten) der ersten sechs Bundeskanzler der Bundesrepublik Deutschland zu finden. Name Regierungszeit Konrad Adenauer 169 Ludwig Erhard 37 Kurt Georg Kiesinger 35 Willy Brandt 54 Helmut Schmidt 100 Helmut Kohl 193 Erstellen Sie den Boxplot. 2.3 Gegeben sind die folgenden Messungen von Gewicht X (in kg) und Körpergröße Y(in m) bei 7 Personen: i Gewicht X Größe Y 1 2 3 4 5 6 7 76 72 74 59 52 63 80 1,77 1,65 1,83 1,69 1,57 1,72 1,75 a) Bestimmen Sie den Korrelationskoeffizienten zwischen Gewicht und Körpergröße!

b) Würde der Koeffizient größer oder kleiner werden, wenn er aus Gewicht (jetzt in g) und Größe (jetzt in cm) berechnet würde? 2.4 Wie würden Sie ein r = 0,948 interpretieren? 2.5 In einem Versuchsbericht werden folgende Kennwerte mitgeteilt: Prädiktorvariable n 12 x 10 s 2 Kriteriumsvariable n 12 x 40 s 5 cov 4 xy x y Berechnen Sie die Produkt-Moment-Korrelation. Interpretieren Sie! 2.6 Sie haben von 15 studentischen Versuchspersonen den IQ erhoben (X). Außerdem haben Sie alle Probanden gebeten, auf einer Skala von 1 bis 9 einzuschätzen, wie gut ihre Leistung war (Y). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 70 98 85 82 95 75 93 65 90 77 107 104 124 113 117 Y 3 8 5 4 7 1 6 2 9 4 9 7 9 5 6 Sie möchten die Hypothese prüfen, dass Personen sehr gut in der Lage sind, ihre eigene Leistung einzuschätzen. Daher entscheiden Sie sich, die Korrelation zwischen Intelligenztestleistung (X) und selbsteingeschätzter Leistung zu bestimmen. a) Sie haben mit einem Statistikprogramm ein Streudiagramm der Werte erstellt, um zu prüfen, ob eine Korrelation berechnet werden kann. Ist die Berechnung einer Korrelation im vorliegenden Fall zulässig? Warum (nicht)?

b) Welche weitere Voraussetzung muss erfüllt sein, um eine Korrelation berechnen zu können? c) Der Korrelationskoeffizient beträgt.73. Was sagt dieser bezüglich Ihrer Hypothese aus? d) Können Sie auf der Grundlage dieses Ergebnisses Schlüsse über die Ursachen des Zusammenhangs zwischen Leistungseinschätzung und tatsächlicher Leistung ziehen? 2.7 In welchen der Fälle dürfen Sie eine Regression rechnen? 2.8 In einer Untersuchung hat man die Aggressivität von 5 Kindern durch deren Erzieherinnen einschätzen lassen. Zusätzlich hat man erhoben, wie stark diese Kinder von den Spielkameraden abgelehnt wurden. Nun möchten Sie gerne eine Vorhersage der Ablehnungswerte für andere Kinder machen, von denen Sie lediglich die Aggressivität erfasst haben. Kind 1 Kind 2 Kind 3 Kind 4 Kind 5 Arithm. Varianz Mittel Aggressivität 10 5 20 15 1 10,2 46,16 Ablehnung 9 7 10 8 3 7,4 5,84 1. Warum sollten Sie sich zuerst immer einen Überblick im Streudiagramm verschaffen? 2. Welche Variable dient in der Berechnung als Prädiktor und welche als Kriterium? ˆ 3. Die Regressionsgerade lautety 4,34 0, 3X. Sie wollen überprüfen, wie gut die Vorhersagen mit Ihrer Regressionsgleichung sind. Bestimmen Sie für die fünf Kinder aus Ihrer Studie die vorhergesagten Ablehnungswerte und die Residualwerte. Kind 1 Kind 2 Kind 3 Kind 4 Kind 5 vorhergesagte Ablehnungswerte tatsächliche 9 7 10 8 3

Ablehnungswerte Residualwerte (y-ŷ) 4. Welche der Schlussfolgerungen ist gerechtfertigt? a) Das Ausmaß der Aggression ist die Ursache für das Ausmaß der Ablehnung eines Kindes. b) Das Ausmaß der Ablehnung ist die Ursache für das Ausmaß der Aggression. c) Eine dritte Variable ist sowohl Ursache der Aggression als auch Ursache der Ablehnung. d) Keine der Schlussfolgerungen ist gerechtfertigt.

LÖSUNGEN 1.1 Skalenniveau, Darstellung, Anteilen, Häufigkeiten, nominalskalierten, Ordinalskalenniveau, metrischem Skalenniveau, Tabellen, Diagrammen 1.2 Ergebnisse: a) Modus: 2500; Median: 2550; arithmetisches Mittel: 2650 b) Modus: 2500; Median: 2600; arithmetisches Mittel: 11500 Lösung für den Lückentext: robust, verzerrt 1.3 a) ist richtig 1.4 typischen bzw. mittleren, Modus, Median, Mittelwert, Verteilung, Daten, Range, Interquartilsabstand, Varianz, Standardabweichung, typisch 1.5 die gemessenen Körpergrößen aller Fehlervarianz Personen in der Stichprobe Verteilung aller Personen eines Geschlechts um den jeweiligen Mittelwert systemat. Varianz die durch das Geschlecht hervorgerufene unterschiedliche Lage der Verteilungen Gesamtvarianz 1.6 Verteilung 1: bimodal Verteilung 2: rechts-schief und unimodal Verteilung 3: links-schief und unimodal Verteilung 4: multimodal 1.7 z Maria x Maria X s Frauen Frauen 174 165 1,13 8 z Tom x Tom X s Männer Männer 188 178 1,00 10 In Relation zu allen Frauen liegt Maria mit ihrer Körpergröße über dem Durchschnitt. Tom liegt mit seiner Größe ebenfalls über dem Durchschnitt aller Männer. Maria übertrifft den Durchschnitt aller Frauen sogar mehr als Tom den Durchschnitt aller Männer.

2.1 Stamm-und-Blatt-Diagramm: Frequency Stem & Leaf 1,00 1 1 1,00 2 3 2,00 2 45 5,00 2 66777 3,00 2 899 Boxplot: 2.2

2.3 1 n n ( X i X )( Y Y) 0,544 9,42 0,078 i 1 a) r 0, 74 s X s Y i X 68 Y 1, 71 s 9, 42 s 0, 078 X Y b) Der Korrelationskoeffizient würde gleich bleiben, da er unabhängig von der Maßeinheit ist. Der Grund dafür liegt in der Standardisierung des Koeffizienten mithilfe der Division durch die Streuungen beider Variablen. Dadurch nehmen Korrelationskoeffizienten ausschließlich Werte im Bereich von -1 bis 1 an. Ein großer Vorteil dieser Standardisierung ist die Möglichkeit, Korrelationskoeffizienten unterschiedlicher Studien, Studienanordnungen und Fragestellungen miteinander zu vergleichen. 2.4 Es besteht ein fast perfekter (starker) positiver Zusammenhang zwischen den jeweiligen Variablen. Je größer dabei die unabhängige, umso größer die abhängige Variable. cov( x, y) s 4 2 5 2.5 r 0, 4 X s Y Es besteht ein mittlerer bis starker positiver Zusammenhang zwischen Prädiktor- und Kriteriumsvariable. Je größer dabei der Prädiktor, desto größer das Kriterium. 2.6 a) Eine Korrelation kann hier berechnet werden, da der Zusammenhang linear zu sein scheint und weder Ausreißer noch Subgruppen erkennbar sind. b) Die Variablen müssen intervallskaliert sein. c) Es besteht tatsächlich ein recht starker Zusammenhang zwischen Testleistung und Selbsteinschätzung. Die Personen sind also recht gut in der Lage, ihre eigene Leistung einzuschätzen. d) Nein, da Kausalaussagen nur auf der Grundlage einer Korrelation nicht möglich sind. Außerdem trifft die Hypothese keine expliziten Aussagen zur Kausalrichtung oder den verantwortlichen Prozessen. 2.7 Bei B und D liegt ein linearer Zusammenhang vor. Nur hier darf eine Regression berechnet werden!!!! Bei A gibt es einen kurvilinearen Zusammenhang, also keinen linearen Zusammenhang. Bei C gibt es keinen Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der Eindruck. Bei E gibt es keinen Zusammenhang. Bei F gibt es einen Zusammenhang, es existieren jedoch zwei unterschiedliche Sub-Gruppen, die nicht zusammengefasst werden dürfen. Es ist aber möglich, eine Regression für beide Gruppen getrennt zu berechnen. Bei G gibt es keinen Zusammenhang, durch eine Zusammenfassung der beiden unterschiedlichen Sub-Gruppen würde aber fälschlicherweise der Eindruck entstehen. Bei H gibt es keinen Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der Eindruck.

2.8 1. Um festzustellen, dass - es einen linearen Zusammenhang gibt - keine Ausreißer die Berechnungen verzerren würden 2. Die Variable Aggressivität fungiert als Prädiktor, mit Hilfe dessen das Kriterium Ablehnung vorhergesagt werden soll. 3. vorhergesagte Ablehnungswerte tatsächliche Ablehnungswerte Residualwerte (y-ŷ) Kind 1 Kind 2 Kind 3 Kind 4 Kind 5 7,34 5,84 10,34 8,84 4,64 9 7 10 8 3 9-7,34 7-5,84 10-10,34 = 1,66 = 1,16 = -0,34 8-8,84 3 4,64 = -0,84 = -1,64 4. Richtig ist Antwort (d), denn es darf auf der Grundlage eines linearen Zusammenhangs nicht geschlussfolgert werden, dass es einen Kausalzusammenhang gibt. Auch liegen keine Informationen über Alternativerklärungen für den Zusammenhang vor. Es ist nur bekannt, dass die zwei Variablen irgendwie miteinander zusammen hängen. Das erlaubt es zwar, die eine Variable aus der anderen vorherzusagen, aber es erlaubt keine Kausalschlüsse.