Datenanalyse mit Excel. Wintersemester 2013/14

Ähnliche Dokumente
Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Kontingenzkoeffizient (nach Pearson)

Korrelation - Regression. Berghold, IMI

Korrelation (II) Korrelation und Kausalität

Fortgeschrittene Statistik Logistische Regression

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Zusammenhänge zwischen metrischen Merkmalen

Excel Pivot-Tabellen 2010 effektiv

1 Darstellen von Daten

Einfache statistische Auswertungen mit dem Programm SPSS

Excel 2010 Pivot-Tabellen und Datenschnitte

1 Möglichkeiten zur Darstellung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Professionelle Seminare im Bereich MS-Office

So importieren Sie einen KPI mithilfe des Assistenten zum Erstellen einer Scorecard

Statistische Auswertung:

5 Zusammenhangsmaße, Korrelation und Regression

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Kennen, können, beherrschen lernen was gebraucht wird

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Überblick über die Verfahren für Ordinaldaten

Varianzanalyse (ANOVA: analysis of variance)

Quantitative Methoden der Bildungsforschung

Webergänzung zu Kapitel 10

4. Erstellen von Klassen

Pivot-Tabellen und Filter in Excel 2010 professionell einsetzen - Themenspecial. Peter Wies. 1. Ausgabe, 1. Aktualisierung, November 2013 W-EX2010PT

Microsoft Excel-Mappe Dienstplan 5 zur Planung und Abrechnung von Dienstzeiten

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

einfache Rendite

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Einführung in statistische Analysen

Willkommen zur Vorlesung Statistik

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Arbeiten mit dem Blattschutz ab EXCEL XP

Auswertung und Darstellung wissenschaftlicher Daten (1)

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

EINFACHES HAUSHALT- KASSABUCH

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Die drei Kernpunkte der modernen Portfoliotheorie

1. Einführung. 2. Weitere Konten anlegen

Noten ausrechnen mit Excel/Tabellenkalkulation. 1) Individuellen Notenschlüssel/Punkteschlüssel erstellen

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Visio Grundlagen. Linda York. 1. Ausgabe, Oktober 2013

Gimp Kurzanleitung. Offizielle Gimp Seite:

FIS: Projektdaten auf den Internetseiten ausgeben

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Handreichung zu Datenauswertungen im TILL Stand:

Hinweise zum Ausfüllen der Zeiterfassung

QM: Prüfen -1- KN

Kommunikations-Management

Bedingungen. Bedingungen. Bedingungen

Kurzeinführung Excel2App. Version 1.0.0

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

3. GLIEDERUNG. Aufgabe:

Zeichen bei Zahlen entschlüsseln

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Väter in Familienunternehmen Die Ursachenstiftung Oktober 2012

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anleitung zur Verwendung der VVW-Word-Vorlagen

Aufgabe 5 Excel 2013 (Fortgeschrittene)

Anwendungshinweise zur Anwendung der Soziometrie

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

Datenübernahme aus Profi-Cash

Dokumentation. estat Version 2.0

Kleine Einführung in die lineare Regression mit Excel

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Jedes Jahr mehr Zinsen!

Dynamische Segmentierung

6 Zeichnungsableitung

Web2Lead. Konfiguration

Erste Schritte. Lavid-F.I.S. Faktura. Erste Schritte

Fotos in Tobii Communicator verwenden

2. Negative Dualzahlen darstellen

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

EDV-Fortbildung Kombi-Schulung Word-Excel Modul Excel. Informationen zum Programm. Die Programmoberfläche von Excel

Anwendungsbeispiele Buchhaltung

Erstellen von statistischen Auswertungen mit Excel in den Sozialwissenschaften

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Anleitung zum erstellen einer PDF-Datei aus Microsoft Word

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Arbeiten mit Pivot-Tabellen

1.5 Umsatzsteuervoranmeldung

Einfache Varianzanalyse für abhängige

Grundlagen der Datenanalyse am Beispiel von SPSS

Urlaubsregel in David

Inventur. mit Microsoft Dynamics NAV 2013 R2

32.4 Anpassen von Menüs und Symbolleisten 795i

teischl.com Software Design & Services e.u. office@teischl.com

Outlook 2000 Thema - Archivierung

Multicheck Schülerumfrage 2013

Transkript:

Datenanalyse mit Excel 1

KORRELATIONRECHNUNG 2

Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen Variablen aufzudecken und zu quantifizieren. Beispiele: Tabakpreis und Nikotinkonsum, Fertilität und Frauenerwerbsquote, Berufserfahrung und Gehalt Fragen: Besteht eine Beziehung zwischen den zwei interessierenden Variablen? Wie sieht diese Beziehung aus? Wie kann die Beziehung quantifiziert werden? Je nachdem, von welcher Skalenqualität die jeweiligen Untersuchungsvariablen sind, werden unterschiedliche Berechnungsmethoden zu verwenden. 3

Streudiagramm In einem ersten Schritt kann man die beobachteten Wertepaare (x 1, y 1 ) (x 2, y 2 ) (x 3, y 3 ) (x n, y n ) in einem Streudiagramm visualisieren. Ein Streudiagramm ermöglicht die grafische Darstellung eines Zusammenhangs von zwei (zumeist metrischen) Variablen. Der Zusammenhang wird als Punktewolke in einem Koordinatensystem dargestellt. Die Ausprägung einer Variablen A wird auf der x-achse abgetragen und die Ausprägung einer Variablen B auf der y-achse. Das Streudiagramm gibt Hinweise auf die Beziehung der Wertepaare. Grundsätzlich kann die Beziehung klassifiziert werden in: Keine Beziehung: undefinierte Punktewolke. Lineare Beziehung: Punkte formen (grob) eine Linie. Nichtlineare Beziehung: Punkte formen (grob) eine Kurve. Das Streudiagramm erlaubt zudem, Ausreißer zu identifizieren. 4

Streudiagramm 5

Streudiagramm Öffnen Sie die Datei Erwerbsquote_Frauen_Bildungsgrad.xlsx und erstellen Sie ein Streudiagramm. 6

Streudiagramm 7

Korrelationsrechnung bei metrisch skalierten Variablen Zusammenhangsrechnung bei metrisch skalierten Variablen: Geeignet: Berechnung mit dem Korrelationskoeffizient von Bravais/Pearson: r n i 1 n i 1 ( x y) Cov( X, Y) 2 n 2 x x y y Var ( X )* Var ( Y) i i x)( y i i 1 i Excel Funktion Korrel(.) Die Korrelation nimmt Werte zwischen -1 und 1 an. Bei r = +1 liegt ein maximal starker, gleichgerichteter Zusammenhang vor. Dies bedeutet, dass die Punkte (x n, y n ) alle auf einer Geraden liegen. Bei r= -1 liegt ein maximal starker, gegenläufiger Zusammenhang vor. Bei r = 0 liegt kein Zusammenhang vor. Zwischenwerte können entsprechend interpretiert werden. 8

Korrelationsrechnung bei metrisch skalierten Variablen Das Quadrat des Korrelationskoeffizienten von Bravais/Pearson ist der Determinationskoeffizient. Er zeigt den Anteil der Varianz der abhängigen Variablen Y, der durch die Variabilität der unabhängigen Variablen X, unter Nutzung der Annahme des linearen Zusammenhangs zwischen beiden Variablen, statistisch erklärt wird. Achtung: der Korrelationskoeffizient von Bravais/Pearson bemisst die Stärke eines bivariaten Zusammenhangs, von dem implizit vorausgesetzt wird, dass er linear ist! 9

Korrelationsrechnung bei metrisch skalierten Variablen Faustregeln für die Interpretation des Zusammenhangs: Grob: Schwacher Zusammenhang: 0-0.30 Mittlerer Zusammenhang: 0.30-0.70 Starker Zusammenhang: 0.70 1 Detaillierter Sehr geringer Zusammenhang: 0-0.10 Geringer Zusammenhang: 0.10-0.30 Mittlere Zusammenhang: 0.40-0.70 Hoher Zusammenhang: 0.70-0.90 Sehr hoher Zusammenhang: über 0.90 Achtung: keine universell geltenden Regeln!!! =KORREL(B8:B34;C8:C34) =C36^2 10

Korrelationsrechnung Fehlinterpretation: Gefundene Korrelationen müssen mit Vorsicht hinterfragt werden. Eine Scheinkorrelation kann auftreten, weil beide Variable hoch mit einer Dritten korrelieren. Bekanntestes Beispiel: Geburten und Störche. Eine verdeckte Korrelation kann vorkommen, wenn sich die Korrelationen von Subgruppen der Stichprobe gegenseitig neutralisieren. Korrelation und Kausalität: Aus der Kennzahl selbst kann nicht abgelesen werden, was Ursache und was Wirkung ist. Kennzahlen können nur messen, ob die Daten einen statistischen Zusammenhang aufweisen, nicht, ob es auch tatsächlich einen kausalen Zusammenhang gibt! 11

Korrelationsrechnung bei ordinal skalierten Variablen Geeignet: Der Rangkorrelationskoeffizient von Spearman: r SP 6 D 1 3 n n 2 i Berechnung in Excel per Hand. Interpretation des Rangkorrelationskoeffizienten wie schon bei dem Korrelationskoeffizienten von Bravais/Pearson. 12

Korrelationsrechnung bei ordinal skalierten Variablen Die Rangplätze können über die Excel Funktion Rang(.) ermittelt werden. Di=Rx-Ry =SUMME(G3:G11) = 1-6*G12 (8^3-8) n= 8 Schüler 13

Korrelationsrechnung bei nominal skalierten, dichotomen Variablen Für die Zusammenhangsrechnung von zwei nominalen Variablen mit jeweils zwei Ausprägungen ist der Vierfelder-Koeffizient geeignet: S a d b c 1 S2 S3 *S4 14

Korrelationsrechnung bei nominal skalierten, dichotomen Variablen Alternativ: Verwendung des Korrelationskoeffizienten von Bravais/Pearson. Achtung: nur bei zwei dichotomen Variablen. Die Kombination (1,1) kommt insgesamt 2 Mal vor. Die Kombination (0,1) kommt insgesamt 4 Mal vor 15

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen Für die Zusammenhangsrechnung von zwei nominalen, nicht-dichotomen Variablen eignet sich der Kontingenzkoeffizient von Pearson. Für die Berechnung des Kontingenzkoeffizienten werden die Daten zunächst in einer Kreuztabelle (Pivottabelle) dargestellt (kein notwendiger Schritt). Unabhängig von der Berechnung des Kontingenzkoeffizienten eignet sich diese tabellarische Darstellungsform für große Datenmengen. 16

Exkurs: Erstellen einer Pivot Tabelle Eine Pivot-Tabelle ist eine Auswertungstabelle. Dieses Instrument bietet die Möglichkeit, große Datensätze anzuordnen, zusammenzufassen und zu analysieren. Mit Hilfe von Drop-Down Listen können Sie die Tabelle auf die interessierenden Merkmalsausprägungen reduzieren. Öffnen Sie die Datei Wahlen.xlsx. Markieren Sie den Tabellenbereich und gehen Sie auf Einfügen Pivot Tabelle Pivot Table. Wählen Sie für die Ablage der Pivot Tabelle die Option Neues Arbeitsblatt. Drücken Sie auf OK. Ein neues Tabellenblatt mit der Bezeichnung Pivottabelle öffnet sich. Stadt Geschlecht Partei Stimmen Stadt A männlich CDU/CSU 388 Stadt A männlich SPD 325 Stadt A männlich FDP 54 Stadt A männlich Die Grünen 88 Stadt A männlich Sonstige 28 Stadt A weiblich CDU/CSU 419 Stadt A weiblich SPD 311 Stadt A weiblich FDP 62 Stadt A weiblich Die Grünen 98 Stadt A weiblich Sonstige 25 Stadt B männlich CDU/CSU 400 Stadt B männlich SPD 420 Stadt B männlich FDP 40 Stadt B männlich Die Grünen 70 Stadt B männlich Sonstige 25 Stadt B weiblich CDU/CSU 350 Stadt B weiblich SPD 400 Stadt B weiblich FDP 50 Stadt B weiblich Die Grünen 60 Stadt B weiblich Sonstige 30 17

Exkurs: Erstellen einer Pivot Tabelle Ziehen Sie die Variable Stadt in das Feld Bereichsfilter, die Variable Geschlecht in das Feld Spaltenbeschriftung, die Variable Partei in das Feld Zeilenbeschriftung und die Variable Stimmen in das Feld Σ Werte. 18

Exkurs: Erstellen einer Pivot Tabelle Durch die Drop-Down Funktion können Sie relevante Merkmalsausprägungen auswählen. 19

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen Wählen Sie für die Berechnung des Kontingenzkoeffizienten Stadt A aus. Kopieren Sie die Tabelle in ein neues Tabellenblatt und wählen Sie beim Einfügen die Option Werte und Zahlenformate. Zur Berechnung des Kontingenzkoeffizienten wird zunächst die Frage beantwortet, wie viele männliche (weibliche) CDU/CSU- (SPD-, FDP-, die Grünen-, Sonstige) Wähler zu erwarten wären, wenn Unabhängigkeit bestünde. Bspw. Berechnung des Erwartungswert der männlichen CDU/CSU-Wähler: (807*883)/1798=396, 32. Die restlichen Erwartungswerte werden entsprechend berechnet (Berechnung mit absoluten Zellbezügen!). 20

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen = D5*$B$10/$D$10 = D5*$C$10/$D$10 Folgende Argumentation: Je weiter die bei Unabhängigkeit zu erwartenden Werte von denen abweichen, die tatsächlich beobachtet werden, desto weiter ist der Befund von der Unabhängigkeit entfernt bzw. desto stärker hängen die betrachteten Variablen voneinander ab. Das heißt, je größer die Differenzen sind, desto stärker ist der Zusammenhang. 21

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen Um zu verhindern, dass bei der Betrachtung der Differenzen sich positive und negative Differenzen gegenseitig aufheben, werden die Differenzen quadriert. Zusätzlich werden sie durch den jeweiligen Erwartungswert relativiert. =(B5-G5)^2/G5 =(B5-G5)^2/G5 22

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen Die quadrierten, relativen Abweichungen werden aufaddiert und zusammengefasst (hier 2,189). Bei Unabhängigkeit ergibt dieser Wert 0. Der Wert ist umso größer, je weiter die beobachteten von den erwarteten Häufigkeiten entfernt sind. 23

Korrelationsrechnung bei nominal skalierten, nichtdichotomen Variablen Zur Berechnung des Kontingenzkoeffizienten nach Pearson wird die folgende Formel verwendet: C U U n Mit 0,035 besteht hier nur ein sehr geringer Zusammenhang zwischen Geschlecht und bevorzugter Partei. =WURZEL(I17/(I17+1798)) 24

Übung 8 1. Suchen Sie die Daten für die Erwerbstätigkeit von Frauen sowie Daten für die Fertilitätsrate in den EU-Ländern. Berechnen Sie Korrelation. Erstellen Sie eine geeignete Grafik und beschreiben Sie die Grafik in wenigen Sätzen. 25

Viel Erfolg Bei Fragen: j.bossert@wiwipa.uni-saarland.de 26