Assoziation & Korrelation
|
|
- Pamela Brauer
- vor 6 Jahren
- Abrufe
Transkript
1 Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec
2 Einleitung Bei gleichzeitiger Beobachtung von 2 Merkmalen für jeden Merkmalsträger stellt sich auch im Bereich der deskriptiven Statistik die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten zwischen den beiden Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße, im Falle quantitativer Merkmale spricht man von Korrelationsmaßen. Ein Zusammenhangsmaß quantifiziert die Stärke und die Richtung eines Zusammenhangs zweier statistischer Variablen. 2 Statistik 1 - Assoziation & Korrelation
3 Beispiel: Assoziation von Produktkäufen Ausgangspunkt bildet eine Datenbasis von Rechnungsbelegen eines Warenhauses Daraus lassen sich zunächst für 2 Produkte unabhängig voneinander Information über 2 univariate Randverteilungen gewinnen: Produkt A Kauf % kein Kauf % % Produkt B Kauf % kein Kauf % % 3 Statistik 1 - Assoziation & Korrelation
4 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 60% 40% 100% kein Kauf kein Kauf 60% 40% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 42% 28% 70% Kauf 70% 70% 70% kein Kauf 18% 12% 30% kein Kauf 30% 30% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beachte: Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten direkt aus dem Produkt der Randverteilungen! Bei Unabhängigkeit sind die bedingten Wahrscheinlichkeiten gleich der marginalen Wahrscheinlichkeit! 4 Statistik 1 - Assoziation & Korrelation
5 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 60% 40% 100% kein Kauf kein Kauf 60% 40% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 42% 28% 70% Kauf 70% 70% 70% kein Kauf 18% 12% 30% kein Kauf 30% 30% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% P(Kauf von B Kauf von A) = 420/700 = 0,60 P(Kauf von B kein Kauf von A) = 180/300 = 0,60 P(Kauf von B) = 600/1.000 = 0,60 5 Statistik 1 - Assoziation & Korrelation
6 Szenario: Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 79% 21% 100% kein Kauf kein Kauf 17% 83% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 55% 15% 70% Kauf 92% 38% 70% kein Kauf 5% 25% 30% kein Kauf 8% 63% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beispiel: Farbe + Pinsel Bei positiver Assoziation impliziert das Vorliegen einer positiven Merkmalsausprägung (im Beispiel Kauf) bei einem Merkmal, dass auch beim anderen Merkmal mit hoher Wahrscheinlichkeit eine positive Merkmalsausprägung vorliegt. P(Kauf von B Kauf von A) = 550/700 = 0,79 P(Kauf von A Kauf von B) = 550/600 = 0,92 6 Statistik 1 - Assoziation & Korrelation
7 Szenario: Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 51% 49% 100% kein Kauf kein Kauf 80% 20% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 36% 34% 70% Kauf 60% 85% 70% kein Kauf 24% 6% 30% kein Kauf 40% 15% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beispiel: 2 Konkurrenzprodukte verschiedener Markenanbieter Bei negativer Assoziation impliziert das Vorliegen einer positiven Merkmalsausprägung (im Beispiel Kauf) bei einem Merkmal, dass beim anderen Merkmal mit hoher Wahrscheinlichkeit eine negative Merkmalsausprägung (kein Kauf) vorliegt. P(Kauf von B Kauf von A) = 360/700 = 0,51 P(Kauf von B kein Kauf von A) = 240/300 = 0,80 7 Statistik 1 - Assoziation & Korrelation
8 Szenario: Maximale Positive Assoziation zwischen den Produkten Maximale Häufigkeitsmasse auf der Hauptdiagonale Minimale Häufigkeitsmasse auf der Nebendiagonale Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Statistik 1 - Assoziation & Korrelation
9 Szenario: Maximale Negative Assoziation zwischen den Produkten Minimale Häufigkeitsmasse auf der Hauptdiagonale Maximale Häufigkeitsmasse auf der Nebendiagonale Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Statistik 1 - Assoziation & Korrelation
10 Maßzahl für Stärke der Assoziation Wir betrachten 2 binäre Merkmale A und B mit Ausprägungen (A1, A2) und (B1, B2) B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Basis: Verhältnis der Haupt- zur Nebendiagonale Kreuzproduktverhältnis (cpr; cross product ratio) cpr = a*d/(b*c) Wertebereich: 0 bis + Assoziationskoeffizient nach Yule (Q): Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis Statistik 1 - Assoziation & Korrelation
11 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=420*120/(280*180)=1 Q=(1-1)/(1+1)=0 11 Statistik 1 - Assoziation & Korrelation
12 Szenario: Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=250*550/(150*50)=18,33 Q=(18,33-1)/(18,33+1) = 0,90 12 Statistik 1 - Assoziation & Korrelation
13 Szenario: Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=360*60/(340*240)=0,26 Q=(0,26-1)/(0,26+1)=-0,58 13 Statistik 1 - Assoziation & Korrelation
14 Szenario: Maximale Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=600*300/(0*100) + Q=( -1)/( +1)=1 14 Statistik 1 - Assoziation & Korrelation
15 Szenario: Maximale Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=300*0/(300*400)= 0 Q=(0-1)/(0+1)=-1 15 Statistik 1 - Assoziation & Korrelation
16 Cross Product Ratio ~ odds ratio Das Verhältnis von Chance (p) zu Gegenchance (1-p) nennt man odds bzw. Chancenverhältnis odds= p/(1-p) Beispiel: Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch: die Chancen stehen 1 zu 5 Exkurs in die Spieltheorie: Der Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt (Details späteres Kapitel) Im Beispiel Gewinn des fünffachen Einsatzes beim Würfeln einer 6 - sonst Verlust des Einsatzes Langfristig kein Gewinn und kein Verlust 16 Statistik 1 - Assoziation & Korrelation
17 Cross Product Ratio ~ odds ratio B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Die Cross Product Ratio cpr = a*d/(b*c) kann auch als das Verhältnis der Odds (odds-ratio) für zwei unterschiedliche Bedingungen interpretiert werden a a d b b c c d a/b ist das Chancenverhältnis von B1 zu B2 gegeben A1 ist eingetreten c/d ist das Chancenverhältnis von B1 zu B2 gegeben A2 ist eingetreten 17 Statistik 1 - Assoziation & Korrelation
18 Zur Interpretation der Cross Product Ratio D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(d+ zu D- T+) = 0,64/0,36 = 25/14 = 1,78 odds(d+ zu D- T-) = 0,187/0,813= 18/78 = 0,23 odds-ratio = 1,78/0,23 = 7,74 Das Chancenverhältnis (die odds) einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,74 mal so hoch wie bei Vorliegen eines negativen Testbefundes. (25/14)/(18/78)=(25*78)/(14*18)=7,74 18 Statistik 1 - Assoziation & Korrelation
19 Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis der Merkmalausprägung von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis der Merkmalausprägung von Y X (X) ~ Maß für die relative Fehlerreduktion 19 Statistik 1 - Assoziation & Korrelation
20 Beispiel Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! Aufgabenstellung: berechne (x) als Maß für die prädiktive Stärke des Merkmals Y ~ Konfession zur Vorhersage des Merkmals X ~ Wahlabsicht 20 Statistik 1 - Assoziation & Korrelation
21 Prognose-Fehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E0= =1394 SPD FDP Grüne PDS E0 ist der Vorhersagefehler für die Wahlabsicht (X) ohne Kenntnis des Merkmals Konfession Y bei Anwendung jener Regel, die die geringste Fehlerrate aufweist. (Geringste Fehlerrate beim Tippen auf die Modalklasse <häufigste Klasse>!) Ohne Kenntnis der Konfession ist es offensichtlich am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 21 Statistik 1 - Assoziation & Korrelation
22 Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E1=( ) + ( ) + ( ) = 1319 SPD FDP Grüne PDS E1 ist der Vorhersagefehler der Wahlabsicht X bei Kenntnis der Merkmalsausprägung des Merkmals Konfession Y. Bei Kenntnis der Konfession ist es nun am sinnvollsten nur bei den Ausprägungen katholisch und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine sollte man auf SPD tippen. Anwendung der Regel Tippe auf die Modalklasse pro Spalte 22 Statistik 1 - Assoziation & Korrelation
23 Berechnung des Maßes: (X) Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für (X) = (E0-E1)/E0 = 1-E1/E0 (X) = ( )/1394 =1-1319/1394=0,054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit in unserem Datensatz um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = /1308 = 0,084 [siehe nächste Folie] Die Vorhersagegüte der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 23 Statistik 1 - Assoziation & Korrelation
24 Umkehrung der Abhängigkeiten Aufgabenstellung: Vorhersage der Konfessionszugehörigkeit (Y) bei Kenntnis der Wahlabsicht (X) Y) = (E0-E1)/E0 = 1-E1/E0 ( )/1308=0, Statistik 1 - Assoziation & Korrelation
25 Symmetrisierung Ist man nur an der Stärke des Zusammenhangs interessiert (unabhängig von der Richtung), kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: E E E E (X) Im Beispiel ergibt sich: 25 x x y y (Y) x y E0 E0 E E E E x x y y x y E0 E0 ( ) ( ) ,8% Statistik 1 - Assoziation & Korrelation
26 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird die Chi-Quadrat Statistik wie folgt definiert: J I 2 j 1 i 1 observed expected 2 ij expected ij ij Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. 26 Statistik 1 - Assoziation & Korrelation
27 Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 27 Statistik 1 - Assoziation & Korrelation
28 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V Nmin(I 1,J 1) 2 Der Quotient in der Wurzel ist der berechnete Chi-Quadrat Wert, dividiert durch das Produkt aus der Anzahl der Beobachtungen N und dem kleineren Wert von Anzahl der Zeilen (I) minus 1 bzw. Anzahl der Spalten (J) minus 1 28 Statistik 1 - Assoziation & Korrelation
29 Berechnung der erwarteten Häufigkeiten (1) Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU CDU 241,3 307,0 225,6 774 SPD SPD 222,6 283,2 208,1 714 FDP FDP 62,0 78,9 58,0 199 Grüne Grüne 110,7 140,8 103,5 355 PDS PDS 39,3 50,0 36, Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 1,5% 1,9% 15,8% 5,8% PDS 5,8% 5,8% 5,8% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 29 Statistik 1 - Assoziation & Korrelation
30 Berechnung der erwarteten Häufigkeiten (2) Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS *860/2168 = 78,94 N= *632/2168 = 103,49 30 Statistik 1 - Assoziation & Korrelation
31 Berechnung von Cramer s V J I ( ,3)²/241,3=30,4 observed 2 2 ij expectedij Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 N=2.168 n=2168 I=5 J=3 Beobachtete Häufigkeiten j 1 i 1 expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Erwartete Häufigkeiten Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4... starker Zusammenhang 31 Statistik 1 - Assoziation & Korrelation
32 Vierfeldertafel Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 32 Statistik 1 - Assoziation & Korrelation
33 Zusammenhang von 2 metrischen Merkmalen Wir betrachten nun den Fall der Messung des Zusammenhangs von 2 metrischen Variablen. Ziel ist es die Stärke und die Richtung des Zusammenhangs zwischen zwei Variablen X und Y mittels einer statistischen Maßzahl zu quantifizieren. Wir sprechen von einem positiven Zusammenhang, wenn Aussagen der Art: Je größer X desto größer ist auch Y zutreffen Wir sprechen von einem negativen Zusammenhang, wenn Aussagen der Art: Je größer X desto kleiner ist Y zutreffen 33 Statistik 1 - Assoziation & Korrelation
34 Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet s XX 1 n n i 1 n x x x x x x nxx i i 1 n n n 1 1 XY i i i i n i 1 n i 1 s x x y y x y nxy i 1 i i Varianz von X Kovarianz von X und Y 34 Statistik 1 - Assoziation & Korrelation
35 Konzept der Kovarianz y x 35 Statistik 1 - Assoziation & Korrelation
36 Erklärung Jeder Beobachtungspunkt liefert einen Beitrag zur Summe. Grüne Punkte in den Quadranten I und III liefern positive Beiträge Rote Punkte in den Quadranten II und IV liefern negative Beiträge Die Größe des Beitrags entspricht der grau schraffierten Fläche Nachteil: Die Kovarianz ist nicht normiert und kann beliebige Werte aufweisen 36 Statistik 1 - Assoziation & Korrelation
37 Korrelationskoeffizient Der Korrelationskoeffizient nach Pearson ist das wichtigste Maß für den Zusammenhang zwischen zwei metrischen Variablen X und Y und ergibt sich durch die Normierung der Kovarianz. Er ist ein Maß für die lineare Korrelation! Alternative Bezeichnungen für dieses Maß in der Literatur: Produkt-Moment-Korrelation, Bravais-Pearson-Korrelation, Linearer Korrelationskoeffizient 37 Statistik 1 - Assoziation & Korrelation
38 Korrelationskoeffizient r xy Der Korrelationskoeffizient nach Pearson kann durch folgende äquivalente Formeln charakterisiert werden: i i x x y y x x y y cov( XY) corrxy Std. Abw.( X ) Std. Abw.( Y) i n xy x y i i i i 2 2 i i i i i n x x n y y Hinweis: wenn klar ist, um welche Korrelation es sich handelt wird oft auch nur r statt r XY geschrieben. 38 Statistik 1 - Assoziation & Korrelation
39 Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer der beiden Achsen verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 39 Statistik 1 - Assoziation & Korrelation
40 Hohe positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation
41 Hohe negative Korrelation Korrelation Statistik 1 - Assoziation & Korrelation
42 Mittlere positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation
43 Korrelation nahe 0 Korrelation Statistik 1 - Assoziation & Korrelation
44 Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang Relevanz oder besser Signifikanz hängt von der Fallzahl ab (siehe Statistik 2). 44 Statistik 1 - Assoziation & Korrelation
45 Verschiedene Szenarien 45 Statistik 1 - Assoziation & Korrelation
46 Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel r xy n xy i i xi yi 2 2 i i i i 2 2 n x x n y y 46 Statistik 1 - Assoziation & Korrelation
47 Berechnung via Standardisierte Daten Die Korrelation der Originaldaten ist gleich der Kovarianz der standardisierten Daten 47 Statistik 1 - Assoziation & Korrelation
48 Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, dass der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation von nahe Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang 1.0 misst Die Punkte im linken Beispiel haben Korrelation null! Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 48 Statistik 1 - Assoziation & Korrelation
49 Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Kausalität setzt eine Richtung voraus Korrelation kann auch über Drittvariablen entstehen 49 Statistik 1 - Assoziation & Korrelation
50 Simpsons Paradoxon (heterogene Gruppen) 50 Statistik 1 - Assoziation & Korrelation
51 Correlation vs. Causality Empirische Daten zeigen, dass der Verzehr von Speiseeis das Risiko von einem Haifisch attackiert zu werden erhöht! Quelle: Eric Siegel. Predictive Analytics: Delivering on the Promise of Big Data. IBM Government Analytics Forum, May Statistik 1 - Assoziation & Korrelation
52 Scheinkorrelation 52 Statistik 1 - Assoziation & Korrelation
53 Nonsens-Korrelationen (1) 53 Statistik 1 - Assoziation & Korrelation
54 Nonsens-Korrelationen (2) 54 Statistik 1 - Assoziation & Korrelation
55 Korrelation bei ordinalen Daten Für ordinalskalierte Variablen, eignet sich der Rangkorrelationskoeffizient nach Spearman. Idee: Verwende bei der Berechnung des Korrelationskoeffizienten nicht den Wert der Beobachtungen X und Y sondern den Rang, den diese Beobachtung aufgrund des Wertes bei einer Sortierung nach X bzw. Y einnimmt. X i, Y i gemessene Werte für die i-te Beobachtung RX i,.. Rang, den die i-te Beobachtung bei Ordnung nach X einnimmt. RY i,.. Rang, den die i-te Beobachtung bei Ordnung nach Y einnimmt. 55 Statistik 1 - Assoziation & Korrelation
56 Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Die Formel links ergibt sich als Vereinfachung der Formel für den Korrelationskoeffizienten, wenn man mit den Rängen arbeitet 56 Statistik 1 - Assoziation & Korrelation
57 Beispiel 57 Statistik 1 - Assoziation & Korrelation
58 Rangkorrelation nach Spearman Vorteile: Bereits anwendbar auf zumindest ordinal-skalierte Daten Keine Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreißern. Invariant gegenüber monotonen Transformationen Nachteile: Informationsverlust bei Vorliegen stetiger Merkmale Insbesondere bei normalverteilten Daten resultiert daraus ein Genauigkeitsverlust 58 Statistik 1 - Assoziation & Korrelation
59 Trauen Sie dieser Korrelation? 59 Statistik 1 - Assoziation & Korrelation
60 Elimination des extremen Datenpunkts Praktisch keine Korrelation mehr in den Daten nach Elimination einer einzigen Beobachtung! 60 Statistik 1 - Assoziation & Korrelation
61 Anwendung der Rangkorrelation Spearman s Rangkorrelation r S =0,1113 Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust Vorteil: Robust gegenüber Datenfehlern Vergleichbar mit der Diskussion Median versus arithmetisches Mittel 61 Statistik 1 - Assoziation & Korrelation
Assoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den
MehrAssoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den
MehrAssoziation & Korrelation
Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen für jeden Merkmalsträger stellt sich die Frage, ob es systematische Zusammenhänge
MehrZusammenhangsanalyse in Kontingenztabellen
Zusammenhangsanalyse in Kontingenztabellen Bisher: Tabellarische / graphische Präsentation Jetzt: Maßzahlen für Stärke des Zusammenhangs zwischen X und Y. Chancen und relative Chancen Zunächst 2 2 - Kontingenztafel
MehrBivariate Kreuztabellen
Bivariate Kreuztabellen Kühnel, Krebs 2001 S. 307-342 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/33 Häufigkeit in Zelle y 1 x 1 Kreuztabellen Randverteilung x 1... x j... x J Σ
MehrBedingte Wahrscheinlichkeiten & Unabhängigkeit
Statistik 1 für SoziologInnen Bedingte Wahrscheinlichkeiten & Univ.Prof. Dr. Marcus Hudec Bedingte Wahrscheinlichkeit Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die
MehrMusterlösung zur Aufgabensammlung Statistik I Teil 3
Musterlösung zur Aufgabensammlung Statistik I Teil 3 2008, Malte Wissmann 1 Zusammenhang zwischen zwei Merkmalen Nominale, Ordinale Merkmale und Mischungen Aufgabe 12 a) x\ y 1.Klasse 2.Klasse 3.Klasse
MehrBivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.
Bivariate Analyse: Tabellarische Darstellung: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt. Beispiel: Häufigkeitsverteilung
MehrWas sind Zusammenhangsmaße?
Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten
MehrSkalenniveaus =,!=, >, <, +, -
ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,
MehrAnalyse bivariater Kontingenztafeln
Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen
MehrZusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen
- nominal, ordinal, metrisch In SPSS: - Einfache -> Mittelwerte vergleichen -> Einfaktorielle - Mehrfaktorielle -> Allgemeines lineares Modell -> Univariat In SPSS: -> Nichtparametrische Tests -> K unabhängige
MehrBedingte Wahrscheinlichkeit. Beispiel zur bedingten Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die Wahrscheinlichkeiten für das Eintreten von Ereignissen durch das Eintreten anderer Ereignisse
MehrBivariate Zusammenhänge
Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne
MehrDeskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j
1 Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS 2011 Lösung Aufgabe 27 (a) Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a 2 }, S Y {ja, nein} {b
MehrKontingenzkoeffizient (nach Pearson)
Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen
MehrEs können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.
Teil III: Statistik Alle Fragen sind zu beantworten. Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden. Wird
MehrGrundlagen der Statistik
Grundlagen der Statistik Übung 2 2010 FernUniversität in Hagen Alle Rechte vorbehalten Fakultät für Wirtschaftswissenschaft Übersicht über die mit den Übungsaufgaben geprüften Lehrzielgruppen Lehrzielgruppe
Mehr5.3 (Empirische) Unabhängigkeit und χ 2
5.3 (Empirische) Unabhängigkeit und χ 2 5.3.1 (Empirische) Unabhängigkeit Durch den Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man Zusammenhänge beurteilen Illustration an einem
MehrWISTA WIRTSCHAFTSSTATISTIK
WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Zweidimensionale Datensätze 1. Kontingenztabelle
MehrProf. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2011
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011 Es können von den Antworten alle, mehrere oder keine Antwort(en) richtig sein. Nur bei einer korrekten Antwort (ohne Auslassungen
MehrDeskriptive Statistik
Markus Wirtz, Christof Nachtigall Deskriptive Statistik 2008 AGI-Information Management Consultants May be used for personal purporses only or by libraries associated to dandelon.com network. Statistische
MehrDatenanalyse mit Excel. Wintersemester 2013/14
Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen
MehrStatistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.
Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt Gerhard Tutz, Jan Ulbricht WS 05/0 Lösung Aufgabe 4 Notation: X: Rauchen, Y : chronische Bronchitis S X {ja, nein} {a 1, a },
MehrModul G.1 WS 07/08: Statistik
Modul G.1 WS 07/08: Statistik 10.01.2008 1 2 Test Anwendungen Der 2 Test ist eine Klasse von Verfahren für Nominaldaten, wobei die Verteilung der beobachteten Häufigkeiten auf zwei mehrfach gestufte Variablen
MehrKorrelation - Regression. Berghold, IMI
Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines
MehrBivariater Zusammenhang in der Mehrfeldertafel PEΣO
Bivariater Zusammenhang in der Mehrfeldertafel PEΣO 9. November 2001 Bivariate Häufigkeitsverteilungen in Mehrfeldertabellen In der Mehrfeldertabelle werden im Gegensatz zur Vierfeldertabelle keine dichotomen
MehrPrüfung aus Statistik 1 für SoziologInnen. Musterlösung
Prüfung aus Statistik 1 für SoziologInnen Gesamtpunktezahl =80 1) Wissenstest (maximal 20 Punkte) Prüfungsdauer: 2 Stunden Musterlösung Kreuzen ( ) Sie die jeweils richtige Antwort an. Jede richtige Antwort
MehrEinführung in die Korrelationsrechnung
Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung
MehrKapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert
Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Lageparameter Modus/ Modalwert Zentrum Median Zentralwert Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht
MehrAngewandte Statistik 3. Semester
Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen
MehrKorrelation Regression. Wenn Daten nicht ohne einander können Korrelation
DAS THEMA: KORRELATION UND REGRESSION Korrelation Regression Wenn Daten nicht ohne einander können Korrelation Korrelation Kovarianz Pearson-Korrelation Voraussetzungen für die Berechnung die Höhe der
MehrBivariate Analyseverfahren
Bivariate Analyseverfahren Bivariate Verfahren beschäftigen sich mit dem Zusammenhang zwischen zwei Variablen Beispiel: Konservatismus/Alter Zusammenhangsmaße beschreiben die Stärke eines Zusammenhangs
MehrProf. Dr. Achim Bühl SPSS 16. Einführung in die moderne Datenanalyse. 11., überarbeitete und erweiterte Auflage
Prof. Dr. Achim Bühl SPSS 16 Einführung in die moderne Datenanalyse 11., überarbeitete und erweiterte Auflage ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario
MehrÜbung 1: Wiederholung Wahrscheinlichkeitstheorie
Übung 1: Wiederholung Wahrscheinlichkeitstheorie Ü1.1 Zufallsvariablen Eine Zufallsvariable ist eine Variable, deren numerischer Wert solange unbekannt ist, bis er beobachtet wird. Der Wert einer Zufallsvariable
MehrKapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen Wahrscheinlichkeitstheorie Prof. Dr. W.-D. Heller Hartwig Senska
MehrEine zweidimensionale Stichprobe
Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,
MehrStatistik. Jan Müller
Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen
MehrInhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden
Inhaltsverzeichnis Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3 Warum Statistik? 3 Checkpoints 4 Daten 4 Checkpoints 7 Skalen - lebenslang wichtig bei der Datenanalyse
MehrBrückenkurs Statistik für Wirtschaftswissenschaften
Peter von der Lippe Brückenkurs Statistik für Wirtschaftswissenschaften Weitere Übungsfragen UVK Verlagsgesellschaft mbh Konstanz Mit UVK/Lucius München UVK Verlagsgesellschaft mbh Konstanz und München
MehrStatistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
MehrZwei kategoriale Merkmale. Homogenität Unabhängigkeit
121 Zwei kategoriale Merkmale Homogenität Unabhängigkeit 122 Beispiel Gründe für die Beliebtheit bei Klassenkameraden 478 neun- bis zwölfjährige Schulkinder in Michigan, USA Grund für Beliebtheit weiblich
Mehra) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.
Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html
MehrEinführung in die Statistik für Politikwissenschaftler Sommersemester 2013
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013 1. Welche Aussage zur Statistik (in den Sozialwissenschaften) sind richtig? (2 Punkte) ( ) Statistik ist die Lehre von Methoden
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrTabellarische und graphie Darstellung von univariaten Daten
Part I Wrums 1 Motivation und Einleitung Motivation Satz von Bayes Übersetzten mit Paralleltext Merkmale und Datentypen Skalentypen Norminal Ordinal Intervall Verältnis Merkmalstyp Diskret Stetig Tabellarische
MehrKorrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
MehrP (X = 2) = 1/36, P (X = 3) = 2/36,...
2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel
Mehr3. Deskriptive Statistik
3. Deskriptive Statistik Eindimensionale (univariate) Daten: Pro Objekt wird ein Merkmal durch Messung / Befragung/ Beobachtung erhoben. Resultat ist jeweils ein Wert (Merkmalsausprägung) x i : - Gewicht
MehrVerteilungsfunktion und Quantile
Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
MehrHeinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren
Heinz Holling & Günther Gediga Statistik - Deskriptive Verfahren Übungen Version 15.12.2010 Inhaltsverzeichnis 1 Übung 1; Kap. 4 3 2 Übung 2; Kap. 5 4 3 Übung 3; Kap. 6 5 4 Übung 4; Kap. 7 6 5 Übung 5;
MehrWISTA WIRTSCHAFTSSTATISTIK
WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen
MehrRegression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
MehrKai Schaal. Universität zu Köln
Deskriptive Statistik und Wirtschaftsstatistik Tutorium zur Anwendung von Statistik 1 in Excel Kai Schaal Universität zu Köln Organisatorisches und Einleitung (1) Was, wann, wo? Anwendung von Statistik
MehrRegression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung
Sommersemester 2009 Ein Beispiel: Armut und Gewaltverbrechen Rechtswahl 15 10 5 0 5 10 Arbeitslosigkeit Zum Nachlesen Agresti: 9.1-9.4 Gehring/Weins: 8 Schumann: 8.1-8.2 Was ist ein Zusammenhang? Gemeinsame
MehrMethodik für Linguisten
Claudia Methodik für Linguisten Eine Einführung in Statistik und Versuchsplanung narr VERLAG 1 Reisevorbereitungen und Wegweiser 2 Linguistik als empirische Wissenschaft 15 2.1 Karl Popper und der Falsifikationismus
MehrDaten, Datentypen, Skalen
Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben
MehrTeil II: Einführung in die Statistik
Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu
MehrStatistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
Mehr3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)
3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten) Beispiel: Gründe für Beliebtheit bei Klassenkameraden 478 neun- bis zwölfjährigen Schulkinder in Michigan, USA warum ist man bei seinen Klassenkameraden
MehrPROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)
PROC MEAS zum Berechnen statistischer Maßzahlen (für quantitative Merkmale) Allgemeine Form: PROC MEAS DATA=name Optionen ; VAR variablenliste ; CLASS vergleichsvariable ; Beispiel und Beschreibung der
MehrTHEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ
W THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ HERZLICH WILLKOMMEN BEI W Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training Dr. Torsten Scholz
MehrVerteilungsfunktion und Quantile
Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de
MehrStatistik Klausur Wintersemester 2012/2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 1 1. Klausur Wintersemester 2012/2013 Hamburg, 19.03.2013 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrVerteilungsfunktion und dquantile
Statistik 1 für SoziologInnen Verteilungsfunktion und dquantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit die Kumulation inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal
Mehr1.5 Berechnung von Rangzahlen
1.5 Berechnung von Rangzahlen Bei vielen nichtparametrischen Verfahren spielen die so genannten Rangzahlen eine wesentliche Rolle, denn über diese werden hier die Prüfgrößen berechnet. Dies steht im Gegensatz
MehrGlossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale
Glossar Statistik 2 Bivariate Verfahren: zwei nummerische Merkmale Streudiagramm - Datenpaare (X, Y) als Punkte auf einem zweidimensionale Diagramm (Ordinate: Y, Abszisse: X) Lineare Regression - Optimierungsproblem
MehrKlausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06
Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06 Hiermit versichere ich, dass ich an der Universität Freiburg mit dem Hauptfach Psychologie eingeschrieben bin. Name: Mat.Nr.: Unterschrift: Bearbeitungshinweise:
MehrP (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.
2 Wahrscheinlichkeitstheorie Beispiel. Wie wahrscheinlich ist es, eine Zwei oder eine Drei gewürfelt zu haben, wenn wir schon wissen, dass wir eine ungerade Zahl gewürfelt haben? Dann ist Ereignis A das
MehrStatistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:
Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die
MehrÜbung zu Empirische Ökonomie für Fortgeschrittene SS 2009
Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte
MehrMathematische und statistische Methoden I
Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-06 Dr. Malte Persike persike@uni-mainz.de
MehrStandardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend
Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend oder eindeutig, wenn keine alternativen Interpretationsmöglichkeiten
MehrWiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung
Regression II Statistik I Sommersemester 2009 Statistik I Regression II (1/33) R 2 Root Mean Squared Error Statistik I Regression II (2/33) Zum Nachlesen Agresti: 9.1-9.4 Gehring/Weins: 8 Schumann: 8.1-8.2
MehrStatistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage
Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse Zweite, verbesserte Auflage Mit 165 Abbildungen und 34 Tabellen Springer Inhaltsverzeichnis Vorwort v 1 Einführung
MehrEinseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.
Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte
MehrHerzlich Willkommen zur Vorlesung Statistik
Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrKapitel 16 Kreuztabellen
Kapitel 16 Kreuztabellen Eine Kreuztabelle dient dazu, die kombinierte Häufigkeitsverteilung zweier Variablen darzustellen. Sie bildet somit das Pendant zu einer Häufigkeitstabelle für den 2-Variablen-Fall.
MehrBedingte Wahrscheinlichkeiten & Unabhängigkeit
Statistik 1 für SoziologInnen Bedingte Wahrscheinlichkeiten & Univ.Prof. Dr. Marcus Hudec Bedingte Wahrscheinlichkeit Das Konzept bedingter Wahrscheinlichkeit erlaubt zu untersuchen, inwieweit sich die
MehrTeil: lineare Regression
Teil: lineare Regression 1 Einführung 2 Prüfung der Regressionsfunktion 3 Die Modellannahmen zur Durchführung einer linearen Regression 4 Dummyvariablen 1 Einführung o Eine statistische Methode um Zusammenhänge
MehrStatistische Verfahren für das Data Mining in einem Industrieprojekt
Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de
MehrI. Deskriptive Statistik 1
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................
MehrKapitel 2. Häufigkeitsverteilungen
6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω
MehrStatistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage
Statistik Datenanalyse mit EXCEL und SPSS Von Prof. Dr. Karlheinz Zwerenz 3., überarbeitete Auflage R.01denbourg Verlag München Wien Inhalt Vorwort Hinweise zu EXCEL und SPSS Hinweise zum Master-Projekt
Mehr1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent
Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrInhaltsverzeichnis. 2 Kurzbeschreibung von SPSS Der SPSS-Dateneditor Statistische Analysen mit SPSS DieDaten...
Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R... 3 1.1 Installieren und Starten von R... 3 1.2 R-Befehleausführen... 3 1.3 R-Workspace speichern... 4 1.4 R-History sichern........ 4 1.5
MehrAufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /
Aufgabenblock 3 Aufgabe ) A sei das Ereignis: schwerer Verkehrsunfall B sei das Ereignis: Alkohol ist im Spiel Herr Walker betrachtet die Wahrscheinlichkeit P(B A) = 0.3 und errechnet daraus P(-B A) =
MehrGemeinsame Wahrscheinlichkeitsverteilungen
Gemeinsame Wahrscheinlichkeitsverteilungen Worum geht es in diesem Modul? Gemeinsame Wahrscheinlichkeits-Funktion zweier Zufallsvariablen Randverteilungen Bedingte Verteilungen Unabhängigkeit von Zufallsvariablen
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 05. Dezember 2012 1 Datenpaare Korrelation 2 Lineare Regression Problemstellung Beispiel Bleibelastung 3 Regression
MehrInhaltsverzeichnis. Teil I Einführung
Inhaltsverzeichnis Teil I Einführung 1 Statistik-Programme... 1.1 Kleine Einführung in R... 1.1.1 Installieren und Starten von R. 1.1.2 R-Konsole... 1.1.3 R-Workspace... 1.1.4 R-History... 1.1.5 R-Skripteditor...
MehrBinomialverteilung. Statistik für SoziologInnen 1 Diskrete Verteilungsmodelle. Marcus Hudec
Binomialverteilung Jakob Bernoulli (1654-1705) Ars Conjectandi Klassisches Verteilungsmodell für die Berechnung der Wahrscheinlichkeit für die Häufigkeit des Eintretens von Ereignissen in bestimmten noch
Mehr