9. Datenaufbereitung und Datenanalyse

Größe: px
Ab Seite anzeigen:

Download "9. Datenaufbereitung und Datenanalyse"

Transkript

1 Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion 9. Datenaufbereitung und Datenanalyse Datenaufbereitung und Codierung, Datenmatrix, Datenfehler und Datenbereinigung, Korrelation und Kausalität, Individualdaten und Aggregatdaten univariate und bivariate Datenanalyse, Signifikanz und Assoziation, Drittfaktorkontrolle Jacob, Datenanalyse 1

2 Datenaufbereitung und Datenanalyse Individual- oder Mikrodaten: Daten von einzelnen Merkmalsträgern. Aggregat- oder Makrodaten: Daten von Kollektiven. Alle Arten von Raten oder Anteilswerten: Eheschließungs- und Scheidungsraten Arbeitslosenquote Lungenkrebsmorbiditätsraten in einer Stadt Anteil der Raucher in einer Stadt Jahres-Pro-Kopf-Menge des Verbrauchs von Butter und anderen tierischen Fetten Mortalitätsraten Herzinfarkt Bei Aggregatdaten: Ökologischer Fehlschluss bei Korrelationen Ökologische Korrelationen: Hinweise auf mögliche Zusammenhänge Zur Formulierung von Hypothesen gut geeignet, nicht zu deren Überprüfung! Jacob, Datenanalyse 2

3 Individualdaten und Aggregatdaten: Ernährung und Herzinfarkt. Vergleich zwischen Deutschland und Japan (1988/OECD-health-Data) Deutsch -land Japan Rel.Rate Japan (D =100%) Herzinfarktmortalität Frauen 105,0 29,0 27,6 Herzinfarktmortalität Männer 531,0 109,0 20,5 Täglicher Kalorienkonsum ,8 Täglicher Verbrauch von Getreideprotein in gr ,4 Jährlicher Verbrauch von Butter in Kg 8,4 0,7 8,3 Jacob, Datenanalyse 3

4 Variable: Merkmale, die verschiedene Ausprägungen haben können. Dichotome Variable: 2 Ausprägungen Trichotome Variable: 3 Ausprägungen Polytome Variable: mehr als 2 Ausprägungen Konstante: Merkmale mit nur einer Ausprägung. Ob Merkmale Konstante oder Variable darstellen, hängt wesentlich von der Forschungsfrage und der Struktur der untersuchten Population ab Jacob, Datenanalyse 4

5 Phasen der Datenauswertung Kodierung und Dateneingabe Fehlerkontrolle, Fehlerbereinigung, Ausschluss fehlerhafter und fehlender Angaben ("missing values") Umformung von Variablen (Rekodierung), Neubildung von Variablen, Indizes und Skalen (Variablentransformation) Statistische Analyse von Verteilungen und Zusammenhängen - univariat - bivariat - multivariat Jacob, Datenanalyse 5

6 Datenmatrix Variable Fälle Variable: Kopfseite Spalten Merkmalsträger, Fälle: Stirnseite Zeilen Jacob, Datenanalyse 6

7 ID V1 V2 V3 V4 V5 V6 V7 V8 V9 V : : : : : : : : : : : Jacob, Datenanalyse 7

8 Wichtig: Eine Datenmatrix ist nicht mit einer Tabelle zu verwechseln. Tabellen zeigen die Verteilung eines Merkmals (Häufigkeitstabelle) oder die gemeinsame Verteilung von zwei Merkmalen (Kreuztabelle). Eine Datenmatrix enthält dagegen alle erhobenen Merkmale einer Untersuchung. Erstellung einer Datenmatrix: Variablennamen Kodierung Platzhalter für Filter und fehlende Werte Fallnummern Jacob, Datenanalyse 8

9 7. Wie zufrieden sind Sie mit Ihrer Gesundheit? V7 A Sehr zufrieden 26,8 1 B Zufrieden 53,5 2 C Weniger zufrieden relative 13,6 3 D Unzufrieden Häufigkeiten 6,1 4 E Weiß nicht (Interviewer: nicht vorlesen) / 8 k.a. / 9 8. Und wie zufrieden sind Sie insgesamt mit der medizinischen Betreuung durch Ihre Ärzte? V8 A Sehr zufrieden 29,6 1 B Zufrieden 53,1 2 C Weniger zufrieden 13,2 3 D Unzufrieden 3,2 4 E Weiß nicht (Interviewer: nicht vorlesen) 1, An wen wenden Sie sich zunächst, wenn Sie eine leichtere Erkrankung feststellen? k. A. / 9 Ja Nein A an Partner oder Ehepartner (n=507) 58,6 41,4 1, 0 V9.A Variable Frage (hier = Variable) Frage B an Eltern / Verwandte (n=507) 32,3 67,7 1, 0 V9.B C an Freunde (n=507) 29,2 70,8 1, 0 V9.C D an Ärzte (n=507) 60,7 39,3 1, 0 V9.D E an Nachbarn (n=506) 7,3 92,7 1, 0 V9.E F an Arbeitskollegen (n=506) 15,2 84,8 1, 0 V9.F G an Krankenhaus (n=507) Jacob, Datenanalyse 10,3 89,7 1, 0 V9.G 9 n=507 n=507 Variablen name Fallzahl Codezahlen Variablen -namen

10 Univariate Analyse: Verteilung eines Merkmals Deskriptive Maßzahlen: 1. Maße der zentralen Tendenz Mean: arithmetisches Mittel Median: Zentralwert Mode, Modus, Modalwert: am häufigsten vorkommender Wert 2. Streuungsmaße Range, Spannweite: Differenz zwischen dem kleinsten und dem größten Wert Varianz: quadrierte, summierte Abweichungen der individuellen Merkmalsausprägungen vom Mittelwert, dividiert durch die Gesamtzahl der Fälle (dimensionsloser Wert) Standardabweichung: Wurzel aus der Varianz (gleiche Dimension wie die Ausgangsdaten) Jacob, Datenanalyse 10

11 Jacob, Datenanalyse 11

12 Rechtsschiefe/linkssteile Verteilung Jacob, Datenanalyse 12

13 Bei Normalverteilungen sind Modus, Median und arithmetisches Mittel identisch. Für normalverteilte Merkmale gilt: rund 2/3 aller Fälle (genau 68,26%) liegen in dem Intervall mit den Grenzen arith. Mittel + Standardabweichung und arith. Mittel - Standardabweichung. 95,44% aller Fälle liegen in dem Intervall mit den Grenzen arith. Mittel + 2 Standardabweichungen und arith. Mittel - 2 Standardabweichungen 99,74% aller Fälle liegen in dem Intervall mit den Grenzen arith. Mittel + 3 Standardabweichungen und arith. Mittel - 3 Standardabweichungen Bei schiefen Verteilungen gilt: Rechtsschiefe/linkssteile Verteilungen: Modus<Median<arith. Mittel Linksschiefe/rechtssteile Verteilungen: Modus>Median>arith. Mittel Jacob, Datenanalyse 13

14 Jacob, Datenanalyse 14

15 ,0 45,0 50,0 55,0 60,0 65,0 70,0 75,0 80,0 90,0 100,0 110,0 120,0 85,0 95,0 105,0 115,0 125,0 Std.abw. = 14 Mittel = 79,8 N = 195,00 Gewicht Jacob, Datenanalyse 15

16 ,0 155,0 160,0 165,0 170,0 175,0 180,0 185,0 190,0 152,5 157,5 162,5 167,5 172,5 177,5 182,5 187,5 Größe Std.abw. = 8,7 Mittel = 169,3 N = 193,00 Jacob, Datenanalyse 16

17 Übergewicht: Body-Mass-Index (BMI). Körpergewicht in KG geteilt durch das Quadrat der Körpergröße in m Gewicht(Kg) BMI = Körpergröße(m) 2 75Kg BMI = = 25,9 1,70m 2 Wertebereiche: unter 18: deutliches Untergewicht 18-20: Untergewicht 20-25: Normalgewicht 25-30: Übergewicht über 30: Adipositas Jacob, Datenanalyse 17

18 BMI Valid Cum Value Label Value Frequency Percent Percent Perce deutl. Unterg ,0 1,1 1, Normalg ,5 27,6 28, Überg ,2 39,7 68, Adipositas ,1 31,6 100,, 22 11,2 Missing Total ,0 100,0 Valid cases 174 Missing cases 22 ean 27,797 Std dev 4,214 edian 27,641 Variance 17,761 ode 24,221 Minimum 14,005 Maximum 41,016 Range 27,011 Jacob, Datenanalyse 18

19 BMI-Werte in der allgemeinen Bevölkerung ,9 18,1-20 5,6 20, ,2 25, ,9 30,1 oder mehr 6,4 N 2459 Quelle: Sozialwissenschaften-BUS 1996 Jacob, Datenanalyse 19

20 Dichotomisierung der Variablen: bis 25: kein Übergewicht über 25: Übergewicht Übergewicht (Angaben in Prozent) kein Übergewicht 56,7 Übergewicht 43,3 N 2459 Quelle: Sozialwissenschaften-BUS 1996 Jacob, Datenanalyse 20

21 Punkt- oder Intervallschätzung Wie viel Prozent der Bevölkerung sind übergewichtig? Wie genau schätzt der Anteilswert der Stichprobe den wahren Wert der Population? Voraussetzung zur Beantwortung der Frage: Zufallsstichprobe Kennwerte (Mittelwerte, Streuung, Anteilswerte) von Zufallsstichproben sind (approximativ) normalverteilt, der (unbekannte) Populationsparameter ist der Erwartungswert. Stichprobenergebnisse sind Intervallschätzer! Jacob, Datenanalyse 21

22 Konfidenzintervall 95,44% der Stichprobenkennwerte liegen in einem Bereich Populationsparameter (z.b. µ) +/- 2 Standardabweichungen. Populationsparameter, die mit einer Wahrscheinlichkeit von 95,44% einen spezifischen Stichprobenkennwert hervorbringen, liegen in dem Intervall Stichprobenkennwert +/- 2 Standardabweichungen. Die Wahrscheinlichkeit, dass dieser Kennwert zu einer Population gehört, deren Parameter ausserhalb dieses Intervalls liegt, beträgt höchstens 4,56%. Das Konfidenzintervall kennzeichnet den Bereich eines Merkmals, in dem sich ein bestimmter Prozentsatz aller möglichen Populationsparameter befindet, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können Für solche Konfindenzintervalle übliche Bereiche: 95% Jacob, Datenanalyse 22

23 Mittelwert=0 68,26% 95,44% 95% -1,96 Jacob, Datenanalyse 23 1,96 2,58

24 Konfidenzintervall Das 95%-Konfidenzintervall für den Anteilswert berechnet sich nach der Formel: p 1,96. p.(1 n p) θ p + 1,96. p.(1 n p) 0,43-1,96*0, =0,43-0,01956=0,410 Untergrenze: 41% 0,43+1,96*0, =0,43+0,01956=0,449 Obergrenze:44,9% Die Stichprobe entstammt mit 95% Wahrscheinlichkeit einer Population mit einem Anteil übergewichtiger Personen, der zwischen 41% und rund 45% liegt. Jacob, Datenanalyse 24

25 Bivariate Analyse: gemeinsame Analyse von zwei Merkmalen Standardanwendung: Kreuztabellen/Korrelationsanalyse Ziel: Prüfung kausaler Hypothesen Beispiel: Geschlecht und Berufstätigkeit Jacob, Datenanalyse 25

26 Kreuztabellen/Kontingenztabellen 1. Ist ein Zusammenhang zwischen zwei Merkmalen erkennbar? 2. Ist ein solcher Zusammenhang nur zufällig aufgetreten oder bestehen signifikante Unterschiede zwischen Merkmalsgruppen, lässt sich das Ergebnis verallgemeinern? Sicherheit von Zusammenhängen, Signifikanz, Generalisierbarkeit 3. Lässt sich die Stärke des Zusammenhangs quantifizieren Korrelation, Assoziation 4. Gibt es weitere Variablen, durch die das Ergebnis einer zweidimensionalen Tabelle bestätigt oder geändert wird? Drittfaktorenkontrolle Jacob, Datenanalyse 26

27 Jacob, Datenanalyse 27

28 ungeordnete Population Jacob, Datenanalyse 28

29 Gruppierung nach Geschlecht und Berufstätigkeit Jacob, Datenanalyse 29

30 Männer Frauen berufstätige Männer berufstätige Frauen nicht berufstätige Männer nicht berufstätige Frauen Jacob, Datenanalyse 30

31 Tabelle mit Fallzahlen Tabelle mit Reihenprozentwerten Tabelle mit Spaltenprozentwerten Jacob, Datenanalyse 31

32 Tabellenanalyse: Gruppenvergleiche. Die Zahl der Gruppen wird durch die Menge der Merkmalsausprägungen des unabhängigen Merkmals definiert. einfachster Fall: Vierfeldertabelle Zwei allgemeine Konventionen zur Gestaltung von Tabellen: 1. Unabhängige Variablen stehen im Kopf der Tabellen, abhängige an der Stirnseite. 2. Prozentuiert wird spaltenweise, interpretiert wird zeilenweise. Interpretation: Vergleich der Anteilswerte Jacob, Datenanalyse 32

33 K O P F: x S T I R N y zeilenweise interpretieren spaltenweise prozentuieren Anzugeben sind: Titel Prozentuierungsbasen (= die absoluten Häufigkeiten bzw. Fallzahlen in den jeweiligen Kategorien des unabhängigen Merkmals) statistische Maßzahlen gegebenenfalls eine Quelle Jacob, Datenanalyse 33

34 Titel (über der Tabelle) Impfung gegen Grippe nach Altersklassen (Angaben in Prozent) Grippeimpfung 18- u u u u oder älter ja 12,5 9,0 18,4 19,0 39,8 nein 81,3 84,4 75,7 66,7 50,0 weiss nicht 6,3 Spaltenprozent 6,6 5,8 14,3 10,2 N N = 502. Sig. =.000, Cramer s V =.224 Quelle: Regionaler Gesundheitssurvey Trier, 2000 abhängiges Merkmal Y Interpretation: Nur knapp 13% der jüngsten, aber rund 40% der ältesten Befragten haben sich gegen Grippe impfen lassen Stichprobengröße, statistische Maßzahlen unabhängiges Merkmal X Fallzahlen der Merkmalsausprägungen von X Jacob, Datenanalyse 34

35 Welche Prozentwerte werden hier verglichen? Jacob, Datenanalyse 35

36 Geschlecht (x) RV y Unfalltod (y) Männer Frauen Ja 26% 74% 8758 Nein??? RV x??? Relevant ist die Frage nach den geschlechtsspezifischen bedingten Unfallrisiken abhängig von den jeweiligen Expositionen (=Teilnahme am Straßenverkehr). Diese Frage kann mit den vorhandenen Daten nicht beantwortet werden. Indikatoren für die Exposition? Jacob, Datenanalyse 36

37 Signifikanz: Ist das Gewicht abhängig von Geschlecht oder regionaler Herkunft? ewicht nach Geschlecht Kein Übergewicht Männer Frauen N 46,5% 65,9% 1393 Übergewicht 53,5% 34,1% 1065 N Gewicht nach regionaler Herkunft West Ost N Kein 56,8% 56,3% 1394 Übergewicht Übergewicht 43,2% 43,7% 1064 N Jacob, Datenanalyse 37

38 Geprüft wird, ob zwei Merkmale statistisch voneinander unabhängig sind (H0, Nullhypothese). In diesem Fall sind bei gegebenen Randverteilungen in den Zellen einer Zeile gleiche relative Häufigkeiten zu erwarten. Empirische Verteilungen werden verglichen mit einer Indifferenztabelle Tabelle mit Zellenbesetzungen, die sich bei gegebenen Randverteilungen ergeben, wenn die beiden Merkmale tatsächlich statistisch voneinander unabhängig sind. Jacob, Datenanalyse 38

39 Diese Erwartungswerte werden nach der Formel Zeilensumme x Spaltensumme durch Gesamtsumme berechnet. Für die erste Zelle der Tabelle ergibt sich damit: fe = 1168*1393/2458 = 661,9 Für die letzte Zelle erhalten wir: fe = 1260*1065/2458 = 558,9 Jacob, Datenanalyse 39

40 2. Wert: Erwartungswert Männer Frauen N Kein Übergewicht 661,9 731,1 Übergewicht ,1 558,9 N Chi-Square: 93,97133, Sig. = Spaltensummen Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert West Ost N Kein Übergewicht 1113,8 280,2 Übergewicht ,2 213,8 N Chi-Square: 0,04820, Sig. = Zeilensummen Gesamtsumme Jacob, Datenanalyse 40

41 Die relativen Häufigkeiten sind bei diesen Erwartungswerten in den Zellen einer Zeile alle gleich: 661,9 = 56,67% von ,1 = 56,67% von ,1 = 43,33% von ,9 = 43,33% von 1290 Bei statistischer Unabhängigkeit: Erwartete und beobachtete Werte weichen nicht oder kaum voneinander ab. Prüfgröße Chi-Quadrat-Wert χ 2 = n k= 1 ( f bk f ek f ek )2 k: Zahl der Zellen fbk: Beobachtungswerte fek: Erwartungswerte Jacob, Datenanalyse 41

42 Männer Frauen N Kein 543 (f b ) Übergewicht 661,9 (f e ) 731,1 Übergewicht ,1 558,9 N Zelle f b -f e (f b -f e ) 2 (f b -f e ) 2 /f e 1, ,9=-118, ,21 21,35 1, ,1= 118, ,21 19,33 2, ,1= 118, ,21 27,93 2, ,9=-118, ,21 25,29 Summe 93,9 Jacob, Datenanalyse 42

43 Geprüft wird die Wahrscheinlichkeit, dass die Nullhypothese zutrifft. Ausgewiesen wird diese Wahrscheinlichkeit. p/α=.05 signifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 5%) p/α=.01 hochsignifikantes Ergebnis (die Wahrscheinlichkeit für die H0 beträgt nur 1%) bedeutet nicht, dass die Wahrscheinlichkeit für die Nullhypothese exakt Null ist. Dieses Ergebnis ist mit statistischen Prüfverfahren nicht zu erreichen, vielmehr kommt irgendwann eine von Null verschiedene Zahl. Jacob, Datenanalyse 43

44 Basis für Signifikanztests: Chi-Quadrat-Verteilung(en) Frage: Mit welcher Wahrscheinlichkeit ist ein errechneter Chi-Quadrat-Wert bei einer theoretischen Chi-Quadrat-Verteilung zu erwarten. Wie wahrscheinlich ist ein bestimmter Wert bei statistischer Unabhängigkeit von zwei Merkmalen? Chi-Quadrat-Verteilungen bestehen aus der Summe quadrierter Merkmalsausprägungen voneinander unabhängiger normalverteilter z-transformierter Zufallsvariablen. Zufallsvariable: Merkmal, dessen Ausprägungen (=Elementarereignisse genannt werden), ausschließlich vom Zufall abhängen. Bsp.: Ein Würfelwurf ist eine Zufallsvariable mit 6 möglichen Elementarereignissen, die alle die Wahrscheinlichkeit 1/6 haben. Jacob, Datenanalyse 44

45 Eine neue Zufallsvariable auf der Basis dieser Variablen ist die Kombination der Augenzahlen von je zwei Würfelwürfen. Elementarereignisse sind dann nicht mehr die Augenzahlen 1 bis 6, sondern Kombinationen dieser beiden Wertereihen, also (1 1)(1 2)(2 1) usw. Die neue Zufallsvariable ist das Ergebnis der Kombination (additiv oder multiplikativ) der Elementarereignisse zweier voneinander unabhängiger Zufallsvariablen Jacob, Datenanalyse 45

46 46

47 Diskrete Zufallsvariablen: Elementarereignisse können abgezählt werden. Stetige Zufallsvariablen: Elementarereignisse können innerhalb eines bestimmten Intervalls jede beliebige Größe annehmen. Bestimmend für die Form der Verteilung ist die Wahrscheinlichkeitsfunktion. Bei diskreten Zufallsvariablen gibt diese Funktion an, mit welcher Wahrscheinlichkeit ein bestimmtes Elementarereignis zu erwarten ist, wenn das Zufallsexperiment (als z. B. der Wurf eines Würfels) unendlich oft wiederholt wird (in der Praxis bedeutet dies: sehr häufige Wiederholung untere Grenze: 100). Bei stetigen Zufallsvariablen wird die Wahrscheinlichkeitsdichte für das Auftreten von Elementarereignisse bestimmt, die innerhalb eines definierten Intervalls liegen. Jacob, Datenanalyse 47

48 Die Wahrscheinlichkeitsdichtefunktion hat stets Kurvenform. Die Gesamtwahrscheinlichkeit für eine stetige Zufallsvariable wird gleich Eins gesetzt und entspricht der Gesamtfläche unter der Kurve. Die Wahrscheinlichkeitsdichte für ein bestimmtes Intervall mit den Grenzen a und b entspricht der durch diese Punkte markierten und begrenzten Fläche der darüber liegenden Kurve. Je enger der Abstand von a und b ist und/oder je geringer der Abstand zwischen Kurve und X-Achse ist, umso kleiner wird die markierte Fläche und damit auch die Wahrscheinlichkeit des Auftretens von Elementarereignissen innerhalb der entsprechenden Intervallgrenzen. Chi2-Verteilungen können aus einer, zwei drei, vier oder 10 oder allgemein n Zufallsvariablen gebildet werden. Freiheitsgrade der Verteilung (DF= Degrees of Freedom). Jacob, Datenanalyse 48

49 Werte >= 4 haben bei den drei Verteilungen unterschiedliche Wahrscheinlichkeiten Jacob, Datenanalyse 49

50 Freiheitsgrade Restriktion empirischer Verteilungen auch bei statistischer Unabhängigkeit der Merkmale: Fallzahlen und Merkmalsausprägungen der Merkmale Gewicht nach regionaler Herkunft, 1. Wert: N, 2. Wert: Erwartungswert West Ost N Kein Übergewicht , , Übergewicht , , N Bei gegebenen Randverteilungen sind die Erwartungswerte Dezimalzahlen. Empirische Werte sind dagegen immer ganzzahlig. Jacob, Datenanalyse 50

51 Freiheitsgrade Frage: Wie viele Zellenbesetzungen können bei gegebenen Randverteilungen frei besetzt werden, bevor alle weiteren dadurch Zellbesetzungen festgelegt sind. DF: (Reihen minus 1) x (Spalten minus 1) Bei je zwei Reihen und Spalten beträgt DF = (2-1) x (2-1)=1. Jacob, Datenanalyse 51

52 Gewicht nach Geschlecht; Freiheitsgrade Männer Frauen N Kein Übergewicht Übergewicht N Jacob, Datenanalyse 52

53 Zu beachten ist: Berechnet werden Abweichungen der beobachteten von den erwarteten Häufigkeiten. Chi² ist fallzahlabhängig. Mit wachsender Stichprobengröße wächst die Wahrscheinlichkeit, dass Zusammenhänge als signifikant ausgewiesen werden. Die Stichprobengröße bedingt die Zellbesetzungen. Um Abweichungen empirischer von theoretischen Werten berechnen zu können, müssen Spielräume, Variationsbreiten vorliegen - also Mindestzellenbesetzungen - möglich sein, wobei hier eine Mindestbesetzung von fünf gefordert wird. Jacob, Datenanalyse 53

54 Männer Frauen N ,7 0, ,1-20 2,0 9, , ,9 56, , ,7 28, ,1 oder 6,8 6,0 157 mehr N Chi-Square: 129,85758, Sig. = BMI nach Geschlecht Männer Frauen N ,2 5,7 4 18,1-20 4,3 11,3 8 20, ,7 47, , ,3 26, ,1 oder 6,5 9,4 8 mehr N Chi-Square: 4,13111, Sig. = Tabellen mit gleichen Proportionen, aber unterschiedlichen Signifikanzniveaus 54

55 Korrelation und Kausalität Korrelation: gemeinsames Auftreten und Variieren zweier Variablen Kausalität: Ursache-Wirkungs-Beziehung: x verursacht y! Eine statistisch nachweisbare Korrelation von x und y kann bedeuten: 1. x verursacht y 2. y verursacht x 3. x und y werden von einer dritten Variable verursacht 1. x und y beeinflussen sich wechselseitig Jacob, Datenanalyse 55

56 Beispiel: x: Umweltbewusstsein, Indikator: Skala mit entsprechenden Items y: Umweltfreundliches Verhalten, Indikatoren: kein Auto, keine Flugreisen, Benutzung von Bus und Rad hohe Korrelation: Fast alle Personen im Sample, die sich durch ausgeprägtes Umweltbewusstsein auszeichnen, haben kein Auto, fliegen nicht und benutzen den Bus. Interpretation? Typ 1, 2, 3 oder 4? Jacob, Datenanalyse 56

57 Kausalität ist statistisch nicht nachweisbar. Messbar ist nur eine Korrelation von zwei Variablen. Kausalzusammenhänge: hypothetische Konstrukte! Voraussetzungen für den Schluss auf eine kausale Beziehung: X und Y korrelieren X geht Y zeitlich voran X und Y wurden exakt gemessen Korrelation ist notwendige, aber nicht hinreichende Voraussetzung für Kausalität, Kausalität lässt sich korrelationsstatistisch nur widerlegen, aber nicht beweisen. Jacob, Datenanalyse 57

58 Korrelation Korrelationskoeffizienten sind Maßzahlen für mindestens bivariate Verteilungen und informieren über die Stärke und (ab ordinalem Messniveau) die Richtung eines Zusammenhangs. Anforderungen 1. Koeffizienten werden standardisiert auf den Wertebereich zwischen 0 und 1, dabei zeigt der Wert 1 eine perfekte, der Wert 0 eine Nichtbeziehung an. Ab Ordinalskalenniveau lassen sich auch Koeffizienten mit Vorzeichen berechnen, wobei ein Wert von -1 eine perfekte negative (inverse) Beziehung darstellt (hohe X-Werte korrelieren mit niedrigen Y-Werten und umgekehrt). 2. Die Koeffizienten sollen invariant sein gegenüber unterschiedlichen absoluten Häufigkeiten der Tabelle und nur Unterschiede in den relativen Häufigkeiten zur Vergleichsgrundlage verwenden. Jacob, Datenanalyse 58

59 160 Gewicht in Abhängigkeit von Körpergröße Gewicht in kg Größe in cm Niedrigen x-werten entsprechen niedrige y-werte, hohen x-werten hohe y-werte: Kleinere Personen sind leichter als größere. Frage: Was ist ein niedriger x- oder y-wert? Jacob, Datenanalyse 59

60 Pearson s r: Maß für eine lineare Beziehung zwischen zwei mindestens intervallskalierten Variablen. Mittelwertbasierter Koeffizient: Mittelwert als Referenzwert für die Einstufung von X- bzw. Y-Werten als hoch oder niedrig Die Merkmalsausprägungen der einzelnen Merkmale werden in Beziehung gesetzt zu ihren jeweiligen Mittelwerten, man berechnet die Abweichungen, indem der Mittelwert von der jeweiligen Merkmalsausprägung subtrahiert wird. Handelt es sich um eine relativ hohe Position, ist diese Differenz positiv, ansonsten negativ. Jacob, Datenanalyse 60

61 Zur Berechnung eines Zusammenhangs werden nun diese Differenzen für X und für Y für jede UE berechnet, multipliziert und diese Produkte addiert. Man nennt das auch die Summe der Abweichungsprodukte (SAP) oder die Summe der Kreuzprodukte. Dividiert durch N erhält man die Kovarianz Standardisierung auf Werte zwischen 1 und 1: Kovarianz wird dividiert durch das Produkt der Standardabweichungen von X und Y r Jacob, Datenanalyse 61

62 Pearson s r Jacob, Datenanalyse 62

63 Katholikenanteil Stimmanteil der CDU 63

64 Y X Jacob, Datenanalyse 64

65 Jacob, Datenanalyse 65

66 91,40/52,68 54,99 43,96 34,89/37,68 Jacob, Datenanalyse 66

67 Jacob, Datenanalyse 67

68 Jacob, Datenanalyse 68

69 Jacob, Datenanalyse 69

70 Jacob, Datenanalyse 70

71 Kurvilineare Beziehung Jacob, Datenanalyse 71

72 Durchschnittlicher Alkoholkonsum pro Woche (Wein, Sekt, Bier, Viez) in Liter nach Schulbildung (Schulzeit in Jahren) 2,5 2,3 2,3 2 1,5 1,8 1 0,5 0 bis 9 Jahre 10 Jahre Jahre r =.04 Jacob, Datenanalyse 72

73 Ordinales Messniveau: Maßzahlen auf der Basis des Paarvergleichs Bei ordinalen Daten kann kein Mittelwert berechnet werden. Allerdings lassen sich ordinale Daten in eine Rangfolge bringen. Bei ordinalen Koeffizienten werden Wertepaare von verschiedenen Untersuchungseinheiten geordnet. Zusammenhänge werden z. B. daraufhin untersucht, ob Personen, die bei Variable X einen höheren Wert aufweisen, dies auch bei Y tun oder nicht. Jacob, Datenanalyse 73

74 Alter (X): Code: Label: 1 18 bis unter bis unter bis unter bis unter 60 5 Über 60 AIDS-Kranke brauchen Solidarität und Hilfe. (Y1) Schuld an AIDS sind die Hauptrisikogruppen. (Y2) Code: Label: 1 stimme sehr zu 2 stimme eher zu 3 teils-teils 4 stimme eher nicht zu 5 stimme überhaupt nicht zu Jacob, Datenanalyse 74

75 Konkordanter Zusammenhang (c) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y1 = Solidarität mit Aids-Kranken, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab Alter X Person A 18 (1) Person B 60 (5) Solidarität Y1 s.s.z. (1) l.s.a. (5) X und Y-Wert von A sind kleiner als von B Jacob, Datenanalyse 75

76 Diskordanter Zusammenhang (d) Merkmale: X= Alter mit 5 Altersklassen Codezahlen: 1= 18 b. u. 30, 5= 60 u. älter Y2= Schuldattributionen, fünfpolige Likert-Skala Codezahlen: 1= stimme sehr zu, 5= lehne sehr ab Alter X Person A 18 (1) Person B 60 (5) HRG sind Schuld an AIDS Y2 l.s.a. (5) s.s.z. (1) Der X-Wert von A ist kleiner, der Y-Wert größer als von B Jacob, Datenanalyse 76

77 Person X Alter Y1 Solidarität A B C D E Y2 Schuld N ( N 1) Npaare = 2 Nc Nd TauA = Npaare X/Y1: 10-0/10 = 1 X/Y2: 0-10/10 = -1 Jacob, Datenanalyse 77

78 Alter Wichtigkeit von Recht und Ordnung 18- u u u ü sehr wichtig wichtig wenig. wicht unwichtig Σ N = 40 Jacob, Datenanalyse 78

79 Insgesamt möglich Paare: Konkordante Paare (Nc): Alle Zellhäufigkeiten, die rechts und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl konkordanter Paare. Nc: 1( )=11 2(5)=10 1( )=12 2(2+1)=6 5(4+1)=25 5(1)=5 Nc =69 Alter Wichtigkeit von Recht und Ordnung 18- u u u ü sehr wichtig wichtig wenig. wicht unwichtig Jacob, Datenanalyse 79

80 Diskordante Paare (Nd): Alle Zellhäufigkeiten, die links und unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl diskordanter Paare Nd: 4( )=112 2( )=44 1(1+5+5)=11 5( )=110 3( )=57 2(5+5)=20 2(4)=8 2(5)=10 5(5)=25 Nd=397 Alter Wichtigkeit von Recht und Ordnung 18- u u u ü sehr wichtig wichtig wenig. wicht unwichtig Jacob, Datenanalyse 80

81 Tied on x (Tx): Alle Zellhäufigkeiten, die unterhalb einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf x verknüpften Paare. Tx: 1(5+5)=10 5(5)=25 1(2+5+4)=11 2(5+4)=18 5(4)=20 2(3+2+1)=12 3(2+1)=9 2(1)=2 4(5)=20 Tx=127 Alter Wichtigkeit von Recht und Ordnung 18- u u u ü sehr wichtig wichtig wenig. wicht unwichtig Jacob, Datenanalyse 81

82 Tied on y (Ty): Alle Zellhäufigkeiten, die neben einer bestimmten Zelle liegen, summiert und multipliziert mit dieser Zelle, ergeben die Anzahl der auf y verknüpften Paare. Ty: 1(2+4)=6 2(4)=8 1(2+3+5)=8 2(3+5)=16 3(5)=15 5(5+2)=35 5(2)=10 5(4+1)=25 4(1)=4 Ty=127 Alter Wichtigkeit von Recht und Ordnung 18- u u u ü sehr wichtig wichtig wenig. wicht unwichtig Jacob, Datenanalyse 82

83 Tied on x and y (Txy): Alle Untersuchungseinheiten in gleichen Zellen. n(n-1)/2 Txy: 2(2-1)/2=1 4(4-1)/2=6 2(2-1)/2=1 3(3-1)/2=3 5(5-1)/2=10 5(5-1)/2=10 5(5-1)/2=10 2(2-1)/2=1 5(5-1)/2=10 4(4-1)/2=6 Txy=60 Alter Wichtigkeit von 18- u u u. 50 ü. 50 Recht und Ordnung sehr wichtig wichtig wenig. wicht unwichtig Jacob, Datenanalyse 83

84 Npaare = Nc+Nd+Tx+Ty+Txy 780= Gamma = Nc Nc + Nd Nd = =.703 TauA Nc Nd = Npaare = =.420 TauB = ( Nc + Nd Nc + Tx) Nd ( Nc + Nd + Ty = =.553 TauC = 2R( Nc n²( R Nd 1) ) = =.546 mit: R = Minimum der Zeilen- bzw. Spaltenzahl n = Anzahl der Meßwerte 84

85 Abwechslung und Spaß sehr wichtig 1 wichtig 2 wenig. wicht. 3 unwichtig u u u ü symmetrische Tabelle 3 N =12, Npaare = 66, Nc = 54, Nd = 0, Tx = 0, Ty = 0, Txy = 12 Npaare = Nc+Nd+Tx+Ty+Txy 66 = Gamma = 54 = TauA TauB = = 54 = = TauC = 432 = 1.00 Jacob, Datenanalyse 85

86 Abwechs. 18 u u u u. 60 ü. 60 und Spaß sehr 3 wichtig wichtig 3 wen. wicht. 3 unwichtig 3 3 asymmetrische Tabelle N = 15, Npaare = 105, Nc = 81, Nd = 0, Tx = 0, Ty = 3(3)=9, Txy = 15 Npaare = Nc+Nd+Tx+Ty+Txy 105 = Gamma = 81 = TauA = TauB = 81 = , =.948 TauC = 648 =.960 Jacob, Datenanalyse 86

87 Person X Alter Y1 Solidarität Y2 Schuld A B C D E Rangkorrelation (Spearmann) rs = 1 6*( D1² + D2² +... Dx²) N *( N ² 1) D1 bis Dx: Differenzen der Rangplätze (=Codezahlen) für jeden der n Merkmalsträger Jacob, Datenanalyse 87

88 Person A B C D E Rang X Rang Y D D² rs 6*(0) = 1 = 1 5*(25 1) Jacob, Datenanalyse 88

89 Person A B C D E Rang X Rang Y D D² rs = 6 *( ) 1 = 1 2 = 1 5*(25 1) Jacob, Datenanalyse 89

90 Nominales Messniveau: Chi-Quadrat basierte Maßzahlen Grundgedanke: Eine Beziehung zwischen zwei Merkmalen ist umso stärker, je größer die Abweichung von der statistischen Unabhängigkeit ist. φ = χ ² N V = N χ ² min( r 1/ c 1) Wichtig: Bei Merkmalen unterschiedlichen Messniveaus bestimmt das jeweils niedrigste Skalenniveau die Wahl des Koeffizienten. Jacob, Datenanalyse 90

91 Erwartungswert Männer Frauen N Kein Übergewicht Übergewicht N Chi-Square: 100 φ = χ ² N φ = 100 = Jacob, Datenanalyse 91

92 Erwartungswert bis u. 30 bis u. 50 ü. 50 N kein Überg ,3 33,3 33,3 leichtes Ü ,3 33,3 33,3 Adipositas ,3 33,3 33,3 N Chi-Square: 600 φ = 600 = 300 1, V = N χ ² min( r 1/ c 1) V = 600 = 1 92

93 Schuld an AIDS sind die Hauptrisikogruppen stimme sehr zu 30,3% stimme eher zu 29,3% 59,6% teils-teils 23,3% lehne eher ab 10,1% 17,1% lehne sehr ab 7,0% N 2106 Quelle: ZUMA-Sozialwissenschaften-BUS 2/1990 Jacob, Datenanalyse 93

94 V10_7 Risikogruppen sind Schuld by ALTK Altersklassen ALTK Count Exp Val Row Pct ü. 60 Col Pct Row Tot Pct 1,00 2,00 3,00 4,00 5,00 Total V10_ stimme sehr zu 159,7 129,0 104,1 97,1 145,1 30,4% 15,1% 15,0% 17,2% 20,0% 32,8% 18,3% 22,4% 31,8% 39,7% 43,5% 4,6% 4,5% 5,2% 6,1% 9,9% stimme eher zu 154,4 124,7 100,7 93,9 140,3 29,3% 20,4% 19,2% 15,8% 17,6% 27,0% 23,8% 27,8% 28,3% 33,8% 34,7% 6,0% 5,6% 4,6% 5,2% 7,9% teils/teils 122,4 98,9 79,8 74,5 111,3 23,3% 31,2% 25,3% 17,7% 11,3% 14,6% 28,9% 28,9% 25,1% 17,2% 14,9% 7,3% 5,9% 4,1% 2,6% 3,4% lehne eher ab 53,3 43,1 34,8 32,4 48,4 10,1% 42,9% 21,7% 16,5% 11,3% 7,5% 17,3% 10,8% 10,2% 7,5% 3,3% 4,3% 2,2% 1,7% 1,1%,8% lehne sehr ab 36,2 29,3 23,6 22,0 32,9 6,9% 43,1% 29,9% 11,1% 4,2% 11,8% 11,8% 10,1% 4,7% 1,9% 3,6% 3,0% 2,1%,8%,3%,8% Column Total 25,1% 20,3% 16,4% 15,3% 22,8% 100,0% 94

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Kreuztabellenanalyse -Zusammenhangsmaße

Kreuztabellenanalyse -Zusammenhangsmaße Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse -Zusammenhangsmaße 14. Dezember 2007 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2:

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Analyse bivariater Kontingenztafeln

Analyse bivariater Kontingenztafeln Analyse bivariater Kontingenztafeln Werden zwei kategoriale Merkmale mit nicht zu vielen möglichen Ausprägungen gemeinsam analysiert, so kommen zur Beschreibung der gemeinsamen Verteilung im allgemeinen

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse Phasen des Forschungsprozesses Auswahl des Forschungsproblems Theoriebildung Theoretische Phase Konzeptspezifikation / Operationalisierung

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Grundbegriffe der Beschreibenden Statistik

Grundbegriffe der Beschreibenden Statistik Grundbegriffe der Beschreibenden Statistik 1. Datenmatrix und Messniveaus...3 1.1. Merkmale, Datenmatrix, uni- und multivariate Analysen...3 1.2. Messniveaus (Skalentypen)...4 2. Ausgewählte Verfahren

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion

Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion 4. Messtheorie Messen in den Sozialwissenschaften, Operationalisierung und Indikatoren, Messniveaus,

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Der Internetdienst für Ihre Online-Umfragen. Leitfaden statistische Auswertung

Der Internetdienst für Ihre Online-Umfragen. Leitfaden statistische Auswertung Der Internetdienst für Ihre Online-Umfragen Leitfaden statistische Auswertung Weitere in dieser Reihe bei 2ask erschienene Leitfäden Allgemeiner Leitfaden zur Fragebogenerstellung Sie möchten einen Fragebogen

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik)

Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) 2 3 Klausur-Nr = Sitzplatz-Nr Prüfung zu Modul 26 (BA Bw) bzw. 10 (BA IB) (Wirtschaftsstatistik) Klausurteil 1: Beschreibende Statistik BeStat-1 (7 ) n = 400 Personen wurden gefragt, wie viele Stück eines

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas.

Elisabeth Raab-Steiner/Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS/PASW-Auswertung. 2., aktualisierte Auflage. facultas. Elisabeth Raab-Steiner/Michael Benesch Der Fragebogen Von der Forschungsidee zur SPSS/PASW-Auswertung 2., aktualisierte Auflage facultas.wuv Inhaltsverzeichnis 1 Elementare Definitionen 11 1.1 Deskriptive

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer Erhebung)

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Methoden der empirischen Sozialforschung I

Methoden der empirischen Sozialforschung I Methoden der empirischen Sozialforschung I Annelies Blom, PhD TU Kaiserslautern Wintersemester 2011/12 Übersicht Quantitative Datenauswertung: deskriptive und induktive Statistik Wiederholung: Die wichtigsten

Mehr

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Cohen s Kappa Felix-Nicolai Müller Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Felix-Nicolai Müller Cohen s Kappa 24.11.2009 1 / 21 Inhaltsverzeichnis 1 2 3 4

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Wiederholung Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell

Mehr

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 SFB 833 Bedeutungskonstitution Kompaktkurs Datenanalyse Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 Messen und Skalen Relativ (Relationensystem): Menge A von Objekten und eine oder mehrere Relationen

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Medizinische Biometrie (L5)

Medizinische Biometrie (L5) Medizinische Biometrie (L5) Vorlesung II Daten Deskription Prof. Dr. Ulrich Mansmann Institut für Medizinische Informationsverarbeitung, Biometrie und Epidemiologie mansmann@ibe.med.uni-muenchen.de IBE,

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Quantitative empirische Sozialforschung

Quantitative empirische Sozialforschung Heinz-Günter Micheel Quantitative empirische Sozialforschung Mit 37 Abbildungen und 34 Tabellen Ernst Reinhardt Verlag München Basel Dr. Heinz-Günter Micheel ist Privatdozent an der Fakultät für Erziehungswissenschaft

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Konfidenzintervalle so einfach wie möglich erklärt

Konfidenzintervalle so einfach wie möglich erklärt Konfidenzintervalle so einfach wie möglich erklärt Wolfgang Ludwig-Mayerhofer, Universität Siegen, Philosophische Fakultät, Seminar für Sozialwissenschaften Vorbemerkung: Es handelt sich um die Anfang

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

UNIVARIATE DATENANALYSE STATISTISCHE MASSZAHLEN MODUL 7 PROSEMINAR ANALYSE UND DARSTELLUNG VON DATEN I (DESKRIPTIVE STATISTIK)

UNIVARIATE DATENANALYSE STATISTISCHE MASSZAHLEN MODUL 7 PROSEMINAR ANALYSE UND DARSTELLUNG VON DATEN I (DESKRIPTIVE STATISTIK) INSTITUT FÜR ERZIEHUNGSWISSENSCHAFT - UNIVERSITÄT SALZBURG PROSEMINAR ANALYSE UND DARSTELLUNG VON DATEN I (DESKRIPTIVE STATISTIK) GÜNTER HAIDER WS 1997/98 MODUL 7 UNIVARIATE DATENANALYSE STATISTISCHE MASSZAHLEN

Mehr

Übung Statistik I Statistik mit Stata SS07-14.05.2007 5. Dokumentation der Datenanalyse, Datentransformationen II und Univariate Statistiken II

Übung Statistik I Statistik mit Stata SS07-14.05.2007 5. Dokumentation der Datenanalyse, Datentransformationen II und Univariate Statistiken II Übung Statistik I Statistik mit Stata SS07-14.05.2007 5. Dokumentation der Datenanalyse, Datentransformationen II und Univariate Statistiken II Andrea Kummerer (M.A.) Oec R. I-53 Sprechstunde: Di. 15-16

Mehr

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik Institut für Soziologie Dr. Methoden 2 Einführung, grundlegende PASW-Bedienung, univariate Statistik Programm Wiederholung zentraler Aspekten der Übungen Literatur zur Veranstaltung Erste Schritte mit

Mehr

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis: Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 5... 1 Aufgabe 101... 1 Aufgabe 102... 2 Aufgabe 103... 2 Aufgabe 104... 2 Aufgabe 105... 3 Aufgabe 106... 3 Aufgabe 107... 3 Aufgabe 108... 4 Aufgabe 109...

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = 10.000. 485,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge 2.4 Stetige Zufallsvariable Beispiel. Abfüllung von 500 Gramm Packungen einer bestimmten Ware auf einer automatischen Abfüllanlage. Die Zufallsvariable X beschreibe die Füllmenge einer zufällig ausgewählten

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Bivariate Chi-Quadrat-Verfahren

Bivariate Chi-Quadrat-Verfahren Inhaltsverzeichnis Bivariate Chi-Quadrat-Verfahren... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-3)... 3 1. Kontingenztafeln... 3 2. Vergleich einer bivariaten mit einer theoretisch erwarteten Verteilung...

Mehr

T-TEST BEI EINER STICHPROBE:

T-TEST BEI EINER STICHPROBE: Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen.

Mehr

Grundbegriffe (1) Grundbegriffe (2)

Grundbegriffe (1) Grundbegriffe (2) Grundbegriffe (1) S.1 Äquivalenzklasse Unter einer Äquivalenzklasse versteht man eine Klasse von Objekten, die man hinsichtlich bestimmter Merkmalsausprägungen als gleich (äquivalent) betrachtet. (z.b.

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Kundenzufriedenheitsbefragung 2014

Kundenzufriedenheitsbefragung 2014 Kundenzufriedenheitsbefragung 2014 Auswertungsband über alle bisher erhobenen Augenoptiker Anton Optik e.k. Februar 2015, V100 Label TÜV SÜD Management Service GmbH 1 1 2 Hintergrund der Erhebung Zusammenfassung

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

2. Eindimensionale (univariate) Datenanalyse

2. Eindimensionale (univariate) Datenanalyse 2. Eindimensionale (univariate) Datenanalyse Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Kennzahlen, Statistiken In der Regel interessieren uns nicht so sehr die beobachteten Einzeldaten

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet

Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet Der Chi Quadrat Test nicht nur für die digitalen Ziffernanalyse geeignet 1. Einleitung Seit Anfang 2002 finden elektronische Betriebsprüfungen auf der Grundlage der Grundsätze zum Datenzugriff und zur

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Kapitel 27 Distanz- und Ähnlichkeitsmaße

Kapitel 27 Distanz- und Ähnlichkeitsmaße Kapitel 7 Distanz- und Ähnlichkeitsmaße 7.1 Einführung Sowohl Distanz- als auch Ähnlichkeitsmaße dienen dazu, die Ähnlichkeit verschiedener Fälle oder Variablen zu quantifizieren. Beide Maße untersuchen,

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr