Mathematische und statistische Methoden I

Größe: px
Ab Seite anzeigen:

Download "Mathematische und statistische Methoden I"

Transkript

1 Prof. Dr. G. Meinhardt Statistik & Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de twitter.com/methodenlehre tinyurl.com/gplusmethodenlehre Folie 1 WiSe 2011/2012 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

2 Variablen & Skalen Nominaldaten Variablen Skalen Nominalskala Notation Merkmale & Variablen Grundlagen Eigenschaften, deren Werte bei den statistischen Einheiten beobachtet werden, heißen Merkmale Die Werte, die ein Merkmal annehmen kann, heißen Ausprägungen Die Ausprägungen eines Merkmals können beliebiger Art sein (z.b. Worte, Formen, Farben etc.) Eine Variable wird definiert, indem den Ausprägungen des Merkmals Zahlen zugeordnet werden. Diese Zahlen heißen Realisationen oder Werte. Folie 2 Merkmal Punkte auf Fläche 2 5 Variable Zahlen

3 Variablen & Skalen Nominaldaten Variablen Merkmale & Variablen Notation Skalen Nominalskala Notation Variablen werden mit Großbuchstaben symbolisiert, häufig verwendet man X und Y Die Realisationen einer Variablen werden dann mit den entsprechenden Kleinbuchstaben gekennzeichnet, also x und y Die Menge aller möglichen Realisationen ist der Wertebereich einer Variablen Folie 3

4 Variablen & Skalen Nominaldaten Variablen Variablen Definition Skalen Variablen werden immer über eine mathematische Formulierung definiert, z.b. Nominalskala Notation Merkmal X Variable x: 1 1, 0, wenn x: 2 1, 2, wenn x: 6 5, 6, wenn Die extensionale Definition zählt alle Realisationen der Variablen auf. Folie 4

5 Variablen & Skalen Nominaldaten Variablen Variablen Definition Skalen Variablen werden immer über eine mathematische Formulierung definiert, z.b. Nominalskala Merkmal Variable Notation X 0 Die intensionale Definition gibt eine Vorschrift an, die die Variable eindeutig spezifiziert. Folie 5

6 Variablen & Skalen Nominaldaten Variablen Variablen & Messungen Grundlagen Skalen Nominalskala Notation Folie 6 Die empirische Feststellung der Realisation einer Variablen wird als Messung bezeichnet Dabei ist zu unterscheiden zwischen der Beobachtung der Ausprägung des Merkmals und der Messung der Realisation der Variablen Denn: Die Beobachtung kann eine Information in beliebiger Form erheben (z.b. verbal, bildlich), die Messung liefert immer eine Zahl. Die gemessenen Zahlen heißen Messwerte oder Ergebnisse

7 Variablen & Skalen Nominaldaten Variablen Skalen Variablen Unterscheidung nach Art der Daten Eine wesentliche Unterscheidung von Typen von Variablen trennt diskrete von stetigen Variablen Nominalskala Eine diskrete Variable besitzt zumeist endlich viele und feste Ausprägungen, die man über Ganzzahlen beschreiben kann Notation Dichtome Variablen haben genau zwei diskrete Ausprägungen Polytome Variablen haben mehr als zwei diskrete Ausprägungen Eine stetige (kontinuierliche) Variable kann (unendlich viele) beliebige Ausprägungen annehmen, die man über reelle Zahlen beschreibt Folie 7

8 Variablen & Skalen Nominaldaten Variablen Skalen Variablen Unterscheidung nach Art der Daten Achtung: Es sind streng Typen von Merkmalen und Typen von Variablen zu unterscheiden. Nominalskala Notation Alter ist ein kontinuierliches bzw. stetiges Merkmal. Eine Variable Alter kann nun aber diskret definiert werden als x 1: 0, wenn <18 Alter X x 2: 1, wenn <68 x 3: 2, wenn 68 Folie 8 Gleiches gilt z.b. für Intelligenz, Schulleistung, Sehvermögen, Fahreignung

9 Variablen & Skalen Nominaldaten Variablen Skalen Definition Skalen Nominalskala Notation Definition der Skala (oder richtiger: Skale) Eine Skale ist die Festlegung von Einheiten, in denen ein gegebenes Merkmal gemessen wird Die Einheiten sind zumeist numerisch (Zahlen), können aber auch beliebige andere Symbole sein Nur Variablen, die auf derselben Skale gemessen wurden, sind direkt miteinander vergleichbar In allen anderen Fällen müssen die Skalen sofern möglich ineinander überführt werden (Skalentransformation). Folie 9

10 Variablen & Skalen Nominaldaten Variablen Skalen Vom Merkmal zur Skale Zusammenfassung am Beispiel der CAPS (Blake, 1996) Nominalskala Notation Konstrukt: PTSD Merkmal: Kreuze im CAPS? Skale 39 X x 1: 0, wenn 0 ja x 2: 1, wenn 1 ja x 135: 136, wenn 136 ja Folie 10 Messung Variable: CAPS-Score

11 Variablen & Skalen Nominaldaten Variablen Skalen Nominalskala Notation Vom Merkmal zur Skale Zusammenfassung am Beispiel der CAPS (Blake, 1996) Y=0: Keine PTSD Y=1: Leichte PTSD (nicht krankheitswertig) Y=2: Mittlere PTSD, (krankheitswertig) Y=3: Schwere PTSD Y=4: Extreme PTSD Konstrukt: PTSD Skalentransformation Merkmal: Kreuze im CAPS y1: 0, X 0,19 y2: 1, X 20,39 Y( X) y3: 2, X 40,59 y4: 3, X 60,79 y5: 4, X 80, X 0, wenn 0 ja 1, wenn 1 ja 136, wenn 136 ja Variable: Schweregrad Messung Variable: CAPS-Score Folie 11

12 Variablen Skalen Nominalskala Notation Variablen & Skalen Skalenniveaus Übersicht Es gibt verschiedene Typen von Skalen, die als Skalenniveaus bezeichnet werden. Nominalskala qualitativ Ordinalskala Intervallskala Verhältnisskala quantitativ (Ratioskala) Absolutskala Nominaldaten Bortz, S Der Informationsgehalt nimmt von der Nominalskala zur Absolutskala hin zu Bei Messungen kognitiver Merkmale kommen die Verhältnis- und die Absolutskala so gut wie nie vor Folie 12

13 Variablen & Skalen Nominaldaten Variablen Skalenniveaus Skalen Nominalskala Notation Folie 13 Frage: Warum ist die Kenntnis des Skalenniveaus so wichtig für die psychologische Forschung? 1. Das Skalenniveau bestimmt die erlaubten mathematischen Operationen (=,, <, > etc.) 2. Das Skalenniveau bestimmt, welche mathematischen Transformationen auf die Messwerte einer Variablen angewandt werden dürfen, ohne Informationen zu verlieren. Beispiele: Hat eine Person mit X=40 eine doppelt so schwere PTSD wie jemand mit X=20? Hat eine Person mit Y=2 eine doppelt so schwere PTSD wie jemand mit Y=1? Verliert man durch die Transformation Y(X) Informationen?

14 Variablen & Skalen Nominaldaten Variablen Skalenniveaus Skalen Nominalskala Notation Frage: Warum ist die Kenntnis des Skalenniveaus so wichtig für die psychologische Forschung? 1. Das Skalenniveau bestimmt die erlaubten mathematischen Operationen (=,, <, > etc.) 2. Das Skalenniveau bestimmt, welche mathematischen Transformationen auf die Messwerte einer Variablen angewandt werden dürfen, ohne Informationen zu verlieren. 3. Das Skalenniveau bestimmt damit auch, welche statistischen Verfahren überhaupt auf Daten angewandt werden dürfen. Also: Ohne Skalenniveau keine Statistik Folie 14

15 Variablen Skalen Variablen & Skalen Nominalskala Definition Nominaldaten Bortz, S. 12 Nominalskala Notation Bei einer Nominalskala werden den Realisationen einer Variablen Zahlen mit dem Ziel zugeordnet, Kategorien zu unterscheiden Die Zahlen selbst sind vollständig beliebig und damit nicht interpretierbar Die Anwendung mathematischer Operationen auf die Werte einer nominalskalierten Variablen ist unter bestimmten Voraussetzungen möglich, aber zumeist nicht sinnvoll. Folie 15

16 Variablen & Skalen Nominaldaten Variablen Skalen Nominalskala Beispiele Konstitutionstypen Nominalskala Notation a) Leptosomer Typ b) Athletischer Typ c) Pyknischer Typ Temperamentstypen Folie 16

17 Variablen & Skalen Nominaldaten Variablen Skalen Nominalskala Zulässige Operationen Nominalskala Zulässige Operationen sind ausschließlich Äquivalenzrelationen, d.h. Gleich und Ungleich Notation Jede andere Aussage als A ist gleich/ungleich B ist bei einer nominalskalierten Variable unzulässig! Folie 17

18 Variablen & Skalen Nominaldaten Variablen Nominalskala Zulässige Transformationen Skalen Nominalskala Zulässige Transformationen sind eineindeutige Abbildungen, so dass die Unterscheidbarkeit der Realisationen erhalten bleibt. Notation Folie 18

19 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Frage: Wie werden Realisationen formal kodiert? Ziel: Eine symbolische Schreibweise für Der Wert der vierten Ausprägung von X zu finden Hat eine Variable X genau k mögliche Realisationen, so werden diese mit x 1, x 2,, x k indiziert Laufindizes (oft i oder j) helfen, die einzelnen Realisationen symbolisch zu adressieren (Beginn bei 1). x1: 1, wenn <18 Alter X x2: 2, wenn <68 x3: 3, wenn 68 y1: 0, wenn <18 Alter Y y2: 18, wenn <68 y3: 68, wenn 68 Folie 19

20 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Folie 20 Frage: Wie werden Realisationen formal kodiert? Ziel: Eine symbolische Schreibweise für Der Wert der vierten Ausprägung von X zu finden Hat eine Variable X genau k mögliche Realisationen, so werden diese mit x 1, x 2,, x k indiziert Laufindizes (oft i oder j) helfen, die einzelnen Realisationen symbolisch zu adressieren (Beginn bei 1). Das Symbol x j mit j = 1 k bezeichnet dann die j-te Realisation der Zufallsvariablen X. Diese Indizierung ist nur für diskrete Variablen sinnvoll, da stetige Variablen unendlich viele Realisationen haben

21 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Folie 21 Frage: Wie werden Merkmalsträger formal kodiert? Ziel: Eine symbolische Schreibweise für Der Wert der vierten Person in der Stichprobe zu finden Konvention: Für die Gesamtzahl von Personen wird nahezu immer das Zeichen n (oder N) benutzt. Für die Gesamtzahl von Realisationen werden andere Kleinbuchstaben verwendet (z.b. k) Dann dient wieder ein Laufindex dazu, die einzelnen Personen zu adressieren Das Symbol x i mit i = 1 n bezeichnet dann die i-te Messung der Zufallsvariablen X.

22 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Problem: Das Symbol x 3 kann die dritte Realisation der Zufallsvariablen X sein oder auch der Wert der 3. Person in der Stichprobe Also: Es muss vorher definiert sein, was der Laufindex bedeutet, z.b. Die Variable X habe k Realisationen und sei an n Personen gemessen worden. x i x j Folie 22 mit i = 1 n mit j = 1 k

23 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Folie 23 In psychologischen Experimenten gibt es oft viele Variablen, die als UV oder AV erhoben werden. Beispiel: An einer Stichprobe von Personen verschiedenen Geschlechts wird der durchschnittliche Alkoholkonsum über einen Monat hinweg gemessen. Man hat hier offenbar 3 Variablen sowie mehrere Messungen verschiedener Merkmalsträger IQ als AV: (X) Geschlecht als UV (Y) Alkoholabhängigkeit als UV (Z) Frage: Wie indiziert man z.b. Die IQ-Messung des 4. Mannes in der Gruppe der Alkoholiker?

24 Variablen & Skalen Nominaldaten Variablen Skalen Nominalskala Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Die Variable Geschlecht (Y) wird in k=2 Ausprägungen gemessen: y 1 : 0 = männlich y 2 : 1 = weiblich Notation Die Variable Alkoholkonsum (Z) wird diskretisiert in m=5 Ausprägungen (Jelinek, 1951) gemessen: z 1 : 0 = Kein Alkoholkonsum z 2 : 1 = Konflikt-/Erleichterungstrinken z 3 : 2 = Gelegenheitstrinken z 4 : 3 = Rauschtrinken (Alkoholiker) z 5 : 4 = Periodisches Trinken (Alkoholiker) Folie 24 Es nehmen insgesamt n=220 Personen teil

25 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Die AV ist der IQ. Dies ist die Variable, deren Realisation im Experiment bei den Merkmalsträgern gemessen wird. Die beiden anderen Variablen sind UVen, deren Realisationen vor dem Experiment bereits feststehen, bzw. erhoben werden. Zur eindeutigen Indizierung des IQ eines Merkmalsträgers werden nun mehrere Laufindizes benötigt Folie 25

26 Variablen & Skalen Nominaldaten Variablen Skalen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Eine Person fällt immer in eine der km = 25 = 10 Gruppen von Geschlecht und Alkoholkonsum Nominalskala Notation Der Laufindex für Geschlecht sei r = 1 k und für Alkoholkonsum s = 1 m Jede der 10 Gruppen hat also n rs Mitglieder Jede Person kann eindeutig identifiziert werden über x irs mit i=1 n rs r=1 k, s=1 m Folie 26 So ist z.b. x 4,1,3 der vierte Mann unter den Gelegenheitstrinkern

27 Variablen & Skalen Nominaldaten Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Oft möchte man über einen der Indizes aggregieren (z.b. mitteln) Beispiel: Alle weiblichen Rauschtrinker Dann kommt die Punktnotation zum Einsatz x rs hier: x,2,5 Der Punkt symbolisiert Alle, in diesem Fall also Alle Personen in Gruppe Y=y r, Z=z s. Folie 27

28 Variablen & Skalen Nominaldaten Bortz, S. 47 Häufigkeiten Nominaldaten Numerische Beschreibung: Häufigkeiten Kreuztabellen Kennwerte Grafische Darstellung Nominalskalierte Variablen sind praktisch immer diskret und endlich Die empirische beobachtete Häufigkeit des Auftretens einer Ausprägung X = x wird als h(x = x) oder vereinfacht h(x) geschrieben. h(x) bezeichnet man als absolute Häufigkeit Die relative Häufigkeit f(x = x) bzw. f(x) ist dann definiert als der Quotient aus absoluter Häufigkeit und der Anzahl n aller Beobachtungen hx ( ) f ( x) h( x) f( x) n n Achtung: Relative Häufigkeiten sind nicht Wahrscheinlichkeiten Folie 28

29 Variablen & Skalen Nominaldaten Häufigkeiten Kreuztabellen Kennwerte Grafische Darstellung Nominaldaten Numerische Beschreibung: univariate Kreuztabellen Die Sammlung der Werte der h(x = x j ) und f(x = x j ) für alle möglichen j = 1 k wird als diskrete Häufigkeitsverteilung bezeichnet Wert von X h(x = x j ) f(x = x j ) x 1 h(x 1 ) f(x 1 ) x 2 h(x 2 ) f(x 2 ) x i h(x i ) f(x i ) x k h(x k ) f(x k ) Tabellarische Darstellung über Kreuztabellen (oder Kontingenztabellen) Folie 29

30 Variablen & Skalen Nominaldaten Häufigkeiten Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Kreuztabellen Kennwerte Grafische Darstellung Oft betrachtet man Häufigkeiten für das gemeinsame Auftreten zweier Merkmale Beispiel: Frauen/Männer, die unter-/normal- /übergewichtig sind In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Die Häufigkeiten sind nun so genannte Verbundhäufigkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben Folie 30

31 Variablen & Skalen Nominaldaten Häufigkeiten Kreuztabellen Kennwerte Grafische Darstellung Folie 31 Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Absolute Verbundhäufigkeiten werden im bivariaten Fall symbolisiert als h(x=x, Y=y) bzw. h(x, y) Relative Verbundhäufigkeiten als f(x=x, Y=y) bzw. f(x, y) Tabellarische Darstellung über bivariate Kreuztabellen Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Σ Unter (y 1 ) f(x 1,y 1 ) f(x 2,y 1 ) f(,y 1 ) Gewicht Normal (y 2 ) f(x 1,y 2 ) f(x 2,y 2 ) f(,y 2 ) Über (y 3 ) f(x 1,y 3 ) f(x 2,y 3 ) f(,y 3 ) Σ f(x 1, ) f(x 2, ) f(, ) Randhäufigkeiten

32 Variablen & Skalen Nominaldaten Häufigkeiten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Kennwerte Grafische Darstellung Auch das gemeinsame Vorkommen von mehr als zwei Merkmalen ist über Kreuztabellen darstellbar Beispiel: Frauen/Männer, die unter-/normal- /übergewichtig sind und Stricken/World of Warcraft spielen In diesem Fall werden 3 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Z: Freizeitbeschäftigung (z 1, z 2 ) Folie 32

33 Variablen & Skalen Nominaldaten Häufigkeiten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Kennwerte Absolute Verbundhäufigkeiten werden im multivariaten Fall symbolisiert als h(x=x, Y=y, ) bzw. h(x, y, ) Relative Verbundhäufigkeiten als f(x=x, Y=y, ) bzw. f(x, y, ) Grafische Darstellung Tabellarische Darstellung über geschachtelte (oder genestete ) Kreuztabellen Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Freizeit Stricken (z 1 ) WoW (z 2 ) Stricken (z 1 ) WoW (z 2 ) Unter (y 1 ) f(x 1,y 1,z 1 ) f(x 1,y 1,z 2 ) f(x 2,y 1,z 1 ) f(x 2,y 1,z 2 ) Gewicht Normal (y 2 ) f(x 1,y 2,z 1 ) f(x 1,y 2,z 2 ) f(x 2,y 2,z 1 ) f(x 2,y 2,z 2 ) Über (y 3 ) f(x 1,y 3,z 1 ) f(x 1,y 3,z 2 ) f(x 2,y 3,z 1 ) f(x 2,y 3,z 2 ) Folie 33

34 Variablen & Skalen Nominaldaten Häufigkeiten Nominaldaten Numerische Beschreibung: Kennwerte Kreuztabellen Kennwerte Grafische Darstellung Als Kennwert bezeichnet man ein statistisches Maß, das eine Menge von Beobachtungen über zumeist nur eine Zahl beschreibt Kennwerte dienen damit der Datenreduktion Kennwerte charakterisieren lediglich bestimmte Eigenschaften der gegebenen Menge von Beobachtungen, sie bedeuten als einen Informationsverlust Folie 34

35 Variablen & Skalen Nominaldaten Bortz, S Häufigkeiten Nominaldaten Numerische Beschreibung: Kennwerte Kreuztabellen Kennwerte Grafische Darstellung Ein Kennwert für nominalskalierte Daten ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x f( x) max. mod Wichtig: Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Folie 35 Bei mehreren Maxima sinkt die Aussagekraft von x mod

36 Variablen & Skalen Nominaldaten Bortz, S Häufigkeiten Kreuztabellen Kennwerte Grafische Darstellung Nominaldaten Grafische Beschreibung: Kreisdiagramm Das Kreis- oder Tortendiagramm stellt die absoluten oder relativen Häufigkeiten von Klassen als Kreissegmente eines Vollkreises ( Tortenstücke ) dar. Der Öffnungswinkel α eines Tortenstücks ist dabei durch den Anteil der Klassenelemente an allen Elementen definiert und wird berechnet als hx ( ) f ( x) n Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360 ergeben Folie 36

37 Variablen & Skalen Nominaldaten Häufigkeiten Kreuztabellen Nominaldaten Grafische Beschreibung: Kreisdiagramm Beispiel: Von den Wahlgängern der Bundestagswahl 2009 haben gewählt: Kennwerte % % Grafische Darstellung Folie % % % % SPD CDU/CSU FDP Grüne Linke Sonstige

38 Variablen & Skalen Nominaldaten Häufigkeiten Nominaldaten Grafische Beschreibung: Säulendiagramm Kreuztabellen Kennwerte Grafische Darstellung Das Balken- oder Säulendiagramm stellt die absoluten oder relativen Häufigkeiten von Ausprägungen als Balken (waagerecht) oder Säulen (senkrecht) dar. Die verschiedenen möglichen Ausprägungen werden auch als Klassen bezeichnet Der Länge der Säulen bzw. Balken ist dabei durch den Anteil der Klassenelemente am Ganzen bzw. die absolute Anzahl definiert. Die Breite der Balken variiert niemals innerhalb eines Balkendiagramms Folie 38

39 Variablen & Skalen Nominaldaten Häufigkeiten Kreuztabellen Nominaldaten Grafische Beschreibung: Säulendiagramm Beispiel: Von den Wahlgängern der Bundestagswahl 2009 haben gewählt: Kennwerte Grafische Darstellung Folie 39

40 Variablen & Skalen Nominaldaten Häufigkeiten Kreuztabellen Nominaldaten Grafische Beschreibung: Säulendiagramm Warum gleiche Säulenbreiten? Kennwerte Grafische Darstellung Folie 40 Menschen neigen zur Größenbewertung anhand der Fläche.

41 Variablen & Skalen Nominaldaten Grafische Beschreibung How-not -to Folie 41 Quelle:

42 Ordinaldaten Intervalldaten Grafische Beschreibung How-not -to Bild fragt: Brauchen wir eine Ausländerquote an deutschen Schulen? als Reaktion auf PISA 2008 Folie 42

43 Variablen & Skalen Nominaldaten Grafische Beschreibung How-not -to Quelle: Folie 43

44 Variablen & Skalen Nominaldaten Grafische Beschreibung How-not -to Keine Geschlechterlücke mehr beim Gehalt von Führungskräften Folie 44

45 Relevante Excel Funktionen Häufigkeitsberechnungen Grundrechenarten: +, -,, / Formeln: SUMME(), PRODUKT() Häufigkeitsdarstellungen ANZAHL2() ZÄHLENWENN(), ZÄHLENWENNS() HÄUFIGKEIT() Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm Kennwerte MODUS.EINF() Folie 45

46 Ordinalskala Ordinaldaten Ordinalskala Definition Intervalldaten Bortz, S Häufigkeiten Kennwerte Grafische Darstellung Bei einer Ordinalskala können die Realisationen einer Variablen (natürlich) geordnet werden Die Zuordnung der Zahlen zu den Ausprägungen spiegelt die Ordnung wieder Abstände zwischen den Zahlen können nicht interpretiert werden Die Anwendung von Rechenoperationen auf die Werte einer ordinalskalierten Variablen ist unter bestimmten Voraussetzungen erlaubt, aber im Allgemeinen eher wenig sinnvoll Folie 2

47 Ordinalskala Ordinaldaten Ordinalskala Beispiel Intervalldaten Häufigkeiten Kennwerte Grafische Darstellung Folie 3 Social Penetration Theory von Altman und Taylor (1958) (I) (II) (III) (IV) (V) Orientierungsstadium: Sozial erwünschte Normen und Verhaltensschemata werden ausgetauscht (z.b. Smalltalk) Exploratorisch-affektives Stadium: Partielle Öffnung der eigenen Einstellungs- und Wahrnehmungswelt gegenüber dem Anderen im Hinblick auf private, vor allem aber berufliche und weltanschauliche Inhalte. Weiterhin vorsichtige Prüfung der Interaktionsformen ( Bekanntschaftsphase ). Affektives Stadium: Intensiver und möglicherweise kritischer Austausch über private und persönliche Themen. Körperliche Zuwendung wie Berühren und Küssen. Stabiles Stadium: Die Beziehung erreicht ein Plateau, persönliche Inhalte sind geteilt, Verhalten und Emotionen des Anderen vorhersagbar. Depenetration: Zusammenbruch und mögliches Ende der Beziehung, Überwiegen von Kosten gegenüber dem Nutzen.

48 Ordinaldaten Intervalldaten Ordinalskala Ordinalskala Zulässige Operationen Häufigkeiten Kennwerte Grafische Darstellung Zulässige Operationen sind Äquivalenzrelationen, d.h. Gleich und Ungleich Zudem erlaubt sind qualitative Vergleichsrelationen, d.h. Größer oder Kleiner Wichtig: Diese Vergleichsrelationen umfassen nicht jede Art quantitativer Vergleiche Eine Aussage wie A ist gleich/ungleich/größer/kleiner B ist bei einer ordinalskalierten Variable zulässig, nicht aber A ist viermal so groß wie B. Folie 4

49 Ordinaldaten Intervalldaten Ordinalskala Ordinalskala Zulässige Transformationen Häufigkeiten Zulässig sind alle streng monotonen Transformationen, so dass die Rangordnung der Werte erhalten bleibt. Kennwerte Grafische Darstellung Folie 5

50 Ordinaldaten Intervalldaten Ordinalskala Ordinalskala Kritische Betrachtung Häufigkeiten Kennwerte Grafische Darstellung Bei Ordinalskalen und höheren Skalenniveaus können Intransitivitäten auftreten Intransitivität = Eine angenommene Ordnung gilt nicht für bestimmte einzelne Paarungen Beispiel: Nahrungskette in chinesischen Restaurants Mensch Hund Ratte Mensch (nach Glutamatvergiftung) Lösungen: Annahme eines niedrigeren Skalenniveaus, Einführung neuer Skalenstufen Folie 6

51 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Häufigkeiten Häufigkeiten Kennwerte Grafische Darstellung Ordinalskalierte Variablen sind sehr häufig diskret und endlich Es gelten die bereits eingeführten Notationen und Berechnungsvorschriften für empirische Häufigkeiten Neben der Häufigkeitsverteilung kann auch noch die empirische Verteilungsfunktion bestimmt werden. Diese gibt an, wie viele Beobachtungen kleiner oder gleich einer bestimmten Ausprägung x sind. Folie 7 Zur Berechnung der Verteilungsfunktion müssen die Ausprägungen zunächst der Größe nach geordnet werden.

52 Ordinaldaten Intervalldaten Bortz, S. 47 Ordinalskala Ordinaldaten Numerische Beschreibung: Häufigkeiten Häufigkeiten Kennwerte Grafische Darstellung Empirische Häufigkeitsverteilung und Verteilungsfunktion: Wert von X (geordnet) h(x f(x = x j ) H(X F(X x j ) x 1 h(x f(x 1 ) h(x f(x 1 ) x 2 h(x f(x 2 ) h(x f(x 1 )+h(x )+f(x 2 ) x k h(x f(x k ) h(x f(x 1 )+h(x )+f(x 2 )+ +f(x )+ +h(x k ) k ) Berechnungsvorschrift: analog für absolute Vert.funkt. H(X x j ) j c1 F( X x ) f( x ) j c Für Ordinaldaten gelten die bereits eingeführten Konventionen zur Erstellung von Kreuztabellen Folie 8

53 Ordinaldaten Intervalldaten Ordinalskala Exkurs: Das Summenzeichen Σ Notation Häufigkeiten Kennwerte Grafische Darstellung Sei X eine Variable mit k möglichen Ausprägungen An n Merkmalsträgern werden nun die Beobachtungen x 1, x 2,,x n erhoben Die Summe aller n Beobachtungen ist definiert als n i1 x x x... x i 1 2 n Folie 9

54 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Exkurs: Das Summenzeichen Σ Rechenregeln 1. Multiplikation jeder Beobachtung mit einer Konstanten n i1 a x ax ax... ax 1 2 i a( x x... x ) a n i1 1 2 x i mit a const. n n Folie 10

55 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Exkurs: Das Summenzeichen Σ Rechenregeln 2. Summation einer Konstanten Kennwerte Grafische Darstellung n b b b... b i1 n-mal nb mit b const. Folie 11

56 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Exkurs: Das Summenzeichen Σ Rechenregeln 3. Addition einer Konstanten zu jeder Beobachtung n i1 x b x bx b... x b 1 2 i x1x2... xn b b... n n n i i1 i1 i1 i n n-mal x b x nb mit b const. Folie 12

57 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Exkurs: Das Summenzeichen Σ Rechenregeln 4. Addition zweier Variablen n i1 x y x y x y... x y i i n n x x... x y y... y 1 2 n 1 2 n n x i i1 i1 y i n Folie 13

58 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Exkurs: Das Summenzeichen Σ Rechenregeln 5. Verbindung von Multiplikation und Addition einer Konstanten n n n i i a x b a x b i1 i1 i1 n a x nb i1 mit a, b const. i Folie 14

59 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Folie 15 Exkurs: Das Summenzeichen Σ Geschachtelte Summen - Notation k m i1 j1 Sei X eine Variable mit k möglichen Ausprägungen und Y eine Variable mit m möglichen Ausprägungen An n Merkmalsträgern werden die Verbundhäufigkeiten h(x i, y j ) erhoben, wobei i=1 k und j=1 m Die Summe aller Verbundhäufigkeiten ist h( x, y ) h( x, y ) h( x, y )... h( x, y ) i j m hx ( 2, y1) hx ( 2, y2)... hx ( 2, ym)... hx (, y) hx (, y)... hx (, y) k 1 k 2 k m

60 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Exkurs: Das Summenzeichen Σ Geschachtelte Summen - Rechenregeln 1. Kommutativgesetz k m m k,, i j h xi y j h x y i1 j1 j1 i1 2. Keine Trennung von geschachtelten Summen k m k m hx,,, i y j h xi y j h xi y j i1 j1 i1 j1 nicht definiert Folie 16

61 Variablen & Skalen Nominaldaten Häufigkeiten Exkurs: Das Summenzeichen Σ Rechnen mit Häufigkeiten (am bivariaten Beispiel) Kreuztabellen Kennwerte Grafische Darstellung Anzahl Beobachtungen: Randhäufigkeiten für x: analog für f(x i, ) Randhäufigkeiten für y: analog für f(y j, ) k x y nh(,) h( x, y ) k y k i1 j1 hx (, ) hx (, y) i i j j1 k x h(, y ) h( x, y ) j i j i1 i j Folie 17 Darüber hinaus gilt: k k x y i1 j1 f( x, y ) 1 i j

62 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Kennwerte Häufigkeiten Kennwerte Grafische Darstellung Maße der zentralen Tendenz Median Andere Lagemaße Modalwert Extrema (Minimum, Maximum) Quantile, Quantilsrang Streuungsmaße (Dispersionsmaße) Spannweite (Halber) Interquartilsabstand Folie 18

63 Ordinaldaten Intervalldaten Bortz, S Ordinalskala Ordinaldaten Numerische Beschreibung: Median Häufigkeiten Kennwerte Grafische Darstellung Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: xmed oder x Problem: Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig. Er liegt dann zwischen den Beobachtungen Folie 19

64 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Median Häufigkeiten Kennwerte Grafische Darstellung Folie 20 Der Median stimmt häufig mit keiner beobachteten Ausprägung überein Median (und auch der Modalwert) sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten a zu allen n Messwerten x 1 x n x a x a 2. Multiplikation aller n Messwerte x 1 x n mit einer Konstanten a x a x a

65 Ordinaldaten Intervalldaten Bortz, S Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Ordinaldaten Numerische Beschreibung: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 p 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Percentile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung) Folie 21

66 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Ordinaldaten Numerische Beschreibung: Quantile Wichtige Quantile sind: Perzentile: x.01, x.02,, x.99, x 1.0 bzw. x 1%, x 2%,, x 99%, x 100% Grafische Darstellung Minimum (0. Quartil, 0% Perzentil) und Maximum (4. Quartil) Median (2. Quartil, 50% Perzentil) 25% Perzentil (1. Quartil, unteres Quartil) und 75% Perzentil (3. Quartil, oberes Quartil) Folie 22 Dezile: x.10, x.20,, x.90

67 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Ordinaldaten Quantile A cautionary note about conventions In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert oder sogar fehlerhaft. Maß Bortz Excel SPSS Median Quartil Quartil Für einen Beispieldatensatz mit n=12. Folie 23

68 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Der Quantilsrang Häufigkeiten Kennwerte Grafische Darstellung Als p-quantil war diejenige Ausprägung x der Variablen X definiert, die die Daten in einen Anteil von p Datenwerten unterhalb oder gleich der Ausprägung x sowie 1-p Datenwerten oberhalb oder gleich x teilt. Besonders bei angewandten Fragestellungen ist oft auch die entgegengesetzte Sichtweise relevant. Beispiel: Eine Person habe in einem Leistungstest einen Wert von 105 Punkten erzielt. Wie viele Personen in der Stichprobe sind nun besser/schlechter? Dies kann über den Quantilsrang ermittelt werden. Folie 24

69 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Ordinaldaten Der Quantilsrang Verfahren der Rangbildung Bei der Rangbildung von k Ausprägungen x 1 x k einer Variablen X können maximal k Ränge vergeben werden. Per Konvention erhält die numerisch niedrigste Ausprägung von X den Rangplatz 1, die höchste den Rangplatz k (kleinere Zahl = kleinerer Rang). Bei mehreren gleichen Werten ( Ties ) von X wird der mittlere Rangplatz vergeben nach der Regel: Es gebe m gleiche Werte von X. Wären sie unterschiedlich und direkt aufeinander folgend, erhielten sie die Rangplätze rg j rg j+m-1. Der mittlere Rang ist dann Folie 25 rg Tie rg 1 j m m1 irg j rg i

70 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Der Quantilsrang Berechung Häufigkeiten Kennwerte Grafische Darstellung Folie 26 Nach der Berechnung der Rangzahl rg(x) eines Merkmalsträgers ermittelt man seinen Quantilsrang p über p 0.5 rg x n = Stichprobengröße (d.h. der maximale Rang) Problem: p reicht nicht von 0 bis 1, sondern liegt in einem etwas schmaleren Bereich, abhängig von der Größe des n. Die Korrekturformel für den Quantilsrang behebt dieses Problem p corr n p p p p max min min

71 Ordinaldaten Intervalldaten Bortz, S. 32 Ordinalskala Ordinaldaten Numerische Beschreibung: Spannweite Häufigkeiten Kennwerte Grafische Darstellung Die Spannweite d k ist die Differenz zwischen dem kleinsten und größten Wert aller Ausprägungen. Sie ist definiert als: d x x k max min Die Spannweite ist nicht identisch mit der Anzahl unterschiedlicher Ausprägungen. Die Spannweite ist eher uninformativ, da sie nur zwei von k Ausprägungen berücksichtigt. Folie 27

72 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Interquartilsabstand Häufigkeiten Kennwerte Grafische Darstellung Der Interquartilsabstand d q ist die Differenz zwischen dem 1. und 3. Quartil Er ist definiert als d x x q Manchmal wird auch ein halber Interquartilsabstand berechnet als d q /2. Folie 28

73 Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Kennwerte Grafische Darstellung Ordinaldaten Grafische Beschreibung: Empirische Verteilungsfunktion Die empirische Verteilungsfunktion bei k Realisationen ist j F( X x ) F( x ) f ( x ) j j c c1 mit j = 1 k Note x h(x) f(x) F(x) Zur grafischen Darstellung werden also die empirischen relativen Häufigkeiten aufsummiert Folie 29

74 Ordinaldaten Intervalldaten Bortz, S Ordinalskala Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Häufigkeiten Kennwerte Grafische Darstellung Mithilfe der Fünf-Punkte- Zusammenfassung (x min, x.25, x med, x.75, x max ) können Häufigkeitsdaten grafisch am Boxplot veranschaulicht werden. Diese Variante ist problematisch, weil Ausreißer die Länge der Whisker erheblich vergrößern können x max x.75 x x.25 x min Note Folie 30

75 Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Häufigkeiten Kennwerte Grafische Darstellung Eine zweite, häufiger verwendete Variante des Boxplots verwendet den 1.5fachen Interquartilsabstand d q für die Länge der Whisker. Box und Whisker enden am letzten Datenpunkt innerhalb ihrer Reichweite Datenpunkte außerhalb der Whisker werden explizit eingetragen (ο) dq x.75 x x dq 3 dq dq Folie 31 Ausreißer >3d q werden mit Sternchen (*) markiert. Note

76 Ordinaldaten Intervalldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Folie 32

77 Ordinaldaten Intervalldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Folie 33

78 Intervallskala Kreuztabellen Ordinaldaten Intervallskala Definition Es wird eine Einheit definiert Intervalldaten Bortz, S Grafische Darstellung I Es existiert kein natürlicher Nullpunkt Differenzen von Werten können verglichen werden, nicht aber die Werte selbst Wird am häufigsten in empirischen psychologischen Untersuchungen angenommen Intervallskalierte Variablen können diskret oder stetig sein Folie 34

79 Ordinaldaten Intervalldaten Intervallskala Intervallskala Beispiel Kreuztabellen Grafische Darstellung I Attitudes Toward Housecleaning Scale von Ogletree, Worthen, Turner & Vickers (2006). Ihre Aufgabe ist es, ihre Gefühle gegenüber jeder Aussage dahingehend zu kennzeichnen, ob sie (1) stark zustimmen, (2) etwas zustimmen, (3) weder zustimmen noch ablehnen, (4) etwas ablehnen oder (5) stark ablehnen. Bitte verdeutlichen Sie Ihre Meinung dadurch, dass sie entweder 1, 2, 3, 4 oder 5 auf dem Antwortblatt schwärzen. Folie 35 Einen Stapel dreckigen Geschirrs über Nacht im Spülbecken liegen zu lassen finde ich ekelhaft. Ich finde Staubwischen entspannend. Den Müll rauszubringen macht mir Spaß Frauen sollten die primäre Verantwortung für die Hausarbeit übernehmen. Eine unordentliche Wohnung zu haben macht mir nichts

80 Ordinaldaten Intervalldaten Intervallskala Intervallskala Zulässige Transformationen Kreuztabellen Grafische Darstellung I Zulässige Operationen sind Äquivalenzrelationen, d.h. Gleich und Ungleich Zudem erlaubt sind qualitative Vergleichsrelationen, d.h. Größer oder Kleiner Erlaubt sind weiterhin quantitative Vergleichsrelationen, die sich auf Differenzen beziehen Eine Aussage wie Der Unterschied zwischen A und B ist doppelt so groß wie zwischen A und C ist bei einer intervallskalierten Variable zulässig, nicht aber A ist doppelt so groß wie B. Folie 36

81 Ordinaldaten Intervalldaten Intervallskala Intervallskala Zulässige Transformationen Kreuztabellen Grafische Darstellung I Zulässig sind alle linearen Transformationen (die Grundrechenarten), so dass die Verhältnisse zwischen Differenzen erhalten bleiben. Folie 37

82 Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Intervallskala Zulässige Transformationen Grafische Darstellung I Folie 38 Die Aussage Person E ist doppelt so gut wie Person C, ausgehend von Skala 1, gilt nicht für Skala 3 und 4.

83 Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Intervallskala Zulässige Transformationen Grafische Darstellung I Folie 39 Wohl aber gilt immer: Der Unterschied zwischen A und B ist doppelt so groß wie zwischen B und C

84 Ordinaldaten Intervalldaten Intervallskala Intervallskala Kritische Betrachtung Kreuztabellen Grafische Darstellung I Die bekanntesten und am meisten verbreiteten statistischen Verfahren setzen eine Intervallskala voraus Der Umgang mit niedrigeren Skalenniveaus ist mathematisch oftmals weitaus komplexer Die ungeprüfte Annahme der Intervallskala in psychologischen Untersuchungen ist oft problematisch Beispiele: Schulnoten, IQ-Skalen, Likert Skalen, Becks Depressionsskala (BDI) Folie : Keine bis minimale Depression 14 19: Milde Depression 20 28: Moderate Depression 29 63: Schwere Depression

85 Ordinaldaten Intervalldaten Intervallskala Intervalldaten Numerische Beschreibung: Kreuztabellen Kreuztabellen Grafische Darstellung I Problem: Intervallskalierte Variablen können u.u. beliebige Ausprägungen besitzen, die sich nicht mehr sinnvoll in einer Tabelle darstellen lassen Beispiele: Körpergrößen, Serotoninspiegel, Reaktionszeit Lösung: Es muss eine Aggregation vieler Ausprägungen in wenige Kategorien (oder Klassen ) stattfinden Bei der Klassenbildung für eine Variable X findet im Prinzip nichts anderes als eine Transformation von X in eine neue Variable Y statt, und zwar gemäß Y y y y 1 2 k : X { } : X { } : X { } Folie 41

86 Ordinaldaten Intervalldaten Bortz, S Intervallskala Intervalldaten Numerische Beschreibung: Klassenbildung Kreuztabellen Grafische Darstellung I Folie 42 Die Messwertklassen dürfen sich nicht überschneiden, sie sind also wechselseitig ausschließend. Die untere und obere Klassengrenze UG j und OG j gehören zur Klasse c j, die obere Grenze der vorherigen Klasse OG j-1 jedoch nicht. c j = [UG j OG j ] oder c j = (OG j-1 UG j+1 ] Alle Klassen haben im Normalfall dieselbe Breite. Die Anzahl der Klassen ist zunächst frei wählbar. Es ist aber zu beachten: 1. Es sollte möglichst wenige leere Klassen geben 2. Es sollten keine in den Daten enthaltenen wichtigen Informationen herausggregiert werden (z.b. mehrere Modalwerte)

87 Ordinaldaten Intervalldaten Intervallskala Intervalldaten Numerische Beschreibung: Klassenbildung Kreuztabellen Grafische Darstellung I Folie 43 Zur Bestimmung der Anzahl von Klassen gibt es verschiedene Formeln. Als Faustregeln gelten: Anzahl der Ausprägungen k 5 bis 50 5 bis 8 Klassenzahl c 50 bis bis bis bis 12 >250 8 bis 25 Eine einfache Formel, die oft zu einer sinnvollen Klassenanzahl c führt, lautet c n log2 1 mit Aufrundung Statt der Beobachtungen n kann auch die Anzahl der Realisationen k verwendet werden.

88 Ordinaldaten Intervalldaten Intervallskala Intervalldaten Numerische Beschreibung: Klassenbildung Kreuztabellen Grafische Die Klassenbreite d bei einer gewünschten Anzahl von c gleich breiten Klassen wird berechnet als Darstellung I max( X ) min( X) u d c mit u = Einheit der Skala (z.b. 1 oder 0.5) Hier ist X die ursprüngliche intervallskalierte Variable Bei der Berechnung der Klassenbreite muss auf Ausreißer in der Variablen X geachtet werden, da solche die Klassenbreite erheblich verzerren können. Folie 44

89 Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Grafische Darstellung I Intervalldaten Numerische Beschreibung: Klassenbildung 25 Abiturienten erreichen in ihrer Abschlussarbeit folgende Punktzahlen: (11, 15, 8, 13, 8, 11, 14, 11, 11, 14, 13, 11, 2, 9, 10, 10, 14, 7, 7, 12, 12, 8, 6, 11, 13) Unter der Annahme, dass die Notenskala von 1 bis 15 reicht, ergibt sich diese Häufigkeitstabelle bei 5 Klassen: Note h(x) f(x) F(x) Folie 45

90 Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Grafische Darstellung I Intervalldaten Numerische Beschreibung: Klassenbildung 25 Ratten erreichen in einem Experiment folgende Reaktionszeiten: (11.23, 15.1, , 13.3, 8.955, 11.0, , 11.63, 11.39, , , 11.32, 2.5, 9.814, 10.03, 10.99, 14.3, 7.523, 7.49, , 12.88, 8.0, 6.748, 11.1, 13.0) Schreibweise der Klassengrenzen in der Tabelle? Note h(x) f(x) F(x) Folie 46 Es galt per Konvention: Die obere Grenze gehört zur Klasse, die untere nicht (außer bei erster Kategorie).

91 Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Grafische Darstellung I Intervalldaten Numerische Beschreibung: Klassenbildung Bei diskreten Daten werden die Klassengrenzen nach Möglichkeit nicht-überlappend angegeben. Die Klassenbreite ist dann mit u = Einheit der Skala (z.b. 1 oder 0.5) d = OG UG + u Bei kontinuierlichen Daten werden die Klassengrenzen überlappend angegeben, wobei per Konvention die obere Grenze zur Klasse gehört, die untere aber nicht (mit Ausnahme der ersten Klasse). Die Klassenbreite ist dann d= OG UG Folie 47

92 Relevante Excel Funktionen Kennwerte MIN(), MAX() MEDIAN() QUANTIL().INKL(), QUARTILE.INKL(), QUANTILSRANG.INKL() Klassenbildung LOG() AUFRUNDEN() Folie 48

93 & Statistik Ordinaldaten Intervalldaten Bortz, S Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Folie 2 Das Histogramm stellt die Häufigkeiten vieler Kategorien in einem Säulendiagramm mit weniger Klassen als Kategorien dar Die Klassen müssen nicht notwendig gleich breit sein Für die Klassenbildung beim Histogramm gelten dieselben Faustregeln wie bei den Kreuztabellen Die Häufigkeiten können entweder absolute Häufigkeiten (absolutes Histogramm) sein oder relative Häufigkeiten (relatives Histogramm) Bei gleichen Klassenbreiten zeigt zumeist die Höhe einer Säule die Häufigkeit der Elemente in der Klasse. (wie beim Säulen-/Balkendiagramm)

94 & Statistik Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Intervalldaten Grafische Beschreibung: Histogramm Beispiel: Verteilung des IQ in diesem Raum. Grafische Darstellung I Folie 3 Student IQ f(iq) h(iq) 92 Werte zwischen 89 und Absolutes Relatives Histogramm

95 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Frage: Warum darf die Höhe der Säule in einem Histogramm nur dann die Häufigkeit der Elemente in den Klassen repräsentieren, wenn diese gleich breit sind? Beispiel: Säule 1 ist etwas höher als Säule 3, allerdings ist die Klassenbreite unterschiedlich groß Folie 4 Aufgrund der Flächenbewertung der menschlichen Wahrnehmung scheint Klasse 3 wesentlich mehr Merkmalsträger zu umfassen als Klasse 1

96 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Regel: Wählt man ungleiche Klassenbreiten, muss das Histogramm normiert werden (wegen der Flächenbeurteilung der menschlichen Wahrnehmung). Wenn nicht die Höhe, sondern die Fläche A j einer Säule die Häufigkeit repräsentieren soll, gilt für eine Klasse x j : A = f(x j ), und damit f(x j ) = a j d j (a j ist die Höhe der Säule, d j die Klassenbreite) Somit ist die Höhe einer Säule a j = f(x j ) / d j Folie 5 Dies gilt auch für die Darstellung mit absoluten Häufigkeiten h(x j ) Dann ist die Höhe einer Säule a j = h(x j ) / d j

97 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Regel: Wählt man ungleiche Klassenbreiten, muss das Histogramm normiert werden (wegen der Flächenbeurteilung der menschlichen Wahrnehmung). Wenn nicht die Höhe, sondern die Fläche A j einer Säule die Häufigkeit repräsentieren soll, gilt für eine Klasse x j : A = f(x j ), und damit f(x j ) = a j d j (a j ist die Höhe der Säule, d j die Klassenbreite) bzw. a j = f(x j ) / d j Normierte relative Häufigkeit Folie 6

98 & Statistik Ordinaldaten Intervalldaten Intervallskala Kreuztabellen Intervalldaten Grafische Beschreibung: Histogramm Beispiel: Verteilung des IQ in diesem Raum. Grafische Darstellung I Folie 7 Student IQ h(iq) f(iq) 92 Werte zwischen 89 und

99 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Problem: Ein normiertes Histogramm ist in Bezug auf die y-achse nur schwer interpretierbar. Um die relative/absolute Häufigkeit einer Klasse zu bestimmen, muss außer bei einer Klassenbreite von 1 stets gerechnet werden Dies führt bei Histogrammen mit gleicher Klassenbreite zu unnötigem Interpretationsaufwand Normierte relative Häufigkeit Normierte relative Häufigkeit Folie 8

100 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische Beschreibung: Histogramm Kreuztabellen Grafische Darstellung I Problem: Ein normiertes Histogramm ist in Bezug auf die y-achse nur schwer interpretierbar. Um die relative/absolute Häufigkeit einer Klasse zu bestimmen, muss außer bei einer Klassenbreite von 1 stets gerechnet werden Bei gleichen Klassenbreiten wird ein Histogramm daher zumeist wie ein Säulendiagramm skaliert. Normierte relative Häufigkeit Folie 9

101 & Statistik Ordinaldaten Intervalldaten Intervalldaten Grafische Beschreibung: Histogramm Achtung: Die Wahl der Klassenanzahl kann für die Aussage entscheidend sein. Beispiel: Körpergrößen an der Geisteswissenschaftlichen Fakultät der Uni Mainz Klassenanzahl: 25 Klassenanzahl: 10 f(iq) f(iq) Folie 10

102 & Statistik Ordinaldaten Intervalldaten Intervallskala Intervalldaten Grafische/verbale Beschreibung: Modalität Kreuztabellen Grafische Darstellung I Je nach Anzahl der (lokalen) Maxima unterscheidet man uni-, bi- und multimodale Verteilungen. Folie 11

103 & Statistik Ordinaldaten Intervalldaten Intervalldaten Grafische/verbale Beschreibung: Schiefe Symmetrische Verteilungen: Häufigkeiten für die Ausprägungen einer Zufallsvariablen verlaufen (annähernd) gleichartig um den Mittelwert. Linkssteile/rechtsschiefe Verteilungen: Häufigkeiten laufen rechts des Mittelwertes flacher aus. Rechtssteile/linksschiefe Verteilungen: Häufigkeiten laufen links des Mittelwertes flacher aus. Folie 12

104 & Statistik Ordinaldaten Intervalldaten Bortz, S. 62 Intervallskala Kreuztabellen Grafische Darstellung I Intervalldaten Grafische Beschreibung: Empirische Verteilungsfunktion Die empirische Verteilungsfunktion bei c Klassen ist j F( X x ) F( x ) f ( x ) j j c c1 mit j = 1 k Note x h(x) f(x) F(x) Zur grafischen Darstellung werden also die empirischen relativen Häufigkeiten aufsummiert Folie 13

105 & Statistik Intervalldaten z-standardisierung Bortz, S Kreuztabellen Intervalldaten Numerische Beschreibung: Kennwerte Grafische Darstellung I Kennwerte Grafische Darstellung II Maße der zentralen Tendenz Mittelwert Streuungsmaße (Dispersionsmaße) Mittlere Differenz (Abweichungs-)Quadratsumme Varianz Standardabweichung Folie 14

106 & Statistik Intervalldaten z-standardisierung Kreuztabellen Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 15 Der Mittelwert ist bei n Beobachtungen x 1 x n definiert als 1 1 x x x x x n ( 1 2 N) n n i 1 Ist durch extreme Werte beeinflussbar (ausreißerempfindlich) Ist der Schwerpunkt der Beobachtungen, d.h. n i1 x i x 0 i

107 & Statistik Intervalldaten z-standardisierung Kreuztabellen Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 16 Der Mittelwert stimmt häufig mit keiner beobachteten Realisation überein Der Mittelwert ist äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten a zu allen n Beobachtungen x 1 x n x a x a 2. Multiplikation aller n Beobachtungen x 1 x n mit einer Konstanten c a xax

108 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Intervalldaten Numerische Beschreibung: Mittelwert Lageregeln für die Maße der zentralen Tendenz Bei symmetrischen Verteilungen: x x x med Bei linkssteilen Verteilungen: x x x med mod mod Bei rechtssteilen Verteilungen x x x med mod Folie 17

109 & Statistik Intervalldaten z-standardisierung Bortz, S Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 18 Intervalldaten Numerische Beschreibung: Mittlere Abweichung Als mittlere Abweichung (MD) von n Beobachtungen x 1 x n in einem Datensatz wird die Summe aller Abweichungsbeträge zum Median bezeichnet. 1 n i n i 1 MD x x Für jeden anderen Wert als für den Median ist der mittlere Abweichungsbetrag größer, d.h. n 1 1 n x x x c i i1 n i1 n i

110 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 19 Intervalldaten Numerische Beschreibung: Abweichungsquadratsumme Die Abweichungsquadratsumme (oder auch: Fehlerquadratsumme oder einfach Quadratsumme) ist die Summe der quadrierten Abweichungen aller n Beobachtungen x 1 x n vom Mittelwert. QS x x x n 2 i1 Erfasst die Streuung um den Mittelwert Nur falls keine Streuung besteht, ist QS = 0, d.h. alle beobachteten Werte sind gleich. Sonst: QS> 0 Je größer die Streuung, desto größer ist die QS Problem: Die Fehlerquadratsumme wird um so größer, je mehr Beobachtungen vorliegen i

111 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 20 Intervalldaten Numerische Beschreibung: Varianz Die Varianz ist das mittlere Abweichungsquadrat aller n Beobachtungen x 1 x n vom Mittelwert. 2 1 n s x xi x n i 1 2 Erfasst die mittlere Streuung um den Mittelwert Nur falls keine Streuung besteht, ist s² = 0, d.h. alle beobachteten Werte sind gleich. Sonst: s² > 0 Je größer die Streuung um den Mittelwert, desto größer ist die Varianz Ist anfällig gegenüber Ausreißern

112 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Intervalldaten Numerische Beschreibung: Varianz Für jeden anderen Wert als für den Mittelwert ist die Summe der Abweichungsquadrate höher 1 1 n n n 2 2 xi x xi c i1 n i1 Der Mittelwert minimiert also die quadrierten Abweichungen aller Beobachtungen. Folie 21

113 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 22 Intervalldaten Numerische Beschreibung: Varianz Die Formel für die Varianz lässt sich leicht umformen in eine rechnerisch manchmal günstigere Variante: n 1 1 n i i1 n i1 n x x x x x x Die Varianz ist also die Differenz des Mittelwerts der quadrierten Daten und dem quadrierten Mittelwert der Daten. Dies wird auch als Momentenschreibweise der Varianz bezeichnet. i

114 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Intervalldaten Numerische Beschreibung: Standardabweichung Problem: Die Varianz ist nicht äquivariant zu erlaubten Skalentransformationen s ax a s x ( ) ( ) (mit a = const.) Durch Wurzelziehen erhält man die Standardabweichung (SD, standard deviation) 1 n i n i 1 s x s x x x 2 2 Folie 23 Die Standardabweichung ist äquivariant zu den erlaubten Skalentransformationen

115 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Folie 24 Intervalldaten Numerische Beschreibung: s² und s Verhalten von Varianz und Standardabweichung bei Transformationen der n Beobachtungen x 1 x n 1. Die Addition einer Konstanten a zu allen Werten x verändert Varianz und Standardabweichung nicht s²(x + a) = s²(x) s(x + a) = s(x) 2. Die Multiplikation aller Werte x mit einer Konstanten a führt zu einer Erhöhung der Varianz um a² und der Standardabweichung um a s²(a x) = a² s²(x) s(a x) = a s(x)

116 & Statistik Intervalldaten z-standardisierung Bortz, S. 41, 46 Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Intervalldaten Mittelwert und Varianz aus kategorisierten Daten Liegen intervallskalierte Daten bereits in kategorisierter Form vor (z.b. in einer Häufigkeitstabelle), so können daraus Mittelwert und Varianz näherungsweise bestimmt werden. Es sei x jmid, OG j UG 2 die Kategoriemitte der j-ten von insgesamt k Kategorien mit der Untergrenze UG j, der Obergrenze OG j und der Häufigkeit f(x j ) j Mittelwert k j1 j, x f x x j mid Varianz k 2 s ( x) f xj xj, mid x j1 2 Folie 25

117 & Statistik Intervalldaten z-standardisierung Kreuztabellen Grafische Darstellung I Kennwerte Intervalldaten Grafische Beschreibung: Fehlerbalkendiagramm Das Fehlerbalkendiagramm (Error Bar) veranschaulicht Mittelwerte und die Streuung von Daten für mindestens eine Stichprobe. Für die Länge der Fehlerbalken existieren verschiedene Konventionen (± 1 SD, ± 1.96 SD, ± 2.58 SD) Grafische Darstellung II Körpergröße in in cm cm (+/ (+/ SD) SD) Folie Frauen Geschlecht Männer

118 & Statistik Intervalldaten z-standardisierung Bortz, S z-standardisierung Transformationsregel Ziel: Angabe der relativen Lage von Werten in einer Verteilung. 1. Quantile: wie bereits gesehen 2. Angabe einer normierten Differenz eines Messwertes zum Mittelwert Folie 27 Berechnungsvorschrift: Jede Differenz eines Messwertes wird durch die Standardabweichung aller Messwerte geteilt. Die erhaltenen Werte werden als z-werte bezeichnet. z x x s x x

119 & Statistik Intervalldaten z-standardisierung z-standardisierung Eigenschaften Der z-wert kann auch als Differenz eines normierten Datenwertes vom normierten Mittelwert betrachtet werden, denn z x x x x x s s s x x x Der Mittelwert von z-werten ist immer 0 Die Standardabweichung von z-werten ist immer 1 Folie 28

120 & Statistik Intervalldaten z-standardisierung z-standardisierung Skalentransformation Mithilfe der z-transformation können Messdaten mit beliebigem Mittelwert und Standardabweichung in Daten transformiert werden, die einen definierten Mittelwert und Standardabweichung aufweisen. Schritt 1: z-standardisierung jedes Datenpunktes Schritt 2: Transformation jedes Datenpunktes in die neue Skala x zs x neu neu neu Folie 29 Beispiele: Hamburg-Wechsler IQ-Test (MW=100, s=15), IQ-Skala laut IST (MW=100, s=10), Stanine- Skala (MW=5, s=2),

121 & Statistik Relevante Excel Funktionen Kennwerte ABS() ^-Operator für Quadrierung, POTENZ() WURZEL() MITTELWERT(), MITTELWERTWENN(), MITTELWERTWENNS() MITTELABW() QUADRATESUMME() VAR.P() STABW.N() STANDARDISIERUNG() Folie 30

122 & Statistik Einführung Bivariate Intervalldaten Bivariate Daten Grundlagen Bivariate Ordinaldaten Bortz, S Scatterplot Kovarianz Korrelation Bisher wurden Kennwerte für den univariaten Fall betrachtet, d.h. für Daten einer Variablen Mit geschachtelten Kontingenztabellen wurde eine kompakte Darstellungsmöglichkeit für den multivariaten Fall beschrieben, d.h. für Daten mehrerer Variablen In der Statistik sind weitere Verfahren gebräuchlich, die speziell den Zusammenhang zweier Variablen (also für den bivariaten Fall) beschreiben. Beispiel: Man weiß, dass die Nervenleitgeschwindigkeit am Unterarm und der im Intelligenztest gemessene IQ positiv zusammenhängen. Folie 2 Frage: Wie kann ein solcher Zusammenhang einfach grafisch/numerisch dargestellt werden?

123 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Bivariate Intervalldaten Grundlagen Scatterplot Kovarianz Korrelation Die Intervallskala trägt Informationen über die Ordnung von Ausprägungen und hat eine feste Einheit zwischen den Ausprägungen Die Werte einer intervallskalierten Variablen sind nicht direkt vergleichbar, wohl aber die Unterschiede zwischen Werten Weil die Ausprägungen einer festen Einheit folgen, kann man intervallskalierte Daten sowohl grafisch als auch numerisch sehr einfach behandeln. Folie 3

124 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Bivariate Intervalldaten Grafische Beschreibung Scatterplot Scatterplot Kovarianz Korrelation Folie 4

125 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Kovarianz Korrelation Bivariate Intervalldaten Numerische Beschreibung - Kennwerte Gewünschte Eigenschaften eines Zusammenhangskoeffizienten Sollte die Stärke eines Zusammenhangs numerisch ausdrücken Sollte die Richtung des Zusammenhangs anzeigen (sofern sinnvoll) Sollte invariant unter zulässigen Transformationen sein (z.b. m in cm) Sollte einfach interpretierbar sein Folie 5

126 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Kovarianz Korrelation Bivariate Intervalldaten Numerische Beschreibung - Kovarianz Für n Beobachtungen aus einem Zufallsexperiment x 1 x n und y 1 y n ist die Kovarianz definiert als n 1 cov( x, y) s ( x x)( y y) xy i i n i 1 Die Kovarianz ist Null, wenn kein Zusammenhang zwischen den Ausprägungen der Zufallsvariablen besteht Die Kovarianz ist positiv, wenn ein gleichsinniger Zusammenhang besteht Die Kovarianz ist negativ, wenn ein gegensinniger Zusammenhang besteht. Folie 6

127 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Kovarianz Korrelation Bivariate Intervalldaten Numerische Beschreibung - Kovarianz Die Kovarianz erfüllt nicht die Forderung der Invarianz gegenüber erlaubten Transformationen Addition einer Konstanten zu x und y: s ( x a, yb) s ( x, y) xy xy Aber: Multiplikation von x und y mit einer Konstanten s ( a x, by) abs ( xy, ) xy xy Die Kovarianz ist also numerisch schwer zu interpretieren Folie 7

128 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Bivariate Intervalldaten Numerische Beschreibung - Korrelation Für n Beobachtungen aus einem Zufallsexperiment x 1 x n und y 1 y n ist der Korrelationskoeffizient definiert als Kovarianz Korrelation r xy 1 n n i1 ( x x)( y y) 1 1 n i n n ( x ) 2 ( ) 2 i x yi y i1 n i1 i s s x xy s y Für die Richtungsinformation gelten dieselben Regeln wie bei der Kovarianz Folie 8 Bei der Korrelation ist zudem die Stärke (der Betrag) des Zusammenhangs interpretier- und vergleichbar.

129 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Kovarianz Korrelation Bivariate Intervalldaten Numerische Beschreibung - Korrelation Der so definierte Korrelationskoeffizient r xy wird auch als Produkt-Moment-Korrelation oder Korrelationskoeffizient nach Pearson bezeichnet. Für Daten unterhalb Intervallskalenniveau gibt es andere Berechnungsformeln für die Korrelation Die Korrelation ist Null, wenn kein Zusammenhang zwischen den Ausprägungen der Zufallsvariablen besteht Die Korrelation liegt immer zwischen -1 und 1. Negative Werte zeigen einen gegensinnigen, positive Werte einen gleichsinnigen Zusammenhang an Folie 9 Die Korrelation ist anfällig gegenüber Ausreißern

130 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Bivariate Intervalldaten Numerische Beschreibung - Vergleich Scatterplot Kovarianz Korrelation Kovarianz s xy (x,y) = s xy (y,x) s xy (x, a) = 0 s xy (a, b) = 0 Korrelation r(x,y) = r(y,x) r(x, a) = nicht def. r(a, b) = nicht def. s xy (x, x) = s² x (x) r(x, x) = 1 s xy (a x+b, c y+d) = a c s xy (x, y) r(a x+b, c y+d) = r(x, y) Achtung: Ist a oder b negativ, verändert sich das Vorzeichen von r, sind beide negativ, bleibt r gleich. Folie 10 Mit a, b, c, d = konstante Werte

131 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Scatterplot Kovarianz Korrelation Bivariate Intervalldaten Numerische Beschreibung - Faustregeln Für die Bewertung der absoluten Höhe der Produkt- Moment-Korrelation existieren Faustregeln nach Cohen (1988) r < ±0.10 keine Korrelation r < ±0.30 kleine Korrelation r < ±0.50 mittlere Korrelation r ±0.50 hohe Korrelation In der nicht-experimentellen Psychologie liegen Korrelationen selten über Folie 11

132 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Bivariate Intervalldaten Nichtlineare Zusammenhänge und die Korrelation Scatterplot Kovarianz Korrelation Folie 12

133 & Statistik Ordinalskala Intervallskala Bortz, S Punktbiseriale Korrelation Biseriale Korrelation Tetrachorische Korrelation Bivariate Intervalldaten Spezielle Koeffizienten Punktbiseriale Korrelation Gegeben seien zwei Variablen X und Y. X sei dichotom nominalskaliert (mit zwei Ausprägungen 0 und 1), Y intervallskaliert. Hier kann wie auch bei zwei intervallskalierten Variablen die Produkt-Moment-Korrelation berechnet werden. Die Formel lässt sich aber auch zur Formel für die punktbiseriale Korrelation vereinfachen Mittelwert der Y-Werte, für die X=1 Mittelwert der Y-Werte, für die X=0 Folie 13 r pbis y n 1 0 X 0 n X yx X1 s y n Anzahl der Fälle, für die X=0 bzw. X=1

134 & Statistik Ordinalskala Intervallskala Punktbiseriale Korrelation Biseriale Korrelation Tetrachorische Korrelation Bivariate Intervalldaten Spezielle Koeffizienten Biseriale Korrelation Häufig werden in psychologischen Untersuchungen eigentlich (mindestens) intervallskalierte Merkmale künstlich auf dichotome Variablen reduziert. Beispiele: Alter (unter 25, über 25), Einkommen (niedrig, hoch), Depression (nein, ja), versetzungsfähig (nein, ja) Hier führt die konkrete Setzung des impliziten Kriteriums, welches die intervallskalierte Variable in zwei Gruppen teilt, zu beliebigen Ergebnissen, obwohl der wahre Zusammenhang unverändert ist. Folie 14

135 & Statistik Ordinalskala Intervallskala Punktbiseriale Korrelation Biseriale Korrelation Tetrachorische Korrelation Bivariate Intervalldaten Spezielle Koeffizienten Biseriale Korrelation Die Korrektur dieser kriteriumsabhängigen Veränderung des Zusammenhangs leistet die biseriale Korrelation: r bis r pbis X0 X1 Dabei ist ω die Ordinate der Standardnormalverteilung für den z-wert an der Stelle der Dichotomisierung (p). n n n r pbis und r bis Korrelation haben dieselben Eigenschaften wie der Produkt-Moment-Korrelationskoeffizient r pbis ist zumeist vorzuziehen, da hier keine Normalverteilungsannahme gemacht werden muss Folie 15

136 & Statistik Ordinalskala Intervallskala Bortz, S Punktbiseriale Korrelation Biseriale Korrelation Bivariate Intervalldaten Spezielle Koeffizienten Tetrachorische Korrelation Sind beide Variablen künstlich dichotomisiert und eigentlich normalverteilt, so kann der Zusammenhang durch die tetrachorische Korrelation ausgedrückt werden. Ausgegangen wird zunächst von einer 2 2 Kontingenztabelle x 1 x 2 Tetrachorische Korrelation Daraus berechnet sich die tetrachorische Korrelation als: r tet cos 1 n n n n y 1 n 11 n 12 n 1 y 2 n 21 n 22 n 2 n 1 n 2 n Folie 16 r tet überschätzt die wahre Korrelation, wenn die Randverteilungen stark asymmetrisch sind oder ein n XY <5 ist.

137 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Einführung Rangkorrelation Konkordanzmaße Bivariate Ordinaldaten Grundlagen Bei der Ordinalskala ist der numerische Abstand zwischen zwei Ausprägungen einer Variablen nicht interpretierbar. Die Ordinalskala trägt lediglich Information über die Ordnung der Ausprägungen. Damit sind mathematische Transformationen direkt auf den Werten einer ordinalskalierten Variablen nicht sinnvoll, also auch nicht die Produkt-Moment-Korrelation. Ansatz: Die Ordnung selbst muss genutzt werden, um Kennwerte zu berechnen. Folie 17

138 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Bortz, S. 178 Recap Rangkorrelation Konkordanzmaße Bivariate Ordinaldaten Numerische Beschreibung - Rangbildung Bei der Rangbildung von k Ausprägungen x 1 x k einer Variablen X können maximal k Ränge vergeben werden. Per Konvention erhält die numerisch niedrigste Ausprägung von X den Rangplatz 1, die höchste den Rangplatz k (kleinere Zahl = kleinerer Rang). Bei gleichen mehreren gleichen Werten ( Ties ) von X wird der mittlere Rangplatz vergeben nach der Regel: Es gebe m gleiche Werte von X. Wären sie unterschiedlich und direkt aufeinander folgend, erhielten sie die Rangplätze rg j rg j+m-1. Der mittlere Rang ist dann Folie 18 rg Tie rg 1 j m m1 irg j rg i

139 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Recap Rangkorrelation Konkordanzmaße Bivariate Ordinaldaten Numerische Beschreibung Spearman s r s Nach der Rangbildung ordinalskalierter Daten für zwei Variablen X und Y kann die Produkt-Moment-Korrelation der Ränge rg(x) und rg(y) berechnet werden Diese wird Spearman s r s oder Rangkorrelation genannt und berechnet als r s n n i1 rg( x ) ( ) ( ) ( ) i rg x rg yi rg y 2 n 2 rg( x ) ( ) ( ) ( ) i rg x rg yi rg y i1 i1 Folie 19 was nichts anderes ist als r s s s rg rg x x, rg s y rg y

140 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Recap Rangkorrelation Konkordanzmaße Bivariate Ordinaldaten Numerische Beschreibung Spearman s r s Wertebereich von 1 bis +1 Vorzeichen gibt die Richtung des Zusammenhangs an Ist robust bezüglich Ausreißern Ist invariant bei streng monotonen Transformationen Liegen wenige Ties vor, gibt es vereinfachte näherungsweise Berechnungsformeln, die aber kaum mehr Anwendung finden. Folie 20

141 & Statistik Bivariate Intervalldaten Bivariate Ordinaldaten Recap Rangkorrelation Konkordanzmaße Bivariate Ordinaldaten Numerische Beschreibung Weitere Kennwerte Neben Spearman s r s existieren weitere Kennwerte für den Zusammenhang zweier ordinalskalierter Merkmale Die bekanntesten sind der Konkordanzkoeffizient γ ( gamma ) nach Goodman-Kruskal und die daraus abgeleitete Weiterentwicklung Kendall s τ ( tau ) für zwei ordinalskalierte Variablen Die Interpretation dieser Koeffizienten verläuft analog zu r und r s Folie 21

142 & Statistik Nominalskala 22 Nominalskala km -Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Recap: Kontingenztabellen Wir haben Kontingenztabellen empirischer Verbundhäufigkeiten kennen gelernt. Schreibt man statt h(x i, y j ) kurz n ij, so lautet die vereinfachte Notation für Kontingenztabellen: y 1 y 2 y m Σ x 1 n 11 n 12 n 1m n 1 x 2 n 21 n 22 n 2m n 2 Zeilen x Spalten x k n k1 n k2 n km n k Σ n 1 n 2 n m n Folie 22 Analoge Notation für relative Häufigkeiten (mit f ij statt n ij )

143 & Statistik Nominalskala 22 Nominalskala km Bortz, S Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Zusammenhangsmaße für 2 2 Kontingenztabellen Viele psychologische Fragestellungen über Zusammenhänge von Variablen beziehen sich auf 2 Merkmale mit je 2 Ausprägungen. Beispiele: Auftreten von Schizophrenie bei Frauen/Männern In solchen 2x2 Situationen kann jeder beiden Variablen durch zwei Werte abgebildet werden. X x : 0, wenn Gesund x : 1, wenn Schizophrenie y : 1, wenn Frau Y y2: 2, wenn Mann Folie 23

144 & Statistik Nominalskala 22 Nominalskala km -Koeffizient Bivariate Nominaldaten Zusammenhangsmaße für 2 2 Kontingenztabellen χ²-koeffizient Cramérs V Folie 24 Weil hier de facto eine Intervallskala erzwungen wird (genau ein Abstand zwischen Skalenwerten = konstanter Abstand zwischen Skalenwerten), kann immer die Produkt-Moment- Korrelation r als Zusammenhangsmaß berechnet werden Idee: Der 2x2 Fall bei Nominaldaten kann immer auf den ja/nein bzw. 0/1 Fall zurückgeführt werden Die Berechnungsformel für r vereinfacht sich dadurch erheblich X Y

145 & Statistik Nominalskala 22 Nominalskala km -Koeffizient χ²-koeffizient Bivariate Nominaldaten Zusammenhangsmaße für 2 2 Kontingenztabellen Der Phi-Koeffizient () beschreibt die Stärke des Zusammenhangs zweier dichotomer Variablen Cramérs V Der -Koeffizient lässt sich nach folgender Formel berechnen: n n n n nnnn liegt zwischen -1 und 1. x 1 x 2 y 1 n 11 n 12 n 1 y 2 n 21 n 22 n 2 n 1 n 2 n Folie 25

146 & Statistik Nominalskala 22 Nominalskala km -Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Zusammenhangsmaße für 2 2 Kontingenztabellen Problem: Bei schiefen Randverteilungen kann der - Koeffizient selbst bei maximalem Zusammenhang zwischen den Variablen die Grenze ±1 nicht erreichen Bei schiefen Randverteilungen sollte daher an der maximal möglichen Korrelation normiert werden. Diese berechnet sich als min( n, n ) min( n, n ) max(, ) max(, ) max n1 n 1 n2 n 2 Folie 26 Und damit gilt für den normierten -Koeffizienten norm max

147 & Statistik Nominalskala 22 Nominalskala km Bortz, S Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Zusammenhangsmaße für k m Kontingenztabellen Ansatz: Man vergleicht die beobachteten Kontingenztabelle mit einer fiktiven Kontingenztabelle, die entstanden wäre, hätte kein Zusammenhang zwischen den Variablen bestanden. Abweichungen der beobachteten von den erwarteten Häufigkeiten sind dann als Abweichungen von der Unabhängigkeit aufzufassen Zur Konstruktion der Indifferenztabelle rechnet man für absolute Häufigkeiten aus n Beobachtungen hx (, y) i ( ~ = erwartet ) j hx (, ) h(, y) i n j Folie 27

148 & Statistik Nominalskala 22 Nominalskala km -Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Zusammenhangsmaße für k m Kontingenztabellen Die Indifferenztabelle konstruiert sich also durch y 1 y 2 y m Σ x 1 ñ 11 ñ 12 ñ 1m n x 2 ñ 21 ñ 22 ñ 2m n x k ñ k1 ñ k2 ñ km n k Σ n 1 n 2 n m n hx (, y) Mit bzw. i j hx (, ) h(, y) i n j n ij n i n n j Folie 28

149 & Statistik Nominalskala 22 Nominalskala km -Koeffizient χ²-koeffizient Cramérs V Bivariate Nominaldaten Zusammenhangsmaße für k m Kontingenztabellen Aus den beobachteten und unter der Annahme keines Zusammenhangs (Indifferenz) erwarteten Häufigkeiten berechnet sich nun: 2 k m ( nij n ij ) n i1 j1 ij 2 ( beob - erw) 2 erw χ² ist Null bei perfekter Unabhängigkeit, ansonsten größer Null χ² kann beliebig große Werte annehmen, abhängig von der Anzahl der Ausprägungen und der Beobachtungen Folie 29

150 & Statistik Nominalskala 22 Nominalskala km Bortz, S Koeffizient Bivariate Nominaldaten Zusammenhangsmaße für k m Tabellen Cramérs V χ²-koeffizient Cramérs V Um aus dem nicht normierten χ²-koeffizienten ein als Korrelationskoeffizient interpretierbares Maß zu berechnen, wird folgende Formel verwendet: V 2 n min( k1, m1) Cramérs V ist wie χ² Null bei perfekter Unabhängigkeit, ansonsten größer Null V schwankt zwischen 0 und 1 Folie 30

151 & Statistik Assoziation Interpretation Zusammenhangsmaße Interpretation von Korrelationen Bortz, S Kausalität Eine vorhandene (hohe) Korrelation zwischen zwei Zufallsvariablen X und Y darf nicht ohne weiteres als Kausalität zwischen den Variablen interpretiert werden. Eine signifikante Korrelation zeigt zunächst nur eine Assoziation an. Diese kann viele Ursachen haben, z.b. X X X Z Y Y Y Assoziation (Korrelation) ist nicht Kausalität Folie 31

152 & Statistik Assoziation Kausalität Interpretation Zusammenhangsmaße Interpretation von Korrelationen Frage: Wann darf in einer psychologischen Untersuchung auf Kausalität geschlossen werden? 1. Die betrachteten Variablen müssen kovariieren die Korrelation muss ungleich Null sein Probleme: Standards ( wann ist eine Korrelation ungleich Null ) sind normativ Je kleiner n, desto größere Korrelationen können per Zufall auftreten Folie 32

153 & Statistik Assoziation Kausalität Interpretation Zusammenhangsmaße Interpretation von Korrelationen Frage: Wann darf in einer psychologischen Untersuchung auf Kausalität geschlossen werden? 1. Die betrachteten Variablen müssen kovariieren die Korrelation muss ungleich Null sein 2. Die Ursache muss der Wirkung zeitlich vorausgehen (z.b. Pretest Treatment Posttest) 3. Andere plausible Erklärungen für die Kovariation müssen ausgeschlossen werden können 4. Die Kovariation muss raum-zeitlich indifferent sein Generalisierung auf eine Population zu jeder Zeit Folie 33

154 & Statistik Relevante Excel Funktionen Zusammenhangsmaße KOVAR() KORREL() NORMINV() COS(), PI() RANG.MITTELW() Folie 34

155 & Statistik Multiple Regression Polynomische Regression Bortz, S Grundlagen Gleichung Minimierung Normalgleichungen Multiple Regression Grundlagen Oft werden in psychologischen Untersuchungen nicht nur eine sondern mehrere UVn betrachtet, die eine AV beeinflussen (oder vorhersagen sollen). Beispiele: Abhängigkeit der Lebenszufriedenheit von sozialem, ökonomischem und Gesundheitsstatus; Beeinflussung sportlicher Leistung durch Trainingszustand und Anwesenheit von Zuschauern. Solche Fragestellungen werden auch als multifaktoriell bezeichnet Problem: Die Berechnung vieler paarweiser Korrelationen im multifaktoriellen Fall vernachlässigt mögliche Zusammenhänge zwischen den UVn Folie 2

156 & Statistik Multiple Regression Polynomische Regression Grundlagen Multiple Regression Grundlagen Gleichung Minimierung Normalgleichungen Drei Hauptfragestellungen der Regressionsrechnung: 1. Gibt es eine statistische Beziehung zwischen mehreren Variablen, die die Vorhersage der AV aus der UV erlaubt? 2. Kann eine möglichst einfache mathematische Regel formuliert werden, die diesen Zusammenhang beschreibt? 3. Wie gut ist diese Regel im Hinblick auf die Vorhersage? Folie 3

157 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Multiple Regression Grundgleichung Die vorherzusagende Variable (AV, y-wert) wird als Kriterium oder Response bezeichnet, die vorhersagenden Variablen (UVn, x-werte) als Prädiktoren oder erklärende Variablen. Die Vorhersagegleichung der multiplen Regression mit k Prädiktoren wird geschrieben als ˆ k k y b b x b x b x Folie 4 Bei standardisierten Daten verwendet man das Symbol β für die k Regressionsparameter (bzw. -gewichte ) zˆ z z z y 1 x1 2 x2 k x k

158 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Multiple Regression Grundgleichung Gründe für die Annahme einer linearen Gleichung: Lineare Zusammenhänge sind einfach zu verstehen Lineare Zusammenhänge sind mathematisch und statistisch einfach zu behandeln Lineare Gleichungen haben sich vielfach als gute Approximationen für komplexe Beziehungen erwiesen Achtung: Auch wenn die Beziehung zwischen zwei ZVn linear aussieht, muss es sich nicht zwangsläufig um einen linearen Zusammenhang handeln. Folie 5

159 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Folie 6 Regression Methode der kleinsten Quadrate (KQ-Kriterium) Zur Minimierung des Vorhersagefehlers wird oft das Kleinste-Quadrate Kriterium verwendet (KQ; oder Ordinary Least Squares, OLS) Parameter der multiplen Regressionsgleichung werden so gewählt, dass das Quadrat der Abweichungen von gemessenem und geschätztem Wert minimiert wird Für eine Versuchsperson i aus allen n gelte: y yˆ e e y yˆ i i i i i i beobachteter Kriteriumswert = vorhergesagter Wert + Messfehler Dann soll für alle n Datenwerte erreicht werden, dass n y yˆ 2 e2 i i i i1 i1 n min Minimierung der Quadratsumme des Vorhersagefehlers

160 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Regression Methode der kleinsten Quadrate (KQ-Kriterium) Mithilfe der Allgemeinen Gleichung der einfachen linearen Regression lässt sich für die Streuung des Vorhersagefehlers QS e also schreiben: n n 2 2 ˆ e i i i 0 1 i1 2 i2 k ik i1 i1 QS y y y b b x b x b x min Normalgleichungen bzw. in der standardisierten Form n n ˆ QS z z z z z z e y y y x x k x i1 i1 i i i i1 i2 ik min Folie 7 Die Minimierung der Regressionsparameter erfolgt über partielle Differenzierung nach jedem einzelnen der b- bzw. β-gewichte

161 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Folie 8 Regression Normalgleichungen der multiplen Regression Die partielle Differenzierung der nichtstandardisierten Gleichung mit k Prädiktoren führt immer auf ein System von k+1 Normalgleichungen, das wie folgt aufgebaut ist: n n n n n y b b x b x b x k k i1 i1 i1 i1 i1 n n n n n 2 yx1 b0x1b 1x1 b2x1x 2 bkx1x k i1 i1 i1 i1 i1 n n n n n yx 2 2 b0x2 b1x 1x2 b2x2 bkx2xk i1 i1 i1 i1 i1 n n n n yx b x b x x b x x bk x k 0 k 1 1 k 2 2 k i1 i1 i1 i1 n i1 2 k

162 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Regression Normalgleichungen der multiplen Regression In der standardisierten Form ergibt sich ein System von k Normalgleichungen: n n n n 2 zx z 1 y 1 zx 1 2 zx z 1 x 2 k zx z 1 xk i1 i1 i1 i1 n n n n 2 zx z 2 y 1 zx z 1 x 2 2 zx 2 k zx z 2 x i1 i1 i1 i1 n n n n 2 zx zy 1 zx zx 2 zx zx k zx i1 i1 i1 i1 k 1 k 2 k k k Folie 9

163 & Statistik Multiple Regression Polynomische Regression Grundlagen Gleichung Minimierung Normalgleichungen Regression Multiple Regression - Zusammenfassung Die partielle Differenzierung einer multiplen Regressionsgleichung mit k Prädiktoren führt immer auf ein System von k+1 (bzw. k) Normalgleichungen Prinzip: Die summierte Ausgangsgleichung wird nacheinander mit jedem Prädiktor x 0 x k (bzw. z 1 z k ) multipliziert Die Normalgleichungen liefern dann für k+1 (bzw. k) unbekannte Regressionsparameter genau so viele Gleichungen. Dieses Gleichungssystem kann nun durch Substitution oder Diagonalisierung für die Parameter gelöst werden Folie 10

164 & Statistik Multiple Regression Polynomische Regression Bortz, S Matrixalgebraische Berechnung Interpretation der b und β Folie 11 Matrixalgebraische Berechnung der multiplen Regression Wir haben gesehen, dass die Normalgleichungen der multiplen Regression für standardisierte Daten lauteten: n n n n 2 zx z 1 y 1 zx 1 2 zx z 1 x 2 k zx z 1 xk i1 i1 i1 i1 n n n n 2 zx z 2 y 1 zx z 1 x 2 2 zx 2 k zx z 2 x i1 i1 i1 i1 n n n n 2 zx zy 1 zx zx 2 zx zx k zx i1 i1 i1 i1 k 1 k 2 k k Weiterhin ist die Korrelation zweier Variablen x p und x q : n 1 r z z x x i, x i, x n i 1 p q p q k

165 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Matrixalgebraische Berechnung der multiplen Regression Damit reduziert sich das Normalgleichungssystem zu: Interpretation der b und β r r r r x y 1 2 x x 3 x x k x x r r r r x y 1 x x 2 3 x x k x x r r r r x y 1 x x 2 x x 3 k x x r r r r x y 1 x x 2 x x 3 x x k k 1 k 2 k 3 k k k k In Matrixnotation ist dies: R xx 1 r mit T xy Rxx Z Z n Folie 12

166 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Matrixalgebraische Berechnung der multiplen Regression In Matrixnotation ist dies: wobei: R xx xx R k k r xy mit Rxx 1 T Z Z n Matrix der Prädiktorinterkorrelationen Folie 13

167 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Folie 14 Exkurs: Die Korrelationsmatrix R Aufbau und Bedeutung Die Korrelationsmatrix R stellt die Korrelationen zwischen k Variablen in Matrixschreibweise dar. Sie ist quadratisch und enthält k k Korrelationen x x x 1 2 k x x 1 2 x 1 r r r 1 r rk1 rk k 21 2k k Die Hauptdiagonale enthält die Korrelationen der Variablen mit sich selbst (r xx = 1) Die untere und obere Dreiecksmatrix sind symmetrisch

168 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Matrixalgebraische Berechnung der multiplen Regression In Matrixnotation ist dies: wobei: R xx r xy mit Rxx Rxx k k Matrix der Prädiktorinterkorrelationen rxy k1 Vektor der Kriteriumskorrelationen k 1 Vektor der Regressionsgewichte 1 T Z Z n Z n k Vektor der z-standardisierten Daten Lösung: Inverse Interkorrelationsmatrix vormultiplizieren R R R r 1 1 xx xx xx xy R r 1 xx xy Folie 15

169 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Matrixalgebraische Berechnung Rückrechnung der unstandardisierten Parameter Wurden die β-parameter für die z-standardisierten Daten matrixalgebraisch bestimmt, kann die Berechnung der unstandardisierten b-parameter vorgenommen werden über SDy bi i mit i 1,2,..., k SD x i Die Konstante b 0 wird dann berechnet als b0 ybx 1 1b2x2... bkxk Folie 16

170 & Statistik Multiple Regression Polynomische Regression Bortz, S Matrixalgebraische Berechnung Interpretation der b und β Matrixalgebraische Berechnung Spezialfall: Nur ein Prädiktor Bei nur einem Prädiktor vereinfacht sich die Berechnung der Regressionsgewichte erheblich. b 1. Steigung: oder 1 r xy s s y x b 1 ŷ b0 b1x cov( xy, ) s 2 x 2. y-achsenabschnitt: b0 yb1x Folie 17

171 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Interpretation der Lösung b- und β-gewichte Die Größe eines b-gewichtes gibt an, um wieviele Einheiten sich der Wert des unstandardisierten Kriteriums verändert, wenn der Betrag des unstandardisierten Prädiktors um 1 steigt. Die Größe des β-gewichtes gibt dasselbe für die standardisierten Variablen an Das b-gewicht beantwortet die Frage: Ich möchte einen der Prädiktoren um 1 erhöhen. Welchen sollte ich wählen, damit das Kriterium maximal steigt? Das β-gewicht beantwortet die Frage: Mit welchem Prädiktor erhöhe ich das Kriterium am effizientesten? Folie 18 Das b-gewicht liefert also eine absolute, das β-gewicht eine relative Information.

172 & Statistik Multiple Regression Polynomische Regression Matrixalgebraische Berechnung Interpretation der b und β Regression Interpretation der Lösung Vorsicht bei der Interpretation der Regressionsgleichung Bei der Korrelationsrechnung bedeutet ein Zusammenhang niemals Kausalität, lediglich Assoziation Bei der Regressionsrechnung gilt zunächst dasselbe Die Kausalitätsvermutung wird (wenn überhaupt) schon bei der Aufstellung der Regressionsgleichung getroffen, nicht erst bei der Interpretation der Ergebnisse. Um tatsächlich Kausalität festzustellen, müssen weitere Randbedingungen vorliegen (i.e. zeitliche Antezedenz von Ursache vor Wirkung, Generalisierbarkeit etc.). Folie 19

173 & Statistik Relevante Excel Funktionen Multiple Regression MMULT() MTRANS() MINV() Folie 20

174 & Statistik Multiple Regression Polynomiale Regression Bortz, S Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 1. Der multiple Korrelationskoeffizient R Definition: Der multiple Korrelationskoeffizient R repräsentiert die Korrelation zwischen dem Kriterium y und allen Prädiktoren x 1 x k Dabei berücksichtigt R etwaige Interkorrelationen zwischen den Prädiktoren (und entfernt sie) Der multiple Korrelationskoeffizient R ist definiert als R yxx 1 2xk j xjy j1 k r Folie 2 Er ist mathematisch äquivalent zur Korrelation zwischen den gemessenen y-werten und den vorhergesagten y dach -Werten, also R r yxx x yy 1 2 k ˆ

175 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 2. Der multiple Determinationskoeffizient R² Definition: Der multiple Determinationskoeffizient R² repräsentiert die Varianzaufklärung, die alle Prädiktoren x 1 x k am Kriterium y leisten Der multiple Determinationskoeffizient R² ist definiert als 2 Erklärte Streuung Fehlerstreuung R 1 Gesamt-Streuung Gesamt-Streuung Folie 3 Rechnerisch: R 1 Var( yˆ ) Var( e) n 1 Var( y) Var( y) 1 n 2 i1 n n i1 ( y yˆ ) ( y y) 2 2

176 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 2. R und R² R und R² sind tatsächlich direkt ineinander transformierbar k k j xjy j xjy j1 j1 R r r R 2 Folie 4 Für die Bewertung des R können wieder die Daumenregeln nach Cohen (1988) verwendet werden: R < ± 0.10 keine Korrelation R < ± 0.30 kleine Korrelation R < ± 0.50 mittlere Korrelation R ±0.50 hohe Korrelation

177 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 2. R und R² Dies führt aber auf ein Problem bei der Bewertung des R², denn die Quadratur der Daumenregeln liefert R² < ± 0.01 keine Korrelation R² < ± 0.10 kleine Korrelation R² < ± 0.25 mittlere Korrelation R² ±0.25 hohe Korrelation In der Praxis bedeuten 25% aufgeklärte Varianz, dass 75% der Streuung in der AV nicht durch die Regressionsgleichung, d.h. die Prädiktoren erklärt wird Folie 5

178 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 2. R und R² Daher hat Cohen alternative Daumenregeln für die Bewertung des R² vorgeschlagen (beruhend auf seiner Definition der Effektstärke) R² < ± 0.20 keine Varianzaufklärung R² < ± 0.50 kleine Varianzaufklärung R² < ± 0.80 mittlere Varianzaufklärung R² ±0.80 hohe Varianzaufklärung Diese Regeln sind recht streng, insbesondere in der Feldforschung, wo 20-30% Varianzaufklärung bereits als gutes Ergebnis gewertet werden Folie 6

179 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte Folie 7 Erklärung: Bei perfekt unabhängigen Prädiktoren ist die Prädiktorinterkorrelationsmatrix R xx gleich der Identitätsmatrix I. Damit gilt für den multiplen Korrelationskoeffizienten R Und R² ist einfach die Summe der quadrierten Kriteriumskorrelationen I r r R R xy k 2 yxx 1 2 x r k xjy j1 k 2 2 yxx 1 2 x r k xjy j1 xy

180 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3. Abhängigkeit a) Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärte Varianz ist die Summe der Quadrate der ß-Gewichte b) Sind die Prädiktoren abhängig (interkorreliert), so sind 3 Fälle zu unterscheiden: 1. Der Prädiktor klärt zumindest Teile der Varianz am Kriterium auf, die andere Prädiktoren nicht aufklären: er ist nützlich. 2. Der Prädiktor enthält (nur) Information, die auch andere Prädiktoren enthalten: er ist redundant 3. Der Prädiktor unterdrückt irrelevante Varianz in anderen Prädiktoren: er ist ein Suppressor Folie 8

181 & Statistik Multiple Regression Polynomiale Regression Bortz, S. 349 Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3a. Nützlichkeit Nützlichkeit = Der Beitrag, den eine Variable zur Varianzaufklärung des Kriteriums leistet, der von den anderen Variablen nicht geleistet wird Die Nützlichkeit einer Variablen x j berechnet sich als U R R 2 2 j y, x y, x 1,2,..., k j 1,2,..., k j U j ist also der Betrag, um den R² wächst, wenn die Variable x j in die multiple Regressionsgleichung aufgenommen wird. Folie 9

182 & Statistik Multiple Regression Polynomiale Regression Bortz, S Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3b. Redundanz Redundanz = die vielen Variablen messen Aspekte gemeinsam, so dass man prinzipiell weniger Prädiktoren benötigte unerwünschter Aspekt Die Variable x j ist redundant zur Vorhersage von Variable y wenn gilt r r 2 x x y x y j j j Prädiktoren enthalten empirisch nahezu immer gemeinsame Varianzanteile und sind somit teilweise redundant. Echte Redundanz liegt erst gemäß obiger Definition vor. Folie 10 Multikollinearität: Die Kovarianz eines Prädiktors mit dem Kriterium ist in den anderen Prädiktoren (fast) vollständig enthalten extremer Fall von Redundanz, der unbedingt zu vermeiden ist.

183 & Statistik Multiple Regression Polynomiale Regression Bortz, S Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3c. Suppression r x1 y r x1 x2 r x2 y =0 x 1 X 2 Y x 2 bindet irrelevante Prädiktorinformation x 2 hängt nicht mit y zusammen, trotzdem erhöht sie R² Folie 11

184 & Statistik Multiple Regression Polynomiale Regression Kennwerte Test der Gewichte gegen Null Kennwerte der multiplen Regression 3c. Suppression Defintion: Eine Variable x j ist ein Suppressor, wenn gilt: U x j r 2 x y j Die Zunahme der erklärten Varianz durch Aufnahme der Variable ist also größer als die einzelne Varianzaufklärung. Vereinfachung: Bei nur zwei Prädiktoren x 1 und x 2 ist x 2 ein Supressor, wenn gilt: r 1-r 2 x1x2 xzx 1. r 2 xz rx z 2 Folie 12

185 & Statistik Multiple Regression Polynomiale Regression Bortz, S Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Grundlagen Bei einer Reihe psychologischer Fragestellungen ergeben sich nichtlineare Zusammenhänge zwischen UV & AV. Beispiele: Reaktionszeit, Blutalkohol und psychomotorische Leistungen, Fehlerraten in Leistungstests bei verschiedenen Aufgabenschwierigkeiten Solche nichtlinearen Zusammenhänge lassen sich in zwei Klassen einteilen: 1. Zusammenhänge, die sich durch eine einfache (nichtlineare) Transformationen in lineare Zusammenhänge überführen lassen Folie Zusammenhänge, für die eine nichtlineare Regressionsgleichung gelöst werden muss.

186 & Statistik Multiple Regression Polynomiale Regression Grundlagen Linearisierbare Formen Polynome Nichtlineare Regression Linearisierbare und polynomiale Formen Fall 1: Linearisierende Transformation, z.b. ˆ ln ˆ ln ln ln y b xb1 y b b x (hier nicht behandelt) Fall 2: Nicht (einfach) linearisierbar ŷ b b xb x Folie 14

187 & Statistik Multiple Regression Polynomiale Regression Grundlagen Nichtlineare Regression Beispiel: Logistische Regression Linearisierbare Formen Polynome Folie 15 Gemessene Daten verlaufen ogivenförmig und variieren zwischen 0 und 1 Umformung der y-werte durch Logarithmieren bewirkt eine Linearisierung der Daten Mithilfe dieser neuen y-werte kann eine lineare Regression bestimmt werden, um die Parameter b 0 und b 1 zu errechnen

188 & Statistik Multiple Regression Polynomiale Regression Grundlagen Linearisierbare Formen Polynome Polynomiale Regression Grundlagen und Durchführung Häufig können Merkmalszusammenhänge durch Polynome 2. oder 3. Ordnung gut beschrieben werden, d.h. oder ŷ b b xb x ŷ b b xb x b x Dies ist formal eine lineare multiple Regression, allerdings nicht mit mehreren Prädiktoren, sondern mit einem Prädiktor sowie Transformationen seiner selbst. Folie 16

189 & Statistik Multiple Regression Polynomiale Regression Grundlagen Linearisierbare Formen Polynome Polynomiale Regression Grundlagen und Durchführung Eine solche polynomiale Regression wird berechnet, indem einfach die transformierten Prädiktorterme x², x³ usw. bestimmt werden Dann wird auf diesen eine übliche lineare multiple Regression durchgeführt Die Einträge der Korrelationsmatrix sind dabei dann die Korrelationen des Prädiktors mit sich selbst in den transformierten Formen Es können alle von Kennwerte und Gütemaße der multiplen Regression bestimmt werden. Folie 17 Die polyn. Regression ist auch über die KQ-Methode (inkl. Normalgleichungen) herzuleiten. Dies führt auf dasselbe Ergebnis wie der hier verfolgte Ansatz.

190 Voraussetzungen Multiple Regression Voraussetzungen der Regression Mathematische und statistische Betrachtung Bortz, S. 348 Residualplot Mathematisch ist eine multiple Regression praktisch immer zu berechnen, da nur in Ausnahmefällen die Invertierung der Prädiktorinterkorrelationsmatrix fehlschlägt Statistisch aber sollen eine Reihe von Voraussetzungen erfüllt sein, damit Kennwerte und inferenzstatistische Verfahren (z.b. der statistische Test der β Gewichte) sinnvoll berechenbar sind die Regressionsgleichung empirische Aussagekraft besitzt Folie 2

191 Voraussetzungen Residualplot Multiple Regression Voraussetzungen der Regression 1. Skalenniveaus Die Prädiktoren können entweder intervallskaliert oder dichotom sein Das Kriterium muss intervallskaliert sein und die Skala soll unbeschränkt sein (keine untere und obere Schranke Ungebundenheit) Für andere Skalenniveaus des Kriteriums existieren verschiedene Regressionsvarianten: Logistische Regression für dichotome Kriteriumsvariablen Multinomiale Regression für nominalskalierte Kriterien Ordinale Regression für ordinalskalierte Kriterien Folie 3

192 Voraussetzungen Residualplot Multiple Regression Voraussetzungen der Regression 2. Eigenschaften der Prädiktoren Keine zu hohen Interkorrelationen zwischen den Prädiktoren, i.e. Vermeidung von Multikollinearität Es sollen alle wesentlichen Einflussvariablen des Kriteriums erfasst werden, d.h. hinreichend hohes R² Der Zusammenhang zwischen den Prädiktoren und dem Kriteriums soll dem Modell der Regressionsgleichung entsprechen (linear, polynomisch etc.) Es soll eine hinreichend hohe Stichprobengröße vorliegen, Daumenregeln empfehlen hier zwischen 15 und 25 Personen pro Prädiktor Folie 4

193 Voraussetzungen Residualplot Multiple Regression Voraussetzungen der Regression 3. Eigenschaften der Fehler bzw. Residuen Hinweis: Der Vorhersagefehler in der Regression wird auch als Residuum bezeichnet Die Residuen dürfen nicht untereinander korreliert sein, d.h. die Höhe des Vorhersagefehlers für Merkmalsträger 1 darf nicht den Fehler für Merkmalsträger 2 beeinflussen Die Residuen sollen normalverteilt sein Für die Residuen soll der erwartete Mittelwert 0 sein Folie 5 Die Residuen sollen dem Gebot der Homoskedastizität genügen, d.h. ihre Varianz soll unabhängig vom Kriteriumswert sein.

194 Voraussetzungen Multiple Regression Der Residualplot Eigenschaften der Fehler bzw. Residuen Bortz, S Residualplot Für die meisten der Fehlereigenschaften gibt es statistische Tests zur Voraussetzungsprüfung z.b. Variance Inflation Factor (VIF) für Multikollinearität, Durbin-Watson Test für Unkorreliertheit, Levene-Test für Homoskedastizität, Kolmogoroff-Smirnov Test für Normalverteilung Der Residualplot ist ein optisches Verfahren zur Prüfung der Voraussetzungen Er stellt die beobachteten Kriteriumswerte (x-achse) und die Residuen (y-achse) gegenüber An ihm kann man Homoskedastizität, Modellpassung (und auch Normalverteiltheit) optisch gut überprüfen Folie 6

195 Voraussetzungen Multiple Regression Der Residualplot Eigenschaften der Fehler bzw. Residuen Residualplot Kriteriumswert (vorhergesagt) Folie 7 Hinweis: Für die Residuen werden zumeist die z-standardisierten Residuen gewählt

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt & Statistik Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Methodenlehre Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Primer: Deskriptive Statistik 1.0

Primer: Deskriptive Statistik 1.0 Primer: Deskriptive Statistik 1.0 Dr. Malte Persike persike@uni-mainz.de methodenlehre.com twitter.com/methodenlehre methodenlehre.com/g+ Folie 1 Variablen & Skalen Nominaldaten Variablen Deskriptive Statistik

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Statistik & Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de lordsofthebortz.de/g+

Mehr

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK htw saar 2 Grundbegriffe htw saar 3 Grundgesamtheit und Stichprobe Ziel: Über eine Grundgesamtheit (Population) soll eine Aussage über ein

Mehr

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen DAS THEMA: VERTEILUNGEN LAGEMAßE - STREUUUNGSMAßE Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen Anteile Häufigkeiten Verteilungen Anteile und Häufigkeiten Darstellung

Mehr

Bitte am PC mit Windows anmelden!

Bitte am PC mit Windows anmelden! Einführung in SPSS Plan für heute: Grundlagen/ Vorwissen für SPSS Vergleich der Übungsaufgaben Einführung in SPSS http://weknowmemes.com/generator/uploads/generated/g1374774654830726655.jpg Standardnormalverteilung

Mehr

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik... Inhaltsverzeichnis 1 Über dieses Buch... 11 1.1 Zum Inhalt dieses Buches... 13 1.2 Danksagung... 15 2 Zur Relevanz der Statistik... 17 2.1 Beispiel 1: Die Wahrscheinlichkeit, krank zu sein, bei einer positiven

Mehr

Kreisdiagramm, Tortendiagramm

Kreisdiagramm, Tortendiagramm Kreisdiagramm, Tortendiagramm Darstellung der relativen (absoluten) Häufigkeiten als Fläche eines Kreises Anwendung: Nominale Merkmale Ordinale Merkmale (Problem: Ordnung nicht korrekt wiedergegeben) Gruppierte

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66 Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004 1/19 Skalenniveaus Skalenniveau Relation

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8 Wiederholung Statistik I Statistik für SozialwissenschaftlerInnen II p.8 Konstanten und Variablen Konstante: Merkmal hat nur eine Ausprägung Variable: Merkmal kann mehrere Ausprägungen annehmen Statistik

Mehr

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent Deskriptive Statistik 1. Verteilungsformen symmetrisch/asymmetrisch unimodal(eingipflig) / bimodal (zweigipflig schmalgipflig / breitgipflig linkssteil / rechtssteil U-förmig / abfallend Statistische Kennwerte

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 3. Vorlesung Dr. Jochen Köhler 1 Inhalte der heutigen Vorlesung Ziel: Daten Modellbildung Probabilistisches Modell Wahrscheinlichkeit von Ereignissen Im ersten

Mehr

Skalenniveaus =,!=, >, <, +, -

Skalenniveaus =,!=, >, <, +, - ZUSAMMENHANGSMAßE Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala =,!= =,!=, >, < =,!=, >, ,

Mehr

Lage- und Streuungsparameter

Lage- und Streuungsparameter Lage- und Streuungsparameter Beziehen sich auf die Verteilung der Ausprägungen von intervall- und ratio-skalierten Variablen Versuchen, diese Verteilung durch Zahlen zu beschreiben, statt sie graphisch

Mehr

Fachrechnen für Tierpfleger

Fachrechnen für Tierpfleger Z.B.: Fachrechnen für Tierpfleger A10. Statistik 10.1 Allgemeines Was ist Statistik? 1. Daten sammeln: Durch Umfragen, Zählung, Messung,... 2. Daten präsentieren: Tabellen, Grafiken 3. Daten beschreiben/charakterisieren:

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de lordsofthebortz.de/g+

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt Statistik & Mathematische und statistische Methoden I Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Dr. Malte Persike persike@uni-mainz.de

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de

Mehr

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2016 Anmeldung in Basis: 06. 10.06.2016 Organisatorisches Einführung Statistik Analyse empirischer Daten

Mehr

Graphische Darstellung einer univariaten Verteilung:

Graphische Darstellung einer univariaten Verteilung: Graphische Darstellung einer univariaten Verteilung: Die graphische Darstellung einer univariaten Verteilung hängt von dem Messniveau der Variablen ab. Bei einer graphischen Darstellung wird die Häufigkeit

Mehr

Empirische Verteilungsfunktion

Empirische Verteilungsfunktion Empirische Verteilungsfunktion H(x) := Anzahl der Werte x ist. Deskriptive

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/57 Die Deskriptivstatistik

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Mag. Dipl.Ing. Dr. Pantelis Christodoulides & Mag. Dr. Karin Waldherr SS 2011 Christodoulides / Waldherr Einführung in Quantitative Methoden- 2.VO 1/62 Summenzeichen

Mehr

Statistik II: Grundlagen und Definitionen der Statistik

Statistik II: Grundlagen und Definitionen der Statistik Medien Institut : Grundlagen und Definitionen der Statistik Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Hintergrund: Entstehung der Statistik 2. Grundlagen

Mehr

Der Mittelwert (arithmetisches Mittel)

Der Mittelwert (arithmetisches Mittel) Der Mittelwert (arithmetisches Mittel) x = 1 n n x i bekanntestes Lagemaß instabil gegen extreme Werte geeignet für intervallskalierte Daten Deskriptive Statistik WiSe 2015/2016 Helmut Küchenhoff (Institut

Mehr

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober 1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße

Mehr

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-3 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik II Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 26.02.2008 1 Warum Statistik und Wahrscheinlichkeits rechnung im Ingenieurwesen? Zusammenfassung der letzten Vorlesung Statistik und Wahrscheinlichkeitsrechnung

Mehr

Kapitel 2. Häufigkeitsverteilungen

Kapitel 2. Häufigkeitsverteilungen 6 Kapitel 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation: An n Einheiten ω,, ω n sei das Merkmal X beobachtet worden x = X(ω ),, x n = X(ω

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Statistik I für Betriebswirte Vorlesung 9

Statistik I für Betriebswirte Vorlesung 9 Statistik I für Betriebswirte Vorlesung 9 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik Vorlesung am 8. Juni 2017 im Audi-Max (AUD-1001) Dr. Andreas Wünsche Statistik I für Betriebswirte

Mehr

Statistische Grundlagen I

Statistische Grundlagen I Statistische Grundlagen I Arten der Statistik Zusammenfassung und Darstellung von Daten Beschäftigt sich mit der Untersuchung u. Beschreibung von Gesamtheiten oder Teilmengen von Gesamtheiten durch z.b.

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2017 Organisatorisches Anmeldung in Basis: 19. 23.06.2017 Skript und Übungsaufgaben unter: http://www.iam.uni-bonn.de/users/rezny/statistikpraktikum

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung 2 Univariate deskriptive Statistik Häufigkeitsverteilungen Statistische Kennwerte 3 Multivariate Statistik 4 Regression 5 Ergänzungen Deskriptive

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik 1. Deskriptive Statistik 2. Induktive Statistik 1. Deskriptive Statistik 1.0 Grundbegriffe 1.1 Skalenniveaus 1.2 Empirische Verteilungen 1.3 Mittelwerte 1.4 Streuungsmaße 1.0

Mehr

Forschungsmethoden in der Sozialen Arbeit

Forschungsmethoden in der Sozialen Arbeit Forschungsmethoden in der Sozialen Arbeit Fachhochschule für Sozialarbeit und Sozialpädagogik Alice- Salomon Hochschule für Soziale arbeit, Gesundheit, Erziehung und Bildung University of Applied Sciences

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-31 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

WISTA WIRTSCHAFTSSTATISTIK

WISTA WIRTSCHAFTSSTATISTIK WISTA WIRTSCHAFTSSTATISTIK PROF DR ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 23042013 Datenlagen und Darstellung eindimensionaler Häufigkeitsverteilungen

Mehr

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung 20 Weiters zum Thema der statistischen Informationsverdichtung M a ß z a h l e n Statistiken bei Stichproben Parameter bei Grundgesamtheiten Maßzahlen zur Beschreibung univariater Verteilungen Maßzahlen

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung Wallstr. 3, 6. Stock, Raum 06-206 Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de lordsofthebortz.de lordsofthebortz.de/g+

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

Das harmonische Mittel

Das harmonische Mittel Das harmonische Mittel x H := 1 1 n n 1 x i Das harmonische Mittel entspricht dem Mittel durch Transformation t 1 t Beispiel: x 1,..., x n Geschwindigkeiten, mit denen konstante Wegstrecken l zurückgelegt

Mehr

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik fh management, communication & it Folie 1 Überblick Grundlagen (Testvoraussetzungen) Mittelwertvergleiche (t-test,..) Nichtparametrische Tests Korrelationen Regressionsanalyse... Folie 2 Überblick... Varianzanalyse

Mehr

Angewandte Statistik 3. Semester

Angewandte Statistik 3. Semester Angewandte Statistik 3. Semester Übung 5 Grundlagen der Statistik Übersicht Semester 1 Einführung ins SPSS Auswertung im SPSS anhand eines Beispieles Häufigkeitsauswertungen Grafiken Statistische Grundlagen

Mehr

Maße der zentralen Tendenz

Maße der zentralen Tendenz UStatistische Kennwerte Sagen uns tabellarische und graphische Darstellungen etwas über die Verteilung der einzelnen Werte einer Stichprobe, so handelt es sich bei statistischen Kennwerten um eine Kennzahl,

Mehr

Diskrete Zufallsvariablen (Forts.) I

Diskrete Zufallsvariablen (Forts.) I 9 Eindimensionale Zufallsvariablen Diskrete Zufallsvariablen 9.4 Diskrete Zufallsvariablen (Forts.) I T (X ) ist endlich oder abzählbar unendlich, die Elemente von T (X ) werden daher im Folgenden häufig

Mehr

Streuungsmaße von Stichproben

Streuungsmaße von Stichproben Streuungsmaße von Stichproben S P A N N W E I T E, V A R I A N Z, S T A N D A R D A B W E I C H U N G, Q U A R T I L E, K O V A R I A N Z, K O R R E L A T I O N S K O E F F I Z I E N T Zentrale Methodenlehre,

Mehr

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es beim radioaktiven Zerfall, zwischen 100 und 110 Zerfälle

Mehr

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Häufigkeitsverteilungen und Statistische Maßzahlen Statistik SS Variablentypen Qualitative

Mehr

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum 1 Merkmalstypen Quantitativ: Geordnete Werte, Vielfache einer Einheit Stetig: Prinzipiell sind alle Zwischenwerte beobachtbar Beispiele: Gewicht, Größe, Blutdruck Diskret: Nicht alle Zwischenwerte sind

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das Merkmal zumindest ordinal

Mehr

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n 3.2. Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare von Merkmalsausprägungen (x, y) Beispiele:

Mehr

Verteilungsfunktion und Quantile

Verteilungsfunktion und Quantile Statistik 1 für SoziologInnen Verteilungsfunktion und Quantile Univ.Prof. Dr. Marcus Hudec Kumulierte Häufigkeiten Hinweis: Damit das Kumulieren inhaltlich sinnvoll ist, muss das auszuwertende Merkmal

Mehr

Variablen und Skalenniveaus

Variablen und Skalenniveaus Analytics Grundlagen Variablen und Skalenniveaus : Photo Credit: Unsplash, Roman Mager Statistik Was ist eigentlich eine Variable? Variable In der Datenanalyse wird häufig die Bezeichnung Variable verwendet.

Mehr

Deskriptive Statistik

Deskriptive Statistik Deskriptive Statistik Deskriptive Statistik: Ziele Daten zusammenfassen durch numerische Kennzahlen. Grafische Darstellung der Daten. Quelle: Ursus Wehrli, Kunst aufräumen 1 Modell vs. Daten Bis jetzt

Mehr

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg Prof. Markus Schumacher, Dr. Stan Lai Physikalisches Institut Westbau 2 OG Markus.Schumacher@physik.uni-freiburg.de

Mehr

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008 Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6 Lösungsskizzen Übung SS2005 Grundstudium Sommersemester 2008 Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6 Inhalt Serie 1 Serie 2 Serie 3 Serie 4 Serie

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 3 1 Inhalt der heutigen Übung Vorrechnen der Hausübung B.7 Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben C.1: Häufigkeitsverteilung C.2: Tukey

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

2. Deskriptive Statistik

2. Deskriptive Statistik Philipps-Universitat Marburg 2.1 Stichproben und Datentypen Untersuchungseinheiten: mogliche, statistisch zu erfassende Einheiten je Untersuchungseinheit: ein oder mehrere Merkmale oder Variablen beobachten

Mehr

3. Merkmale und Daten

3. Merkmale und Daten 3. Merkmale und Daten Ziel dieses Kapitels: Vermittlung des statistischen Grundvokabulars Zu klärende Begriffe: Grundgesamtheit Merkmale (Skalenniveau etc.) Stichprobe 46 3.1 Grundgesamtheiten Definition

Mehr

Statistik. Jan Müller

Statistik. Jan Müller Statistik Jan Müller Skalenniveau Nominalskala: Diese Skala basiert auf einem Satz von qualitativen Attributen. Es existiert kein Kriterium, nach dem die Punkte einer nominal skalierten Variablen anzuordnen

Mehr

Lösungen zur Klausur zur Statistik Übung am

Lösungen zur Klausur zur Statistik Übung am Lösungen zur Klausur zur Statistik Übung am 28.06.2013 Fabian Kleine Staatswissenschaftliche Fakultät Aufgabe 1 Gegeben sei die folgende geordneten Urliste des Merkmals Y. 30 Punkte Y : 5 5 5 5 10 10 10

Mehr

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg Lagemaße Übung M O D U S, M E D I A N, M I T T E L W E R T, M O D A L K L A S S E, M E D I A N, K L A S S E, I N T E R P O L A T I O N D E R M E D I A N, K L A S S E M I T T E Zentrale Methodenlehre, Europa

Mehr

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer Statistik 1 Herzlich willkommen zur Vorlesung Statistik smaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung FB 1 W. Ludwig-Mayerhofer

Mehr

4. Kumulierte Häufigkeiten und Quantile

4. Kumulierte Häufigkeiten und Quantile 4. Kumulierte Häufigkeiten und Quantile Statistik für SoziologInnen 1 4. Kumulierte Häufigkeiten und Quantile Kumulierte Häufigkeiten Oft ist man nicht an der Häufigkeit einzelner Merkmalsausprägungen

Mehr

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter? STATISTIK I Übung 04 Spannweite und IQR 1 Kurze Wiederholung Was sind Dispersionsparameter? Die sogenannten Dispersionsparameter oder statistischen Streuungsmaße geben Auskunft darüber, wie die Werte einer

Mehr

3 Lage- und Streuungsmaße

3 Lage- und Streuungsmaße 3 Lage- und Streuungsmaße Grafische Darstellungen geben einen allgemeinen Eindruck der Verteilung eines Merkmals, u.a. von Lage und Zentrum der Daten, Streuung der Daten um dieses Zentrum, Schiefe / Symmetrie

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psmet03.sowi.uni-mainz.de/

Mehr

Mathematische Statistik. Zur Notation

Mathematische Statistik. Zur Notation Mathematische Statistik dient dazu, anhand von Stichproben Informationen zu gewinnen. Während die Wahrscheinlichkeitsrechnung Prognosen über das Eintreten zufälliger (zukünftiger) Ereignisse macht, werden

Mehr

Grundlagen der empirischen Sozialforschung

Grundlagen der empirischen Sozialforschung Grundlagen der empirischen Sozialforschung Sitzung 10 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 22. Dezember 2008 1 / 21 Online-Materialien Die Materialien

Mehr

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Kapitel 3: Lagemaße Ziel Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt Dr. Matthias Arnold 52 Definition 3.1 Seien x 1,...,x n Ausprägungen eines kardinal

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich) WS 07/08-1 STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich) Nur die erlernbaren Fakten, keine Hintergrundinfos über empirische Forschung etc. (und ich übernehme keine Garantie) Bei der Auswertung von

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 6-6) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

2 Häufigkeitsverteilungen

2 Häufigkeitsverteilungen 2 Häufigkeitsverteilungen Ziel: Darstellung bzw Beschreibung (Exploration) einer Variablen Ausgangssituation An n Einheiten ω 1,,ω n sei das Merkmal X beobachtet worden x 1 = X(ω 1 ),,x n = X(ω n ) Also

Mehr

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) Beispiel (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter) 1 Ein Statistiker ist zu früh zu einer Verabredung gekommen und vertreibt sich nun die Zeit damit, daß er die Anzahl X der Stockwerke

Mehr

Grundlagen der empirischen Sozialforschung

Grundlagen der empirischen Sozialforschung Grundlagen der empirischen Sozialforschung Sitzung 11 - Datenanalyseverfahren Jan Finsel Lehrstuhl für empirische Sozialforschung Prof. Dr. Petra Stein 5. Januar 2009 1 / 22 Online-Materialien Die Materialien

Mehr

Deskriptive Statistik

Deskriptive Statistik Fakultät für Humanwissenschaften Sozialwissenschaftliche Methodenlehre Prof. Dr. Daniel Lois Deskriptive Statistik Stand: April 2015 (V2) Inhaltsverzeichnis 1. Notation 2 2. Messniveau 3 3. Häufigkeitsverteilungen

Mehr

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit: 1. Welche der folgenden Kenngrößen, Statistiken bzw. Grafiken sind zur Beschreibung der Werteverteilung des Merkmals Konfessionszugehörigkeit sinnvoll einsetzbar? A. Der Modalwert. B. Der Median. C. Das

Mehr

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012

Statistik SS Deskriptive Statistik. Bernhard Spangl 1. Universität für Bodenkultur. March 1, 2012 Statistik SS 2012 Deskriptive Statistik Bernhard Spangl 1 1 Institut für angewandte Statistik und EDV Universität für Bodenkultur March 1, 2012 B. Spangl (Universität für Bodenkultur) Statistik SS 2012

Mehr

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Deskriptive Statistik Erläuterungen

Deskriptive Statistik Erläuterungen Grundlagen der Wirtschaftsmathematik und Statistik Erläuterungen Lernmaterial zum Modul - 40601 - der Fernuniversität Hagen 7 2.1 Einfache Lageparameter aus einer gegebenen Messreihe ablesen Erklärung

Mehr

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten. R. Brinkmann http://brinkmann-du.de Seite 6.0.2009 Lösungen Mittelwert, Median II se: E E2 E3 E4 E5 E6 a) Notendurchschnitt 2,6 b) Säulendiagramm siehe ausführliche Lösung. c) Kreisdiagramm siehe ausführliche

Mehr