Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz
Variablen Skalen Nominalskala Merkmale & Variablen Grundlagen Eigenschaften, deren Werte bei den statistischen Einheiten beobachtet werden, heißen Merkmale Die Werte, die ein Merkmal annehmen kann, heißen Ausprägungen Die Ausprägungen eines Merkmals können beliebiger Art sein (z.b. Worte, Formen, Farben etc.) Notation Eine Variable wird definiert, indem den Ausprägungen des Merkmals Zahlen zugeordnet werden. Diese Zahlen heißen Realisationen oder Werte. 2 Merkmal Variable a Punkte auf Fläche Zahlen 5
Variablen Merkmale & Variablen Notation Skalen Variablen werden mit Großbuchstaben Nominalskala symbolisiert, häufig verwendet man X und Y Notation Die Realisationen einer Variablen werden dann mit den entsprechenden Kleinbuchstaben gekennzeichnet, also x und y Die Menge aller möglichen Realisationen ist der Wertebereich einer Variablen
Variablen Variablen Definition Skalen Variablen werden immer über eine mathematische Formulierung definiert, z.b. Nominalskala Merkmal Variable Notation 2 X x: 1 1, 0, wenn x: 2 2, 1, wenn = x: 65 5, 6, wenn Die extensionale Definition zählt alle Realisationen der Variablen auf.
Variablen Variablen Definition Skalen Variablen werden immer über eine mathematische Formulierung definiert, z.b. Nominalskala Merkmal Variable Notation X = { 0 + } Die intensionale Definition gibt eine Vorschrift an, die die Variable eindeutig spezifiziert.
Variablen Variablen & Messungen Grundlagen Skalen Nominalskala Notation Die empirische Feststellung der Realisation einer Variablen wird als Messung bezeichnet Dabei ist zu unterscheiden zwischen der Beobachtung der Ausprägung des Merkmals und der Messung der Realisation der Variablen Denn: Die Beobachtung kann eine Information in beliebiger Form erheben (z.b. verbal, bildlich), die Messung liefert immer eine Zahl. Die gemessenen Zahlen heißen Messwerte oder Ergebnisse
Variablen Skalen Variablen Unterscheidung nach Art der Daten Eine wesentliche Unterscheidung von Typen von Variablen trennt diskrete von stetigen Variablen Nominalskala Eine diskrete Variable besitzt zumeist endlich viele und feste Ausprägungen, die man über Ganzzahlen beschreiben kann Notation Dichtome Variablen haben genau zwei diskrete Ausprägungen Polytome Variablen haben mehr als zwei diskrete Ausprägungen Eine stetige (kontinuierliche) Variable kann (unendlich viele) beliebige bi Ausprägungen annehmen, die man über reelle Zahlen beschreibt
Variablen Skalen Variablen Unterscheidung nach Art der Daten Achtung: Es sind streng Typen von Merkmalen und Typen von Variablen zu unterscheiden. Nominalskala Alter ist ein kontinuierliches bzw. stetiges Merkmal. Eine Variable Alter kann nun aber diskret definiert werden als Notation x 1: 0, wenn <18 Alter X = x 2: 1, wenn <68 x 3: 2, wenn 68 Gleiches gilt z.b. für Intelligenz, Schulleistung, Sehvermögen, Fahreignung
Variablen Skalen Definition Skalen Definition der Skala (oder richtiger: Skale) Nominalskala Eine Skale ist die Festlegung von Einheiten, in denen ein gegebenes Merkmal gemessen wird Notation Die Einheiten sind zumeist numerisch (Zahlen), können aber auch beliebige andere Symbole sein Nur Variablen, die auf derselben Skale gemessen wurden, sind direkt miteinander vergleichbar In allen anderen Fällen müssen die Skalen sofern möglich ineinander überführt werden (Skalentransformation).
Variablen Skalen Nominalskala Notation Vom Merkmal zur Skale Zusammenfassung am Beispiel der CAPS (Blake, 1996) Konstrukt: PTSD Merkmal: Kreuze im CAPS? Skale 39 X x 1: 0, wenn 0 ja x 1: 1, wenn 1 ja = x 135: 136, wenn 136 ja Messung Variable: CAPS-Score
Variablen Skalen Nominalskala Notation Vom Merkmal zur Skale Zusammenfassung am Beispiel der CAPS (Blake, 1996) Y=0: Keine PTSD Y=1: Leichte PTSD (nicht krankheitswertig) Y=2: Mittlere PTSD, (krankheitswertig) Y=3: Schwere PTSD Y=4: Extreme PTSD Konstrukt: PTSD Skalentransformation Merkmal: Kreuze im CAPS { } { } { } { } { } y1 : 0, X 0,19 y2: 1, X 20,39 Y( X) = y3: 2, X 40,59 y4: 3, X 60,79 y5: 4, X 80,136 39 X 0, wenn 0 ja 1, wenn 1 ja = 136, wenn 136 ja Variable: Schweregrad Messung Variable: CAPS-Score
Variablen Skalen Skalenniveaus Übersicht Es gibt verschiedene Typen von Skalen, die als Skalenniveaus bezeichnet werden. Nominalskala qualitativ Nominalskala Ordinalskala Intervallskala Notation Verhältnisskala l quantitativ (Ratioskala) Absolutskala Der Informationsgehalt nimmt von der Nominalskala zur Absolutskala hin zu Bei Messungen kognitiver Merkmale kommen die Verhältnis- und die Absolutskala so gut wie nie vor
Variablen Skalenniveaus Frage: Warum ist die Kenntnis des Skalenniveaus so wichtig für die psychologische Forschung? Skalen g p y g g Nominalskala Notation 1. Das Skalenniveau bestimmt die erlaubten mathematischen Operationen (=,, <, > etc.) 2. Das Skalenniveau bestimmt, welche mathematischen Transformationen auf die Messwerte einer Variablen angewandt werden dürfen, ohne Informationen zu verlieren. Beispiele: Hat eine Person mit X=40 eine doppelt so schwere PTSD wie jemand mit X=20? Hat eine Person mit Y=2 eine doppelt so schwere PTSD wie jemand mit Y=1? Verliert man durch die Transformation Y(X) Informationen?
Variablen Skalenniveaus Frage: Warum ist die Kenntnis des Skalenniveaus so wichtig für die psychologische Forschung? Skalen g p y g g Nominalskala Notation 1. Das Skalenniveau bestimmt die erlaubten mathematischen Operationen (=,, <, > etc.) 2. Das Skalenniveau bestimmt, welche mathematischen Transformationen auf die Messwerte einer Variablen angewandt werden dürfen, ohne Informationen zu verlieren. 3. Das Skalenniveau bestimmt damit auch, welche statistischen Verfahren überhaupt auf Daten angewandt werden dürfen. Also: Ohne Skalenniveau keine Statistik
Variablen Nominalskala Definition Skalen Nominalskala Notation Bei einer Nominalskala werden den Realisationen einer Variablen Zahlen mit dem Ziel zugeordnet, Kategorien zu unterscheiden Die Zahlen selbst sind vollständig beliebig und damit nicht interpretierbar ti Die Anwendung mathematischer Operationen auf die Werte einer nominalskalierten Variablen ist unter bestimmten Voraussetzungen möglich, aber zumeist nicht sinnvoll.
Variablen Skalen Nominalskala Beispiele Konstitutionstypen Nominalskala Notation a) Leptosomer Typ b) Athletischer Typ c) Pyknischer Typ Temperamentstypen
Variablen Nominalskala Zulässige Operationen Skalen Nominalskala Zulässige Operationen sind ausschließlich Äquivalenzrelationen, d.h. Gleich und Ungleich Notation Jede andere Aussage als A ist gleich/ungleich g B ist bei einer nominalskalierten Variable unzulässig!
Variablen Skalen Nominalskala Nominalskala Zulässige Transformationen Zulässige Transformationen sind eineindeutige Abbildungen, so dass die Unterscheidbarkeit der Realisationen erhalten bleibt. Notation
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Frage: Wie werden Realisationen formal kodiert? Nominalskala Notation Ziel: Eine symbolische Schreibweise für Der Wert der vierten Ausprägung von X zu finden Hat eine Variable X genau k mögliche Realisationen, so werden diese mit x 1, x 2,, x k indiziert Laufindizes (oft i oder j) helfen, die einzelnen Realisationen symbolisch zu adressieren (Beginn bei 1). x1: 1, wenn <18 Alter X = x 2: 2, wenn <68 x 3 : 3, wenn 68 y1: 0, wenn <18 Alter Y = y 2: 18, wenn <68 y 3 : 68, wenn 68
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Frage: Wie werden Realisationen formal kodiert? Nominalskala Notation Ziel: Eine symbolische Schreibweise für Der Wert der vierten Ausprägung von X zu finden Hat eine Variable X genau k mögliche Realisationen, so werden diese mit x 1, x 2,, x k indiziert Laufindizes (oft i oder j) helfen, die einzelnen Realisationen symbolisch zu adressieren (Beginn bei 1). Das Symbol x j mit j = 1 k bezeichnet dann die j-te Realisation der Zufallsvariablen X. Diese Indizierung ist nur für diskrete Variablen sinnvoll, da stetige Variablen unendlich viele Realisationen haben
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Frage: Wie werden Merkmalsträger formal kodiert? Nominalskala Notation Ziel: Eine symbolische Schreibweise für Der Wert der vierten Person in der Stichprobe zu finden Konvention: Für die Gesamtzahl von Personen wird nahezu immer das Zeichen n (oder N) benutzt. Für die Gesamtzahl von Realisationen werden andere Kleinbuchstaben verwendet (z.b. k) ) Dann dient wieder ein Laufindex dazu, die einzelnen Personen zu adressieren Das Symbol x i mit i = 1 n bezeichnet dann die i-te Messung der Zufallsvariablen X.
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Problem: Das Symbol Nominalskala Notation x 3 kann die dritte Realisation der Zufallsvariablen X sein oder auch der Wert der 3. Person in der Stichprobe Also: Es muss vorher definiert sein, was der Laufindex bedeutet, z.b. Die Variable X habe k Realisationen und sei an n Personen gemessen worden. x i mit i = 1 n x j mit j = 1 k
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen In psychologischen Experimenten gibt es oft viele Variablen, die als UV oder AV erhoben werden. Nominalskala Beispiel: An einer Stichprobe von Personen verschiedenen Geschlechts wird der durchschnittliche Alkoholkonsum über einen Monat hinweg gemessen. Notation Man hat hier offenbar 3 Variablen sowie mehrere Messungen verschiedener Merkmalsträger IQ als AV: (X) Geschlecht als UV (Y) Alkoholabhängigkeit als UV (Z) Frage: Wie indiziert man z.b. Die IQ-Messung des 4. Mannes in der Gruppe der Alkoholiker?
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Die Variable Geschlecht (Y) wird in k=2 Ausprägungen gemessen: Nominalskala Notation y 1 : 0 = männlich y 2 : 1 = weiblich Die Variable Alkoholkonsum (Z) wird diskretisiert in m=5 5 Ausprägungen (Jelinek, 1951) gemessen: z 1 : 0 = Kein Alkoholkonsum z 2 :1= = Konflikt-/Erleichterungstrinken z 3 : 2 = Gelegenheitstrinken z 4 : 3 = Rauschtrinken (Alkoholiker) z 5 :4= = Periodisches Trinken (Alkoholiker) Es nehmen insgesamt n=220 Personen teil
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Nominalskala Notation Die AV ist der IQ. Dies ist die Variable, deren Realisation im Experiment bei den Merkmalsträgern gemessen wird. Die beiden anderen Variablen sind UVen, deren Realisationen vor dem Experiment bereits feststehen, bzw. erhoben werden. Zur eindeutigen Indizierung des IQ eines Merkmalsträgers werden nun mehrere Laufindizes benötigt
Variablen Skalen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Eine Person fällt immer in eine der k m = 2 5 = 10 Gruppen von Geschlecht und Alkoholkonsum Nominalskala Der Laufindex für Geschlecht ht sei r = 1 kk und dfür Alkoholkonsum s = 1 m Notation Jede der 10 Gruppen hat also n rs Mitglieder Jede Person kann eindeutig identifiziert werden über x irs mit i=1 n rs r=1 k, s=1 m So ist z.b. x 4,1,3 der vierte Mann unter den Gelegenheitstrinkern
Variablen Exkurs: Notation Indizierung von Realisationen und Merkmalsträgern Skalen Oft möchte man über einen der Indizes integrieren (z.b. mitteln) Nominalskala Beispiel: Alle weiblichen Rauschtrinker Notation Dann kommt die Punktnotation zum Einsatz x rs hier: x,2,5 Der Punkt symbolisiert Alle, in diesem Fall also Alle Personen in Gruppe Y=y r, Z=z s.
Häufigkeiten Nominaldaten Numerische Beschreibung: Häufigkeiten Kreuztabellen Nominalskalierte Variablen sind praktisch immer diskret und endlich Die empirische beobachtete Häufigkeit des Auftretens einer Ausprägung X = x wird als h(x = x) oder vereinfacht h(x) geschrieben. h(x) bezeichnet man als absolute Häufigkeit Darstellung Die relative Häufigkeit f(x = x) bzw. f(x) ist dann definiert als der Quotient aus absoluter Häufigkeit und der Anzahl n aller Beobachtungen Achtung: Relative hx ( ) f ( x) = h( x) = f( x) n Häufigkeiten sind nicht n Wahrscheinlichkeiten
Häufigkeiten Nominaldaten Numerische Beschreibung: univariate Kreuztabellen Kreuztabellen Wert von X h(x = x j ) f(x = x j ) x 1 h(x 1 ) f(x 1 ) x 2 h(x 2 ) f(x 2 ) x i h(x i ) f(x i ) Darstellung x k h(x k ) f(x k ) Die Sammlung der Werte der h(x = x j ) und f(x = x j ) für alle möglichen j = 1 k wird idals diskrete Häufigkeitsverteilung bezeichnet Tabellarische Darstellung über Kreuztabellen (oder Kontingenztabellen)
Häufigkeiten Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Kreuztabellen Oft betrachtet man Häufigkeiten für das gemeinsame Auftreten zweier Merkmale Beispiel: i Frauen/Männer, die unter-/normal- /übergewichtig sind Darstellung In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Die Häufigkeiten sind nun so genannte Verbund- häufigkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben
Häufigkeiten Kreuztabellen Darstellung Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Absolute Verbundhäufigkeiten werden im bivariaten Fall symbolisiert als h(x=x, Y=y) bzw. h(x, y) Relative Verbundhäufigkeiten als f(x=x, Y=y) bzw. f(x, y) Tabellarische Darstellung über bivariate Kreuztabellen Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Σ Unter (y 1 ) f(x 1,y 1 ) f(x 2,y 1 ) f(,y 1 ) Gewicht Normal (y 2 ) f(x 1,y 2 ) f(x 2,y 2 ) f(,y 2 ) Über (y 3 ) f(x 1,y 3 ) f(x 2,y 3 ) f(,y 3 ) Σ f(x 1, ) f(x 2, ) f(, ) Randhäufigkeiten
Häufigkeiten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Darstellung Auch das gemeinsame Vorkommen von mehr als zwei Merkmalen ist über Kreuztabellen darstellbar Beispiel: Frauen/Männer, die unter-/normal- /übergewichtig sind und Stricken/World of Warcraft spielen In diesem Fall werden 3 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Z: Freizeitbeschäftigung g (z 1, z 2 2) )
Häufigkeiten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Absolute Verbundhäufigkeiten werden im multivariaten Fall symbolisiert als h(x=x, Y=y, ) bzw. h(x, y, ) Relative Verbundhäufigkeiten als f(x=x, Y=y, ) bzw. f(x, y, ) Darstellung Tabellarische Darstellung über geschachtelte (oder genestete genestete ) Kreuztabellen Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Freizeit Stricken (z 1 ) WoW (z 2 ) Stricken (z 1 ) WoW (z 2 ) Unter (y 1 ) f(x 1,y 1,z 1 ) f(x 1,y 1,z 2 ) f(x 2,y 1,z 1 ) f(x 2,y 1,z 2 ) Gewicht Normal (y 2 ) f(x 1,y 2,z 1 ) f(x 1,y 2,z 2 ) f(x 2,y 2,z 1 ) f(x 2,y 2,z 2 ) Über (y 3 ) f(x 1,y 3,z 1 ) f(x 1,y 3,z 2 ) f(x 2,y 3,z 1 ) f(x 2,y 3,z 2 )
Häufigkeiten Kreuztabellen Darstellung Nominaldaten Rechnen mit Häufigkeiten (am bivariaten Beispiel) Anzahl Beobachtungen: Randhäufigkeiten für x: analog für f(x i, ) Randhäufigkeiten für y: k x y = = n h(,) h( x, y ) k y k i= 1 j= 1 hx (, ) hx (, y) = i i j j= 1 k x h (, y j ) = h ( x i, y j ) analog für f(y j, ) i= 1 i j Darüber hinaus gilt: k k x y i= 1 j= 1 f( x, y ) = 1 i j
Häufigkeiten Kreuztabellen Nominaldaten Numerische Beschreibung: Als Kennwert bezeichnet man ein statistisches ti ti Maß, das eine Menge von Beobachtungen über zumeist nur eine Zahl beschreibt Darstellung dienen damit der Datenreduktion charakterisieren lediglich bestimmte Eigenschaften der gegebenen Menge von Beobachtungen, sie bedeuten als einen Informationsverlust
Häufigkeiten Nominaldaten Numerische Beschreibung: Kreuztabellen Darstellung Ein Kennwert für nominalskalierte Daten ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x f( x) = max. mod Wichtig: i Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Bei mehreren Maxima sinkt die Aussagekraft von x mod
Häufigkeiten Kreuztabellen Darstellung Nominaldaten Beschreibung: Kreisdiagramm Das Kreis- oder Tortendiagramm stellt die relativen oder absoluten Häufigkeiten von Klassen als Kreissegmente eines Vollkreises ( Tortenstücke ) dar. Der Öffnungswinkel α eines Tortenstücks ist dabei durch den Anteil der Klassenelemente an allen Elementen definiert und wird berechnet als hx ( ) α = 360 = 360 f ( x ) n Ö Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360 ergeben
Häufigkeiten Kreuztabellen Nominaldaten Beschreibung: Kreisdiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 5161172 11.9% 2602271 6.0% 9975374 23.0% Darstellung 4640717 10.7% 6332194 14.6% 14659462 33.8% SPD CDU/CSU FDP Grüne Linke Sonstige
Häufigkeiten Nominaldaten Beschreibung: Säulendiagramm Kreuztabellen Darstellung Das Balken- oder Säulendiagramm stellt die relativen oder absoluten Häufigkeiten von Ausprägungen als Balken (waagerecht) oder Säulen (senkrecht) dar. Die verschiedenen möglichen Ausprägungen werden auch als Klassen bezeichnet Der Länge der Säulen bzw. Balken ist dabei durch den Anteil der Klassenelemente am Ganzen bzw. die absolute Anzahl definiert. Die Breite der Balken variiert niemals innerhalb eines Balkendiagramms
Häufigkeiten Kreuztabellen Nominaldaten Beschreibung: Säulendiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 16 40 Wahlergebn nis in Mio. % 25 10 9.98 Darstellung 23.0% 14 35 12 30 208 156 104 14.66 33.8% 633 6.33 14.6% 10.7% 4.64 5.16 11.9% 52 0 6.0% 2.60 SPD CDU/CSU FDP Grüne Linke Sonstige
Häufigkeiten Kreuztabellen Nominaldaten Beschreibung: Säulendiagramm Warum gleiche Säulenbreiten? Darstellung Menschen neigen zur Größenbewertung anhand der Fläche.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinalskala Definition Bei einer Ordinalskala können die Realisationen einer Variablen (natürlich) geordnet werden Die Zuordnung der Zahlen zu den Ausprägungen spiegelt die Ordnung wieder Abstände zwischen den Zahlen können nicht interpretiert werden Die Anwendung von Rechenoperationen auf die Werte einer ordinalskalierten Variablen ist unter bestimmten Voraussetzungen erlaubt, aber im Allgemeinen eher wenig sinnvoll
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinalskala Beispiel Häufigkeiten Social Penetration Theory von Altman und Taylor (1958) (I) Orientierungsstadium: Sozial erwünschte Normen und Verhaltensschemata werden ausgetauscht (z.b. Smalltalk) (II) Exploratorisch-affektives affektives Stadium: Partielle Öffnung der eigenen Einstellungs- und Wahrnehmungswelt gegenüber dem Anderen im Hinblick auf private, vor allem aber berufliche und weltanschauliche Inhalte. Weiterhin vorsichtige Prüfung der Interaktionsformen ( Bekanntschaftsphase ). h Darstellung (III) (IV) (V) Affektives Stadium: Intensiver und möglicherweise kritischer Austausch über private und persönliche Themen. Körperliche Zuwendung wie Berühren und Küssen. Stabiles Stadium: Die Beziehung erreicht ein Plateau, persönliche Inhalte sind geteilt, Verhalten und Emotionen des Anderen vorhersagbar. Depenetration: Zusammenbruch und mögliches Ende der Beziehung, Überwiegen von Kosten gegenüber dem Nutzen.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinalskala Zulässige Operationen Zulässige Operationen sind Äquivalenzrelationen, d.h. Gleich und Ungleich Zudem erlaubt sind qualitative Vergleichsrelationen, d.h. Größer oder Kleiner Wichtig: Diese Vergleichsrelationen umfassen nicht jede Art quantitativer Vergleiche Eine Aussage wie A ist gleich/ungleich/größer/kleiner B ist bei einer ordinalskalierten Variable zulässig, nicht aber A ist viermal so groß wie B.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinalskala Zulässige Transformationen Zulässig sind alle streng monotonen Transformationen, so dass die Rangordnung der Werte erhalten bleibt. Darstellung
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinalskala Kritische Betrachtung Bei Ordinalskalen l und höheren Skalenniveaus können Intransitivitäten auftreten Intransitivität = Eine angenommene Ordnung gilt nicht für bestimmte einzelne Paarungen Beispiel: Nahrungskette in chinesischen Restaurants Mensch Hund Ratte Mensch (nach Glutamatvergiftung) Lösungen: Annahme eines niedrigeren Skalenniveaus, Einführung neuer Skalenstufen
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Häufigkeiten Häufigkeiten Ordinalskalierte Variablen sind sehr häufig diskret und endlich Es gelten die bereits eingeführten Notationen und Berechnungsvorschriften für empirische Häufigkeiten Neben der Häufigkeitsverteilung g kann auch noch die empirische Verteilungsfunktion bestimmt werden. Darstellung Diese gibt an, wie viele Beobachtungen kleiner oder gleich einer bestimmten Ausprägung x sind. Zur Berechnung der Verteilungsfunktion müssen die Ausprägungen zunächst der Größe nach geordnet werden.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Häufigkeiten Häufigkeiten Empirische Häufigkeitsverteilung und Verteilungsfunktion: Wert von X (geordnet) f(x = x j ) F(X x j ) x 1 f(x 1 ) f(x 1 ) x 2 f(x 2 ) f(x 1 )+f(x 2 ) x k f(x k ) f(x 1 )+f(x 2 )+ +f(x+f(x k ) Darstellung Berechnungsvorschrift: analog für absolute Vert.funkt. H(X x j ) j j = c= 1 F( X x ) f( x ) c Für Ordinaldaten gelten die bereits eingeführten Konventionen zur Erstellung von Kreuztabellen
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinaldaten Numerische Beschreibung: Maße der zentralen Tendenz Median Andere Lagemaße Modalwert Extrema (Minimum, Maximum) Quantile Streuungsmaße (Dispersionsmaße) Spannweite (Halber) Interquartilsabstand
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinaldaten Numerische Beschreibung: Median Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: xmed oder x Darstellung Problem: Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig. Er liegt dann zwischen den Beobachtungen
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Median Häufigkeiten Der Median stimmt häufig mit keiner beobachteten Ausprägung überein Darstellung Median (und auch der Modalwert) sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten a zu allen n Messwerten x 1 x n x + a= x + a 2. Multiplikation aller n Messwerte x 1 x n mit einer Konstanten a x a= x a
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinaldaten Numerische Beschreibung: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 < p < 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung)
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinaldaten Numerische Beschreibung: Quantile Wichtige Quantile sind: Minimum (0. Quartil) und Maximum (4. Quartil) Darstellung Median (50% Quantil, 2. Quartil) 25% Quantil (1. Quartil, unteres Quartil) und 75% Quantil (3. Quartil, oberes Quartil) Dezile: x.10, x.20,, x.90
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinaldaten Quantile A cautionary note about conventions In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert oder sogar fehlerhaft. Maß Bortz Excel SPSS Median 137.5 137.5 137.5 1. Quartil 130.5 132.25 128.75 3. Quartil 146 145 147 Für den Beispieldatensatz mit n=12.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Spannweite Häufigkeiten Die Spannweite d k ist die Differenz zwischen dem kleinsten und größten Wert aller Ausprägungen. Sie ist definiert als: Darstellung d = x x k max min Die Spannweite ist nicht identisch mit der Anzahl unterschiedlicher Ausprägungen. Die Spannweite ist eher uninformativ, da sie nur zwei von k Ausprägungen berücksichtigt.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Numerische Beschreibung: Interquartilsabstand Häufigkeiten Der Interquartilsabstand d q ist die Differenz zwischen dem 1. und 3. Quartil Er ist definiert als Darstellung d = x x q.75.25 Manchmal wird ein halber Interquartilsabstand berechnet als d q /2.
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Darstellung Ordinaldaten Beschreibung: Stamm-Blatt Diagramm Das Stamm-Blatt Diagramm stellt Häufigkeitsdaten grafisch ohne Verlust von Informationen dar. Es eignet sich besonders für kleine Datensätze. Das Diagramm besteht aus 2 Spalten Stamm = Äquivalenzklassen (feste Dezimalstellen) Blätter = Merkmale (variable Dezimalstellen) Die Stammbreite bezeichnet dabei die Breite der Die Stammbreite bezeichnet dabei die Breite der Klassen des Stamm-Blatt Diagramms
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinaldaten Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) Darstellung 0 2 8 1 0 1 1 2 3 4 5 7 8 9 2 0 1 1 3 3 4 4 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 10
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinaldaten Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) 0 2 Darstellung 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Häufigkeiten Ordinaldaten Beschreibung: Stamm-Blatt Diagramm Das Stamm- Blatt Diagramm eignet sich auch zum Vergleich zweier Verteilungen. Darstellung 6 7 0 1 2 4 5 7 9 0 1 1 1 2 3 3 4 4 5 5 6 7 8 9 9 0 2 3 4 4 0 2 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Beschreibung: Empirische Verteilungsfunktion Häufigkeiten Die empirische Verteilungsfunktion bei k Realisationen ist j F( X xj) = F( xj) = f ( xc) c= 1 mit j = 1 k c= g Zur grafischen Darstellung werden also die empirischen relativen Häufigkeiten aufsummiert Darstellung Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 027 0.27 076 0.76 4 6 0.15 0.91 5 3 007 0.07 098 0.98 6 1 0.02 1.00
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Beschreibung: Box-Whisker-Plot Häufigkeiten Mithilfe der Fünf-Punkte- 15 Zusammenfassung (x min, x.25, x med, x.75, x max) 12 Darstellung können Häufigkeitsdaten grafisch am Boxplot veranschaulicht werden. Diese Variante ist problematisch, weil Ausreißer die Länge der Whisker erheblich vergrößern können 9 6 3 0 x max x.75 x x.25 x min Note
Methodenlehre Ordinaldaten Intervalldaten Ordinalskala Ordinaldaten Beschreibung: Box-Whisker-Plot Häufigkeiten Darstellung Eine zweite häufig verwendete Variante des 15 Boxplots verwendet den 1.5fachen Interquartils- 12 abstand d q für die Länge der Whisker. 9 Box und Whisker enden am letzten Datenpunkt 6 innerhalb ihrer Reichweite Datenpunkte außerhalb der 3 Whisker werden explizit eingetragen (). 0 8 1.5 dq x.75 x x.25 1.5 d q < 3 dq dq Ausreißer >3d q werden mit Sternchen (*) markiert. Note
Methodenlehre Ordinaldaten Intervalldaten Ordinaldaten Beschreibung: Box-Whisker-Plot
Methodenlehre Ordinaldaten Intervalldaten Ordinaldaten Beschreibung: Box-Whisker-Plot
Methodenlehre Ordinaldaten Intervalldaten Beschreibung Beschreibung How-not -to
Methodenlehre Ordinaldaten Intervalldaten Beschreibung How-not -to Keine Geschlechterlücke mehr beim Gehalt von Führungskräften
Methodenlehre Ordinaldaten Intervalldaten Beschreibung How-not -to Bild fragt: Brauchen wir eine Ausländerquote an deutschen Schulen? als Reaktion auf PISA 2008
Methodenlehre e e Relevante Excel Funktionen Häufigkeitsberechnungen Grundrechenarten: +, -,, / Formeln: SUMME(), PRODUKT(), QUOTIENT() Häufigkeitsdarstellungen g ANZAHL2() ZÄHLENWENN(), ZÄHLENWENNS() HÄUFIGKEIT() Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm MIN(), MAX() MEDIAN(), MODUS.EINF() QUANTIL().INKL(), QUARTILE.INKL(), QUANTILSRANG.INKL() INKL()