Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten (Beobachtungsein heiten, Merkmalsträger) werden Werte eines oder mehrerer Merkmale festgestellt. Merkmal (Variable) ist die zu untersuchende Größe einer Untersuchungseinheit. StatSoz 25
Merkmalsausprägungen sind die möglichen Werte, die von einem Merkmal angenommen werden können. Tabelle 2 1 Merkmale und ihre Ausprägungen Einheit Merkmal Ausprägung Person Geschlecht weiblich, männlich Berufsstatus Arbeiter, Beamter,... Alter in Jahren 1, 2, 3,... Lebensraum ländl. Region, Stadt Haushalt Anzahl der Personen 1, 2, 3... Realeinkommen Beträge in e Grundgesamtheit (Kollektiv, Population): Menge aller potentiellen Untersuchungseinheiten für eine bestimmte Fragestellung. Vollerhebung: Alle Merkmalsträger einer Grundgesamtheit werden in die Untersuchung einbezogen. StatSoz 26
Stichprobe: Endliche Teilmenge einer Grundgesamtheit. Hat diese Menge n Elemente, so spricht man von einer Stichprobe vom Umfang n (sample of size n). Daten, Beobachtungen: konkrete Werte der Merkmalsausprägungen einer Stichprobe. Beispiel: Grundgesamtheit: Haushalte einer Stadt Merkmal: Anzahl der Haushaltsmitglieder Stichprobe vom Umfang 5: H 1, H 2, H 3, H 4, H 5 Daten: 4, 5, 6, 6, 4 Bemerkung: Die Begriffe Stichprobe und Daten werden auch häufig synonym verwendet (so auch im Folgenden). Es gibt verschiedene Merkmalstypen: StatSoz 27
Ein qualitatives (artmäßig erfassbares) Merkmal hat nur endlich viele Ausprägungen, die Namen oder Kategorien sind. Qualitative Merkmale werden auch als kategoriale Merkmale bezeichnet. Beispiele: Familienstand: ledig - verheiratet - eheähnliche Partnerschaft - geschieden - verwitwet Schulabschluss: kein Schulabschluss - Hauptschulabschluss - mittlere Reife - Fachhochschulreife - Abitur Ein quantitatives (in natürlicher Weise zahlenmäßig erfassbares) Merkmal liegt vor, wenn seine Ausprägungen eine Größe wiedergeben. Beispiele: Einwohnerzahl Intelligenzquotient Zeitmessung StatSoz 28
Eine andere Unterscheidung ist in diskrete und stetige Merkmale. Diskretes Merkmal (discrete variable): Ein solches Merkmal kann nur endlich viele oder höchstens abzählbar unendlich viele Ausprägungen annehmen (häufig ganzzahlig, also 0, 1, 2,...). Qualitative Merkmale sind immer diskret. Quantitative Merkmale sind dann diskret, wenn ihre Merkmalsausprägungen durch einen Zählvorgang ermittelt werden (sogenannte Zähldaten). Beispiele für Zähldaten: Anzahl der Einwohner Anzahl der Mitglieder eines Haushaltes Anzahl der Pendler einer Region Anzahl der Geburten eines Jahres in einem Land StatSoz 29
Stetiges Merkmal (continuous variable): Die Ausprägungen können (wenigstens dem Prinzip nach) beliebige Werte aus einem Intervall annehmen, alle Werte aus einem Intervall sind also denkbar. Die Ausprägungen werden in der Regel durch einen Messvorgang ermittelt, sogenannte Messdaten. Beispiele: Längenmessung Zeitmessung Zusammenfassung: Merkmal diskret stetig qualitativ ja nein quantitativ ja ja (Zähldaten) (Messdaten) StatSoz 30
Bemerkung: Stetige Merkmale können nur diskret beobachtet werden (Messgenauigkeit), Angaben z. B. auf zwei Dezimalstellen hinter dem Komma genau (Rundungen). In der Praxis ist die Unterscheidung diskret/stetig vielfach willkürlich. 2.2 Skalenniveau von Merkmalen Für statistische Analysen ist die Einteilung in qualitative und quantitative Merkmale zu grob. Von entscheidender Bedeutung für die Interpretation von Daten und Eignung statistischer Verfahren ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen gemessen und geordnet werden können. StatSoz 31
Grundsätzlich erfolgt die Messung der Merkmalswerte mit Hilfe einer Skala (Messvorschrift). Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen eindeutig zugordnet werden. Skalenwerte: Zahlenwerte, die auf einer Skala Berücksichtigung finden. Man spricht in diesem Zusammenhang auch von Skalierung. Das Skalenniveau gibt an 1. welche Vergleichsaussagen und welche rechnerischen Operationen für die Skalenwerte sinnvoll und somit zulässig sind 2. welche Transformationen von Skalenwerten die Messung erhalten (sogenannte zulässige Transformationen). StatSoz 32
Die verschiedenen Skalenniveaus (Übersicht): Qualitative Merkmale Quantitative Merkmale Nominalskala Ordinalskala Metrische Skala Intervallskala Verhältnisskala StatSoz 33
Nominalskala (Skala mit dem niedrigsten Niveau) Charakteristika: keine natürliche Rangordnung der Skalenwerte Zuordnung von Zahlen ist lediglich eine Kodierung der Merkmalsausprägungen Anordnung hat keine inhaltliche Bedeutung Vergleichsaussagen: gleich (=), ungleich ( ) Rechnerische Operationen: Häufigkeiten Zulässige Transformationen: bijektive (eineindeutige) Abbildungen (siehe Aufgabe 3, Blatt 1) StatSoz 34
Tabelle 2 2 Nominale Merkmale und Kodierungen Merkmal Merkmalsausprägungen Kodierung Familienstand ledig 1 verheiratet 2 geschieden 3 verwitwet 4 eheähnliche Partnerschaft 5 Erwerbsstatus Selbstständige 1 Beamte 2 Angestellte 3 Arbeiter 4 Rentner 5 Arbeitslose 6 Sozialhilfeempfänger 7 Geschlecht männlich 0 weiblich 1 Spezialfall nominalskalierter Merkmale sind binäre Merkmale (dichotome Merkmale): Merkmale mit nur zwei Ausprägungen (häufig 0/1 kodiert). StatSoz 35
Ordinalskala (Rangskala) Charakteristika: Die Merkmalsausprägungen sind Kategorien, bei denen eine natürliche Rangordnung aufgrund ihrer Größe bzw. Intensität gegeben ist. Vergleichsaussagen: gleich (=), ungleich ( ) sowie kleiner (<), größer (>) Rechnerische Operationen: Häufigkeiten, Ränge Zulässige Transformationen: streng monotone (ordnungserhaltende) Abbildungen (siehe Aufgabe 3, Blatt 1) StatSoz 36
Tabelle 2 3 Beispiele für ordinalskalierte Merkmale Merkmal Merkmalsausprägungen Skala politisches sehr stark 1 Interesse stark 2 mittel 3 wenig 4 überhaupt nicht 5 Meinung Ablehnung 1 (1) neutral 0 (2) Zustimmung 1 (3) Beachte: Bei nominal und ordinalskalierten Merkmalen haben Abstände (Differenzen) und Verhältnisse (Quotienten) von Skalenwerten keine inhaltliche Bedeutung, sind also nicht vergleichbar. StatSoz 37
Bei quantitativen Merkmalen verwendet man eine metrische Skala. Hier liegt Messbarkeit im engeren Sinne vor, wobei Skalenwerte im Allgemeinen eine Dimension haben (Minute, km, km 2, e, usw.). Charakteristika: Abstände zwischen Skalenwerten sind interpretierbar natürliche Rangordnung durch die Größe der Merkmalswerte Bei der metrischen Skala wird zwischen Intervall und Verhältnisskala unterschieden. StatSoz 38
Intervallskala (Differenzenskala) Charakteristika: Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert) ist willkürlich festgelegt. Konsequenz: Vergleich von Differenzen ist sinnvoll, nicht aber von Quotienten. Vergleichsaussagen: gleich (=), ungleich ( ) sowie kleiner (<), größer (>) Rechnerische Operationen: Häufigkeiten, Ränge, Subtraktionen Zulässige Transformationen: lineare Abbildungen (siehe Aufgabe 3, Blatt 1) Beispiele intervallskalierter Merkmale: Intelligenzquotient (Wechsler Skala) Jahreszahlen StatSoz 39
Verhältnisskala (Ratioskala) Charakteristika: Natürlicher (absoluter) Nullpunkt ist gegeben, Vergleich von Verhältnissen (Quotienten) ist daher sinnvoll. Gleiche Quotienten drücken einen gleich großen Unterschied aus. Vergleichsaussagen: gleich (=), ungleich ( ) sowie kleiner (<), größer (>) Rechnerische Operationen: Häufigkeiten, Ränge, Subtraktionen, Divisionen Zulässige Transformationen: lineare homogene Abbildungen (siehe Aufgabe 3, Blatt 1) Beispiele verhältnisskalierter Merkmale: Alter in Jahren Einkommen in e Entfernung in km StatSoz 40
Die verschiedenen Skalenniveaus stellen eine Hierachie dar: Tabelle 2 4 Sinnvoll interpretierbare Berechnungen Skala zählen ordnen subtrahieren dividieren Nominal ja nein nein nein Ordinal ja ja nein nein Intervall ja ja ja nein Verhältnis ja ja ja ja Bemerkung: Statistische Methoden, die für ein niedriges Skalenniveau geeignet sind, können auch für ein höheres Skalenniveau verwendet werden (zählen und ordnen ist stets für metrische Merkmale durchführbar). Die Umkehrung gilt nicht! Für metrische Merkmale kann etwa der Durchschnittswert (arithmetisches Mittel) berechnet werden, was für ordinal und nominalskalierte Merkmale im Allgemeinen völlig sinnlos ist. StatSoz 41
Skalentransformationen Für die statistische Analyse kann es sinnvoll sein, metrische Daten so zu transformieren, dass ihre Ausprägungen ordinalskaliert sind, auch wenn solche Transformationen immer mit einem gewissen Informationsverlust verbunden sind (denn aus der Kenntnis der transformierten Werte können die ursprünglichen Werte nicht mehr zurückgewonnen werden). Die wichtigsten Transformationen sind der Übergang zu Kategorien, Klassen (Klassenbildung,,von... bis,,,klassierung der Daten ) Rängen (Daten werden der Größe nach geordnet, der kleinste Wert erhält Rang 1, der zweitkleinste Wert Rang 2, usw.) StatSoz 42
Beispiel: (i) Klassierung von Daten Tabelle 2 5 Einkommensklassen (monatl. Einkommen) von bis unter Skala 1 2400 1 2400 4800 2 4800 7200 3 7200 9600 4 9600 12000 5 12000 16000 6 16000 20000 7 20000 25000 8 25000 36000 9 36000 50000 10 50000 75000 11 75000 100000 12 100000 und mehr 13 StatSoz 43
(ii) Rangbildung Es wurden 12 Haushalte nach ihrem verfügbaren Einkommen (in e) befragt: Tabelle 2 6 Einkommens Daten Haushalt Nr. Einkommen 1 1240 2 1700 3 2040 4 1990 5 1240 6 1350 7 1060 8 920 9 1620 10 1480 11 1120 12 1780 StatSoz 44
Tabelle 2 7 Ränge der Einkommens Daten Durchschnittsrang Einkommen Rang geordnet 920 1 1060 2 1120 3 1240 4.5 1240 4.5 1350 6 1480 7 1620 8 1700 9 1780 10 1990 11 2040 12 Der Beobachtungswert 1240 kommt zweimal vor. Es sind die Ränge 4 und 5 zu vergeben. Man bildet den Durchschnittsrang: Rang(1240) = 4 + 5 2 = 4.5 StatSoz 45
2.3 Geordnete Stichproben und Ränge Gegeben seien Daten x 1, x 2,..., x n Bezeichne x (1) die kleinste der n Zahlen x 1,..., x n x (2) die zweitkleinste der n Zahlen x 1,..., x n. x (n) die größte der n Zahlen x 1,..., x n x (k) heißt k te Ordnungsgröße. Per Definition gilt stets x (1) x (2)... x (n) x (1),..., x (n) heißt geordnete Stichprobe. StatSoz 46
Tabelle 2 8 Einkommens Daten, geordnet i x i x (i) 1 1240 920 2 1700 1060 3 2040 1120 4 1990 1240 5 1240 1240 6 1350 1350 7 1060 1480 8 920 1620 9 1620 1700 10 1480 1780 11 1120 1990 12 1780 2040 Der Rang einer Zahl x i innerhalb einer Stichprobe gibt an, die wie vielt kleinste Zahl sie ist. Um den Rang einer Beobachtung zu bestimmen ist es sinnvoll, die Daten der Größe nach zu ordnen. Formaler versteht man unter einem Rang folgendes: StatSoz 47
1. Fall: Der Beobachtungswert x i kommt in der Stichprobe nur einmal vor. Dann ist der Rang von x i gleich 1 plus Anzahl der Beobachtungen die kleiner als x i sind: Rang(x i ) = 1 + Anzahl der x j mit x j < x i 2. Fall: Der Beobachtungswert x i kommt in der Stichprobe k mal vor, k 2 (man spricht von einer Bindung der Länge k). Dann hat man für diese k gleichen Beobachtungswerte die Ränge zu vergeben, wobei r i, r i + 1,..., r i + (k 1) r i = 1 + Anzahl der x j mit x j < x i Käme der Beobachtungswert x i nur einmal vor, so wäre die Zahl r i der Rang von x i. StatSoz 48
Diese k gleichen Beobachtungswerte bekommen alle den gleichen Rang, den Durchschnittsrang. Dieser ist definiert als das arithmetische Mittel der zu vergebenden Ränge: Rang(x i ) = r i + (r i + 1) +... + [r i + (k 1)] k (2.1) Formel (2.1) lässt sich vereinfachen (Aufgabe 5, Blatt 1). Beachte: Die Rang Transformation x i Rang(x i ) einer Beobachtung x i ist immer nur in Bezug auf die Daten x 1,..., x n festgelegt! (Vgl. Aufgabe 6, Blatt 1) StatSoz 49