Daten, Datentypen, Skalen

Bildung kommt von Bildschirm und nicht von Buch, sonst hieße es ja Buchung. Daten, Datentypen, Skalen [main types of data; levels of measurement] Die Umsetzung sozialwissenschaftlicher Forschungsvorhaben erfordert häufig die Planung und Durchführung entsprechender empirischer Untersuchungen. Zu klären ist z.b., welche theoretischen Konstrukte ( Leistungsmotivation, Ausländerfeindlichkeit, Sozialstatus,...) mit Hilfe welcher Indikatoren in welchen Populationen gemessen werden sollen. 1

Dabei sind u.a. Fragen der Operationalisierung von Begriffen, der Objektivität, Reliabilität und Validität von Messungen, der Messtheorie und angepasster Erhebungsformen und -umfänge (Versuchsplanung) zu klären ( Ringvorlesung bzw. Ende von Statistik II). 2

Grundlegende Begriffe: Grundgesamtheit (Population [population]): Menge aller Objekte/Personen [sampling unit], über die Aussagen gewonnen werden sollen. (z. B.: Gesamtheit aller in Deutschland wohnenden erwachsenen Personen.) Stichprobe [samle]: Tatsächlich untersuchte Teilmenge (z.b. von Probanden) aus der Grundgesamtheit. (z. B.: Im Allbus Programm befragte Personen.) 3

Merkmalsträger [sampling unit](fälle [cases]): Objekte/Personen der Grundgesamtheit als Träger von Eigenschaften. (z. B.: Erika Mustermann, 08150 Musterdorf, Musterstr. 1a) Merkmal [characteristic](variable [variable]): Interessierende Eigenschaft, die an den Merkmalsträgern beobachtet/gemessen/erfragt werden kann. (z. B.: Geschlecht, Alter, Konfession, Wahlabsicht) Merkmalsausprägung [outcome]: Mögliche Werte, die ein Merkmal annehmen kann. (z. B.: männl./weibl., 18,..., 120 Jahre, konf. los/kath./ev./ musl...., CDU/CSU/SPD/B90G/LINKE/FDP... ) Daten: (Sg. Datum, lat. datum = gegeben) In der Stichprobe z.b an Probanden beobachtete Merkmalsausprägungen. 4

Daten werden häufig als Datenmatrix [sample data set] organisiert (siehe unten bzw. Dateneditor in SPSS). Der Input einer Messung (z.b. Befragung) sind also Objekte (z.b. Probanden) mit ihren Eigenschaften (z.b. Merkmalsausprägungen) und die Beziehungen (Relationen) zwischen diesen. Als Output einer Messung treten häufig Zahlen auf, wobei die Zuordnung (Abbildung) der Objekte mit ihren Eigenschaften zu den Zahlen strukturerhaltend erfolgen sollte (Homomorphismus, Isomorphismus, Existenz, Eindeutigkeit,... Messtheorie). 5

In der Statistik/Datenanalyse unterscheiden wir in Abhängigkeit vom Informationsgehalt (Art der Relationen zwischen Merkmalsausprägungen) der Messungen und damit der vorliegenden Daten einerseits Skalen (-typen, -niveaus). Andererseits ist eine Klassifikation von Daten hinsichtlich der Zahl der möglichen Ausprägungen (z.b. dichotom/binär, diskret, stetig) und nach der Zahl der gleichzeitig an einem Objekt untersuchten Merkmale (univariat, bivariat, multivariat) üblich. Speziell für Sekundäranalysen sind diese Informationen für die verwendeten Daten unbedingt einzuholen. 6

Skalenniveaus, Datentypen Nominalskala [nominal/categorical data]: kategoriale Daten, qualitative Merkmale jede Beobachtung einer Merkmalsausprägung kann genau einer bestimmten Klasse (Kategorie) zugeordnet werden Klassen können nicht geordnet sondern nur unterschieden werden (Äquivalenzrelation), Klassen werden z.b. durch (natürliche) Zahlen charakterisiert Invarianz gegenüber eineindeutigen Transformationen Bsp.: Eigenschaften wie RaucherIn NichtraucherIn, krank gesund, Geschlecht (dichotom/binär), Farben, Berufsgruppe, ethnische Herkunft, Geburtsland 7

Ordinalskala [ordinal data]: sinnvolles Ordnen der Beobachtungen/Merkmalsausprägungen ist möglich (Rangordnung) Präferenzstruktur (Halbordnung, Ordnung) Unterschiede zwischen den Beobachtungen sind nicht vergleichbar (keine Abstände) wenn Rangordnung, dann üblicherweise durch natürliche Zahlen charakterisiert Invarianz gegenüber monoton wachsenden (isotonen) Transformationen Bsp.: Antwortvorgaben: stark ablehnend ablehnend unentschieden zustimmend stark zustimmend, Schulnoten, Platzierungen, Ratingskalen 8

Intervallskala [interval scale]: quantitative Merkmale, metrische Daten [numerical/measurement data] Abstände (Intervalle) zwischen den Werten der Skala besitzen eine Bedeutung; Berechnung von Differenzen sinnvoll (lineare Ordnung), kein absoluter Nullpunkt, deshalb z.b. Aussage 20 C sind doppelt so warm wie 10 C unsinnig, Invarianz gegenüber positiven linearen Transformationen y = ax + b, a > 0 Bsp.: Geburtsjahr, Wasserpegel, Temperatur in Grad Celsius und Grad Fahrenheit; Umrechnung von Fahrenheit in Celsius: T F = 1, 8 T C + 32 9

Verhältnisskala: wie Intervallskala, aber mit absolutem (natürlichen) Nullpunkt Invarianz gegenüber positiven (proportionalen) Transformationen y = ax, a > 0 Aussage Mustermann verdient doppelt so viel wie Musterfrau nicht unsinnig, Bsp.: Einkommen, Alter, Temperatur in Kelvin; Umrechnen von EUR in DM: G DM = 1, 95583 G EUR Bei einer Absolutskala handelt es sich um eine Intervallskala, bei der die Skaleneinheit nicht mehr frei gewählt werden kann (z.b. Wahrscheinlichkeiten, Häufigkeiten, Anzahlen). 10

Hierarchie der Skalenniveaus Absolutskala Verhältnisskala Intervallskala Ordinalskala Nominalskala 11

Die Überführung von einem Datenniveau in ein anderes ist abwärts (mit Informationsverlust) stets möglich. Die Wahl der geeigneten statistischen Verfahren zur Auswertung von Daten richtet sich nach der Art der Fragestellung, dem vorliegenden Datentyp und der Anzahl der eingehenden Variablen und ggf. ihrer Rolle (Einflussgrößen, abhängige Größen, sogen. asymmetrische Abhängigkeiten ). Bsp.: Analyse von Abhängigkeiten in gemischtskalierten, multivariaten Datensätzen oder Analyse (der Abhängigkeit) zweier intervallskalierter Merkmale 12

Die Festlegung des Datentyps hängt stets von der Art der Messung (Erfassung) der Daten ab, nicht nur von den tatsächlichen Eigenschaften der Daten. Wird z. B. das Alter von Personen nur in Klassen (0 25, 25 65, 65+) erfasst, liegt diese Variable nur als ordinale Variable vor (eigentlich Absolutskala). 13

Art der Erfassung Skala Daten Klassifikation Nominalskala kategorial in k Klassen (dichotom für k = 2) Ordnen Ordinalskala ordinal Messen ohne Intervallskala metrisch absoluten Nullpunkt Messen mit Verhältnisskala metrisch absoluten Nullpunkt 14

Darstellung von Daten (Rohdaten) Stichprobe vom Umfang n (untersuchte Objekte, befragte Personen), p gemessene, festgestellte oder erfragte Merkmale; Datenmatrix X: x ij X = (x ij ) i=1,...,n j=1,...,p = x 11 x 12... x 1p x 21 x 22... x 2p.. x n1 x n2... x np... Merkmalsausprägung des Merkmalsträgers i bezüglich des Merkmals j (vgl. Dateneditor von SPSS). 15

Zeilen: p Merkmalsausprägungen des entsprechenden Falles (Merkmalsträger, Proband, Objekt) Spalten: n Merkmalsausprägungen des entsprechenden Merkmals (der Variablen) Kodierung erfolgt vorzugsweise durch Zahlen Hinweis: Nicht alle Daten liegen in dieser Form bzw. als Rohdaten vor! Eine Hauptursache für Fehler bei statistischen Analysen ist das Rechnen mit Zahlen(-Kodes)ohne Berücksichtigung des nach der Kodierung für die Daten vorliegenden Skalenniveaus! 16