Datenaufberetung und Darstellung 1 Glederung: Zel der Datenaufberetung und Darstellung Datenverdchtung Tabellen und grafsche Darstellungen Darstellung unvarater Datenmengen Darstellung multvarater Daten (Abschntt 4.5 2
Begrff der multvaraten Datenmenge Ene multvarate Datenmenge legt vor, wenn e Erfassungsobekt mehrere Merkmale erhoben werden. Das Untersuchungsobekt kann mt mehreren Varablen umfassender beschreben werden. 3 Analysemöglchketen Verglech der Häufgketsvertelungen Gemensame Häufgketsvertelung Untersuchungen zu den Bezehungen und Abhänggketen der Merkmale Aussagen zur Merkmalsstruktur 4
Grafsche Darstellungsmöglchketen Für de Darstellung enes zwedmensonalen Datensatzes st zur enfachen Auswertung das XY-Punktdagramm geegnet. Dredmensonale Datensätze lassen sch mt XYZ-Punktdagrammen oder n Matrxform paarwese abblden. Darstellung der Merkmale Pres und Lestung ausgewählter Autos: Pres [DM] 300000 200000 100000 0 0 100 Lestung [PS] 200 300 400 5 Dredmensonale grafsche Darstellung und Matrx Darstellung der Merkmale Pres und Lestung und Höchstgeschwndgket ausgewählter Autos: Pres [DM] 300000 200000 Hubraum [ccm] 100000 Lestung [PS] 400 260 300 220 240 200 180 200 100 140 Lestung [PS] 160 Höchstgeschwndg Höchstgeschw ndgk XYZ-Punktdagramm Matrxform 6
Auswertung multvarater Datenmengen erfolgt m enfachsten Fall mt ener Häufgketstabelle: Merkmal 2 Merkmal 1 rot blau Summe alt 100 % neu Summe Jede Ebene der Tabelle (Zelen- sowe Spaltensumme beschrebt alle betrachteten Obekte hnschtlch des ewelgen Merkmals vollständg. Häufgketstabellen werden aufgrund der sch kreuzenden Merkmale auch als Kreuztabellen bezechnet. Es kommt de Merkmalskombnaton zur Gruppenbldung. (we vele Obekte snd neu und rot? 100% 7 Prnzpeller Aufbau ener zwedmensonalen Häufgketstabelle Merkmale y 1 y y n Zelensumme x 1 h( x, 1 y h ( x, 1 1 y x h ( x, y1 h( x, m yn h h ( x, y x m h( xm, y1 ( x, y m h ( x, y 1 h ( x, y h ( x, y n Spaltensumme h ( x 1, y h( x, y n h ( x 1, y h ( x, y h ( x, y m h ( x, y 8
Bespel: Zusammenhang zwschen Qualfkaton und gelesteten Überstunden pro Woche ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 4.662 14.137 2.166 1.096 1.905 23.966 1 bs 5 148 869 183 117 175 1.492 6 bs 10 86 606 132 111 190 1.125 11 und mehr 61 415 110 80 208 874 Summe 4.957 16.027 2.591 1.404 2.478 27.457 Stchprobenerhebung mt 27.457 Erwerbstätgen 9 Bespel: Zukunftserwartungen und wrtschaftlche Lage 1992 bs 2002 - Westdeutschland Datenbass: ALLBUS 10
Bespel: Zukunftserwartungen und wrtschaftlche Lage 1992 bs 2002 - Ostdeutschland Datenbass: ALLBUS 11 Grundsätzlches zur zwedmensonalen Häufgketstabelle De Auswertung kann feld-, zelen- und spaltenspezfsch erfolgen De Feldenträge lefern Informatonen über de Bezehungen zwschen den Merkmalen Jede Zele und ede Spalte entsprcht ener endmensonalen Häufgketsvertelung De skzzerte Häufgketstabelle wrd auch als Kreuztabelle bezechnet (crosstabulaton Kreuztabellen, de nomnalskalerte Merkmalsausprägungen enthalten, werden auch als Kontngenztafeln bezechnet 12
Grundsätzlches zur zwedmensonalen Häufgketstabelle Aus den absoluten Häufgketen können de entsprechenden relatven Häufgketen ermttelt werden: f ( x, y = h( x, y h( x, y ewelge absolute Häufgket der betrachteten Obekte Gesamtzahl der Obekte Bespel: Von nsgesamt 27.457 Erwerbstätgen haben 208 an ener Hochschule studert und lesten wöchentlch mehr als 11 Überstunden. 13 De relatve Häufgketstabelle, de sch aus den errechneten relatven Häufgketen erstellen lässt, hat den glechen Aufbau: ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 4.662 14.137 2.166 1.096 1.905 23.966 1 bs 5 148 869 183 117 175 1.492 6 bs 10 86 606 132 111 190 1.125 11 und mehr 61 415 110 80 208 874 Summe 4.957 16.027 2.591 1.404 2.478 27.457 ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 17,0 51,5 7,9 4,0 6,9 87,3 1 bs 5 0,5 3,2 0,7 0,4 0,6 5,4 6 bs 10 0,3 2,2 0,5 0,4 0,7 4,1 11 und mehr 0,2 1,5 0,4 0,3 0,8 3,2 Summe 18,1 58,4 9,4 5,1 9,0 100,0 14
Randvertelungen f X und f Y 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 An den Rändern stehen als Zelen- und Spaltensummen de Randhäufgketen bzw. Randvertelungen. Se snd de endmensonalen relatven Häufgketsvertelungen der beden Merkmale f f X Y ( x = ( y = n = 1 m = 1 f ( x, y f ( x, y 15 Ene Randvertelung (Margnalvertelung st dentsch mt der ewelgen unvaraten Häufgketsvertelung. HS-absolventen HS-absolventen 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Glechgültg, we sch de Überstundenbelastung gestaltet, west de Stchprobe enen 9 prozentgen Antel von Hochschulabsolventen auf. Unabhängg von der Zusammensetzung der Stchprobe nach Ausbldungsabschlüssen west de Auswahl enen Antel an Erwerbstätgen ohne Überstunden von 87,3% auf. 16
Bedngte Vertelungen f(x /y und f(y /x ergeben sch aus den Verhältnssen der enzelnen relatven Häufgketen zur Spalten- bzw. Zelensumme. f ( x f ( y y x = = f ( x f Y, y ( y f ( x, y f ( x X Aus den bedngten Vertelungen (Kondtonalvertelungen lassen sch Rückschlüsse auf de Bezehung zwschen den untersuchten Merkmalen zehen, d.h. de Abhänggket der Merkmale vonenander kann beurtelt werden. 17 De bedngte relatve Häufgket f(x /y gbt de relatve Häufgket der Beobachtung x n der durch y engeschränkten Datenmenge an. HS-absolventen 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Ergebns: 0,6 = 5,4 0,11 Gezegt wrd de bedngte Vertelung f(y 5 /x 2. Unter der Bedngung also der Enschränkung dass Merkmal x 2 betrachtet wrd, wollen wr wssen, we häufg Hochschulabsolventen nnerhalb deser so defnerten Gruppe zu fnden snd. In 11% der Fälle, n denen wöchentlch 1 bs 5 Überstunden gelestet werden, st en mehrlestender Arbetnehmer Hochschulabsolvent. 18
Beurtelung des Zusammenhanges von Merkmalen Unabhänggket zwschen Merkmalen st gegeben, wenn Absolv. Summe f(x,y =f X (x f Y (y 6,9 0,6 0,7 0,8 9,0 87,3 5,4 4,1 3,2 100,0 Oder:..wenn das Produkt der beden Randhäufgketen de gemensame Häufgket ergbt, dann besteht stochastsche Unabhänggket zwschen beden Merkmalen. 19 Zusammenhang zwschen Bldung und wöchentlchen Überstunden Betrachtet se folgendes Merkmalspaar: f(x,y =f X (x f Y (y Absolv. 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Da 0,09* 0,032 0,288 % ergeben, tatsächlch aber 0,8 % beobachtet wurden, kann ncht von Unabhänggket der beden Merkmale gesprochen werden. Zwschen den beden Merkmalen besteht en (stochastscher Zusammenhang derart, dass das Bldungsnveau Enfluss auf de zu erbrngenden Überstunden hat. Im Verglech zu ener theoretschen Stuaton, wo bede Merkmale unabhängg sen mögen, werden tatsächlch anhand deses Untersuchungsbefundes von Hochschulabsolventen dremal so vele Überstunden gelestet. 20
Verglech von theoretschen und emprschen Antelswerten Durch Verglech der theoretschen Antelswerte mt den gemessenen (beobachteten Antelswerten wrd de Abhänggket/ Unabhänggket von Merkmalen beurtelt. De Enschätzung der Überenstmmung bzw. Nchtüberenstmmung oblegt zunächst dem subektven Ermessen auf Bass des Datenbefundes. 21 Streudagramme Streudagramme (Streuungsdagramme ermöglchen ene Aussage über den Zusammenhang von nteresserenden Merkmalen. De Darstellung m (x, y-koordnatensystem erfordert metrsches Meßnveau für X und Y. De Erstellung enes Streudagramms sollte am Anfang eder Analyse stehen, wenn de multvarate Date metrsch skalerte Varablen enthält. 22
Zusammenhang zwschen Lestung und Beschleungung 20 SPSS-Dagramm auto_250.sav Beschleungung 0-100 [sec] 10 0 0 100 200 300 400 500 600 700 Lestung [PS] Auf Grund deser Analyse st be höherer Motorlestung ene höhere Beschleungung (wenger Sekunden von Tempo 0 auf 100 zu erwarten. 23 Erkenntnsgewnn durch Streudagramme War der Zusammenhang zwschen Lestung und Beschleungung zu erwarten, kann aufgrund der Vsualserung auch en bsher unbekannter Zusammenhang aufgedeckt werden: Klassfkaton von Sternen erfolgt nach hrer Poston m Streudagramm 24
Andere Darstellungsmöglchketen Bestzen de nteresserenden Merkmale ken metrsches Messnveau,dann werden oft mehrere Balkendagramme kombnert. Be ener zwedmensonalen Datenmenge hat man auch de Möglchket, 3-D Balkendagramme zu erstellen. Se stellen über der x,y-fläche mt der Höhe der Balken de gemensamen Häufgketen dar. Dese grafsche Darstellung zur Untersuchung von Abhänggketen/ Unabhänggketen st für belebge Skalennveaus snnvoll, da man edes auf das ener Nomnalskala reduzeren kann. 25 Lebens- und Famlenformen n Ost- und Westdeutschland Quelle: ALLBUS 26
Medennutzung an Werktagen 2001/2002 Quelle: Zetbudgeterhebung des Statstschen Bundesamtes 27