Datenaufbereitung und Darstellung

Ähnliche Dokumente
Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Datenaufbereitung und -darstellung III

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Prof. Dr. Roland Füss Statistik II SS 2008

Auswertung univariater Datenmengen - deskriptiv

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Definition des linearen Korrelationskoeffizienten

Lösungen zum 3. Aufgabenblock

Statistik und Wahrscheinlichkeitsrechnung

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Kursthemen 2. Sitzung. Tabellarische und graphische Darstellung diskreter Daten. Tabellarische und graphische Darstellung diskreter Daten

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Teil IV: Drei Musterklausuren

2 Zufallsvariable und Verteilungen

Grundgedanke der Regressionsanalyse

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Statistik und Wahrscheinlichkeit

Fallstudie 4 Qualitätsregelkarten (SPC) und Versuchsplanung

Gliederung des Kurses:

Einführung in die Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung. Übersicht. Wahrscheinlichkeitsrechnung. bedinge Wahrscheinlichkeit

4. Rechnen mit Wahrscheinlichkeiten

3.3 Lineare Abbildungen und Matrizen

Mathematische und statistische Methoden II

Standardnormalverteilung / z-transformation

Streuungs-, Schiefe und Wölbungsmaße

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Lineare Optimierung Dualität

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Weitere NP-vollständige Probleme

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

Klasse : Name1 : Name 2 : Datum : Nachweis des Hookeschen Gesetzes und Bestimmung der Federkonstanten

Auswertung univariater Datenmengen - deskriptiv

Verteilungen eindimensionaler diskreter Zufallsvariablen

Übung zu Erwartungswert und Standardabweichung

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

16. Vorlesung Sommersemester

Elemente der Mathematik - Sommer 2016

Methoden der innerbetrieblichen Leistungsverrechnung

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Verteilungen, sondern nur, wenn ein. Eignet sich nicht bei flachen. Bei starker Streuung wenig. Wert eindeutig dominiert.

Sind die nachfolgenden Aussagen richtig oder falsch? (1 Punkt pro korrekter Beantwortung)

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

Lösungen der Aufgaben zu Kapitel 2

Gruppe. Lineare Block-Codes

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

Konkave und Konvexe Funktionen

4. Indexzahlen. 5.1 Grundlagen 5.2 Preisindizes 5.3 Indexzahlenumrechnungen. Dr. Rebecca Schmitt, WS 2013/2014

3. Lineare Algebra (Teil 2)

Multivariate Analysemethoden

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

6. Übung zur Linearen Algebra II

Netzwerkstrukturen. Entfernung in Kilometer:

Ökonomische und ökonometrische Evaluation. 1.3 Ökonometrische Grundkonzepte

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

An welche Stichwörter von der letzten Vorlesung können Sie sich noch erinnern?

Der Erweiterungsfaktor k

2.1 Einfache lineare Regression 31

Gauss sche Fehlerrrechnung

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Hochschule Heilbronn Technik Wirtschaft Informatik Heilbronn University Institut für math.-naturw. Grundlagen

Analyse von Querschnittsdaten. Bivariate Regression

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

18. Vorlesung Sommersemester

Stochastische Prozesse

Nomenklatur - Übersicht

Beschreibende Statistik Mittelwert

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz

Vorlesung: Multivariate Statistik für Psychologen

Übung zur Vorlesung. Informationstheorie und Codierung

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Eine kurze Einführung in die Dichtefunktionaltheorie (DFT)

Facility Location Games

1.11 Beispielaufgaben

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Die Jordansche Normalform

3.1 Häufigkeiten bei diskreten Merkmalen Absolute und relative Häufigkeiten Graphische Darstellungen 40

11 Charaktere endlicher Gruppen

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

Transkript:

Datenaufberetung und Darstellung 1 Glederung: Zel der Datenaufberetung und Darstellung Datenverdchtung Tabellen und grafsche Darstellungen Darstellung unvarater Datenmengen Darstellung multvarater Daten (Abschntt 4.5 2

Begrff der multvaraten Datenmenge Ene multvarate Datenmenge legt vor, wenn e Erfassungsobekt mehrere Merkmale erhoben werden. Das Untersuchungsobekt kann mt mehreren Varablen umfassender beschreben werden. 3 Analysemöglchketen Verglech der Häufgketsvertelungen Gemensame Häufgketsvertelung Untersuchungen zu den Bezehungen und Abhänggketen der Merkmale Aussagen zur Merkmalsstruktur 4

Grafsche Darstellungsmöglchketen Für de Darstellung enes zwedmensonalen Datensatzes st zur enfachen Auswertung das XY-Punktdagramm geegnet. Dredmensonale Datensätze lassen sch mt XYZ-Punktdagrammen oder n Matrxform paarwese abblden. Darstellung der Merkmale Pres und Lestung ausgewählter Autos: Pres [DM] 300000 200000 100000 0 0 100 Lestung [PS] 200 300 400 5 Dredmensonale grafsche Darstellung und Matrx Darstellung der Merkmale Pres und Lestung und Höchstgeschwndgket ausgewählter Autos: Pres [DM] 300000 200000 Hubraum [ccm] 100000 Lestung [PS] 400 260 300 220 240 200 180 200 100 140 Lestung [PS] 160 Höchstgeschwndg Höchstgeschw ndgk XYZ-Punktdagramm Matrxform 6

Auswertung multvarater Datenmengen erfolgt m enfachsten Fall mt ener Häufgketstabelle: Merkmal 2 Merkmal 1 rot blau Summe alt 100 % neu Summe Jede Ebene der Tabelle (Zelen- sowe Spaltensumme beschrebt alle betrachteten Obekte hnschtlch des ewelgen Merkmals vollständg. Häufgketstabellen werden aufgrund der sch kreuzenden Merkmale auch als Kreuztabellen bezechnet. Es kommt de Merkmalskombnaton zur Gruppenbldung. (we vele Obekte snd neu und rot? 100% 7 Prnzpeller Aufbau ener zwedmensonalen Häufgketstabelle Merkmale y 1 y y n Zelensumme x 1 h( x, 1 y h ( x, 1 1 y x h ( x, y1 h( x, m yn h h ( x, y x m h( xm, y1 ( x, y m h ( x, y 1 h ( x, y h ( x, y n Spaltensumme h ( x 1, y h( x, y n h ( x 1, y h ( x, y h ( x, y m h ( x, y 8

Bespel: Zusammenhang zwschen Qualfkaton und gelesteten Überstunden pro Woche ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 4.662 14.137 2.166 1.096 1.905 23.966 1 bs 5 148 869 183 117 175 1.492 6 bs 10 86 606 132 111 190 1.125 11 und mehr 61 415 110 80 208 874 Summe 4.957 16.027 2.591 1.404 2.478 27.457 Stchprobenerhebung mt 27.457 Erwerbstätgen 9 Bespel: Zukunftserwartungen und wrtschaftlche Lage 1992 bs 2002 - Westdeutschland Datenbass: ALLBUS 10

Bespel: Zukunftserwartungen und wrtschaftlche Lage 1992 bs 2002 - Ostdeutschland Datenbass: ALLBUS 11 Grundsätzlches zur zwedmensonalen Häufgketstabelle De Auswertung kann feld-, zelen- und spaltenspezfsch erfolgen De Feldenträge lefern Informatonen über de Bezehungen zwschen den Merkmalen Jede Zele und ede Spalte entsprcht ener endmensonalen Häufgketsvertelung De skzzerte Häufgketstabelle wrd auch als Kreuztabelle bezechnet (crosstabulaton Kreuztabellen, de nomnalskalerte Merkmalsausprägungen enthalten, werden auch als Kontngenztafeln bezechnet 12

Grundsätzlches zur zwedmensonalen Häufgketstabelle Aus den absoluten Häufgketen können de entsprechenden relatven Häufgketen ermttelt werden: f ( x, y = h( x, y h( x, y ewelge absolute Häufgket der betrachteten Obekte Gesamtzahl der Obekte Bespel: Von nsgesamt 27.457 Erwerbstätgen haben 208 an ener Hochschule studert und lesten wöchentlch mehr als 11 Überstunden. 13 De relatve Häufgketstabelle, de sch aus den errechneten relatven Häufgketen erstellen lässt, hat den glechen Aufbau: ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 4.662 14.137 2.166 1.096 1.905 23.966 1 bs 5 148 869 183 117 175 1.492 6 bs 10 86 606 132 111 190 1.125 11 und mehr 61 415 110 80 208 874 Summe 4.957 16.027 2.591 1.404 2.478 27.457 ohne Lehre Mester Fachhoch- Hochschul- Summe Überstunden Ausbldung schulabschluss abschluss kene 17,0 51,5 7,9 4,0 6,9 87,3 1 bs 5 0,5 3,2 0,7 0,4 0,6 5,4 6 bs 10 0,3 2,2 0,5 0,4 0,7 4,1 11 und mehr 0,2 1,5 0,4 0,3 0,8 3,2 Summe 18,1 58,4 9,4 5,1 9,0 100,0 14

Randvertelungen f X und f Y 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 An den Rändern stehen als Zelen- und Spaltensummen de Randhäufgketen bzw. Randvertelungen. Se snd de endmensonalen relatven Häufgketsvertelungen der beden Merkmale f f X Y ( x = ( y = n = 1 m = 1 f ( x, y f ( x, y 15 Ene Randvertelung (Margnalvertelung st dentsch mt der ewelgen unvaraten Häufgketsvertelung. HS-absolventen HS-absolventen 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Glechgültg, we sch de Überstundenbelastung gestaltet, west de Stchprobe enen 9 prozentgen Antel von Hochschulabsolventen auf. Unabhängg von der Zusammensetzung der Stchprobe nach Ausbldungsabschlüssen west de Auswahl enen Antel an Erwerbstätgen ohne Überstunden von 87,3% auf. 16

Bedngte Vertelungen f(x /y und f(y /x ergeben sch aus den Verhältnssen der enzelnen relatven Häufgketen zur Spalten- bzw. Zelensumme. f ( x f ( y y x = = f ( x f Y, y ( y f ( x, y f ( x X Aus den bedngten Vertelungen (Kondtonalvertelungen lassen sch Rückschlüsse auf de Bezehung zwschen den untersuchten Merkmalen zehen, d.h. de Abhänggket der Merkmale vonenander kann beurtelt werden. 17 De bedngte relatve Häufgket f(x /y gbt de relatve Häufgket der Beobachtung x n der durch y engeschränkten Datenmenge an. HS-absolventen 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Ergebns: 0,6 = 5,4 0,11 Gezegt wrd de bedngte Vertelung f(y 5 /x 2. Unter der Bedngung also der Enschränkung dass Merkmal x 2 betrachtet wrd, wollen wr wssen, we häufg Hochschulabsolventen nnerhalb deser so defnerten Gruppe zu fnden snd. In 11% der Fälle, n denen wöchentlch 1 bs 5 Überstunden gelestet werden, st en mehrlestender Arbetnehmer Hochschulabsolvent. 18

Beurtelung des Zusammenhanges von Merkmalen Unabhänggket zwschen Merkmalen st gegeben, wenn Absolv. Summe f(x,y =f X (x f Y (y 6,9 0,6 0,7 0,8 9,0 87,3 5,4 4,1 3,2 100,0 Oder:..wenn das Produkt der beden Randhäufgketen de gemensame Häufgket ergbt, dann besteht stochastsche Unabhänggket zwschen beden Merkmalen. 19 Zusammenhang zwschen Bldung und wöchentlchen Überstunden Betrachtet se folgendes Merkmalspaar: f(x,y =f X (x f Y (y Absolv. 6,9 0,6 0,7 0,8 9,0 Summe 87,3 5,4 4,1 3,2 100,0 Da 0,09* 0,032 0,288 % ergeben, tatsächlch aber 0,8 % beobachtet wurden, kann ncht von Unabhänggket der beden Merkmale gesprochen werden. Zwschen den beden Merkmalen besteht en (stochastscher Zusammenhang derart, dass das Bldungsnveau Enfluss auf de zu erbrngenden Überstunden hat. Im Verglech zu ener theoretschen Stuaton, wo bede Merkmale unabhängg sen mögen, werden tatsächlch anhand deses Untersuchungsbefundes von Hochschulabsolventen dremal so vele Überstunden gelestet. 20

Verglech von theoretschen und emprschen Antelswerten Durch Verglech der theoretschen Antelswerte mt den gemessenen (beobachteten Antelswerten wrd de Abhänggket/ Unabhänggket von Merkmalen beurtelt. De Enschätzung der Überenstmmung bzw. Nchtüberenstmmung oblegt zunächst dem subektven Ermessen auf Bass des Datenbefundes. 21 Streudagramme Streudagramme (Streuungsdagramme ermöglchen ene Aussage über den Zusammenhang von nteresserenden Merkmalen. De Darstellung m (x, y-koordnatensystem erfordert metrsches Meßnveau für X und Y. De Erstellung enes Streudagramms sollte am Anfang eder Analyse stehen, wenn de multvarate Date metrsch skalerte Varablen enthält. 22

Zusammenhang zwschen Lestung und Beschleungung 20 SPSS-Dagramm auto_250.sav Beschleungung 0-100 [sec] 10 0 0 100 200 300 400 500 600 700 Lestung [PS] Auf Grund deser Analyse st be höherer Motorlestung ene höhere Beschleungung (wenger Sekunden von Tempo 0 auf 100 zu erwarten. 23 Erkenntnsgewnn durch Streudagramme War der Zusammenhang zwschen Lestung und Beschleungung zu erwarten, kann aufgrund der Vsualserung auch en bsher unbekannter Zusammenhang aufgedeckt werden: Klassfkaton von Sternen erfolgt nach hrer Poston m Streudagramm 24

Andere Darstellungsmöglchketen Bestzen de nteresserenden Merkmale ken metrsches Messnveau,dann werden oft mehrere Balkendagramme kombnert. Be ener zwedmensonalen Datenmenge hat man auch de Möglchket, 3-D Balkendagramme zu erstellen. Se stellen über der x,y-fläche mt der Höhe der Balken de gemensamen Häufgketen dar. Dese grafsche Darstellung zur Untersuchung von Abhänggketen/ Unabhänggketen st für belebge Skalennveaus snnvoll, da man edes auf das ener Nomnalskala reduzeren kann. 25 Lebens- und Famlenformen n Ost- und Westdeutschland Quelle: ALLBUS 26

Medennutzung an Werktagen 2001/2002 Quelle: Zetbudgeterhebung des Statstschen Bundesamtes 27