Datensätze und statistische Grundlagen: Begriffe, Definitionen, Konzepte

Ähnliche Dokumente
wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Analyse von Querschnittsdaten. Bivariate Regression

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

Streuungs-, Schiefe und Wölbungsmaße

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

In der beschreibenden Statistik werden Daten erhoben, aufbereitet und analysiert. Beispiel einer Datenerhebung mit Begriffserklärungen (Vokabel)

Prof. Dr. Roland Füss Statistik II SS 2008

Lineare Regression (1) - Einführung I -

2 Zufallsvariable und Verteilungen

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Mathematische und statistische Methoden II

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Auswertung univariater Datenmengen - deskriptiv

4. Indexzahlen. 5.1 Grundlagen 5.2 Preisindizes 5.3 Indexzahlenumrechnungen. Dr. Rebecca Schmitt, WS 2013/2014

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Multivariate Analysemethoden

6. Modelle mit binären abhängigen Variablen

Ursache der Ungewissheit kann dabei z.b. unvollständige Information sein oder unbekannte bzw. nicht beeinflussbare Bedingungen.

Statistik. von Univ.-Prof. Dr. Karl Mosler Universität zu Köln

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Maße der zentralen Tendenz (10)

Lösungen zum 3. Aufgabenblock

Statistische Methoden für Bauingenieure WS 13/14

Teil IV: Drei Musterklausuren

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

Verteilungen eindimensionaler diskreter Zufallsvariablen

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

U Test (Rangsummentest) Parameterfreie Tests. U -Test. U -Test. χ ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Nomenklatur - Übersicht

Statistik Exponentialfunktion

Kurs 9.3: Forschungsmethoden II

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Standardnormalverteilung / z-transformation

Auswertung univariater Datenmengen - deskriptiv

Statistik. 1. Vorbereitung / Planung - präzise Formulierung der Ziele - detaillierte Definition des Untersuchungsgegenstandes

Grundgedanke der Regressionsanalyse

Verteilungen, sondern nur, wenn ein. Eignet sich nicht bei flachen. Bei starker Streuung wenig. Wert eindeutig dominiert.

Auswertung univariater Datenmengen - deskriptiv

Datenaufbereitung und Darstellung

Ein metrisches Merkmal

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

»Möglichkeiten und Grenzen der Wirkungsmessung«

Beschreibende Statistik Mittelwert

Hydrologie und Flussgebietsmanagement

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Ökometrie I 10 Korrelation - Regression

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

ANOVA (Analysis of Variance) Varianzanalyse. Statistik Methoden. Ausgangssituation ANOVA. Ao.Prof.DI.Dr Josef Haas

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

ÜbungsaufgabeN mit Lösungen

Kursthemen 2. Sitzung. Tabellarische und graphische Darstellung diskreter Daten. Tabellarische und graphische Darstellung diskreter Daten

Statistik und Wahrscheinlichkeitsrechnung

Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten.

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

Modul 1: Einführung und Wahrscheinlichkeitsrechnung

Einführung in die Finanzmathematik

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

FORMELSAMMLUNG STATISTIK (I)

3.1 Häufigkeiten bei diskreten Merkmalen Absolute und relative Häufigkeiten Graphische Darstellungen 40

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Konkave und Konvexe Funktionen

4.2 Grundlagen der Testtheorie

Empirische Sozialforschung Eine Übersicht Ansgar A. Plassmann

Datenaufbereitung und -darstellung III

4.6 Das Pumping-Lemma für reguläre Sprachen:

(Essentiell) τ-äquivalente Tests:

Exkurs: Entropie in der Wahrscheinlichkeitstheorie

2.1 Einfache lineare Regression 31

Der Erweiterungsfaktor k

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

-70- Anhang: -Lineare Regression-

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Hefte zur Logistik Prof. Dr. Siegfried Jetzke. Heft 1 Begriffsdefinitionen

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Klausuren zum Üben. Gesamtdauer der Anrufe in [Min]: bis 20 bis 40 bis 60 bis 90 bis 120 Anzahl der Schüler/innen:

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Bachelorprüfung Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D.

Kapitel 4: Unsicherheit in der Modellierung Modellierung von Unsicherheit. Machine Learning in der Medizin 104

Einführung in geostatistische Methoden der Datenauswertung

Carlton, M., Devore, J. Probability with Applications in Engineering, Science, and Technology, Springer 2014

Lineare Optimierung Dualität

Lineare Regression Teil des Weiterbildungskurses in angewandter Statistik

Musterklausur Wirtschaftsmathematik und Statistik. Zusatzstudium für Wirtschaftsingenieur

Quantitative Methoden der Psychologie II

Theoretische Physik 2 (Theoretische Mechanik)

Stochastische Prozesse

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

3 Multiple lineare Regression

Bildverarbeitung Herbstsemester Bildspeicherung

Erwartungswert, Varianz, Standardabweichung

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Informationsgehalt und Komplexität von Zeitreihen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

3. Lineare Algebra (Teil 2)

Transkript:

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Datensätze und statstsche Grundlagen: Begrffe, Defntonen, Konzepte 27. Oktober 2003

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Datensätze: Querschntt Längsschntt I > Querschnttsdaten = nur zu enem Zetpunkt erhoben oder kene zetspezfschen Informatonen > Längsschnttdaten = zu mehreren Zetpunkten erhoben oder zetspezfsche Informatonen - Trendstude: mnd. dre Querschnttserhebungen, gleche Instrumente, verschedene Personen - Panel: mehrere Erhebungszetpunkte mt glechem Abstand, gleche Instrumente, gleche Personen > kausale Schlussfolgerungen emprsch nur mt Längsschnttdaten zu zehen Ursache-Wrkungs-Zusammenhang st zetabhängg > theoretsche Kausaltäten auch mt Querschnttsdaten möglch, aber ncht emprsch testbar

Abtelung Arbetsmarktpoltk und Beschäftgung Datensätze: Querschntt Längsschntt II Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA > Trendstude: t 1 t 2 1 2 n 1 2 n p 11 p 21 p 12... p 22... p 13 p 23 p 14 p 24 > Panelstude: t 1 t 2 11 12 21 22 nt p 1 p 2... p 3 p 4

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Datensätze: Querschntt Längsschntt III spezfsche Probleme von Panelstuden: > Panelmortaltät: - stetge Verrngerung des Panel-Bestands ca. 5-15% pro Welle - Ursachen: Umzug, Tod, Verwegerung, drop out - Gegenmaßnahme: Panelpflege > Paneleffekte: - Anpassung von Antworten an vorhergehende Befragung > Bespele für Panelstuden: SOEP, BHPS, PSID, ECHP, IAB- Betrebspanel > Bespele für Querschnttsbefragungen: Poltbarometer, ALLBUS, Eurobarometer

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Daten: Aggregatdaten Indvdualdaten > Aggregatdaten geben Auskunft über Gruppen von enzelnen Objekten Haushalte, Gemenden, Staaten, Wahlkrese etc. > Indvdualdaten geben Auskunft über enzelne Objekte = statstsche Enheten,.d.R. Personen > Aggregaton = Zusammenfassung von Daten zu ener höheren Ebene Aggregatonsnveau - st mestens mt Informatonsverlust verbunden > Fehler be unterschedlcher Aussage- und Untersuchungsenhet - ökologscher Fehlschluss: Aussageenhet = Wähler, Untersuchungsenhet = Wahlkres - ndvdualstscher Fehlschluss: Aussageenhet legt auf höherem Aggregatonsnveau als Untersuchungsenhet

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Daten: Skalennveau > omnalskalennveau - Daten können nur bzgl. glech bzw. unglech beurtelt werden - Bespele: Partepräferenz, Berufsbranche > Ordnalskalennveau - Daten können n ene bestmmte Rehenfolge gebracht werden - Bespele: Hausarbetsnoten, Rankngs > metrsches Skalennveau - Intervallskalennveau: Unterschede zwschen den Ausprägungen könne nterpretert werden - Bespele: Temperatur C - Ratoskala: es estert en absoluter ullpunkt - Bespele: Temperatur K, Pres > Transformaton st nur von höherem zu nedrgerem Skalennveau unter Informatonsverlust möglch

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Defntonen > neulat. statstcus = staatswssenschaftlch set dem 17. Jh. gebräuchlch > Statstk st de Lehre von Methoden zur Gewnnung, Charakterserung und Beurtelung von zahlenmäßgen Informatonen über de Wrklchket. > De Methoden der Statstk snd allgemen anwendbar, d.h. se snd ncht beschränkt auf bestmmte nhaltlche Fragestellungen. Des heßt aber ncht notwendg, dass se auch n jedem Fall snnvoll angewendet werden. > Statstk st das methodsche Vorgehen be der Beschaffung von Informatonen, de man braucht, um vernünftge Entschedungen treffen zu können.

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Wozu? Informatonsgehalt Klasserung, Gruppenbldung Daten kennen lernen + verstehen Qualtät Hpothesenbldung

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Maßzahlen > Defnton: Maßzahlen Kennzahlen denen der zusammenfassenden Beschrebung von Daten durch ene Zahl Arten von Maßzahlen Querschntt Längsschntt unvarate Häufgketsvertelungen bvarate Häufgketsvertelungen Verhältnszahlen, Wachstumsraten, Indzes z.b. Bestandsanalse, Zetrehenanalse, Regresson

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Masse, Enhet > statstsche Masse Populaton = hnschtlch sachlcher, räumlcher und zetlcher Krteren snnvoll gebldete Gesamthet von statstschen Enheten - Grundgesamthet - Telgesamthet Auswahl Stchprobe - Bestandsmasse stock Bewegungsmasse flow - SOEP: Wohnbevölkerung n Deutschland Stchprobe > statstsche Enhet Merkmalsträger = Träger von Informatonen bzw. Egenschaften, de m Rahmen ener emprschen Untersuchung von Interesse snd - Indvduen, Haushalte, Unternehmen, Whalberechtgte - SOEP: Haushalte + Personen

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Merkmale, Varablen Merkmal = Egenschaften der statstschen Enheten bzw. Menge an Merkmalsausprägungen Varablen = Merkmalswerten zugeordnete Zahlen Arten von Merkmalen: > ntensve Merkmale etensve Merkmale - ntensv = Summe st ncht snnvoll nterpreterbar z.b. Intellgenz > manfeste Merkmale latente Merkmale - manfest = drekt beobachtbar z.b. Körpergröße > dskrete Varable stetge Varable - dskret = endlch vele Werte m Intervall Knderzahl

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Varablen: latent manfest > Abgrenzung oft schwerg - Bespel: Enkommen = klass. manfeste Varable - aber: Antworten auf Enkommensfragen sehr ungenau - deshalb: mmer Fragebogen und Operatonalserung beachten > Bespele: - latent: Enstellungen Ausländerfendlchket, Rechts-Lnks etc. - manfest: Geschlecht, Enkommen etc. > Methode zur Analse latenter Varablen: Lneare Strukturglechungsmodelle LISREL

Abtelung Arbetsmarktpoltk und Beschäftgung Statstk: Arthmetsches Mttel, Modus + Medan Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA > arthmetsches Mttel: n = = 1 n X > Medan: Wert, der ene nach Größe sorterte Rehe von Messwerten halbert > Modus: Der Messwert, der n ener Vertelung am häufgsten vorkommt.

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Varanz > Varanz: s 2 = = 1 n 2 > gbt de durchschnttlche Varaton aller Merkmale an

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Statstk: Standardabwechung > Standardabwechung: s s 2 = 1 = = n 2 > korrgert de Verzerrung durch de Quadrerung der Varanz

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Korrelaton I > Korrelaton = Analse der Stärke der Interdependenz wechselsetge Abhänggket > Korrelaton umfasst Rangkorrelatons-, Kontngenz oder Assozatonsanalse je nach Skalennveau > Bespele für Korrelatonskoeffzenten: - χ²-wert zwe nomnalskalerte Varablen - Cramer s V zwe nomnalskalerte Varablen - Pearson s Korrelatonkoeffzent r zwe ntervallskalerte Varablen

Abtelung Arbetsmarktpoltk und Beschäftgung Korrelaton II Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA cov = = 1 n

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA n = = 1 cov s s r = cov n s = = 1 2 n n n r = = = = 1 2 1 2 1 = = = = r 1 1 2 2 1

Abtelung Arbetsmarktpoltk und Beschäftgung Hauptsemnar: Analse von Längsschnttdaten mt GSOEP und STATA Lteratur zum Thema Buttler, Günther / Stroh, Renhold 1992: Enführung n de Statstk; Renbek: Rowohlt Verlag. Gehrng, U. / Wens, C. 2002: Statstk für Poltologen; 3. Auflage; Opladen: Westdeutscher Verlag. DIALEKT-Projekt 2002: Statstk nteraktv!; 2. Auflage; Berln/Hedelberg/ew York: Sprnger Verlag. Knoke, D. / Bohrnstedt, G.W. 2002: Statstcs for the Socal Data Analss; 4 th Edton; Ithasca: Peacock Publshers. v.d. Lppe, P. 1993: Deskrptve Statstk; Stuttgart, Jena: G. Fscher Verlag. Wonnacott, Th.H.; Wonnacott, R.J. 1997: Indrodcutor Statstcs, 5th Edton; ew York, Toronto, Sngapore: John Wle & Sons.