Heaping/Rounding. Bernhard Riedl Betreuerin: Andrea Wiencierz München, den
|
|
- Martin Buchholz
- vor 5 Jahren
- Abrufe
Transkript
1 Heaping/Rounding Bernhard Riedl Betreuerin: Andrea Wiencierz München, den
2 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
3 Beispiel zur Einführung
4 Stetige Variablen können normalerweise nur mit endlicher Präzision gemessen werden Mögliche Gründe: finanzielle oder technische Einschränkungen Die erhaltenen Werte liegen gehäuft auf einer Teilmenge der möglichen Werteskala (z.b. mehr Werte bei ganzen Zahlen als in Wirklichkeit) Einfluss auf Ergebnisse der Datenauswertung: verzerrte Schätzungen unterschiedliches Rundungsverhalten verschiedener Populationen unangemessene Interpretationen
5 Warum neigen Menschen dazu Werte zu runden? Menschen merken sich eine Größenordnung mit den ersten Ziffern und vergessen den Rest Wenn sie den Wert aus der Erinnerung wiedergeben sollen, ersetzen sie Ziffern, an die sie sich nicht erinnern, mit Nullen Wenn sie sich überhaupt nicht erinnern, schätzen sie den Wert komplett, welcher dadurch stark gerundet ist
6 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
7 2.1 Definition und Vorstellung Heaping X * =h round X h Rundungsfehler: = X * X Annahmen Heaping: a) Ein Befragter benutzt auf der Werteskala unterschiedlich große Rundungsintervalle h Beispiele: Je größer der Wert, desto größer das Rundungsintervall (stärkere Rundung) Manche Werte werden bevorzugt genannt (z.b. unterschiedlich große Haufen bei halben und ganzen Jahren)
8 b) Verschiedene Befragte benutzen unterschiedlich große Rundungsintervalle h Überlappung von Intervallen Beispiel : wahrer Wert X=8 Rundungsintervall h=12 12 round(0.66)=12 Rundungsintervall h=6 6 round(1.33)=6 Rundungsintervall h=1 1 round(8)=8 Unterschiedliche Befragte geben bei gleichem wahren Wert, je nach Rundungsintervall, unterschiedliche Werte an
9 Es kommt zu einer abnormalen Häufung von Anteilen an bestimmten Werten der Werteskala Skalenabhängigkeit: Je größer die Skala, desto größer die Tendenz zu runden Skala Monate: Häufung bei halben und ganzen Jahren (6, 12,18,...) Skala Wochen: Häufung bei Monaten (4, 8, 12,...) Heaping liegt in allen Umfragen vor, die sich auf die Vergangenheit beziehen.
10 Häufungspunkte können auch andere Ursachen haben: Wahre Begebenheiten (z.b. Pleite einer großen Firma) Saisonale Schwankungen (z.b. in Landwirtschaft oder Gastronomie) Fehler bei der Stichproben- oder Datenauswahl
11 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
12 Auswirkungen Heaping (I) Falsche saisonale Effekte durch Heaping Beispiel: Einige Arbeiter waren bis November arbeitslos. Ein bestimmter Prozentsatz der Arbeiter gibt aber Dezember als das Ende der Arbeitslosigkeit an. Dadurch wird der Dezember ungerechtfertigt überschätzt.
13 Auswirkungen Heaping (II) Über- bzw. Unterschätzung von Zeiträumen durch asymmetrisches Heaping Beispiel: Einige Arbeiter haben seit Februar einen Job Ein bestimmter Prozentsatz gibt aber Januar als Beginn der Beschäftigung an, währenddessen das Ende der Beschäftigung gleich bleibt Dadurch kann die Dauer der Beschäftigung überschätzt werden Es gibt weniger kurze Beschäftigungszeiten als in Realität Dadurch könnte man fälschlicherweise vermuten, dass mit zunehmender Dauer der Beschäftigung die Wahrscheinlichkeit arbeitslos zu werden steigt.
14 Auswirkungen Heaping (III) Auswirkungen von symmetrischem Heaping Beispiel: Einige Arbeiter geben statt dem wahren Beginn der Beschäftigungszeit einen gerundeten an Zum Beispiel wird statt Dezember oder Februar, Januar als Beschäftigungsbeginn angegeben Kaum Effekt auf den Erwartungswert der Beschäftigungszeit Die Varianz der Beschäftigungszeit vergrößert sich Jedoch können einige kurze Beschäftigungszeiten (zwischen Dezember und Februar) komplett herausfallen, wodurch die Dauer der Beschäftigung tendenziell überschätzt wird
15 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
16 3. Beispiel Heaping Angegebene Dauer der Arbeitslosigkeit bei der Umfrage 1986.I von Lombarden, die zwischen den beiden Umfragen 1986.I und 1986.II dauerhaft arbeitslos waren
17 In der folgenden Tabelle wird nun der wahre Zeitraum zwischen den beiden Umfragen 1986.I und 1986.II mit der Differenz der jeweils gemachten Angaben verglichen Man kann nun sehen zu wie viel Prozent der wahre Zeitraum über- bzw. unterschätzt wird Den Anteil der richtig angegebenen Zeiträume kann man unter Consistent response sehen Nun kann man vergleichen ob es mit zunehmender Dauer der Arbeitslosigkeit zu einer Veränderung des Rundungsverhaltens kommt
18
19 Nur 41.7% konsistente Antworten (der Zeitraum zwischen den Umfragen wird richtig angegeben) Anteil konsistenter Antworten nimmt mit der Dauer der Arbeitslosigkeit ab Lokal systematische Über- bzw. Unterschätzung der Zeiträume zwischen den Umfragen Werte lassen Häufung bei halben bzw. ganzen Jahren vermuten
20 Vergleich der Ergebnisse von Fragebögen, die 3 Monate auseinander liegen: Naiv: Alle Haufen verschieben sich um 3 Monate Jedoch: Haufen bleiben an den selben Häufungspunkten (halbe und ganze Jahre). 1. Fall: Wert bleibt auf dem gleichen Haufen (Fehler = -3) 2. Fall: Wert wandert auf nächsten bzw. übernächsten Haufen (Fehler = 3 bzw. 9) -3, 3, 9 entsprechen 1/3 der inkonsistenten Werte
21 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
22 2.1 Definition Rounding X * =h round X h Rundungsfehler: = X * X Annahmen Rounding: Ein Befragter benutzt auf der kompletten Werteskala das gleiche Rundungsintervall h Rundungintervall symetrisch um Alle Befragten benutzen das gleiche Rundungsintervall h Keine Überlappung der Intervalle X *
23 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler 4. Fazit
24 3.2 Beispiel Rounding/Heaping Analyse der finnischen Teilmenge des European Community Household Panel (ECHP) ECHP: Studie über die soziale und wirtschaftliche Situation der Bevölkerung in der EU Welche Faktoren beeinflussen die Stärke der Rundung des persönlichen Bruttogehalts bzw. Einkommens? Bei Haushaltspanelstudien gibt es einige plausible Faktoren, die Einfluss auf die Präzision der gemachten Angaben haben dürften Durch die unterschiedlich präzisen Angaben, die bei fast allen Studien vorliegen, handelt es sich auch hier streng genommen um Heaping
25 Welche Faktoren haben Einfluss auf die Präzision der Angaben? Interview Art des Interviews Interviewdauer Face-to-face Interview Telefoninterview Proxyinterview (Schätzung anhand von Proxy-Variablen) Panelkonditionierung (Bei einer wiederholten Bearbeitung verändert sich die Präzision signifikant) Einkommen wichtige vs. unwichtige Einkommensbestandteile feste vs. variable Löhne korrelieren mit: Alter, Jobtyp, Geschlecht
26 Rundungsindikator b Zeigt die Stärke der Rundung b=anzahl der Ziffern bis nur noch Nullen folgen x=wahrer Wert x =gerundeter Wert Notation: b=b( x * ) Bsp: b(2)=b(300)=b(7000)=1 b(11)=b(170)=b(6800)=2 Je kleiner b, desto stärker die Rundung Relativer Rundungsindikator: * Ermöglicht Vergleichbarkeit von verschiedenen Ländern mit z.b. unterschiedlichen Währungen oder Lebenshaltungskosten
27 Welche Fragen werden am Genausten beantwortet? bekannter Wert: abstrakter Wert: Geläufige Werte werden genauer angegeben Panelkonditionierung hat keinen substanziellen Effekt Stimmt mit der Hypothese überein, dass man sich nur an die ersten paar Ziffern einer Zahl erinnert und den Rest mit Nullen auffüllt
28 Weitere extremere Beispiele: Starke Rundung: the minimum net monthly income an unemployed person would accept to work b=1: 69,8% b=2: 29,7% Grund: Wert beruht sehr häufig auf Schätzung Schwache Rundung: average monthly child allowance b=1: 8% b=2: 42,3%, b=3: 35,3% b=4: 14,4% Gründe: wichtige Einkommenskomponente, geringe Variation
29 Bei welcher Rundungsstärke ergibt gibt es den größten Rundungsfehler? Bemerkung: int.=angegebener Wert, ref.=wahrer Wert Runden ist Indikator für geringe Genauigkeit Runden verursacht nicht den einzigen Messfehler, weil es selbst bei relativ wenig Rundung noch eine erhebliche Differenz zwischen dem angegebenen und dem wahren Wert (ref. erhält man aus dem Register) gibt.
30 Welche persönlichen Eigenschaften beeinflussen beeinflussen die Stärke der Rundung? Ordered Probit Modell: Verallgemeinerung des Probit Modells für den Fall, dass der Response mehr als zwei Werte annehmen kann. Dazu werden die möglichen Responsewerte in sinnvoller Reihenfolge angeordnet. Link- Funktion: Je größer, desto präziser die Antworten
31
32 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler 4. Fazit
33 3.3 Einfluss auf die Normalverteilung Herleitung des k-ten Moments von Verteilungen der gerundeten Werte: Bemerkung: ih entspricht X, * also dem Wert auf den gerundet wird. Dabei ist.
34 Wir schreiben jeden Term der Summe um ( y=ih) : Jetzt können wir Mithilfe der Euler-Maclaurin Formel die Summe in ein Integral umschreiben (Dabei wird nur jeder h-te Wert aufsummiert. R ist relativ klein und wird ab jetzt weggelassen): Wir setzen f(y) ein: Wir substituieren: y = x-u, v=u/h:
35 1. Moment: Einfluss des Rundens vernachlässigbar 2. Moment: Verzerrung um h 2 12
36 Da wir nun die approximative Verzerrung der Varianz kennen, können wir sie nun korrigieren Sheppard`s correction: Verteilung sollte annähernd symmetrisch sein entspricht Varianz einer gleichverteilten Variable auf dem Intervall Inzwischen gibt es auch Erweiterungen für polynomiale Variablen
37 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler 4. Fazit
38 3.4 Einfluss auf die Regressionskoeffizienten Einfache Regression: mit Regression mit gerundetem Prädiktor: mit Zusammenhang zwischen und : * Das wahre ist somit approximativ:
39 Gerundeter Response hat keinen Einfluss auf die Regressionskoeffizienten: Bemerkung: Die Kovarianz verändert sich nicht, wenn man X durch X * und/oder Y durch Y * ersetzt. Da der Erwartungswert der gerundeten Werte, wie bereits gezeigt, approximativ dem Erwartungswert der nicht gerundeten Werte entspricht.
40 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler 4. Fazit
41 3.5 Rundungsfehler da jedoch lokal stark unterschiedlich von 0 obwohl voneinander abhängig da Varianz des Fehlers: da:
42 Wahrscheinlichkeit des Fehlers : Umformung mithilfe der Euler-Maclaurin Formel: Grenzverteilung des Fehlers ist approximativ die Gleichverteilung im Intervall :
43 Gliederung 1. Einführung 2. Heaping 2.1 Definition und Vorstellung 2.2 Auswirkungen 2.3 Beispiel 3. Rounding 4. Fazit 3.1 Definition 3.2 Beispiel 3.3 Einfluss auf die Normalverteilung 3.4 Einfluss auf die Regressionskoeffizienten 3.5 Rundungsfehler
44 4. Fazit Menschen neigen dazu Werte zu runden bzw. zu häufen Heaping: Verschiedene Befragte benutzen verschiedene Rundungsintervalle h. Zudem kann ein Befragter verschiedene Rundungsintervalle h auf der Werteskala benutzen Heaping ist skalenabhängig Auswirkungen von Heaping: Falsche saisonale Schwankungen Falsche Schätzung von Zeiträumen Rounding: Alle Befragten benutzen das gleiche gegebenene Rundungsintervall h an jeder Stelle der Werteskala
45 Rundungsstärke und -fehler abhängig von vielen Faktoren: Eigenschaften der Person: Alter, Geschlecht, Interview, Beruf, Gehalt Eigenschaften des gefragten Werts: wichtig, geläufig, geschätzt Verzerrung der Varianz und des Regressionskoeffizienten kann durch die Sheppard`s correction relativ gut korrigiert werden. Der Rundungsfehler ist im Erwartungswert 0 Weitere Forschung: Rundungsfehler hängt noch von anderen Faktoren ab (Tricker 1984) Position des 1.Moments im Rundungsnetz Symmetrische oder unsymmetrische Verteilung
46 Literatur Schneeweiß, Hans; Komlos, John und Ahmad, A. (2006): Symmetric and Asymmetric Rounding. Sonderforschungsbereich 386, Discussion Paper 479 Wolff, J. und Augustin, Thomas (2000): Heaping and its Consequences for Duration Analysis. Sonderforschungsbereich 386, Discussion Paper 203 Hanisch (2005): Rounded responses to income questions. Allgemeines Statistisches Archiv 89, Torelli and Trivellato (1989): Youth unemployment duration from the Italien labour force survey. European Economic Review 33 Kaiser, Sebastian (2004): Messfehler (Heaping) in Arbeitslosigkeitsdaten. Seminar: Fehlerbehaftete Daten, Sommersemester 2004
Vorlesung 3: Schätzverfahren
Vorlesung 3: Schätzverfahren 1. Beispiel: General Social Survey 1978 2. Auswahl einer Zufallsstichprobe und Illustration des Stichprobenfehlers 3. Stichprobenverteilung eines Regressionskoeffizienten 4.
Armutsquotenberechnung aus gerundeten Einkommensangaben
Armutsquotenberechnung aus gerundeten Einkommensangaben Jörg Drechsler, IAB Nürnberg Hans Kiesl, OTH Regensburg Statistik Tage Bamberg Fürth 2016 20.7.2016 S. 1 Panelerhebung PASS (Panel Arbeitsmarkt und
Analyse von Querschnittsdaten. Spezifikation der Regressionsfunktion
Analse von Querschnittsdaten Spezifikation der Regressionsfunktion Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Annahmen gegeben? kategoriale Variablen Datum 9..5 6..5..5 9..5 6..5..5..5
Wie liest man Konfidenzintervalle? Teil I. Premiu m
Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften
Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden
Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 20 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
Statistik II: Signifikanztests /2
Medien Institut : Signifikanztests /2 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Korrelation 2. Exkurs: Kausalität 3. Regressionsanalyse 4. Key Facts 2 I
Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate
Regression ein kleiner Rückblick Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate 05.11.2009 Gliederung 1. Stochastische Abhängigkeit 2. Definition Zufallsvariable 3. Kennwerte 3.1 für
John Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer
John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage
Empirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 3. Momentenschätzung auf Stichprobenbasis
Statistik II. Weitere Statistische Tests. Statistik II
Statistik II Weitere Statistische Tests Statistik II - 19.5.2006 1 Überblick Bisher wurden die Test immer anhand einer Stichprobe durchgeführt Jetzt wollen wir die statistischen Eigenschaften von zwei
So berechnen Sie einen Schätzer für einen Punkt
htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung
Gewichtung in der Umfragepraxis. Von Tobias Hentze
Gewichtung in der Umfragepraxis Von Tobias Hentze Gliederung 1. Einführung 2. Gewichtungsarten 1. Designgewichtung 2. Non-Response-Gewichtung 3. Zellgewichtung 3. Fazit Gewichtung Definition: Ein Gewicht
Beispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27
Statistik II II. Univariates lineares Regressionsmodell Martin Huber 1 / 27 Übersicht Definitionen (Wooldridge 2.1) Schätzmethode - Kleinste Quadrate Schätzer / Ordinary Least Squares (Wooldridge 2.2)
Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften
Statistische Modellierung latenter Strukturen in den Lebens-, Sozial- und Wirtschaftswissenschaften Überlick über Modelle für defizitäre Daten Seminarleiter: Prof. Dr. Thomas Augustin Betreuerin: Julia
Bereiche der Statistik
Bereiche der Statistik Deskriptive / Exploratorische Statistik Schließende Statistik Schließende Statistik Inferenz-Statistik (analytische, schließende oder konfirmatorische Statistik) baut auf der beschreibenden
Empirische Wirtschaftsforschung
Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven
Statistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...
Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,
Drittvariablenkontrolle in der linearen Regression: Trivariate Regression
Drittvariablenkontrolle in der linearen Regression: Trivariate Regression 14. Januar 2002 In der Tabellenanalyse wird bei der Drittvariablenkontrolle für jede Ausprägung der Kontrollvariablen eine Partialtabelle
Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)
Aufgabe 3 (9 + 5 + 7 + 7 + 3 + 9 + 7 + 10 = 57 Punkte) Hinweis: Beachten Sie die Tabellen mit Quantilen am Ende der Aufgabenstellung! Zu Beginn der Studienjahre 2011 und 2012 wurden Studienanfänger an
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
Inhaltsverzeichnis. Vorwort
V Vorwort XI 1 Zum Gebrauch dieses Buches 1 1.1 Einführung 1 1.2 Der Text in den Kapiteln 1 1.3 Was Sie bei auftretenden Problemen tun sollten 2 1.4 Wichtig zu wissen 3 1.5 Zahlenbeispiele im Text 3 1.6
Stichproben Parameterschätzung Konfidenzintervalle:
Stichproben Parameterschätzung Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.b. ausrechnen,
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
Einfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
10 Statistisches Schätzen
10 Statistisches Schätzen 620 10 Statistisches Schätzen 10.1 Punktschätzung 623 10.1.1 Schätzer und ihre Gütekriterien 623 10.1.2 Erwartungstreue 627 10.1.3 Erwartete quadratische Abweichung (MSE) 634
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
Zum Einfluss von Angriffsurheber und Angriffsobjekt beim Negative Campaigning
Zum Einfluss von Angriffsurheber und Angriffsobjekt beim Negative Campaigning Universität Hohenheim, März 2012 Inhalt 1. Projektvorstellung 2. Allgemeines 3. Ergebnisse zu den Hypothesen 4. Beantwortung
Zusammenfassung PVK Statistik
Zusammenfassung PVK Statistik (Diese Zusammenfassung wurde von Carlos Mora erstellt. Die Richtigkeit der Formeln ist ohne Gewähr.) Verteilungen von diskreten Zufallsvariablen Beschreibung Binomialverteilung
Was sind Zusammenhangsmaße?
Was sind Zusammenhangsmaße? Zusammenhangsmaße beschreiben einen Zusammenhang zwischen zwei Variablen Beispiele für Zusammenhänge: Arbeiter wählen häufiger die SPD als andere Gruppen Hochgebildete vertreten
Hypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
7.2 Theoretische Kennwerte
7.2 Theoretische Kennwerte Theoretische Varianz und Standardabweichung Definition und Notation Verschiebungsformel für die theoretische Varianz 391 7.2 Theoretische Kennwerte Interpretation der theoretischen
1 Einführung Ökonometrie... 1
Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...
Probleme bei kleinen Stichprobenumfängen und t-verteilung
Probleme bei kleinen Stichprobenumfängen und t-verteilung Fassen wir zusammen: Wir sind bisher von der Frage ausgegangen, mit welcher Wahrscheinlichkeit der Mittelwert einer empirischen Stichprobe vom
OLS-Schätzung: asymptotische Eigenschaften
OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren
Das Geburtstagsparadoxon
Das Geburtstagsparadoxon Leonard Clauÿ 16. November 2017 Inhaltsverzeichnis 1 Einführung 2 Vereinfachtes Problem ohne Schalttag mit Schalttag 3 Verallgemeinerung 4 Beweis einer unteren Schranke 5 Referenzen
3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
Seminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
Annahmen des linearen Modells
Annahmen des linearen Modells Annahmen des linearen Modells zusammengefasst A1: Linearer Zusammenhang: y = 0 + 1x 1 + 2x 2 + + kx k A2: Zufallsstichprobe, keine Korrelation zwischen Beobachtungen A3: Erwartungswert
Biostatistik, WS 2017/18 Der Standardfehler
1/70 Biostatistik, WS 2017/18 Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1718/ 24.11.2017 3/70 Ein Versuch Hirse Bild: Panicum miliaceum 4/70 Ein Versuch Ein Versuch Versuchsaufbau:
Statistik II: Signifikanztests /1
Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test
1.3 Wiederholung der Konvergenzkonzepte
1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche
Wichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
4.2 Moment und Varianz
4.2 Moment und Varianz Def. 2.10 Es sei X eine zufällige Variable. Falls der Erwartungswert E( X p ) existiert, heißt der Erwartungswert EX p p tes Moment der zufälligen Variablen X. Es gilt dann: EX p
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist
Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler
Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler Noémie Becker & Dirk Metzler 15. April 2016 Inhaltsverzeichnis 1 Der Standardfehler 1 1.1 Ein Versuch............................................
Willkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.
Bemerkungen zu statistischen Tests
Bemerkungen zu statistischen Tests Einseitige vs. zweiseitige Tests Die Entscheidung für eine einseitige oder zweiseitige Alternative hängt von der Fragestellung ab. Eine einseitige Alternative ist dann
Statistik K urs SS 2004
Statistik K urs SS 2004 3.Tag Grundlegende statistische Maße Mittelwert (mean) Durchschnitt aller Werte Varianz (variance) s 2 Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert >> Die
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief. Statistik II
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Wiederholung Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte
I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03
I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03 Vorlesung: 12.11.2002 He uses statistics as a drunken man use lampposts - for support rather than for illumination. Andrew Lang Dr. Wolfgang Langer
Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft
Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft
Statistik, Geostatistik
Geostatistik Statistik, Geostatistik Statistik Zusammenfassung von Methoden (Methodik), die sich mit der wahrscheinlichkeitsbezogenen Auswertung empirischer (d.h. beobachteter, gemessener) Daten befassen.
Wahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg
Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie
Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
Vorlesung 4: Spezifikation der unabhängigen Variablen
Vorlesung 4: Spezifikation der unabhängigen Variablen. Fehlspezifikation der unabhängigen Variablen. Auswirkungen einer Fehlspezifikation a. auf die Erwartungstreue der Schätzung b. auf die Effizienz der
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Auswahl von Schätzfunktionen
Auswahl von Schätzfunktionen Worum geht es in diesem Modul? Überblick zur Punktschätzung Vorüberlegung zur Effizienz Vergleich unserer Schätzer für My unter Normalverteilung Relative Effizienz Einführung
Einführung 17. Teil I Kopfüber eintauchen in die Statistik 23. Kapitel 1 Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente 25
Inhaltsverzeichnis Einführung 17 Über dieses Buch 17 Törichte Annahmen über den Leser 19 Wie dieses Buch aufgebaut ist 19 Teil I: Kopfüber eintauchen indie Statistik 19 Teil II: Von Wahrscheinlichkeiten,
= 2 ( 3250,3 ( 3251,5)) = 1,1662 F(2,800) = 2,4 χ2
Pobeklausur: Einführung in die Ökonometrie (Lösung) Gesamtpunktzahl: 96 1. (20 Punkte) a) Anmerkung: statt im Durchschnitt kann auch der/die/das erwartete... stehen. educ : Wenn die Bildung um 1 Jahr steigt,
Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006
Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall
Regression Korrelation simple lineare Regression kurvilineare Regression Bestimmtheitsmaß und Konfidenzintervall Zusammenhänge zw. Variablen Betrachtet man mehr als eine Variable, so besteht immer auch
7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
7.2 Moment und Varianz
7.2 Moment und Varianz Def. 21 Es sei X eine zufällige Variable. Falls der Erwartungswert E( X p ) existiert, heißt der Erwartungswert EX p p tes Moment der zufälligen Variablen X. Es gilt dann: + x p
10. Medizinische Statistik
10. Medizinische Statistik Projektplanung Deskriptive Statistik Inferenz-Statistik Literatur: Hüsler, J. und Zimmermann, H.: Statistische Prinzipien für medizinische Projekte, Verlag Hans Huber, 1993.
Treatment Evaluation. Samantha Stiemke Statistische Herausforderungen sozialwissenschaftlicher Studien Betreuer: Professor Augustin
Treatment Evaluation Samantha Stiemke 26.01.2011 Statistische Herausforderungen sozialwissenschaftlicher Studien Betreuer: Professor Augustin Gliederung Einleitung Roy-Rubin-Modell Allgemeines Evaluationsproblem
Serie 9, Musterlösung
WST www.adams-science.org Serie 9, Musterlösung Klasse: 4U, 4Mb, 4Eb Datum: FS 18 1. Mädchen vs. Knaben 442187 Unter 3000 in einer Klinik neugeborenen Kindern befanden sich 1578 Knaben. Testen Sie mit
das Kleingedruckte...
Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Regression: 4 eindimensionale Beispiele Berühmte
Grundgesamtheit und Stichprobe
Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U
Beispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
Analyse von Querschnittsdaten. Signifikanztests I Basics
Analyse von Querschnittsdaten Signifikanztests I Basics Warum geht es in den folgenden Sitzungen? Kontinuierliche Variablen Generalisierung kategoriale Variablen Datum 13.10.2004 20.10.2004 27.10.2004
Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?
1. Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen? a.) Anzahl der Kunden, die an der Kasse in der Schlange stehen. b.) Die Menge an Energie, die pro Tag von einem Energieversorgungsunternehmen
Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik
Stefan Etschberger für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2017 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv,
Statistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
3.Wiederholung: Toleranzbereiche Für EX Geg:
3.Wiederholung: Toleranzbereiche Für EX Geg: Vl. 24.2.2017 Schätzfunktion für Güte: Ist X Problem: Feb 17 13:21 > Wir berechnen Bereiche (Toleranzbereiche) für sind untere und obere Grenzen, berechnet
Statistik für Naturwissenschaftler
Hans Walser Statistik für Naturwissenschaftler Haupt Verlag Bern Stuttgart Wien Inhaltsverzeichnis Vorwort 13 1 Beschreibende Statistik 15 1.1 Mittelwerte 15 1.1.1 Minimum der Abstände 15 1.1.2 Der Mediän
Bachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
Statistik II. Statistische Tests. Statistik II
Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief
Schätzverfahren, Annahmen und ihre Verletzungen, Standardfehler. Oder: was schiefgehen kann, geht schief Statistik II Literatur Kategoriale Unabhängige, Interaktion, nicht-lineare Effekte : Schätzung Statistik
11. Übungsblatt zur Vorlesung Ökonometrie SS 2014
Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer
WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.
Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im
Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)
Prof. Dr. P. Embrechts ETH Zürich Winter 2012 Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL) Schreiben Sie für Aufgabe 2-4 stets alle Zwischenschritte und -rechnungen sowie Begründungen auf. Aufgabe
Statistik I für Betriebswirte Vorlesung 13
Statistik I für Betriebswirte Vorlesung 13 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 4. Juli 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga
Interne und externe Modellvalidität
Interne und externe Modellvalidität Interne Modellvalidität ist gegeben, o wenn statistische Inferenz bzgl. der untersuchten Grundgesamtheit zulässig ist o KQ-Schätzer der Modellparameter u. Varianzschätzer
1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung
0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau
1. Einführung in die induktive Statistik
Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen