Grundbegriffe der Wahrscheinlichkeitsrechnung

Ähnliche Dokumente
STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik. Mögliche Ergebnisse, auch Elementarereignisse bezeichnet

Einführung in die Wahrscheinlichkeitsrechnung

Population und Stichprobe: Wahrscheinlichkeitstheorie

4 Diskrete Wahrscheinlichkeitsverteilungen

Unabhängigkeit KAPITEL 4

Grundbegriffe der Wahrscheinlichkeitsrechnung

Wiederholung Drittvariablen Nicht-lineare Effekte Zusammenfassung. Regression III. Statistik I. Sommersemester Statistik I Regression III (1/36)

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitsrechnung für die Mittelstufe

Übungsaufgaben, Statistik 1

Mathematik für Biologen

Kapitel 2 Wahrscheinlichkeitsrechnung

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Wahrscheinlichkeitsrechnung und Quantentheorie

Wahrscheinlichkeitstheorie

Was sind Zusammenhangsmaße?

2.2 Ereignisse und deren Wahrscheinlichkeit

Rumpfskript. Elementare Wahrscheinlichkeitsrechnung. Prof. Dr. Ralf Runde Statistik und Ökonometrie, Universität Siegen

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

Wahrscheinlichkeiten

Ziegenproblem, Monty-Hall-Problem, Wahrscheinlichkeitsrechnung. Ziegenproblem, Monty-Hall-Problem, Drei-Türen-Problem

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

Wahrscheinlichkeitsrechnung

Zufallsprozesse, Ereignisse und Wahrscheinlichkeiten die Grundlagen

15 Wahrscheinlichkeitsrechnung und Statistik

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Willkommen zur Vorlesung Statistik (Master)

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Allgemeine diskrete Wahrscheinlichkeitsräume II. Beispiel II. Beispiel I. Definition 6.3 (Diskreter Wahrscheinlichkeitsraum)

Wahrscheinlichkeitsrechnung und schließende Statistik

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1. Grundlagen der Wahrscheinlichkeitsrechnung

Wahrscheinlichkeiten

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Zufallsvariablen [random variable]

Discrete Probability - Übungen (SS5) Wahrscheinlichkeitstheorie. 1. KR, Abschnitt 6.1, Aufgabe 5: 2. KR, Abschnitt 6.1, Aufgabe 7:

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Wahrscheinlichkeitsrechnung und Statistik

Signalverarbeitung 2. Volker Stahl - 1 -

Diskrete Strukturen WiSe 2012/13 in Trier

Mathematische und statistische Methoden II

Übungen zur Wahrscheinlichkeitstheorie und Statistik

Grundlegende Eigenschaften von Punktschätzern

Ergebnis Ergebnisraum Ω. Ereignis. Elementarereignis

Kapitel 9 WAHRSCHEINLICHKEITS-RÄUME

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Basistext - Wahrscheinlichkeitsrechnung

Grundbegriffe der Wahrscheinlichkeitstheorie

4. Grundzüge der Wahrscheinlichkeitsrechnung

Übungsrunde 4, Gruppe 2 LVA , Übungsrunde 4, Gruppe 2, Markus Nemetz, TU Wien, 10/2006

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Bivariate Analyseverfahren

Statistik für Psychologen und Sozialwissenschaftler

Statistik I für Betriebswirte Vorlesung 2

Inferenzstatistik (=schließende Statistik)

3.3 Bedingte Wahrscheinlichkeit

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Mathematische und statistische Methoden II

Keine Panik vor Statistik!

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Auf dem Schulfest bietet Peter als Spielleiter das Glücksspiel "GlücksPasch" an.

Gründe für die Behandlung von stochastischen Problemen (nach KÜTTING)

Wahrscheinlichkeitsrechnung

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Grundwissen Stochastik Grundkurs 23. Januar 2008

Kurs 2 Stochastik EBBR Vollzeit (1 von 2)

Kapitel 13. Grundbegriffe statistischer Tests

Wählt man aus n Mengen mit z 1 bzw. z 2,..., bzw. z n Elementen nacheinander aus jeder Menge jeweils ein Element aus,

3. Kombinatorik und Wahrscheinlichkeit

11 Unabhängige Ereignisse

Diskrete Verteilungen

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Wahrscheinlichkeitstheorie und Naive Bayes

Die Verteilung der Anzahl von Gewinnlinien beim Bingo

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten?

Satz 16 (Multiplikationssatz)

Aufgabenblock 3. Durch zählen erhält man P(A) = 10 / 36 P(B) = 3 / 36 P(C) = 18 / 36 und P(A B) = 3 /

2. Rechnen mit Wahrscheinlichkeiten

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2016

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 8. Übung SS 16: Woche vom

Beurteilende Statistik

Ü b u n g s b l a t t 13

A: Beispiele Beispiel 1: Zwei Zufallsvariablen X und Y besitzen die beiden folgenden Wahrscheinlichkeitsfunktionen:

MafI I: Logik & Diskrete Mathematik (Autor: Gerrit (-Arthur) Gruben)

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

Signalverarbeitung 2. Volker Stahl - 1 -

Übungen zur Mathematik für Pharmazeuten

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie

Technische Universität München

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Wirtschaftsstatistik I [E1]

Lernzusammenfassung für die Klausur. Inhaltsverzeichnis. Stochastik im SS 2001 bei Professor Sturm

Transkript:

Grundbegriffe der Statistik I Sommersemester 2009 Statistik I (1/37) Eigenschaften von Wahrscheinlichkeiten Notation/Begrifflichkeit Eigenschaften Vereinigungs- und Schnittmenge Konditionale Wahrscheinlichkeiten Diskrete Verteilungen Kontinuierliche Verteilungen 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 Statistik I (2/37)

Zum Nachlesen Agresti/Finlay: Kapitel 4.1-4.3 Rudas, Tamas: Probability Theory. A Primer. Thousand Oaks u. a.: 2004 Statistik I (3/37) Interaktion Standardmäßig additives Zusammenwirken Arbeitslosigkeit hat Effekt auf Wahl des FN Anteil Zuwanderer hat Effekt auf Wahl des FN Beides unabhängig voneinander Interaktion: Effekte verstärken sich gegenseitig/schwächen sich gegenseitig Wirkung von Arbeitslosigkeit + Wirkung von Zuwanderung + Wirkung von Arbeitslosigkeit Zuwanderung (positiv oder negativ) Bildung einer Produktvariablen; Effekt schätzen wir für normale Variable Statistik I (4/37)

Daten Département Zuwanderer Arbeitslosigkeit Produktvariable Ain 7.7 4.7 36.1 Aisne 2.5 8.5 21.5 Allier 2.9 6.8 19.4............ Wenn Arbeitslosigkeit und Zuwanderung additiv wirken Hat Produktvariable keinen Effekt (Koeffizient von 0) Darstellung am besten graphisch Statistik I (5/37) Arbeitslosigkeit, Zuwanderung, FN-Wahl Modell mit Interaktion FN 2004 = -3.2 + 2.5 Arbeitslosenquote + 1.7 Zuwandererquote -0.2 Arbeitslosenquote Zuwandererquote 2.5: Effekt der Arbeitslosenquote wenn Zuwandererquote = 0 1.7: Effekt der Zuwandererquote wenn Arbeitslosenquote = 0 Für alle anderen Konstellationen: einsetzen und ausrechnen FN 2004 20 15 10 Zuwandererquoten: 2.6% (grün), 3.7%, 6.3%, 10% (schwarz); R 2 = 0.25 Interpretation? Effekt der ALQ bei niedriger Zuwanderung am stärksten Effekt Zuwanderung stark und positiv bei niedriger ALQ Schwächt sich ab mit höherer ALQ Negativ bei ALQ > 8.5 (1.7/0.2) Statistik I (6/37) 4 6 8 10

Non-lineare Regression Linearer Zusammenhang nicht immer plausibel Höhere Zuwandererquote verunsichert ethnische Franzosen Anstieg FN Höhere Zuwandererquote mehr Zuwanderer, die nicht FN wählen Effekt der Zuwanderung schwächer/negativ für höhere Niveaus von Zuwanderungsquote Modelliert durch zusätzlichen Effekt für quadrierte Zuwanderungsquote Negativer Koeffizient nach unten offene Parabel 18 FN 2004 16 14 12 10 0 5 10 15 20 Zuwanderung Statistik I (7/37) Was ist an unseren Modellen parametrisch? Alle bisher betrachteten Modelle haben einen oder mehrere Parameter D h. mehr oder minder einfache Funktionen mit einigen wenigen Zahlen (Koeffizienten) Sparsam und relativ flexibel Aber: Annahmen Funktionale Form korrekt Verteilungsannahmen Statistik I (8/37)

Was sind nicht-parametrische Verfahren? Keine Annahmen über Verteilung Keine vorgegebene funktionale Form Daten sprechen (Setzen relativ viele Datenpunkte voraus) Vielzahl von unterschiedlichen Verfahren (nicht nur Regressionmodelle) Zwei Hauptgebiete Verteilungsfreie Hypothesentests Vielzahl von Verfahren Ein wichtiges Verfahren: Lokale polynomiale Regression (= loess = scatter plot smoother) Statistik I (9/37) Wie funktioniert die polynomiale lokale Regression Zwei Bestandteile 1. Polynomial : y = β 0 + β 1 x 1 + (β 2 x 2 )... 2. Lokal : eigene Regressionen für lokale Umgebungen insgesamt sehr flexible Form (Im wesentlichen) graphisches Verfahren, keine Parameter Erfordert sehr viel Rechenleistung Statistik I (10/37)

Vorgehensweise: FN 2004 und Zuwandererquote Datensatz nach x-variable (Zuwandererquote) sortieren Anteil der Meßwerte ( Fenster ) festlegen, die in lokalen fit mit einbezogen werden (z. B. 40%) Festlegen von fokalen Werten für x, an denen lokale Regression berechnet wird (z. B. reale Werte von x) Festlegen einer Gewichtungsfunktion Fokaler x-wert mit maximalem Gewicht Abfallendes Gewicht für andere Werte nach Distanz vom fokalen Wert Gewichtete Regression von y auf x, ggf. x 2, x 3 an jedem fokalen x-wert Schätzwert für y Glatte Kurve verbindet (non-parametrische) erwartete Werte für y über den gesamten Wertebereich von x Statistik I (11/37) Fenster Statistik I (12/37)

Gewichtungsfunktion Statistik I (13/37) Lokale Regression Statistik I (14/37)

FN 2004 und Zuwanderer Zuwandererquote FN 2004 10 15 20 25 5 10 15 20 Statistik I (15/37) FN 2004 und Zuwanderer: lineare Regression Zuwandererquote FN 2004 10 15 20 25 5 10 15 20 Statistik I (16/37)

FN 2004 und Zuwanderer: nicht-lineare Regression Zuwandererquote FN 2004 10 15 20 25 5 10 15 20 Statistik I (17/37) FN 2004 und Zuwanderer: non-parametrische Regression Zuwandererquote FN 2004 10 15 20 25 5 10 15 20 Statistik I (18/37)

Woher kommen Wahrscheinlichkeiten? Politikwissenschaftliche Theorien/Modelle nicht deterministisch Inglehart: Früher Wohlstand Postmaterialismus... Almond/Verba: Übereinstimmung Struktur/Kultur Stabilität des Systems Lipset/Rokkan: Staat-Kirche-Konflikt Christliche/konservative Parteien Theoretische Ansätze beschreiben eher eine Tendenz Häufiger postmaterialistisch Stabiler als andere Wahrscheinlicher als in anderen Systemen Regressionsmodelle: stochastische Komponente Nichtgemessene Einflüsse Als zufällig betrachtet Zufallsstichproben Statistik I (19/37) Was ist der frequentistische? Zufallsexperiment Ergebnis hängt vom Zufall ab (z. B. Befragung) Beliebig oft wiederholbar; jeweils neues zufälliges Ergebnis Häufigkeit Ergebnis (z. B. CDU-Wähler) / Zahl der = relative Häufigkeit Wahrscheinlichkeit: Grenzwert der relativen Häufigkeit wenn Zahl der en Grundlage der inferenzstatistischen Standardverfahren Scheinbar einfach und anschaulich Modell für wissenschaftliche Untersuchungen/soziale Prozesse Probleme: Wiederholbarkeit und Stabilität der Wahrscheinlichkeit Statistik I (20/37)

Welche Alternativen gibt es? Thomas Bayes, 1702-1761 Frequentistische Wahrscheinlichkeit: objektiv Keine Wiederholbarkeit (z. B. Klausur): subjektive Wahrscheinlichkeit Alternative statistische Rahmentheorie Bayesianische Statistik Seit ca. 25 Jahren praktisch anwendbar Steigende Bedeutung für die Politikwissenschaft seit ca. 10 Jahren Statistik I (21/37) Ereignisse Ergebnis eines Zufallsexperimentes: Ereignis Elementareignis (outcome) Ereignis als Kombination von Elementareignissen (event) Ereignisse werden oft von Großbuchstaben symbolisiert Alle möglichen Ergebnisse (Elementareignisse) eines Zufallsexperimentes bilden die Ergebnismenge Ω Z. B. Münzwurf: Ω = {K, Z} Oder Würfel-Wurf: Ω = {1, 2, 3, 4, 5, 6} Abzählbare vs. über-abzählbare Ergebnismengen: Würfel vs. exaktes Lebensalter Komplexe Experimente/Ereignisse, z. B. Zahl/Anteil Unionswähler Abzählbaren Elementarereignissen (und ihren Kombinationen) sind Wahrscheinlichkeiten zugeordnet (relative Häufigkeit) Statistik I (22/37)

Wahrscheinlichkeit von Ereignis K = P(K) z. B. P(K) = 0.5 (faire Münze) Ein unmögliches Ereignis hat eine Wahrscheinlichkeit von 0 Ein sicheres Ereignis hat eine Wahrscheinlichkeit von 1 Die Summe der Wahrscheinlichkeiten aller Elementarereignisse für ein Zufallsexperiment ist 1 Allgemeiner: Die Wahrscheinlichkeit für die Vereinigung einer Reihe von wechselseitig ausgeschlossenen (disjunkten) Elementarereignissen ist gleich der Summe ihrer Einzelwahrscheinlichkeiten Das Komplement eines Ereignisses A C ist die Menge aller Ereignisse, in denen A nicht eintritt Die Wahrscheinlichkeit von A C = P(A C ) = 1 P(A) Statistik I (23/37) Beispiel: Europawahl Befragung einer zufällig ausgewählten Wählerin als Zufallsexperiment Drei Elementarereignisse: Union (U), SPD (S), Andere (A) Wahrscheinlichkeiten: P(U) = 0.3; P(S) = 0.2; P(A) = 0.5 Elementarereignisse schließen sich gegenseitig aus (disjunkt) Schnittmenge zwischen U und S (gemeinsames Auftreten) leer: U S = {} P(US) = 0 (gemeinsames Auftreten) Vereinigungsmenge : U oder S oder beides (hier nicht möglich) U S = {U, S} Wahrscheinlichkeit für U oder S: P(U S) = P(U + S) = P(U) + P(S) = 0.3 + 0.2 Statistik I (24/37)

Allgemeiner: Summe und Produkt von Ereignissen Nicht-disjunkte Elementarereignisse: Wahlverhalten wie vorher und Konfession katholisch/nicht katholisch (K, K C ) P(K) = 0.4; P(K C ) = 0.6 Kombination von Elementarereignissen Summe (U + K): Mindestens eines von zwei oder mehr Ereignissen tritt ein Entspricht Vereinigungsmenge Produkt (UK) Zwei (bzw. alle) Elementarereignisse treten ein Entspricht Schnittmenge Statistik I (25/37) Vereinigungsmenge U K U C K C Alle Unionswähler Alle Katholiken UK: Unionswähler und katholisch U + K: Alle Unionswähler + alle Katholiken - Schnittmenge (würde sonst zweimal gezählt) = UK C + U C K + UK Statistik I (26/37)

Wahrscheinlichkeit: Auftreten von zwei Ereignissen Disjunkt Keine Schnittmenge Wahrscheinlichkeit 1 + Wahrscheinlichkeit 2 Z. B. P(U + S) = P(U) + P(S) = 0.3 + 0.2 Nicht disjunkt Schnittmenge = Wahrscheinlichkeit für gemeinsames Auftreten Wahrscheinlichkeit 1 + Wahrscheinlichkeit 2 - Wahrscheinlichkeit für gemeinsames Auftreten (muß bekannt sein) Statistik I (27/37) Implikation Ein Elementarereignis ist sicher, wenn ein anderes beobachtet wurde Z. B. Elementarereignis Unionsbürger (P(B) = 0.9; P(B C ) = 0.1) Wenn irgendeine Wahlentscheidung beobachtet wurde, muß B vorliegen Wahlentscheidung SPD impliziert Unionsbürgerschaft: S B Gegenteil der ausschließenden Disjunktion Implikation und Disjunktion Extrembeispiele für konditionale Wahrscheinlichkeit Statistik I (28/37)

Drei Typen von Wahrscheinlichkeiten 1. Marginale Wahrscheinlichkeit Wahrscheinlichkeit insgesamt Z. B. Wahrscheinlichkeit, einen Katholiken auszuwählen: 0.4 2. Gemeinsame Wahrscheinlichkeit Schnittmenge Z. B. Wahrscheinlichkeit, einen katholischen Unions-Wähler auszuwählen: 0.24 (fiktiv) 3. Konditionale Wahrscheinlichkeit Wahrscheinlichkeit für ein Ereignis (z. B. K) Wenn ein anderes Ereignis bereits eingetreten ist (z. B. U) Symbolisch: P(K U) Alle drei Wahrscheinlichkeiten hängen eng zusammen Statistik I (29/37) Gemeinsame Wahrscheinlichkeit konditionale Wahrscheinlichkeit Wie groß ist die Wahrscheinlichkeit, daß ein Unions-Wähler katholisch ist? Wie groß ist der Anteil katholischen Unions-Wähler (Schnittmenge) an allen Unionswählern? D. h.: gemeinsame Wahrscheinlichkeit (UK) Wahrscheinlichkeit Union (U) Bzw. P(K U) = P(UK) U = 0.24 0.3 = 0.8 Umgekehrt: marginale und konditionale Wahrscheinlichkeit gemeinsame Wahrscheinlichkeit (Multiplikation) Statistik I (30/37)

Unabhängigkeit und Indifferenztabelle Wenn A von B unabhängig ist und umgekehrt Ist P(A B) = P(A) (konditionale = marginale Wahrscheinlichkeit) Und P(B A) = P(B) Wahrscheinlichkeit für = P(AB)? P(A B) = P(AB) P(B) = P(A) P(A B) P(B) = P(AB) P(A) P(B) = P(AB) Konstruktion der Indifferenztabelle: marginalewahrscheinlichkeiten multiplizieren Statistik I (31/37) Was ist eine Zufallsverteilung? Zufallsvariable (z. B. Wahlentscheidung) hat eine Verteilung Verteilung: gesamte Wahrscheinlichkeit (=1) verteilt sich auf Ereignisse Analog zu Verteilungen mit relativen Häufigkeiten 0.0 0.1 0.2 0.3 0.4 0.5 U S A Faßt Ereignisse/Wahrscheinlichkeiten des Zufallsexperimentes kompakt zusammen Kann häufig durch Formel beschrieben/approximiert werden Statistik I (32/37)

Wichtige diskrete Verteilungen Gleichverteilung: Alle Ereignisse gleich wahrscheinlich (z. B. Würfel) Binomialverteilung: komplexe Experimente Wie wahrscheinlich ist es, hintereinander drei Unionswähler zu befragen? 0.00 0.05 0.10 0.15 1 2 3 4 5 6 0.0 0.1 0.2 0.3 0.4 0.5 0 U 1 Multinomialverteilung: Generalisierung der Binomialverteilung Balken (Wahrscheinlichkeiten) addieren sich stets zu eins Statistik I (33/37) Warum kontinuierliche Verteilungen? Wahrscheinlichkeit relative Häufigkeit eines Ereignisses Ok für abzählbare Ereignisse (diskrete Zufallsvariablen) Was tun mit kontinuierlichen Zufallsvariablen? Histogramm Dichteschätzung Fläche unter Dichtefunktion = 1 (Gesamtwahrscheinlichkeit) Wahrscheinlichkeit für Wert aus einem bestimmten Bereich = Fläche über diesem Intervall Statistik I (34/37)

Dauer: Fahrt zur Arbeit Dichte 0.0 0.2 0.4 0.6 Dichte 0.0 0.2 0.4 0.6 Wieviel % der Bürger brauchen weniger 60 Minuten oder weniger für den Weg zur Arbeit? Fläche links von 60? 37% 0 50 100 150 200 250 300 Arbeitsweg in Minuten 0 50 100 150 200 250 300 Arbeitsweg in Minuten Statistik I (35/37) Normalverteilung Bekannteste und wichtigste aller kontinuierlichen Zufallsverteilungen Wahrscheinlichkeitsdichte für Werte zwischen und + Fläche unter der Kurve =1 Über dem Intervall [-1;2] liegen rund 82% der Fläche 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 D. h. in 4 von 5 Fällen zieht man einen Wert aus diesem Intervall Statistik I (36/37)

Wahrscheinlichkeit relative Häufigkeit bei häufiger Einfache Regeln/Eigenschaften Wahrscheinlichkeiten wichtig für Sozialwissenschaftler: Verhalten, Stichprobenziehung Statistik I (37/37)