Statistik Workshop. 12. und 14. Januar 2015. Prof. Dr. Stefan Etschberger. Outline



Ähnliche Dokumente
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Wirtschaftsmathematik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik Workshop. 12. und 14. Januar Prof. Dr. Stefan Etschberger HSA

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Einführung in einige Teilbereiche der Wirtschaftsmathematik für Studierende des Wirtschaftsingenieurwesens

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

9. Schätzen und Testen bei unbekannter Varianz

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Wirtschaftsmathematik

Teil I Beschreibende Statistik 29

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik II für Betriebswirte Vorlesung 2

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistische Thermodynamik I Lösungen zur Serie 1

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik I für Betriebswirte Vorlesung 5

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Beispiel Zusammengesetzte Zufallsvariablen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Grundlagen der Inferenzstatistik

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

5. Schließende Statistik Einführung

Melanie Kaspar, Prof. Dr. B. Grabowski 1

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Ein möglicher Unterrichtsgang

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Grundlagen der Datenanalyse am Beispiel von SPSS

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

4. Erstellen von Klassen

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

R ist freie Software und kann von der Website.

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Kontingenzkoeffizient (nach Pearson)

Klausur Statistik Lösungshinweise

Korrelation - Regression. Berghold, IMI

1. Einführung und statistische Grundbegriffe. Grundsätzlich unterscheidet man zwei Bedeutungen des Begriffs Statistik:

Zusammenhänge zwischen metrischen Merkmalen

Statistik im Bachelor-Studium der BWL und VWL

Einfache statistische Auswertungen mit dem TI-Nspire

Auswertung mit dem Statistikprogramm SPSS:

Eine Einführung in R: Statistische Tests

Wichtige Definitionen und Aussagen

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Überblick über die Verfahren für Ordinaldaten

Data Mining: Einige Grundlagen aus der Stochastik

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Willkommen zur Vorlesung Statistik

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Korrelation (II) Korrelation und Kausalität

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Einführung in statistische Analysen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Überblick über die Tests

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Einführung in die Statistik mit EXCEL und SPSS

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Statistik I für Betriebswirte Vorlesung 2


Wirtschaftsmathematik

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

1 Darstellen von Daten

13.5 Der zentrale Grenzwertsatz

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Transkript:

Workshop Mini-Einführung und Auffrischung zu einigen Teilen der angewandten. und 4. Prof. Dr. Stefan Etschberger Outline : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Deskriptive 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen 4 Induktive 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Material. Deskriptive 4. Induktive

Material zur Vorlesung Kursmaterial: Handout der Folien Literatur: Alle Folien inklusive Anmerkungen (am Abend) Beispieldaten Alle Auswertungen als R-Datei Material. Deskriptive 4. Induktive Bamberg, Günter, Franz Baur und Michael Krapp (0).. 6. Aufl. München: Oldenbourg Verlag. ISBN: 348670580. Dalgaard, Peter (00). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (009). : Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: 3640938. Dalgaard (00)Fahrmeir u. a. (009) Bamberg u. a. (0) 3 Datenbasis Fragebogen Umfrage Sommersemester 04 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten Monaten Ihre Note in der Matheklausur Waren Sie mir Ihrer Leistung in Mathe zufrieden? Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden

: Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung : Einführung Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Bedeutungen des Begriffs Statistische Methoden Zusammenstellung von Zahlen Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive W-theorie Deskriptive Induktive 9

Einfaches Beispiel Beispiel Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4,,, 3, 5, 4, 0, 4, 6, 6, 0, 6 deskriptiv: Durchschnittliche Entfernung: 7,5 Klassenbildung: Klasse [0; 5) [5; 5) [5; 30) Häufigkeit 5 5 Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 0 km ist. 0 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Grundgesamtheit: Menge aller relevanten Merkmalsträger Typen von Merkmalen: a) qualitativ quantitativ qualitativ: z.b. Geschlecht quantitativ: z.b. Schuhgröße Qualitative Merkmale sind quantifizierbar (z.b.: weiblich, männlich 0) b) diskret stetig diskret: Abzählbar viele unterschiedliche Ausprägungen stetig: Alle Zwischenwerte realisierbar Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive

Skalenniveaus Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.b. Artikelnummern Ordinalskala: zusätzlich Rangbildung möglich z.b. Schulnoten Differenzen sind aber nicht interpretierbar! Addition usw. ist unzulässig. Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Kardinalskala: zusätzlich Differenzbildung sinnvoll z.b. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen Es gilt: Grundsätzlich können alle Merkmale nominal skaliert werden. Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Das nennt man Skalendegression. Dabei: Informationsverlust Aber: Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 3

Etschberger Was ist R und warum soll man es benutzen? R ist ein freies Softwarepaket zu und Datenanalyse Fehler durch R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.b. SPSS) Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio Ursprung von R: 993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt. Deskriptive 4. Induktive Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool source: http://goo.gl/axhghh Großer Vorteil (auf den zweiten Blick): Kein point und click tool graphics source: http://goo.gl/w70kms 4 Whas ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Gibt s für OSX, Linux und Windows Ist auch frei Etschberger Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive Trotzdem: Sie müssen Kommandos schreiben Aber: RStudio unterstützt Sie dabei Download: RStudio.com 5

Erste Schritte RStudio Kennenlernen Code Console Workspace History Files Plots Packages Help Auto- Completion Data Import Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 6 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("c:/ste/work/vorlesungen/04ws_doktorandenworkshop/05_0 Workshop") # Daten einlesen aus einer csv-datei (Excel) MyData = read.csv(file="../daten/umfrage_hsa_04_03.csv", header=true) # inspect structure of data str(mydata) ## 'data.frame': 05 obs. of 0 variables: ## $ Alter : int 0 9 0 0 4 0 7 3... ## $ Geschlecht : Factor w/ levels "Frau","Mann":... ## $ AlterV : int 54 57 49 45 43 54 49 53 5 55... ## $ AlterM : int 5 57 58 49 4 5 53 53 48 55... ## $ Geschwister: int 0 3 3 5... ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: 6 6 4 4 6 4 3 6 4 6... ## $ AusgSchuhe : int 50 500 400 00 450 90 50 00 300 00... ## $ AnzSchuhe : int 7 5 5 8 0 0 3 7... ## $ AusgKomm : num 56 450 40 35.8 450 50 00 300 450 300... ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: 4 4 4 4 3 3... Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 7

Erste Zeilen der Datentabelle # Erste Zeilen in Datentabelle head(mydata, 6) ## Alter Geschlecht AlterV AlterM Geschwister Farbe AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Frau 54 5 weiss 50 7 56.0 nicht ## 0 Frau 57 57 0 weiss 500 450.0 sehr ## 3 9 Frau 49 58 3 schwarz 400 5 40.0 sehr ## 4 0 Frau 45 49 3 schwarz 00 5 35.8 sehr ## 5 0 Frau 43 4 5 weiss 450 450.0 sehr ## 6 4 Mann 54 5 schwarz 90 8 50.0 geht so # lege MyData als den "Standard"-Datensatz fest attach(mydata) Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive # Wie Viele Objekte gibt's im Datensatz? nrow(mydata) ## [] 05 # Wie Viele Merkmale? ncol(mydata) ## [] 0 8 Daten kennenlernen # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[:3, :5] ## Geschlecht AlterV AlterM Geschwister ## Frau 54 5 ## Frau 57 57 0 ## 3 Frau 49 58 3 # Auswahl von Objekten über logische Ausdrücke head(geschlecht=="frau" & Alter<9, 30) ## [] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## [7] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<9, # Objektauswahl c("alter", "AlterM", "AlterV") # Welche Merkmale anzeigen? ] Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive ## Alter AlterM AlterV ## 3 8 50 5 ## 44 8 37 43 ## 5 8 5 54 ## 57 8 53 57 ## 74 8 53 49 ## 6 8 44 45 ## 39 8 5 58 ## 85 8 46 48 ## 93 8 49 47 9

Daten kennenlernen # Zeige die Männer, die mehr als 000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 000, c("alter", "Geschwister", "Farbe", "AusgSchuhe", "AusgKomm")] ## Alter Geschwister Farbe AusgSchuhe AusgKomm ## 0 weiss 00 300 ## 5 0 rot 400 85 ## 6 0 schwarz 00 50 ## 40 0 silber 300 85 ## 87 0 blau 000 350 ## 3 5 0 schwarz 80 00 ## 46 4 schwarz 300 900 ## 77 9 schwarz 500 70 ## 78 3 schwarz 450 630 ## 9 0 0 schwarz 400 950 Fehler durch Gute und schlechte Grafiken Begriff Grundbegriffe der Datenerhebung R und RStudio. Deskriptive 4. Induktive 0 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung Deskriptive

Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet Urliste (x,..., x n ) Im Beispiel: x = 4, x =,..., x = 6 Urlisten sind oft unübersichtlich, z.b.:. Deskriptive ## [] 4 5 4 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 5 4 ## [49] 7 5 Dann zweckmäßig: Häufigkeitsverteilungen 4. Induktive Ausprägung (sortiert) a j 3 4 5 6 7 absolute Häufigkeit h(a j ) = h j 7 9 8 50 kumulierte abs. H. H(a j ) = j h(a i ) 4 6 33 4 50 relative Häufigkeit f(a j ) = h(a j )/n 7 9 8 50 50 50 50 50 50 50 j kumulierte rel. H. F(a j ) = f(a i ) 4 6 33 4 50 50 50 50 50 50 Graphische Darstellungen ➊ Balkendiagramm table(x) ## x ## 3 4 5 6 7 ## 7 9 8 barplot(table(x), col="azure") 0 5 0 5 3 4 5 6 7 (Höhe proportional zu Häufigkeit) ➋ Kreissektorendiagramm Winkel: w j = 360 f(a j ) pie(table(x)) z.b. w = 360 50 = 7, w 7 = 360 8 50 = 57,6 5 (Fläche proportional zu Häufigkeit) 6 4 3 7. Deskriptive 4. Induktive 4

Graphische Darstellungen ➌ Histogramm für klassierte Daten Fläche proportional zu Häufigkeit: Höhe j Breite j = c h(a j ) Höhe j = c h(a j) Breite j Im Beispiel mit c = : Klasse [0; 5) [5; 5) [5; 30] h(a j ) 5 5 Breite j 5 0 5 Höhe j 4 90 histdata <- c(0,,,3,4, 5,6,7,0,4, 5,30) truehist(histdata, breaks=c(0, 4.999, 4.999, 30), col="azure", ylab='') 0.00 0.0 0.04 0.06 0.08 0 5 0 5 0 5 30 histdata. Deskriptive 4. Induktive 7 Lageparameter Modus x Mod : häufigster Wert Beispiel: a j 4 h(a j ) 4 3 Sinnvoll bei allen Skalenniveaus. Median x Med : mittlerer Wert, d.h. } x Mod =. Urliste aufsteigend sortieren: x x x n. Dann. Deskriptive 4. Induktive { = x n+, falls n ungerade x Med [x n ; x n +], falls n gerade (meist x Med = (x n + x n +)) Im Beispiel oben:,,,,,,, 4 x Med [; ], z.b. x Med =,5 Sinnvoll ab ordinalem Skalenniveau. 3

Lageparameter () Arithmetisches Mittel x: Durchschnitt, d.h. Im Beispiel: x = n n x i = n x = 8 ( + + + } {{ } 4 k a j h(a j ) j= + + + } {{ } 3 Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: + 4 }{{} 4 ) =,75. Deskriptive 4. Induktive Im Beispiel: x = n Klassenmitte Klassenhäufigkeit x = (,5 5 + 0 5 +,5 ) = 8,96 7,5 = x 3 Streuungsparameter Voraussetzung: kardinale Werte x,..., x n Beispiel: a) x i 950 000 050 b) x i 0 0 6000 Spannweite: SP = max Im Beispiel: i x i min i x i } je x = 000 a) SP = 050 950 = 00 b) SP = 6000 0 = 6000. Deskriptive 4. Induktive Mittlere quadratische Abweichung: s = n n (x i x) = n x i x n } {{ } Verschiebungssatz 34

Streuungsparameter () Mittlere quadratische Abweichung im Beispiel: a) s = 3 (50 + 0 + 50 ) = 3 (950 + 000 + 050 ) 000 = 666,67 b) s = 3 (000 + 000 + 4000 ) = 3 (0 + 0 + 6000 ) 000 = 8000000 Standardabweichung: s = s Im Beispiel: a) s = 666,67 = 40,8 b) s = 8000000 = 88,43. Deskriptive 4. Induktive Variationskoeffizient: V = Im Beispiel: a) V = 40,8 000 = 0,0 ( = %) b) V = 88,43 000 =,4 ( = 4 %) s x (maßstabsunabhängig) 35 als Grafik: Boxplot Graphische Darstellung von Box: Oberer/Unterer Rand: 3. bzw.. Quartil, Linie in Mitte: Median Whiskers: Länge: Max./Min Wert, aber beschränkt durch das,5-fache des Quartilsabstands (falls größter/kleinster Wert größeren/kleineren Abstand von Box: Länge Whiskers durch größten/kleinsten Wert innerhalb dieser Schranken) Ausreißer: Alle Objekte außerhalb der Whisker-Grenzen boxplot(anzschuhe ~ Geschlecht, col=c("mistyrose", "lightblue"), data=mydata, main="") 0 0 40 60 80 Frau Mann Wieviel Paar Schuhe besitzen Sie?. Deskriptive 4. Induktive 37

Dateninspektion: Überblick über alle Variablen summary(mydata) ## Alter Geschlecht AlterV AlterM Geschwister Farbe ## Min. :8.00 Frau:34 Min. :38.00 Min. :37.0 Min. :0.000 blau : ## st Qu.:0.00 Mann: 7 st Qu.:50.00 st Qu.:48.0 st Qu.:.000 gelb : 4 ## Median :.00 Median :54.00 Median :5.0 Median :.000 rot :3 ## Mean :. Mean :53.95 Mean :5.5 Mean :.473 schwarz:97 ## 3rd Qu.:3.00 3rd Qu.:57.00 3rd Qu.:54.0 3rd Qu.:.000 silber :7 ## Max. :36.00 Max. :77.00 Max. :68.0 Max. :9.000 weiss :63 ## AusgSchuhe AnzSchuhe AusgKomm MatheZufr ## Min. : 0.0 Min. :.00 Min. : 30.0 nicht :68 ## st Qu.: 50.0 st Qu.:0.00 st Qu.: 50.0 geht so :47 ## Median : 50.0 Median :0.00 Median : 360.0 zufrieden:43 ## Mean : 96.6 Mean :.58 Mean : 49.4 sehr :6 ## 3rd Qu.: 400.0 3rd Qu.:30.00 3rd Qu.: 570.0 NA's : ## Max. :000.0 Max. :80.00 Max. :868.0. Deskriptive 4. Induktive 38 Dateninspektion Boxplots for(attribute in c("alter", "AlterV", "AlterM", "Geschwister", "AusgSchuhe", "AusgKomm")) { data=mydata[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=, # character size oma=c(,,,) ) text(0.7,max(data), attribute, srt=90, adj=) }. Deskriptive 0 5 30 35 Alter 40 50 60 70 AlterV 40 45 50 55 60 65 AlterM 0 4 6 8 Geschwister 0 500 000 500 000 AusgSchuhe 0 500 000 500 AusgKomm 4. Induktive 39

smaße Gegeben: kardinale Werte 0 x x x n Achtung! Die Werte müssen aufsteigend sortiert werden! Lorenzkurve: Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Beispiel: Die 90 % ärmsten besitzen 0 % des Gesamtvermögens. Streckenzug: (0,0), (u, v ),..., (u n, v n ) = (,) mit. Deskriptive 4. Induktive v k = Anteil der k kleinsten MM-Träger an der MM-Summe = k x i n x i u k = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 40 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3,,, 3 (Mio. ) 5 n = 5, x k = 5 k= v k. Deskriptive k 3 4 5 x k 3 3 6 p k 5 v k 5 u k 5 3 5 5 5 5 3 5 8 5 3 5 6 5 5 4 5 4 5 4 5 8 5 5 5 5 5 5 3 5 4 5 u k 4. Induktive 4

Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger x i+ > x i Empirische Verteilungsfunktion liefert Knickstellen: a j 3 6 h(a j ) f(a j ) 5 F(a j ) 5 Vergleich von Lorenzkurven: 5 3 5 5 5 4 5. Deskriptive 4. Induktive Gleichverteilung extreme stärker konzentriert als schwer vergleichbar 4 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA,0 0,8. Deskriptive (Stand 000) Anteil am BSP 0,6 0,4 4. Induktive 0, 0, 0,4 0,6 0,8 Anteil der Bevölkerung,0 43

Gini-Koeffizient Numerisches Maß der : Gini-Koeffizient G G = Aus den Daten: G = Fläche zwischen 45 -Linie und L Fläche unter 45 -Linie n i x i (n + ) n x i n n = x i n i p i (n + ) n = wobei p i = x i n x i. Deskriptive 4. Induktive Problem: G max = n n Normierter Gini-Koeffizient: G = n n G [0; ] 44 Gini-Koeffizient: Beispiel Beispiel: i 3 4 x i 5 0 p i 0 0 0 5 0. Deskriptive G = ( 0 + 0 + 3 0 + 4 5 0) (4 + ) 4 = 0,55 4. Induktive Mit G max = 4 4 = 0,75 folgt G = 4 4 0,55 = 0,7 45

smaße: Beispiel Armutsbericht der Bundesregierung 008 Verteilung der Bruttoeinkommen in Preisen von 000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen,0 0,8 0,6 0,4 0,. Deskriptive 0, 0,4 0,6 0,8,0 Anteil der Bevölkerung 4. Induktive 00 003 004 005 Arithmetisches Mittel 4.873 4.563 3.987 3.648 Median.857.53 0.438 0.089 Gini-Koeffizient 0,433 0,44 0,448 0,453 46 Lorenzkurve mit R require(ineq) # inequality Paket Lorenz = Lc(AusgSchuhe) plot(lorenz, xlab="", ylab="", main="") # Standard plot plot(c(0,), c(0,), type="n", # bisschen netter panel.first=grid(lwd=.5, col=rgb(0,0,0,/)), xlab="", main="", ylab="") polygon(lorenz$p, Lorenz$L, density=-, col=rgb(0,0,,/4), lwd=).0 0.8 0.6 0.4 0. 0.0 0.0 0. 0.4 0.6 0.8.0 0.0 0. 0.4 0.6 0.8.0 0.0 0. 0.4 0.6 0.8.0. Deskriptive 4. Induktive Gini(AusgSchuhe) # Gini-Koeffizient ## [] 0.3556353 47

Weitere smaße skoeffizient: n CR g = Anteil, der auf die g größten entfällt = p i = v n g i=n g+ Herfindahl-Index: H = n p i ( [ n ; ]) Es gilt: H = n (V + ) bzw. V = n H Exponentialindex: E = n p p i i ( [ n ; ] ) wobei 0 0 =. Deskriptive 4. Induktive Im Beispiel mit x = (,,, 5): CR = 7 0 = 0,85 ( ) ( ) 5 H = + + = 0,59 0 0 ( ) ( ) 5 0 5 0 E = = 0,44 0 0 48 Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: (x, y ), (x, y ),..., (x n, y n ) Kontingenztabelle: Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Ausprägungen von Y Ausprägungen von X b b... b l. Deskriptive 4. Induktive a h h... h l a h h... h l.... a k h k h k... h kl 49

Kontingenztabelle Unterscheide: Gemeinsame : h ij = h(a i, b j ) Randhäufigkeiten: l h i = h ij und h j = j= Bedingte (relative) : k h ij. Deskriptive 4. Induktive f (a i b j ) = h ij h i h j und f (b j a i ) = h ij 50 Beispiel: 400 unfallbeteiligte Autoinsassen: leicht verletzt schwer verletzt tot (= b ) (= b ) (= b 3 ) angegurtet 64 90 6 360 (= a ) (= h ) (= h ) (= h 3 ) (= h ) nicht angegurtet 34 4 40 (= a ) (= h ) (= h ) (= h 3 ) (= h ) 66 4 0 400 (= h ) (= h ) (= h 3 ) (= n). Deskriptive 4. Induktive f (b 3 a ) = 4 40 = 0, f (a b 3 ) = 4 0 = 0,4 (0 % der nicht angegurteten starben.) (40 % der Todesopfer waren nicht angegurtet.) 5

Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.b. stetige Merkmale) Alle (x i, y i ) sowie ( x, ȳ) in Koordinatensystem eintragen. Beispiel: i 3 4 5 x i 4 3 9 7 5 y i 4 3 6 7 8 8 9 8 7 6 5 4 y 3 x = 5 5 = 5 ȳ = 8 5 = 5,6 x 3 4 5 6 7 8 9 x y. Deskriptive 4. Induktive 5 Beispiel Streuungsdiagramm. Deskriptive 4. Induktive (Datenquelle: Fahrmeir u. a. (009)) 53

Beispiel Streuungsdiagramm mieten <- read.table('../../_data/mietenmuenchen.csv', header=true, sep='\t', check.names=true, fill=true, na.strings=c('','')) x <- cbind(nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) library("geneplotter") ## from BioConductor smoothscatter(x, nrpoints=inf, colramp=colorramppalette(brewer.pal(9,"ylorrd")), bandwidth=c(30,3)) Wohnflaeche 50 00 50. Deskriptive 4. Induktive 500 000 500 Nettomieten 54 Beispiel Streuungsdiagramm x = cbind("age of father"=alterv, "Age of mother"=alterm) require("geneplotter") ## from BioConductor smoothscatter(x, colramp=colorramppalette(brewer.pal(9,"ylorrd")) ) Age of mother 40 45 50 55 60 65. Deskriptive 4. Induktive 40 50 60 70 Age of father 55

Visualisiere Paare require(ggally) ggpairs(mydata[, -c(5, 6, 0)], colour='geschlecht', alpha=0.4) 35 Cor : 0.4 Cor : 0.457 Cor : 0.0047 Cor : 0.05 Cor : 0.0556 30 Alter 5 0 5 30 35 Frau: 0.434 Mann: 0.398 Frau: 0.509 Mann: 0.33 Frau: 0.0583 Mann: 0.9 Frau: 0.0058 Mann: 0.048 Frau: 0.08 Mann: 0.036 Frau. Deskriptive Geschlecht Mann 70 60 AlterV 50 40 50 60 70 Cor : 0.73 Frau: 0.79 Mann: 0.638 60 AlterM 50 40 50 60 Cor : 0.086 Frau: 0.0494 Mann: 0.4 Cor : 0.0673 Frau: 0.06 Mann: 0.0379 Cor : 0.0479 Frau: 0.0574 Mann: 0.069 Cor : 0.00739 Frau: 0.06 Mann: 0.0598 Cor : 0.08 Frau: 0.08 Mann: 0.033 Cor : 0.0439 Frau: 0.094 Mann: 0.093 4. Induktive 000 500 000 AusgSchuhe Cor : 0.375 Frau: 0.37 Cor : 0.9 Frau: 0.433 500 Mann: 0.03 0 500 000 500 000 80 60 40 AnzSchuhe Mann: 0.0403 Cor : 0.05 Frau: 0.98 0 Mann: 0.0783 0 0 40 60 80 500 000 AusgKomm 500 0 500 000 500 56 Bagplot: Boxplot in Dimensionen require(aplpack) bagplot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") Alter der Mutter 40 45 50 55 60 65. Deskriptive 4. Induktive 40 50 60 70 Alter des Vaters 57

Bubbleplot: 3 metrische Variablen require(desctools) PlotBubble(AlterM, AlterV, AusgSchuhe/400, col=setalpha("deeppink4",0.3), border=setalpha("darkblue",0.3), xlab="alter der Mutter", ylab="alter des Vaters", panel.first=grid(), main=""). Deskriptive Alter des Vaters 30 40 50 60 70 80 4. Induktive 35 40 45 50 55 60 65 70 Alter der Mutter Größe der Blasen: Ausgaben für Schuhe 58 srechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: skoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y:. Deskriptive Skalierung von Y Skalierung von X kardinal ordinal nominal kardinal 4. Induktive ordinal Bravais-Pearson- skoeffizient Rangkorrelationskoeffizient von Spearman nominal Kontingenzkoeffizient 59

skoeffizient von Bravais und Pearson Bravais-Pearson-skoeffizient Voraussetzung: X, Y kardinalskaliert n (x i x)(y i ȳ) n x i y i n xȳ r = = [ ; +] n (x i x) n n n (y i ȳ) x i n x y i nȳ 0 3 4 5 6 7 0 3 4 5 0 3 4 0 3 4 5 3 4 5 6 7 0 3 4 5. Deskriptive 4. Induktive 0 3 4 0 3 4 0 3 0 3 4 0 3 4 5 6 3 0 60 Bravais-Pearson-skoeffizient Im Beispiel: i x i y i x i y i x i y i 4 4 6 8 4 3 6 9 3 3 6 9 36 8 4 9 7 8 49 63 5 7 8 49 64 56 5 8 59 74 57 x = 5/5 = 5 ȳ = 8/5 = 5,6. Deskriptive 4. Induktive r = 57 5 5 5,6 59 5 5 74 5 5,6 = 0,703 (deutliche positive ) 6

Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: ➀ Rangnummern R i (X) bzw. R i (Y) mit R ( ) i Wert usw. ➁ Berechne r SP = 6 n (R i R i) (n ) n (n + ) = bei größtem [ ; +]. Deskriptive 4. Induktive Hinweise: r SP = + wird erreicht bei R i = R i r SP = wird erreicht bei R i = n + R i i =,..., n i =,..., n 6 Rangkorrelationskoeffizient von Spearman Im Beispiel: x i R i y i R i 5 4 4 4 3 3 5 3 4 6 3 9 7 7 8. Deskriptive 4. Induktive r SP = 6 [(5 4) + (3 5) + (4 3) + ( ) + ( ) ] (5 ) 5 (5 + ) = 0,6 63

Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: ➀ Ergänze Randhäufigkeiten h i = l h ij und h j = j= ➁ Berechne theoretische ➂ Berechne χ = h ij = h i h j n k l j= (h ij h ij ) h ij k h ij χ hängt von n ab! (h ij h ij χ χ ). Deskriptive 4. Induktive 64 Kontingenzkoeffizient ➃ Kontingenzkoeffizient: wobei K max = χ K = n + χ [0; K max ] M M ➄ Normierter Kontingenzkoeffizient: mit M = min{k, l}. Deskriptive 4. Induktive K = K K max [0; ] K = + bei Kenntnis von x i kann y i erschlossen werden u.u. 65

Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit (d,a) Y : Geschlecht (m,w) wobei h = 60 40 00 h ij m w h i h ij m w d 30 30 60 d 4 36 a 0 30 40 a 6 4 h j 40 60 00 = 4 usw.. Deskriptive 4. Induktive χ = (30 4) + (30 36) + (0 6) + (30 4) = 6,5 4 36 6 4 K = 6,5 00+6,5 = 0,45; M = min{,} = ; K max = K = 0,45 0,707 = 0,3430 = 0,707 66 Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich angegurtet 64 90 6 360 nicht angegurtet 34 4 40 Sicherheit Gurt 66 4 0 400 leicht schwer tödlich < 4 4: :0 0: :4 >4. Deskriptive 4. Induktive Kein Standardized Residuals: Verletzungen Mosaikplot Autounfälle 67

Ausgangsdaten Bundesliga 008/009 Gegeben: Daten zu den 8 Vereinen der ersten Bundesliga in der Saison 008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison Etat Punkte FC Bayern 80 67 VfL Wolfsburg 60 69 SV Werder Bremen 48 45 FC Schalke 04 48 50 VfB Stuttgart 38 64 Hamburger SV 35 6 Bayer 04 Leverkusen 35 49 Bor. Dortmund 3 59 Hertha BSC Berlin 3 63. FC Köln 8 39 Bor. Mönchengladbach 7 3 TSG Hoffenheim 6 55 Eintracht Frankfurt 5 33 Hannover 96 4 40 Energie Cottbus 3 30 VfL Bochum 7 3 Karlsruher SC 7 9 Arminia Bielefeld 5 8 (Quelle: Welt). Deskriptive 4. Induktive 7 Darstellung der Daten in Streuplot Bundesliga 008/09 Punkte 30 40 50 60 70 VfB Stuttgart Hertha BSC Berlin Hamburger SV Bor. Dortmund TSG Hoffenheim Hannover 96. FC Köln Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld FC Schalke 04 Bayer 04 Leverkusen SV Werder Bremen VfL Wolfsburg FC Bayern. Deskriptive 4. Induktive 0 40 60 80 Etat [Mio. Euro] 7

Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: Dabei: y = f(x) X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend:. Deskriptive 4. Induktive y = a + b x Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: 73 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: y i = a + bx i + ɛ i Dabei: ɛ i ist jeweils Fehler (der Grundgesamtheit), mit e i = y i (â + ˆbx i ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen e i zusammen möglichst klein Einfache Summe aber nicht möglich, denn e i positiv oder negativ. Deskriptive 4. Induktive Deswegen: Summe der Quadrate von e i Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n [y i (a + bx i )] min 74

Beste Lösung Beste und eindeutige Lösung: ˆb = = n (x i x)(y i ȳ) n (x i x) n x i y i n xȳ n x i n x â = ȳ ˆb x. Deskriptive 4. Induktive Regressionsgerade: ŷ = â + ˆb x 75 Bundesligabeispiel Berechnung eines linearen Modells der Bundesligadaten dabei: Punkte ˆ= y und Etat ˆ= x: x 33,83 y 46,89 x i 509 xi y i 3474 n 8 3474 8 33,83 46,89 ˆb = 509 8 33,83 0,634 â = 46,89 ˆb 33,83 5,443 Modell: ŷ = 5,443 + 0,634 x Punkte 0 30 40 50 60 70 80 0 0 40 60 80 Einkommen Prognosewert für Etat = 30: ŷ(30) = 5,443 + 0,634 30 44,463. Deskriptive 4. Induktive 76

Varianz und Information Varianz der Daten in abhängiger Variablen y i als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷ i abgebildet werden 80 70 60 50 40 30 80 70 60 50 40 30. Deskriptive 4. Induktive 0 0 points model 0 0 40 60 80 Empirische Varianz (mittlere quadratische Abweichung) für rot bzw. grün ergibt jeweils 8 8 (y i y) 00,77 bzw. 8 8 (ŷ i y) 0,78 77 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): R = n (ŷ i ȳ) = n (y i ȳ) n ŷ i nȳ = r n [0; ] y i nȳ Mögliche Interpretation von R : Durch die Regression erklärter Anteil der Varianz R = 0 wird erreicht wenn X, Y unkorreliert R = wird erreicht wenn ŷ i = y i i (alle Punkte auf Regressionsgerade) Im (Bundesliga-)Beispiel:. Deskriptive 4. Induktive R = 8 (ŷ i y) 8 (y i y) 0,78 00,77 5,9 % 78

Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 970er Jahren: i x i x i x 3i x 4i y i y i y 3i y 4i 0 0 0 8 8,04 9,4 7,46 6,58 8 8 8 8 6,95 8,4 6,77 5,76 3 3 3 3 8 7,58 8,74,74 7,7 4 9 9 9 8 8,8 8,77 7, 8,84 5 8 8,33 9,6 7,8 8,47 6 4 4 4 8 9,96 8,0 8,84 7,04 7 6 6 6 8 7,4 6,3 6,08 5,5 8 4 4 4 9 4,6 3,0 5,39,50 9 8 0,84 9,3 8,5 5,56 0 7 7 7 8 4,8 7,6 6,4 7,9 5 5 5 8 5,68 4,74 5,73 6,89. Deskriptive 4. Induktive (Quelle: Anscombe (973)) 79 Beispieldaten meineregression = lm(alterm ~ AlterV) meineregression plot(alterv, AlterM, xlab="alter des Vaters", ylab="alter der Mutter") abline(meineregression) Alter der Mutter 40 45 50 55 60 65 ## ## Call: ## lm(formula = AlterM ~ AlterV) ## ## Coefficients: ## (Intercept) AlterV ## 7.0537 0.6384. Deskriptive 4. Induktive 40 50 60 70 Alter des Vaters 8

Cook s Distanz PLUS Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: D i = n (ŷ j ŷ j(ohne i) ) j= MSE. Deskriptive 4. Induktive Dabei bedeutet: ŷ j : Prognosewert des kompletten Modells für das j-te Objekt ŷ j(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt MSE = n (ŷ i y i ) : Normierender Term (Schätzwert für Fehlerstreuung) 83 Ausreißer? PLUS Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über sollten genau untersucht werden.39. Deskriptive y3 6 8 0 0.03 0.0 0 0 0 0.0 0.0 0.03 0.06 0.3 4. Induktive 4 6 8 0 4 x3 84

Residualanalyse Oft aufschlussreich: Verteilung der Residuen e i Verbreitet: Graphische Darstellungen der Residuen Z.B.: e i über ŷ i y3 6 8 0 Residuals 0 3 9 3 6. Deskriptive 4 6 8 0 4 x3 5 6 7 8 9 0 Fitted values Residuals vs Fitted 4. Induktive y 4 6 8 0 Residuals 0 0 9 3 4 6 8 0 4 x 5 6 7 8 9 0 Fitted values 85 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Alter der Mutter 40 45 50 55 60 65 Keine Änderung der Varianz in Abhängigkeit von ŷ i (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Residuals 0 0 0 0 9 65 07. Deskriptive 4. Induktive 40 50 60 70 Alter des Vaters 45 50 55 60 65 Fitted values 86

Kausalität versus Exkurs: Kausalität vs. Meist wichtig für sinnvolle Regressionsanalysen: Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund. Deskriptive 4. Induktive 87 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 3 Wahrscheinlichkeitstheorie Zufallsvariablen und Verteilungen

: Anzahl von Kombinationen bei Auswahl -mal Würfeln, das heißt Auswahl von k = aus n = 6 Zahlen. mit WH, mit RF: alle Möglichkeiten, 6 = 36 ohne WH, mit RF: Diagonale entfällt, 6! 36 6 = 30 = 6 5 = (6 )! (,) (,) (,3) (,4) (,5) (,6) (,) (,) (,3) (,4) (,5) (,6) (3,) (3,) (3,3) (3,4) (3,5) (3,6) (4,) (4,) (4,3) (4,4) (4,5) (4,6) (5,) (5,) (5,3) (5,4) (5,5) (5,6) (6,) (6,) (6,3) (6,4) (6,5) (6,6) ohne WH, ohne RF: Hälfte des letzten Ergebnisses: 30 6! = 5 = 4!! = ( 6) mit WH, ohne RF: Letztes Ergebnis plus Diagonale, 5 + 6 = = ( 7). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Auswahl von k aus n Dingen mit Reihenfolge ohne Reihenfolge mit Wiederholung ohne Wiederholung n k n! (n k)! ( ) ( ) n + k n k k 89 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.b. Münzwurf Elementarereignis ω: Ein möglicher Ausgang, z.b. Kopf Elementarereignisse schließen sich gegenseitig aus ( Kopf oder Zahl )! Ergebnismenge Ω: Menge aller ω Beispiel: Werfen zweier Würfel: (,) (,) (,6) (,) (,) (,6) Ω :......... (6,) (6,) (6,6). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ω = {(x, x ) : x, x {,...,6}} 90

Ereignisse und Wahrscheinlichkeiten Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: A Ω Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: Ereignis verbal formal A Augensumme = 4 {(,3), (,), (3,)} B Erste Zahl = {(,), (,),..., (,6)}. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = A Ω = Anzahl der für A günstigen Fälle Anzahl aller möglichen Fälle 9 Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(,3), (,), (3,)} Ω = 36, A = 3 P(A) = 3 36 = = 0,083 Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: mit Zurücklegen: N n ohne Zurücklegen: N (N ) (N (n )) = N! (N n)!. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 3-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 9

Rechenregeln für Wahrscheinlichkeiten Wichtige Rechenregeln:. P(A). P( ) = 0 3. A B P(A) P(B) 4. P(Ā) = P(A) 5. P(A B) = P(A) + P(B) P(A B) A A B B C. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: P( Augenzahl 5 ) = P( Augenzahl = 6 ) = 6 = 5 6 93 Beispiel Gegenereignis Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 996 und 997 beide kurz nach der Geburt an plötzlichem Kindstod. Kinderarzt: Wahrscheinlich Mord, da maliger plötzlicher Kindstod sehr unwahrscheinlich! (ohne konkrete Hinweise) Gerichtliche Untersuchung Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist :8500, d.h. Wahrscheinlichkeit für maliges Auftreten in einer Familie ( ) p = : 7 000 000 8500 Urteil: Doppelmord; Strafe: mal lebenslang; Inhaftierung von Sally Clark 999. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 94

Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für note hängt von Mathenote ab. Formal: Im Venndiagramm: P(A B) = P(A B) P(B). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive B A Ω 96 Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A B) = P(A) Bei Unabhängigkeit ist äquivalent dazu: Dann gilt: P(A B) = P(A) P(B) P(A B) = P(A) + P(B) P(A) P(B) Beispiel: Werfen zweier Würfel: } A : " erster Würfel gleich 6" B : " zweiter Würfel gleich 6" P(A B) = = P(A B) P(B) 36 6 = P(A) = 6. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 97

Zufallsvariablen Zufallsvariablen und Verteilungen Beschreibung von Ereignissen durch reelle Zahlen Formal: Zufallsvariable ist Abbildung von Ereignisraum in reelle Zahlen: X : Ω R Nach Durchführung des Zufallsvorgangs: Realisation: x = X(ω). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Vor Durchführung des Zufallsvorgangs: Wertebereich: X(Ω) = {x : x = X(ω), ω Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {,,...,6}, x = 4 (z.b.) P(X = 4) = 6, P(X 3) = 3 6 = 98 Verteilungsfunktion Zuweisung von Wahrscheinlichkeiten zu Realisationen Formal: F(x) = P(X x) Eigenschaften der Verteilungsfunktion: F(x) [0; ] Definitionsbereich: R mit F( ) = 0, F( ) = monoton wachsend, d.h. x < x F(x ) F(x ) Es gilt: P(a < X b) = F(b) F(a). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) 0,5 0 4 0 4 6 8 x Beispiel einer Verteilungsfunktion 99

Diskrete Zufallsvariablen X heißt diskret, wenn X(Ω) = {x, x,... } endlich ist. Wahrscheinlichkeitsfunktion dann: f(x) = P(X = x) Beispiel: Münze mal werfen; X: Anzahl " Kopf" (Z, Z) (Z, K), (K, Z) (K, K) x i 0 f(x i ) 4 4 0, falls x < 0 4 F(x) =, falls 0 x < 3 4, falls x <, falls x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0,5 f(x) 0,75 F(x) 0,5 0 0 0,5 0,5 0 0 00 Binomialverteilung Wiederholter Zufallsvorgang n Durchführungen (jeweils unabhängig) Pro Durchführung: A oder Zurücklegen) Schreibe: X i = Ā mit P(A) = p ( = Ziehen mit {, falls A bei i-ter Durchführung eintritt 0, falls Ā bei i-ter Durchführung eintritt. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dann gibt X = an, wie oft A eintritt. n X i Gesucht: Wahrscheinlichkeitsfunktion von X 0

Binomialverteilung Herleitung: ) P(X i = ) = P(A) = p, P(X i = 0) = P(Ā) = p n ) x i = x entspricht " x mal Ereignis A und n x mal Ā" Wahrscheinlichkeit (bei Unabhängigkeit): p x ( p) n x ( n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x) Wahrscheinlichkeitsfunktion der Binomialverteilung: ( n p f(x) = x) x ( p) n x, falls x {0,,..., n} 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Kurzschreibweise: X B(n; p) X ist binomialverteilt mit Parametern n und p Tabellen zeigen meist F(x) für f(x) gilt: f(x) = F(x) F(x ) 0 X B(n, 0.5), Tabelle der Binomialverteilung F(x) = P(X x) x\n 3 4 5 6 7 8 9 0 3 4 5 0 0.7500 0.565 0.49 0.364 0.373 0.780 0.335 0.00 0.075 0.0563 0.04 0.037 0.038 0.078 0.034.0000 0.9375 0.8438 0.7383 0.638 0.5339 0.4450 0.367 0.3003 0.440 0.97 0.584 0.67 0.00 0.080.0000 0.9844 0.949 0.8965 0.8306 0.7564 0.6786 0.6007 0.556 0.455 0.3907 0.336 0.8 0.36 3.0000 0.996 0.9844 0.964 0.995 0.886 0.8343 0.7759 0.733 0.6488 0.5843 0.53 0.463 4.0000 0.9990 0.9954 0.987 0.977 0.95 0.99 0.8854 0.844 0.7940 0.745 0.6865 5.0000 0.9998 0.9987 0.9958 0.9900 0.9803 0.9657 0.9456 0.998 0.8883 0.856 6.0000 0.9999 0.9996 0.9987 0.9965 0.994 0.9858 0.9757 0.967 0.9434 7.0000.0000 0.9999 0.9996 0.9988 0.997 0.9944 0.9897 0.987 8.0000.0000.0000 0.9999 0.9996 0.9990 0.9979 0.9958 9.0000.0000.0000.0000 0.9999 0.9997 0.999 0.0000.0000.0000.0000.0000 0.9999.0000.0000.0000.0000.0000 x\n 6 7 8 9 0 3 4 5 6 7 8 9 30 0 0.000 0.0075 0.0056 0.004 0.003 0.004 0.008 0.003 0.000 0.0008 0.0006 0.0004 0.0003 0.000 0.000 0.0635 0.050 0.0395 0.030 0.043 0.090 0.049 0.06 0.0090 0.0070 0.0055 0.004 0.0033 0.005 0.000 0.97 0.637 0.353 0.4 0.093 0.0745 0.0607 0.049 0.0398 0.03 0.058 0.008 0.066 0.033 0.006 3 0.4050 0.3530 0.3057 0.63 0.5 0.97 0.64 0.370 0.50 0.096 0.080 0.0666 0.055 0.0455 0.0375 4 0.630 0.5739 0.587 0.4654 0.449 0.3674 0.335 0.83 0.467 0.38 0.844 0.583 0.354 0.53 0.0979 5 0.804 0.7653 0.775 0.6678 0.67 0.5666 0.568 0.4685 0.4 0.3783 0.337 0.990 0.638 0.37 0.06 6 0.905 0.899 0.860 0.85 0.7858 0.7436 0.6994 0.6537 0.6074 0.56 0.554 0.4708 0.479 0.3869 0.348 7 0.979 0.9598 0.943 0.96 0.898 0.870 0.8385 0.8037 0.766 0.765 0.685 0.647 0.5998 0.5568 0.543 8 0.995 0.9876 0.9807 0.973 0.959 0.9439 0.954 0.9037 0.8787 0.8506 0.896 0.7860 0.750 0.76 0.6736 9 0.9984 0.9969 0.9946 0.99 0.986 0.9794 0.9705 0.959 0.9453 0.987 0.909 0.8868 0.866 0.8337 0.8034 0 0.9997 0.9994 0.9988 0.9977 0.996 0.9936 0.9900 0.985 0.9787 0.9703 0.9599 0.947 0.93 0.945 0.8943.0000 0.9999 0.9998 0.9995 0.999 0.9983 0.997 0.9954 0.998 0.9893 0.9845 0.9784 0.9706 0.960 0.9494.0000.0000.0000 0.9999 0.9998 0.9996 0.9993 0.9988 0.9979 0.9966 0.9948 0.99 0.9888 0.984 0.9784 3.0000.0000.0000.0000.0000 0.9999 0.9999 0.9997 0.9995 0.999 0.9985 0.9976 0.996 0.9944 0.998 4.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 0.9998 0.9996 0.9993 0.9989 0.998 0.9973 5.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 0.9998 0.9997 0.9995 0.999 6.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 0.9999 0.9998 7.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000 8.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 03

Binomialverteilung: Beispiel Beispiel Aus einem 3-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal Herz zu ziehen? X i = X = n {, falls i-te Karte Herz 0, sonst X i B(; 8 3 ) X i = X + X + X 3 X B(3; 4 ). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Mithilfe der Wahrscheinlichkeitsfunktion: ( 3 P(X = ) = f() = 0,5 ) 0,75 = 0,406 Mithilfe der Tabelle (n = 3): P(X = ) = F() F() = 0,9844 0,8438 = 0,406 04 Binomialverteilung: Wahrscheinlichkeitsfunktion X B(3, 4 ) Binomial Vtlg. mit n=3 p=0.5. Deskriptive 0.4 0.3 Zufallsvariablen und Verteilungen 4. Induktive p 0. 0. 0.0 0 3 x 05

Binomialverteilung: Wahrscheinlichkeitsfunktion Binomial Vtlg. mit n=0 p=0.5 Binomial Vtlg. mit n=00 p=0.5 0.075 0. p p 0.050. Deskriptive 0. 0.05 0.0 0 3 4 5 6 7 8 9 0 x 0.000 0 4 8 6 30 34 38 4 x Zufallsvariablen und Verteilungen 4. Induktive Binomial Vtlg. mit n=30 p=0.5 Binomial Vtlg. mit n=500 p=0.5 0.5 0.04 0.03 0.0 p p 0.0 0.05 0.0 0.00 0 4 6 8 0 4 6 8 0 x 0.00 90 97 04 8 5 3 39 46 53 60 x 06 Hypergeometrische Verteilung n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X Hyp(N; M; n) Wahrscheinlichkeitsfunktion: ( )( ) M N M x n x (, falls x möglich f(x) = N n) 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Ist n N 0, so gilt: Hyp(N; M; n) B(n; M N ) 07

Beispiel: Hypergeometrische Verteilung Aus einem 3-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. Wie wahrscheinlich ist es, -mal " Herz" zu ziehen? D.h.: N = 3, M = 8, n = 3, x =. ( ) ( ) ( ) ( ) 8 3 8 8 4 3 P(X = ) = f() = ( ) = ( ) = 3 3 3 3 = 9! 8! 3! 4 3! 6!! = 0,355 8!! 6! 4 3! 3! 9! = 8 7 3 4 3 3 30 = 403 9760 = 55. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Dabei wurde verwendet: ( n n! = und k) k!(n k)! ( n ) = n. 08 Hypergeometrische Verteilung Beispiel: x Treffer im Lotto 6 aus 49 X Hyp(49, 6, 6) x P(X = x) (in %) 0 43.596498 4.30945 3.37803 3.765040 4 0.09686 5 0.00845 6 0.000007 Wahrscheinlichkeit 0.0 0. 0. 0.3 0.4. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0 3 4 5 6 x 09

Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) Geeignet, wenn p klein ( 0,), n groß ( 50) und np 0. Verteilung der seltenen Ereignisse (z.b. Anzahl 6-er pro Lottoausspielung) X ist poissonverteilt mit Parameter λ: X P(λ) Wahrscheinlichkeitsfunktion: λ x f(x) = x! e λ, falls x = 0,,,... 0, sonst. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive F(x) in Tabelle Überblick: Approximation Hyp(N; M; n) p = M N B(n; p) λ = np = n M N P(λ) 0 Poissonverteilung: X P(λ), Tabelle der Verteilungsfunktionen x\λ.6.7.8.9...3.4.5.6.7.8.9 3 0 0.09 0.87 0.653 0.496 0.353 0.5 0.08 0.003 0.0907 0.08 0.0743 0.067 0.0608 0.0550 0.0498 0.549 0.4933 0.468 0.4338 0.4060 0.3796 0.3546 0.3309 0.3085 0.873 0.674 0.487 0.3 0.46 0.99 0.7834 0.757 0.7306 0.7037 0.6767 0.6496 0.67 0.5960 0.5697 0.5438 0.584 0.4936 0.4695 0.4460 0.43 3 0.9 0.9068 0.893 0.8747 0.857 0.8387 0.894 0.7994 0.7787 0.7576 0.7360 0.74 0.699 0.6696 0.647 4 0.9763 0.9704 0.9636 0.9559 0.9474 0.9379 0.975 0.963 0.904 0.89 0.8774 0.869 0.8477 0.838 0.853 5 0.9940 0.990 0.9896 0.9868 0.9834 0.9796 0.975 0.9700 0.9643 0.9580 0.950 0.9433 0.9349 0.958 0.96 6 0.9987 0.998 0.9974 0.9966 0.9955 0.994 0.995 0.9906 0.9884 0.9858 0.988 0.9794 0.9756 0.973 0.9665 7 0.9997 0.9996 0.9994 0.999 0.9989 0.9985 0.9980 0.9974 0.9967 0.9958 0.9947 0.9934 0.999 0.990 0.988 8.0000 0.9999 0.9999 0.9998 0.9998 0.9997 0.9995 0.9994 0.999 0.9989 0.9985 0.998 0.9976 0.9970 0.996 9.0000.0000.0000.0000.0000 0.9999 0.9999 0.9999 0.9998 0.9997 0.9996 0.9995 0.9993 0.999 0.9989 0.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 0.9999 0.9999 0.9998 0.9998 0.9997.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x\λ 3. 3. 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 4. 4. 4.3 4.4 4.5 0 0.045 0.0408 0.0369 0.0334 0.030 0.073 0.047 0.04 0.003 0.083 0.066 0.050 0.036 0.03 0.0 0.847 0.7 0.586 0.469 0.359 0.57 0.6 0.074 0.099 0.096 0.0845 0.0780 0.079 0.0663 0.06 0.40 0.3799 0.3594 0.3397 0.309 0.308 0.854 0.689 0.53 0.38 0.38 0.0 0.974 0.85 0.736 3 0.648 0.605 0.5803 0.5584 0.5366 0.55 0.494 0.4735 0.4533 0.4335 0.44 0.3954 0.377 0.3595 0.343 4 0.798 0.7806 0.766 0.744 0.755 0.7064 0.687 0.6679 0.6484 0.688 0.6093 0.5898 0.5704 0.55 0.53 5 0.9057 0.8946 0.889 0.8706 0.8576 0.844 0.830 0.856 0.8006 0.785 0.7693 0.753 0.7367 0.799 0.709 6 0.96 0.9554 0.9490 0.94 0.9347 0.967 0.98 0.909 0.8995 0.8893 0.8787 0.8675 0.8558 0.8437 0.83 7 0.9858 0.983 0.980 0.9769 0.9733 0.969 0.9648 0.9599 0.9546 0.9489 0.947 0.936 0.990 0.94 0.934 8 0.9953 0.9943 0.993 0.997 0.990 0.9883 0.9863 0.9840 0.985 0.9786 0.9755 0.97 0.9683 0.964 0.9598 9 0.9986 0.998 0.9978 0.9973 0.9967 0.9960 0.995 0.994 0.993 0.999 0.9905 0.9889 0.987 0.985 0.989 0 0.9996 0.9995 0.9994 0.999 0.9990 0.9987 0.9984 0.998 0.9977 0.997 0.9966 0.9959 0.995 0.9943 0.9933 0.9999 0.9999 0.9998 0.9998 0.9997 0.9996 0.9995 0.9994 0.9993 0.999 0.9989 0.9986 0.9983 0.9980 0.9976.0000.0000.0000.0000 0.9999 0.9999 0.9999 0.9998 0.9998 0.9997 0.9997 0.9996 0.9995 0.9994 0.999 3.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 0.9999 0.9999 0.9999 0.9998 0.9998 4.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000 0.9999 5.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000.0000

Poisson-Verteilung: Beispiel Beispiel X B(0 000; 0,0003); In Tabelle der Binomialverteilung nicht vertafelt! Approximation: p = 0,0003 < 0, n = 0 000 > 50 B(0 000; 0,0003) P(3) np = 3 < 0 Mithilfe der Wahrscheinlichkeitsfunktion:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X = 5) = 35 5! e 3 = 0,00888 Mithilfe der Tabelle der Poissonverteilung: P(X = 5) = F(5) F(4) = 0,96 0,853 = 0,008 Exakter Wert: P(X = 5) = 0,00839 Poisson- versus Binomialverteilung: Vergleich 0.4 n=5 p=0.8 0.5 n=0 p=0.4 p 0.3 0. Verteilung Binomial Poisson p 0.0 0.5 0.0 Verteilung Binomial Poisson. Deskriptive 0. 0.05 0.0 0 3 4 5 x 0.00 0 3 4 5 6 7 8 9 0 x Zufallsvariablen und Verteilungen 4. Induktive 0.0 n=00 p=0.04 0.0 n=000 p=0.004 0.5 0.5 p 0.0 Verteilung Binomial Poisson p 0.0 Verteilung Binomial Poisson 0.05 0.05 0.00 0.00 0 3 4 5 6 7 8 9 0 x 0 3 4 5 6 7 8 9 0 x 3

Stetige Zufallsvariablen X heißt stetig, wenn F(x) stetig ist. 3 f(t) F(x) = x f(t)dt Dann existiert ein f(t) mit: F(x) = x f(t) dt f(x) heißt Dichtefunktion von X. Dann: P(a < X < b) = P(a X < b) = P(a < X b) = P(a X b) x 3 t f(x) x x. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive = b a f(x) dx = F(b) F(a) a b x 4 Dichtefunktion Eigenschaften der Dichtefunktion f(x) 0 für alle x R Wegen F( ) = muss stets gelten: f(x) dx = P(X = x) = 0 für alle x R f(x) > ist möglich für x R ist F(x) differenzierbar F (x) = f(x). Intervallgrenzen spielen keine Rolle:. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P(X [a; b]) = P(X (a; b]) = P(X [a; b)) = P(X (a; b)) = F(b) F(a) 5

Dichtefunktion: Beispiel Beispiel Verteilungsfunktion: x 0 f(x) = f(t) dt = F(x) = 0, falls x < 0, falls 0 x 0 0, falls x > 0 0 x 0 [ ] x t 0 dt = 0 0 0, falls x < 0, falls 0 x 0, falls x > 0 x 0 = x 0. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 6 Gleichverteilung Eine Zufallsvariable X mit f(x) = b a, falls a x b 0, sonst heißt gleichverteilt im Intervall [a; b]. f(x). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b a a b x 7

Gleichverteilung Verteilungsfunktion der Gleichverteilung: F(x) = 0, falls x < a x a b a, falls a x b, falls x > b. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Beispiel: X gleichverteilt in [; 0] P( X ) = F() F() = 0 0 = 0 = 0 9 = 0,563 8 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) = (x µ) σ π e σ. Deskriptive und σ > 0 heißt normalverteilt. f(x) N(; 3 ) Zufallsvariablen und Verteilungen 4. Induktive 0,5 N(0; ) N(; ) N(; ) 3 4 5 x Kurzschreibweise: X N(µ; σ) 9

Normalverteilung: Gaußkurve Normalverteilung C.F. Gauß. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 0 Verteilungsfunktion Φ der Standardnormalverteilung Dabei bedeutet Φ(x) zum Beispiel: Φ(,3) = Φ(, + 0,03) = 0,9834. Diesen Wert findet man in der Zeile mit x =, und der Spalte mit x = 0,03. x \x 0 0.0 0.0 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.5000 0.5040 0.5080 0.50 0.560 0.599 0.539 0.579 0.539 0.5359 0. 0.5398 0.5438 0.5478 0.557 0.5557 0.5596 0.5636 0.5675 0.574 0.5754 0. 0.5793 0.583 0.587 0.590 0.5948 0.5987 0.606 0.6064 0.603 0.64 0.3 0.679 0.67 0.655 0.693 0.633 0.6368 0.6406 0.6443 0.6480 0.657 0.4 0.6554 0.659 0.668 0.6664 0.6700 0.6737 0.6773 0.6808 0.6844 0.6879 0.5 0.695 0.6950 0.6985 0.700 0.7054 0.7089 0.73 0.757 0.79 0.74 0.6 0.758 0.79 0.734 0.7357 0.7389 0.74 0.7454 0.7486 0.758 0.7549 0.7 0.7580 0.76 0.764 0.7673 0.7704 0.7734 0.7764 0.7794 0.783 0.785 0.8 0.788 0.790 0.7939 0.7967 0.7996 0.803 0.805 0.8079 0.806 0.833 0.9 0.859 0.886 0.8 0.838 0.864 0.890 0.835 0.8340 0.8365 0.8389 0.844 0.8438 0.846 0.8485 0.8508 0.853 0.8554 0.8577 0.8599 0.86. 0.8643 0.8665 0.8687 0.8708 0.879 0.8749 0.8770 0.8790 0.880 0.8830. 0.8849 0.8869 0.8888 0.8907 0.895 0.8944 0.896 0.8980 0.8997 0.905.3 0.903 0.9049 0.9066 0.9083 0.9099 0.95 0.93 0.947 0.96 0.977.4 0.993 0.907 0.9 0.937 0.95 0.965 0.979 0.99 0.9306 0.939.5 0.933 0.9345 0.9358 0.9370 0.938 0.9394 0.9406 0.948 0.9430 0.944.6 0.945 0.9463 0.9474 0.9485 0.9495 0.9505 0.956 0.956 0.9535 0.9545.7 0.9554 0.9564 0.9573 0.958 0.959 0.9600 0.9608 0.966 0.965 0.9633.8 0.964 0.9649 0.9656 0.9664 0.967 0.9679 0.9686 0.9693 0.9700 0.9706.9 0.973 0.979 0.976 0.973 0.9738 0.9744 0.9750 0.9756 0.976 0.9767 0.9773 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.98 0.987. 0.98 0.986 0.9830 0.9834 0.9838 0.984 0.9846 0.9850 0.9854 0.9857. 0.986 0.9865 0.9868 0.987 0.9875 0.9878 0.988 0.9884 0.9887 0.9890.3 0.9893 0.9896 0.9898 0.990 0.9904 0.9906 0.9909 0.99 0.994 0.996.4 0.998 0.990 0.99 0.995 0.997 0.999 0.993 0.9933 0.9934 0.9936.5 0.9938 0.9940 0.994 0.9943 0.9945 0.9946 0.9948 0.9949 0.995 0.995.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.996 0.996 0.9963 0.9964.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.997 0.997 0.9973 0.9974.8 0.9975 0.9975 0.9976 0.9977 0.9978 0.9978 0.9979 0.9980 0.9980 0.998.9 0.998 0.998 0.9983 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3. 0.9990 0.999 0.999 0.999 0.999 0.999 0.999 0.999 0.9993 0.9993 3. 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 0.9995. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive

Eigenschaften der Normalverteilung Dichte ist symmetrisch zu µ: f(µ x) = f(µ + x) µ ist Lage-, σ ist Streuungsparameter Standardnormalverteilung: N(0; ) mit Verteilungsfunktion Φ(x) ( Tabelle 3) Kenntnis von Φ(x), µ und σ genügt, denn: X N(µ; σ) X µ σ N(0; ) ( ) x µ F(x) = Φ σ. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Tabelle enthält nur positive x: Deswegen Φ( x) = Φ(x) Normalverteilung: Beispiel Beispiel: Projektdauer X N(39; ). Wahrscheinlichkeit für Projektdauer zwischen 37 und 4 Wochen? Lösung: P(37 X 4) = F(4) F(37) = Φ ( ) ( 4 39 Φ 37 39 ) = Φ() Φ( ) = Φ() [ Φ()] = Φ() = 0,843 = 0,686. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive 3

Lageparameter a) Modus x Mod : f(x Mod ) f(x) für alle x (i.a. nicht eindeutig, z.b. Gleichverteilung) Beispiele: Normalverteilung: x Mod = µ Diskrete Verteilung mit: x 0 f(x) 4 4 } x Mod =. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive b) Median x Med : F(x Med ) = bzw. kleinstes x mit F(x) > Beispiele: Normalverteilung: x Med = µ Diskrete Verteilung oben: F(0) = 4 <, F() = 3 4 > x Med = 4 Lageparameter: Fraktile c) α-fraktil x α : F(x α ) = α (für stetige Verteilungen) Beispiel: X N(0; ), Y N(3; ) Hinweise: x 0,975 =,96 (Tab. 3) x 0,05 = x 0,975 =,96 y 0,05 = x 0,05 +3 = 0,9. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive x Med = x 0,5 Wenn x α nicht vertafelt Interpolation: x α x a + (x b x a ) α a b a mit a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X N(0; ); x 0,6 0,5 + (0,6 0,5) 0,533 0,6 0,5987 0,606 0,5987 = 5

Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: x i f(x i ), i E(X) = xf(x) dx, falls X diskret falls X stetig. Deskriptive Zufallsvariablen und Verteilungen Beispiel: Diskrete Verteilung mit x 0 f(x) 4 4 E(X) = 0 4 + + 4 = Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte { λ e λx für x 0 f(x) = folgt 0 sonst [ E(X) = x f(x)dx = λ x e λx dx = λ 0 λ xe λx 0 = xe λx λ e λx = 0 0 ( 0 ) = λ λ ( λ ) ] e λx dx 4. Induktive 6 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch a+b bzgl. E(X) = a+b Lineare Transformation: Summenbildung: E(a + bx) = a + b E(X). Deskriptive Zufallsvariablen und Verteilungen ( n ) E X i = n E(X i ) 4. Induktive Beispiel: X gleichverteilt in [0; 0], Y N(; ); Z = X + 5Y E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5 E(Y) = 0+0 +5 = 0 Unabhängigkeit: X, Y unabhängig E(X Y) = E(X) E(Y) 7

Streuungsparameter Varianz Var(X) bzw. σ : [x i E(X)] f(x i ), wenn X diskret Var(X) = E([X E(X)] i ) = [x E(X)] f(x) dx, wenn X stetig Standardabweichung Sta(X) bzw. σ: Beispiel: Diskrete Verteilung x 0 f(x) 4 4 : Sta(X) = Var(X). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Var(X) = (0 ) 4 + ( ) + ( ) 4 = Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt Var(X) = (x E(X))f(x)dx = λ 0 ( x λ ) e λx dx ( = e λx x + x λ ( ) ) λ λ x λ + λ 0 ( = 0 0 ( ) ) λ = λ 8 Rechenregeln für die Varianz Verschiebungssatz: Var(X) = E(X ) [E(X)] Beispiel: Diskrete Verteilung x 0 f(x) 4 E(X ) = 0 4 + + 4 = 3 E(X ) [E(X)] = 3 = = Var(X) 4 :. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Lineare Transformation: Var(a + bx) = b Var(X) Summenbildung gilt nur, wenn die X i unabhängig! Dann: ( n ) Var X i = n Var(X i ) 9

Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Binomialverteilung B(n; p) np np( p) Hypergeometrische Verteilung mit den Parametern N, M, n n M N Poisson-Verteilung P(λ) λ λ Gleichverteilung in [a; b] mit a < b a + b n M N N M N (b a) N n N. Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Normalverteilung N(µ; σ) µ σ 30 Anwendung: Ungleichung von Tschebyschow Für beliebige Zufallsvariablen X und ε > 0 gilt die Ungleichung von Tschebyschow: Beispiele: P ( X E[X] ε ) Var[X] ε X ist gleichverteilt mit Parametern a, b und ε = (a b), 3 also E[X] = (a + b) und Var[X] = (a b). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive P ( X (a + b) 3 (a b)) (a b) 3 (a b) = 3 /4 X B(00; 0,) und ε = 0 damit: E[X] = 00 0, = 0 und Var[X] = 00 0, ( 0,) = 6 P ( X 0 0 ) 6 0 = 0,6 3

Kovarianz und Kovarianz: Cov(X, Y) skoeffizient: ρ(x, Y) = = E[(X E(X))(Y E(Y))] = E(X Y) E(X) E(Y) (Verschiebungssatz) Cov(X, Y) Var(X) Var(Y). Deskriptive Zufallsvariablen und Verteilungen 4. Induktive Bemerkungen: ρ ist r nachgebildet ρ [ ; ] ρ = Y = a + bx (mit b 0) ρ = 0 X, Y unkorreliert Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + Cov(X, Y) 3 : Table of Contents : Einführung Deskriptive 3 Wahrscheinlichkeitstheorie 4 Induktive 5 Datenanalyse Einleitung 4 Induktive

der induktiven Beispiel Vollerhebung of unmöglich, Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Warensendung von 000 Stück; darunter M Stück Ausschuss. M ist unbekannt. Zufällige Entnahme von n = 30 Stück ( Stichprobe ). Darunter Stück Ausschuss. Denkbare Zielsetzungen: Schätze M durch eine Zahl (z.b. 30 000 = 66,67) Schätze ein Intervall für M (z.b. M [58; 84]) Teste die Hypothese, dass M > 50 ist.. Deskriptive 4. Induktive 34 Grundbegriffe Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. Verteilung von G: F(x) = P(X x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. Alle Stichprobenvariablen X,..., X n sind iid. Stichprobenergebnis: n-tupel der Realisationen der Stichprobenvariablen, (x,..., x n ).. Deskriptive 4. Induktive 35

Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X,..., X n, mit E(X i ) = µ, Var(X i ) = σ Beliebige Verteilung, Stichprobenfunktion V Bezeichnung E(V) Var(V) n X i Merkmalssumme nµ nσ X = n n X i Stichprobenmittel µ X µ n Gauß- 0 σ n n n n mittlere quadratische (X i µ) Abweichung bezüglich µ mittlere quadratische (X i X) Abweichung S = n S = S σ n n (X i X) Stichprobenvarianz σ Stichproben- Standardabweichung n σ σ n. Deskriptive 4. Induktive X µ n S t- 36 Auswirkungen der Stichprobengröße Ziehen von 0.000 Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen):. Deskriptive 4. Induktive 37

Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 38 Auswirkungen der Stichprobengröße. Deskriptive 4. Induktive 39

Testverteilungen Chi-Quadrat-Verteilung Sind X,..., X n iid N(0; )-verteilte Zufallsvariablen, so wird die Verteilung von n Z = als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. f(x) X i. Deskriptive 4. Induktive 0, 0,05 0 4 x Kurzschreibweise: Z χ (n) Beispiel: χ (30): x 0,975 = 46,98 40 Quantilstabelle der χ -Verteilung mit n Freiheitsgraden α\n 3 4 5 6 7 8 9 0 3 4 5 0.005 0.00 0.0 0.07 0. 0.4 0.68 0.99.34.73.6.60 3.07 3.56 4.07 4.60 0.0 0.00 0.0 0. 0.30 0.55 0.87.4.65.09.56 3.05 3.57 4. 4.66 5.3 0.05 0.00 0.05 0. 0.48 0.83.4.69.8.70 3.5 3.8 4.40 5.0 5.63 6.6 0.05 0.00 0.0 0.35 0.7.5.64.7.73 3.33 3.94 4.57 5.3 5.89 6.57 7.6 0. 0.0 0. 0.58.06.6.0.83 3.49 4.7 4.87 5.58 6.30 7.04 7.79 8.55 0. 0.06 0.45.0.65.34 3.07 3.8 4.59 5.38 6.8 6.99 7.8 8.63 9.47 0.3 0.5 0.0 0.58..9.67 3.45 4.5 5.07 5.90 6.74 7.58 8.44 9.30 0.7.04 0.4 0.8.0.87.75 3.66 4.57 5.49 6.4 7.36 8.30 9.4 0.8.3.08 3.03 0.5 0.45.39.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 0.34.34.34 3.34 4.34 0.6 0.7.83.95 4.04 5.3 6. 7.8 8.35 9.4 0.47.53.58 3.64 4.69 5.73 0.75.3.77 4. 5.39 6.63 7.84 9.04 0..39.55 3.70 4.85 5.98 7. 8.5 0.8.64 3. 4.64 5.99 7.9 8.56 9.80.03.4 3.44 4.63 5.8 6.98 8.5 9.3 0.9.7 4.6 6.5 7.78 9.4 0.64.0 3.36 4.68 5.99 7.7 8.55 9.8.06.3 0.95 3.84 5.99 7.8 9.49.07.59 4.07 5.5 6.9 8.3 9.68.03.36 3.68 5.00 0.975 5.0 7.38 9.35.4.83 4.45 6.0 7.53 9.0 0.48.9 3.34 4.74 6. 7.49 0.99 6.63 9..34 3.8 5.09 6.8 8.48 0.09.67 3. 4.73 6. 7.69 9.4 30.58 0.995 7.88 0.60.84 4.86 6.75 8.55 0.8.95 3.59 5.9 6.76 8.30 9.8 3.3 3.80. Deskriptive 4. Induktive α\n 6 7 8 9 0 3 4 5 6 7 8 9 30 0.005 5.4 5.70 6.6 6.84 7.43 8.03 8.64 9.6 9.89 0.5.6.8.46 3. 3.79 0.0 5.8 6.4 7.0 7.63 8.6 8.90 9.54 0.0 0.86.5.0.88 3.56 4.6 4.95 0.05 6.9 7.56 8.3 8.9 9.59 0.8 0.98.69.40 3. 3.84 4.57 5.3 6.05 6.79 0.05 7.96 8.67 9.39 0. 0.85.59.34 3.09 3.85 4.6 5.38 6.5 6.93 7.7 8.49 0. 9.3 0.09 0.86.65.44 3.4 4.04 4.85 5.66 6.47 7.9 8. 8.94 9.77 0.60 0..5.00.86 3.7 4.58 5.44 6.3 7.9 8.06 8.94 9.8 0.70.59.48 3.36 0.5.9.79 3.68 4.56 5.45 6.34 7.4 8.4 9.04 9.94 0.84.75.66 3.57 4.48 0.4 3.98 4.94 5.89 6.85 7.8 8.77 9.73 0.69.65.6 3.58 4.54 5.5 6.48 7.44 0.5 5.34 6.34 7.34 8.34 9.34 0.34.34.34 3.34 4.34 5.34 6.34 7.34 8.34 9.34 0.6 6.78 7.8 8.87 9.9 0.95.99 3.03 4.07 5. 6.4 7.8 8. 9.5 30.8 3.3 0.75 9.37 0.49.60.7 3.83 4.93 6.04 7.4 8.4 9.34 30.43 3.53 3.6 33.7 34.80 0.8 0.47.6.76 3.90 5.04 6.7 7.30 8.43 9.55 30.68 3.79 3.9 34.03 35.4 36.5 0.9 3.54 4.77 5.99 7.0 8.4 9.6 30.8 3.0 33.0 34.38 35.56 36.74 37.9 39.09 40.6 0.95 6.30 7.59 8.87 30.4 3.4 3.67 33.9 35.7 36.4 37.65 38.89 40. 4.34 4.56 43.77 0.975 8.85 30.9 3.53 3.85 34.7 35.48 36.78 38.08 39.36 40.65 4.9 43.9 44.46 45.7 46.98 0.99 3.00 33.4 34.8 36.9 37.57 38.93 40.9 4.64 4.98 44.3 45.64 46.96 48.8 49.59 50.89 0.995 34.7 35.7 37.6 38.58 40.00 4.40 4.80 44.8 45.56 46.93 48.9 49.64 50.99 5.34 53.67 4

Testverteilungen: t-verteilung Ist X N(0; ), Z χ (n), X, Z unabhängig, so wird die Verteilung von T = X n Z als t-verteilung mit n Freiheitsgraden bezeichnet. f(x) William Sealy Gosset 876 937. Deskriptive 4. Induktive 0, 0, x 3 3 Kurzschreibweise: T t(n) Beispiel: t(0) x 0,6 = 0,60, x 0,5 = 0, x 0, = x 0,9 =,37 4 Quantilstabelle der t-verteilung mit n Freiheitsgraden α\n 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 0.35.000.376 3.078 6.34.706 3.80 63.657 0.89 0.86.06.886.90 4.303 6.965 9.95 3 0.77 0.765 0.979.638.353 3.83 4.54 5.84 4 0.7 0.74 0.94.533.3.776 3.747 4.604 5 0.67 0.77 0.90.476.05.57 3.365 4.03 6 0.65 0.78 0.906.440.943.447 3.43 3.707 7 0.63 0.7 0.896.45.895.365.998 3.499 8 0.6 0.706 0.889.397.860.306.897 3.355 9 0.6 0.703 0.883.383.833.6.8 3.50 0 0.60 0.700 0.879.37.8.8.764 3.69 0.60 0.698 0.875.363.796.0.78 3.06 0.59 0.696 0.873.356.78.79.68 3.054 3 0.59 0.694 0.870.350.77.60.650 3.0 4 0.58 0.69 0.868.345.76.45.64.977 5 0.58 0.69 0.866.34.753.3.603.947 6 0.58 0.690 0.865.337.746.0.583.9 7 0.57 0.689 0.863.333.740.0.567.898 8 0.57 0.688 0.86.330.734.0.55.878 9 0.57 0.688 0.86.38.79.093.539.86 0 0.57 0.687 0.860.35.75.086.58.845 0.57 0.686 0.859.33.7.080.58.83 0.56 0.686 0.858.3.77.074.508.89 3 0.56 0.685 0.858.39.74.069.500.807 4 0.56 0.685 0.857.38.7.064.49.797 5 0.56 0.684 0.856.36.708.059.485.787 6 0.56 0.684 0.856.35.706.055.479.779 7 0.56 0.684 0.855.34.703.05.473.77 8 0.56 0.683 0.855.3.70.048.467.763 9 0.56 0.683 0.854.3.699.045.46.756 30 0.56 0.683 0.854.30.697.04.457.750. Deskriptive 4. Induktive 43

t-verteilung vs. Normalverteilung Dichtefunktion t-verteilung mit (blau), 3 (grün) und 0 (lila) Freiheitsgraden Standardnormalverteilung (rot). Deskriptive 4. Induktive 44 Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. Zum Beispiel: σ von N(0; σ) Schätzwert: ˆϑ Vorgehen: Verwendung einer Schätzfunktion ˆΘ = g(x,..., X n ) Beachte: Der Schätzwert ˆϑ ist die Realisierung der ZV (!) ˆΘ. Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X,..., X n iid.. Deskriptive 4. Induktive 45