Kapitel 9. Mischverteilungen. 9.1 Diskrete Mischung diskreter Verteilungen

Größe: px
Ab Seite anzeigen:

Download "Kapitel 9. Mischverteilungen. 9.1 Diskrete Mischung diskreter Verteilungen"

Transkript

1 Kapitel 9 Mischverteilungen Bei der Modellanpassung versucht man in der Regel ein einfaches Modell (beispielsweise die Poissonverteilung) zur Beschreibung der Daten zu verwenden. Häufig zeigt sich jedoch, dass ein vermutetes Modell dazu nicht in der Lage ist. Beispielsweise kann die grafische Darstellung der Häufigkeiten einer Stichprobe multimodal sein, was nicht zur unimodalen Gestalt der Poissonverteilung passt. Eine mögliche Erklärung für die Multimodalität ist, dass die Population, aus der die Daten stammen, heterogen ist. Damit ist gemeint, dass die Population aus verschiedenen Gruppen (Subpopulationen) besteht, bei denen sich die Verteilung des betrachteten Merkmals unterscheidet und so zu der Multimodaltät führt. Betrachtet man beispielsweise die Anzahl von Zigarettenpackungen, die von einzelnen Kunden eines Supermarkts gekauft werden, so wäre ein Histogramm der Daten wahrscheinlich nicht unimodal und somit das zugehörige Modell keine Poissonverteilung. Es ist offensichtlich, dass die betrachtete Grundgesamtheit aus zwei Gruppen besteht, den Rauchern und den Nichtrauchern und es ist auch offensichtlich, dass sich die Verteilung des Merkmals in den beiden Gruppen unterscheidet. Es ist gut möglich, dass die (bedingte, d.h. gegeben Raucher bzw. Nichtraucher) Verteilung jeweils vom Typ Poisson ist, die unbedingte Verteilung des Merkmals ist jedoch eine Mischverteilung. Wir wollen in diesem Kapitel die grundlegenden Eigenschaften von Mischverteilungen besprechen, die Sie in der englischen Literatur unter den Begriffen,,Mixture Models,,,Mixture Distributions (siehe z.b. Kotz und Johnson (1985), Band 5, wo Sie viele interessante Anwendungsbeispiele finden) oder,,compound Distributions finden (siehe auch Everitt und Hand (1981)). Als wesentliche Literaturquelle sei das Buch,,Computer Assisted Analysis of Mixtures and Applications (Böhning D., 1999) erwähnt. Die in diesem Buch beschriebene Software C.A.MAN kann kostenlos von der Hompage des Autors ( heruntergeladen werden. 9.1 Diskrete Mischung diskreter Verteilungen Definition 9.1 Seien È ½ ܵ und È ¾ ܵ Wahrscheinlichkeitsfunktionen und sei ¼ Ö ½ Dann heißt È Üµ Ö È ½ ܵ ½ ÖµÈ ¾ ܵ die Mischverteilung von È ½ und È ¾. 160

2 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 161 Abbildung 9.1 zeigt zwei diskrete Verteilungen È ½ und È ¾ und dazu in der dritten Zeile die Mischung È ¼ È ½ ¼È ¾ 0.6 P P P P Abbildung 9.1: Diskrete Mischung zweier Verteilungen, Ö ¼ Beispiel 9.1 Wir betrachten zwei Münzen, für die gelten möge È,,Kopf µ ¼½ für Münze 1. È,,Kopf µ ¼ für Münze 2. Man wählt zufällig eine der Münzen und wirft sie viermal. Sei die Anzahl der,,köpfe. Die Münze 1 werde mit Wahrscheinlichkeit Ö ausgewählt, d.h. È Münze 1 gewähltµ Ö Dann gilt für die Wahrscheinlichkeitsfunktion von È Üµ È Ü Münze 1 gewählt Ü Münze 2 gewähltµ È ÜMünze 1µÈ Münze 1µ È ÜMünze 2µÈ Münze 2µ Ü ¼½ Ü ½ ¼½µ Ü Ö Ü ¼ Ü ½ ¼µ Ü ½ Öµ Abbildung 9.2 zeigt die beiden Wahrscheinlichkeitsfunktionen zusammen mit ihrer Mischung für Ö ¼.

3 162 KAPITEL 9. MISCHVERTEILUNGEN 0.8 P P P P Abbildung 9.2: Diskrete Mischung zweier Binomialverteilungen, Ö ¼ Satz 9.1 Die Mischung ist wieder eine Wahrscheinlichkeitsfunktion. È Üµ Ö È ½ ܵ ½ ÖµÈ ¾ ܵ Beweis: a) È Üµ ¼ für alle Ü, da È ½ ܵ ¼ È ¾ ܵ ¼ für alle Ü, Ö ¼ und ½ Ö ¼. b) È Üµ ¼ für höchstens abzählbar unendlich viele Ü, da È ½ ܵ ¼ und È ¾ ܵ ¼ für jeweils höchstens abzählbar unendliche viele Ü. c) Ü È Üµ Ü Ö Ü ÖÈ ½ ܵ ½ ÖµÈ ¾ ܵµ È ½ ܵ ½ Öµ ßÞ Ð ½ Ö ½ Öµ ½ È ¾ ܵ Ü ßÞ Ð ½

4 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 163 Beispiel 9.2 Die Verteilung des Geschlechts von Zwillingen ist eine Mischverteilung (siehe Blischke (1978)). Es gibt drei Klassen von Zwillingen: Ï Ï Ï Å ÅÅ Das führt zu einer Trinomialverteilung. Dabei steht W für weiblich und M für männlich. Ferner gibt es zweieiige und eineiige Zwillinge. Die Geschlechter zweieiiger Zwillinge sind unabhängig voneinander. Daher ist die Verteilung: ¾ ¾ ½ µ ½ µ ¾ Eineiige Zwillinge haben jedoch das gleiche Geschlecht. Daher ist die Verteilung des Geschlechts für eineiige Zwillinge: ¼ ½ µ wobei die Wahrscheinlichkeit einer Mädchengeburt ist. Das Geschlecht von Zwillingen ist eine Mischung dieser beiden Verteilungen, wobei der Mischungsparameter Ö bzw. ½ Ö durch den Anteil der zweieiigen Zwillinge bzw. eineiigen Zwillinge bestimmt wird. Definition 9.2 (Diskrete Mischung mit I Komponenten) Seien È ½ ܵ È ¾ ܵ È Á ܵ jeweils Wahrscheinlichkeitsfunktionen. Eine diskrete Mischung dieser Wahrscheinlichkeitsfunktionen ist dann definiert durch È Üµ Ö ½ È ½ ܵ Ö ¾ È ¾ ܵ Ö Á È Á ܵ Á ½ Ö È Üµ È wobei ¼ Ö ½ für alle und Á Ö ½ ½ Satz 9.2 Seien È ½ ܵ È ¾ ܵ È Á ܵ jeweils Wahrscheinlichkeitsfunktionen und sei È Üµ die Mischverteilung bezüglich der Mischungsparameter Ö ½ Ö ¾ Ö Á. Das -te ¼ Moment der -ten Verteilung sei mit µ bezeichnet. Dann gilt für das -te Moment der Mischverteilung ¼ Ö ½ ¼ ½µ Ö ¾ ¼ ¾µ Ö Á ¼ Áµ Á ½ Ö ¼ µ Insbesondere gilt für den Erwartungswert bezüglich einer Mischverteilung µ Ö ½ ½µ Ö ¾ ¾µ Ö Á Áµ

5 164 KAPITEL 9. MISCHVERTEILUNGEN wobei µ der Erwartungswert bezüglich der -ten Komponente ist. Auch für die Varianzen kann man ein ähnliches Resultat herleiten, das jedoch komplizierter wird. Wir formulieren es nur für die Mischung mit zwei Komponenten. Satz 9.3 Seien È ½ und È ¾ zwei Wahrscheinlichkeitsfunktionen mit Erwartungswerten ½µ und ¾µ und Varianzen ¾ ½µ und ¾ ¾µ. Dann gilt für die Varianz ¾ der Mischverteilung mit den Mischungsparametern Ö ½ und Ö ¾ ¾ Ö ½ ¾ ½µ Ö ¾ ¾ ¾µ Ö ½ Ö ¾ ½µ ¾µµ ¾ Beweis: Wenn man im folgenden beachtet, dass ¼ ¾ ¾ Var µ µµ ¾ ¾ ¼ ½ µ¾ und Ö ¾ ½ Ö ½ gilt, so folgt: ¾ ¼ ¾ ¼ ½ µ¾ Ö ½ ¾ ½µ ½µ ¾ µ Ö ¾ ¾ ¾µ ¾µ ¾ µ Ö ½ ½µ Ö ¾ ¾µµ ¾ Ö ½ ¾ ½µ Ö ¾ ¾ ¾µ Ö ½ ½µ ¾ Ö ¾ ¾µ ¾ Ö ¾ ½ ½µ¾ ¾Ö ½ Ö ¾ ½µ ¾µ Ö ¾ ¾ ¾µ¾ Ö ½ ¾ ½µ Ö ¾ ¾ ¾µ Ö ½ ½ Ö ½ µ ½µ ¾ Ö ¾ ½ Ö ¾ µ ¾µ ¾ ¾Ö ½ Ö ¾ ½µ ¾µ Ö ½ ¾ ½µ Ö ¾ ¾ ¾µ Ö ½ Ö ¾ ½µ ¾ ¾ ½µ ¾µ ¾µ ¾ µ Ö ½ ¾ ½µ Ö ¾ ¾ ¾µ Ö ½ Ö ¾ ½µ ¾µµ ¾ Beispiel 9.3 Das folgende Beispiel ist von Böhning, D. (1999, S. 3 5) übernommen. Untersucht wird die Einführung eines neuen Süßwarenprodukts. Im Rahmen der Markteinführung wird die Anzahl verkaufter Packungen (im folgenden mit bezeichnet) in verschiedenen Geschäften erhoben. Die nachfolgende Tabelle zeigt die Ergebnisse der Datenerhebung. Anzahl verkaufter Packungen Häufigkeit Anzahl verkaufter Packungen Häufigkeit Typischerweise verwendet man zur Beschreibung von Zähldaten unter homogenen Bedingungen in der Population die Poissonverteilung, d.h. È Üµ Ü Ü. Abbildung 9.3 zeigt jedoch eine bimodale Verteilung der Daten. Mit anderen Worten ist die Population heterogen, sie besteht aus unterschiedlichen Subpopulationen. Schätzt man die Anzahl der Komponenten, die Parameter der einzelnen Poissonverteilungen sowie die Mischungsparameter mit Hilfe des Programms C.A.MAN (zur Parameterschätzung siehe Abschnitt 9.4.3), erhält man fünf Komponenten: Ö ½ ¼¼½ Ö ¾ ¼¾ Ö ¼¼ Ö ¼½ Ö ¼½¼ ½ ¼¼¼ ¾ ¼¾½ ¼¼ ½¾

6 9.1. DISKRETE MISCHUNG DISKRETER VERTEILUNGEN 165 Häufigkeit Anzahl verkaufter Packungen Abbildung 9.3: Verteilung der verkauften Packungen Abbildung 9.4 zeigt die relativen Häufigkeiten der empirischen Daten gemeinsam mit einer angepassten Poissonverteilung sowie der angepassten Mischverteilung. Wie zu erkennen ist, liefert die Mischverteilung eine wesentlich bessere Beschreibung der Daten Daten Mischung von Poissonverteilungen Poissonverteilung Anzahl verkaufter Packungen Abbildung 9.4: Verteilung der verkauften Packungen Man kann die Ergebnisse der Analyse auch anders interpretieren: Es gibt ein weiteres Merkmal, das die Geschäfte beschreibt, die,,verkaufsfähigkeit. Man kann diese als kategoriales Merkmal interpretieren, das die Fähigkeit der Geschäfte beschreibt, das neue Produkt zu verkaufen. Hätte man vor der Untersuchung gewusst, wie die einzelnen Geschäfte hinsichtlich dieses Merkmals zu beurteilen wären, hätte man für die einzelnen Kategorien jeweils Poissonverteilungen anpassen können. Somit kann man sagen, dass die Vernachlässigung einer erklärenden Variable zu einer Mischung von Poissonverteilungen führt.

7 166 KAPITEL 9. MISCHVERTEILUNGEN 9.2 Diskrete Mischung stetiger Verteilungen Definition 9.3 Seien ½ ܵ und ¾ ܵ zwei Dichtefunktionen und sei ¼ Ö ½. Dann heißt ܵ Ö ½ ܵ ½ Öµ ¾ ܵ die Dichtefunktion der Mischverteilung. Satz 9.4 Die Mischung ist wieder eine Dichtefunktion. ܵ Ö ½ ܵ ½ Öµ ¾ ܵ Beweis: Da ½ und ¾ Dichtefunktionen sind, gilt a) ܵ Ö ½ ܵ ½ Öµ ¾ ܵ ¼ für alle Ü, da ½ ܵ ¼ ¾ ܵ ¼ für alle Ü und Ö ¼. b) ½Ê ½ ÜµÜ Ö ½ ½ ÜµÜ ½ Öµ ½ ½ ßÞ Ð ½ ßÞ Ð ½ ½ ¾ ÜµÜ Ö ½ Öµ ½. c) Da ½ ܵ und ¾ ܵ bis auf endlich viele Stellen stetig sind, ist ܵ auch stetig bis auf endlich viele Stellen. Ð Mischverteilungen kommen oft vor, wenn man ein unbeobachtetes Merkmal hat. Stellen Sie sich vor, Sie haben eine zufällige Stichprobe aus der Grundgesamtheit aller Göttinger Studenten genommen und deren Körpergöße gemessen. Wie wird ein vernünftiges Modell für die Körpergröße der Göttinger Studenten aussehen? Zunächst gibt es unter den Studierenden in Göttingen Frauen und Männer. Es ist allgemein bekannt, dass die Körpergröße der Frauen im Durchschnitt kleiner ist als die Körpergröße der Männer. Weiterhin ist es vernünftig anzunehmen, dass die Körpergröße von Frauen und von Männern, jeweils für sich allein genommen, normalverteilt ist. Dies führt zu dem folgenden Modell ܵ Ö ½ Ü ¾ µ ½ Öµ ¾ Ü Å ¾ Å µ wobei Ö der Anteil der Frauen in der Grundgesamtheit der Studierenden in Göttingen ist und ½ bzw. ¾ Dichten der Normalverteilung mit den Parametern und ¾ bzw. Å und Å ¾ für Frauen bzw. Männer sind. (Dieses Beispiel wurde nach einem Beispiel von Everitt in Johnson und Kotz (1985) abgeändert.) In diesem Beispiel hätte man das Geschlecht der

8 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 167 f f f f Abbildung 9.5: Diskrete Mischung zweier stetiger Verteilungen, Ö ¼ Studierenden erfassen können und die beiden Normalverteilungen separat anpassen können. Es gibt jedoch Situationen, in denen es nicht möglich ist, das Geschlecht festzustellen, z.b. bei wild lebenden Tieren. Ein anderes bei wild lebenden Tieren nicht beobachtbares Merkmal ist das Alter, das Einfluss hat auf die Größe der Tiere oder z.b. die Länge von Fischen. Ein anderer Bereich, in dem Mischverteilungen angewendet werden, ist die Analyse von Ausfallzeiten, z.b. von elektronischen Bauteilen. Hier gibt es Ausfälle aufgrund verschiedener Ursachen, z.b. plötzliche Ausfälle (meist in einem frühen Stadium) oder natürliche Ausfälle (Altersausfälle). Die resultierende Verteilung wird eine Mischverteilung sein. Als mögliches Modell wurde hier die diskrete Mischung von zwei Exponentialverteilungen betrachtet. Beispiel 9.4 Die Zufallsvariable messe eine Länge bei Tieren. Die Zufallsvariable sei das Geschlecht, das nicht beobachtet werden kann. Sei ½ ܵ die Dichtefunktion der Länge für männliche Tiere, ¾ ܵ die Dichtefunktion der Länge für weibliche Tiere, Ö È Männliches Tierµ, ½ Ö È Weibliches Tierµ. Dann ist die Dichtefunktion der Mischverteilung ܵ È Männliches Tierµ ½ ܵ È Weibliches Tierµ ¾ ܵ Ö ½ ܵ ½ Öµ ¾ ܵ

9 168 KAPITEL 9. MISCHVERTEILUNGEN 0.15 Nur weibliche Tiere Nur maennliche Tiere Alle Abbildung 9.6: Histogramme der Kieferlängen Abbildung 9.6 zeigt unten ein Histogramm mit ¾¼ Beobachtungen der Kieferlängen prähistorischer Schakale. In diesem Fall weiß man, dass ½¼ der Schakale männlich und ½¼ weiblich waren. Die jeweiligen Histogramme sind ebenfalls in Abbildung 9.6 dargestellt. An beide Stichproben wurden separat zwei Normalverteilungen angepasst. Abbildung 9.7 zeigt die angepassten Verteilungen und die Mischung dieser beiden Verteilungen. In diesem Fall ist Ö ½¾. Definition 9.4 Eine diskrete Mischung mit Á stetigen Komponenten hat die Dichtefunktion ܵ Á ½ Ö Üµ wobei ½ ܵ ¾ ܵ Á ܵ Dichtefunktionen sind und Ö ½ Ö ¾ Ö Á ½ ¼ Ö ½µ einer diskreten Mischung stetiger Verteilungen gilt Satz 9.2 entspre- Für die Momente ¼ chend. Beispiel 9.5 Abbildung 9.8 zeigt ein Histogramm des Benzinverbrauchs. Es handelt sich um einen bei S-PLUS mitgelieferten Datensatz. Bei jeder neuen Tankfüllung, beginnend mit dem Neukauf des

10 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN Nur weibliche Tiere Nur maennliche Tiere Alle Abbildung 9.7: Angepasste Dichtefunktionen und Mischung dieser Verteilungen Wagens wurden die gefahrenen Meilen und die verbrauchten Gallonen notiert. Anders als in Deutschland wird in den USA der Benzinverbrauch in Meilen pro Gallone gemessen. Der Benzinverbrauch gibt also an, wieviel Meilen mit einer Gallone gefahren wurden Benzinverbrauch (Meilen/Gallone) Abbildung 9.8: Histogramm des Benzinverbrauchs Die R-Befehle sind: Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(verbrauch, probability=t, xlab="benzinverbrauch (Meilen/Gallone)") Abbildung 9.9 zeigt eine mit nichtparametrischen Methoden geschätzte Dichtefunktion. Man kann diese Dichtefunktion als eine Glättung des Histogramms auffassen. Die R-Befehle sind:

11 170 KAPITEL 9. MISCHVERTEILUNGEN 0.3 Dichte Benzinverbrauch (Meilen/Gallone) Abbildung 9.9: Geschätzte Dichtefunktionen des Benzinverbrauchs Verbrauch<-car.miles/car.gals # Berechnet Verbrauch plot(density(verbrauch, width=2.5), xlab="benzinverbrauch (Meilen/Gallone)", ylab="dichte ") # density schätzt Dichte Diese Darstellung legt die Vermutung nahe, dass es sich hier um eine Mischung von zwei Verteilungen handelt, vermutlich zwei Normalverteilungen. Links die Füllungen mit großem Verbrauch, die vermutlich auf Fahrten im Stadtverkehr zurückzuführen sind, rechts die Füllungen mit geringem Verbrauch, vermutlich Fahrten auf Autobahnen. Abbildung 9.10 zeigt das Histogramm zusammen mit der geschätzten Dichtefunktion Benzinverbrauch (Meilen/Gallone) Die R-Befehle sind: Abbildung 9.10: Histogramm und geschätzte Dichtefunktion Verbrauch<-car.miles/car.gals # Berechnet Verbrauch hist(verbrauch, probability=t, xlab="benzinverbrauch (Meilen/Gallone)") lines(density(verbrauch, width=2)) Beispiel 9.6 Abbildung 9.11 zeigt mögliche Dichtefunktionen für Mietpreise für ½ ¾ -Zimmerwohnungen und die daraus resultierende Mischverteilung. Dabei wurde und Ö ½ Ö ¾ Ö Ö ½ angenommen. Es sei angemerkt, dass es sich um rein fiktive Dichtefunktionen handelt.

12 9.2. DISKRETE MISCHUNG STETIGER VERTEILUNGEN 171 Dichte * Zimmer 2-Zimmer 3-Zimmer 4-Zimmer Mieten Mischung Abbildung 9.11: Mögliche Dichtefunktionen für Mietpreise Die folgenden Ausführungen beziehen sich auf die Mischung von zwei Normalverteilungen. Es geht unter anderem um die Gestalt der Mischverteilung, inbesondere ob diese bimodal oder unimodal ist. 0.3 f(x) x Abbildung 9.12: Mischung zweier Normalverteilungen mit Ö ¼ ½ ¼ ¾ ½ ½ ¾ ½ und ¾ ¾ ½ Die Dichtefunktion der Mischung zweier Normalverteilungen ist: ܵ Ô ½ Ö½ Ü ½µ ¾ ¾ ¾½ Ö¾ Ü ¾µ ¾ ¾¾ ¾ ¾ ½ ¾ ½ Ü ½ Dabei ist ¼ Ö ½ Ö ¾ ½ und Ö ½ Ö ¾ ½, und ½ ¾ und ¾ ½ ¾ ¾ sind die Erwartungswerte bzw. Varianzen der einzelnen Komponenten. Die Abbildungen 9.12 und 9.13 zeigen Mischungen von zwei Normalverteilungen. Die Dichtefunktion in Abbildung 9.12 ist unimodal (d.h. hat nur ein Maximum), während die Dichtefunktion in Abbildung 9.13 bimodal ist. Bei Everitt und Hand (1981) finden Sie verschiedene hinreichende Kriterien für die Unimodalität der Mischung zweier Normalverteilungen. Dort wird auch die Schätzung der Parameter nach der Methode der Momente und auch nach der Maximum-Likelihood-Methode beschrieben.

13 172 KAPITEL 9. MISCHVERTEILUNGEN 0.6 f(x) x Abbildung 9.13: Mischung zweier Normalverteilungen mit Ö ¼ ½ ¼ ¾ ½ ½ ¾ ¾ und ¾ ¾ ¼¾ Beispiel 9.7 Abbildung 9.14 zeigt die täglichen Werte des New York Stock Exchange, ein Aktienindex Index/ Handelstag Abbildung 9.14: New York Stock Exchange Composite Index vom Bezeichnen wir den Wert zum Zeitpunkt Ø mit Ô Ø, so ist die tägliche prozentuale Rendite gegeben durch Ö Ô Ø Ô Ø ½ Ø ½¼¼ Ô Ø ½ Diese Werte sind in Abbildung 9.15 dargestellt. Man erkennt in dieser Abbildung ruhige Phasen mit kleinen täglichen Schwankungen und unruhige Phasen mit großen Schwankungen. Abbildung 9.16 zeigt ein Histogramm der prozentualen Renditen mit einer angepassten Normalverteilung. Die Anpassung ist schlecht. Das Histogramm ist zu schmal und im Zentrum zu hoch. In Abbildung 9.17 wurde daher eine Mischung von zwei Normalverteilungen angepasst. Diese Anpassung ist wesentlich besser.

14 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN Prozentuale Rendite Handelstag Abbildung 9.15: Prozentuale Rendite des New York Stock Exchange Composite Index vom Rendite Abbildung 9.16: Histogramm der Renditen und angepasste Normalverteilung Abbildung 9.18 zeigt die beiden Komponenten. Die Kurve (A) ist schmal und hoch, hat also eine kleine Varianz, sie entspricht den täglichen Renditen in den ruhigen Phasen. Die Kurve (B) ist flacher und breiter, hat also eine größere Varianz. Sie entspricht den unruhigen Phasen. Die beiden Verteilungen wurden im Verhältnis 3:1 gemischt. 9.3 Stetige Mischungen diskreter Verteilungen Die Beta-Binomialverteilung Bei Fisher (Statistical Methods for Research Workers, 1925) findet man das folgende Beispiel:

15 174 KAPITEL 9. MISCHVERTEILUNGEN Rendite Abbildung 9.17: Histogramm der Renditen mit angepasster Mischverteilung (A) N(8;0.16) (B) N(-3;1.21) Mischverteilung 0.75 (A) + 5 (B) Rendite Abbildung 9.18: Die angepasste Mischverteilung und ihre Komponenten Beispiel 9.8 Es wird die Anzahl der Jungen in ¼ deutschen Familien mit Kindern betrachtet. Die Anzahl der Jungen insgesamt ist ¾¾½ ¼¾. Damit ist der Anteil der Jungen ¾¾½ ¼¾ ¼ µ ¼½ Wenn die Ereignisse Jungen- und Mädchengeburt unabhängig sind, dann sollte die Anzahl der Jungen in einer Familie mit Kindern binomialverteilt sein mit den Parametern Ò und ¼½. In der Tabelle wird die ¾ -Prüfgröße berechnet. Das Ergebnis zeigt, dass die Anzahl der Jungen nicht binomialverteilt ist. Der kritische Wert der ¾ -Prüfgröße bei Freiheitsgraden für das Signifikanzniveau «¼¼½ ½¼ ¾ ist ½, also kleiner als der Wert der Prüfgröße ½. Auch der kritische Wert für «½¼ ½, nämlich ist noch kleiner als ½. Abbildung 9.19 zeigt die Wahrscheinlichkeitsfunktion der Binomialverteilung und die tatsächlich beobachteten Anteile. Die Vermutung liegt nahe, dass die Wahrscheinlichkeit für eine Jungengeburt von Familie zu Familie verschieden ist und um einen Mittelwert von ¼½ variiert. Wir betrachten daher das folgende Modell: Sei die Anzahl der Jungen in Familie (mit Ò Kindern), ½ ¾ Á.

16 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 175 Anzahl Jungen Anzahl Familien Erwartet Abweichung Beitrag zu ¾ Summe: Die Zufallsvariable ist binomialverteilt mit den Parametern Ò und, d.h. Ò µ ½ ¾ Á Der Parameter ist die Realisation einer Zufallsvariablen. Die Zufallsvariable ist betaverteilt, d.h. «µ Beobachtet Binomial Abbildung 9.19: Beobachtete Anteile und angepasste Binomialverteilung Die obigen Annahmen besagen, dass die bedingte Verteilung von, gegeben, eine Binomialverteilung mit den Parametern Ò und ist, d.h. Ò È Üµ Ü ½ µ Ò Ü Ü ¼ ½ ¾ Ò Ü Die Randverteilung von ist eine Betaverteilung, d.h. µ ½ «µ «½ ½ µ ½ ¼ ½ «¼ ¼µ Die Randverteilung von erhält man auf die folgende Weise

17 176 KAPITEL 9. MISCHVERTEILUNGEN È Üµ ½ ¼ ½ ¼ È Üµ µ Ò Ü Ü ½ µ Ò Ü «½ ½ µ ½ «µ Ò ½ ½ Ü «½ ½ µ Ò Ü ½ Ü «µ ¼ Ò Ü «Ò ܵ Ü ¼ ½ Ò Ü «µ Die Verteilung von heißt Beta-Binomialverteilung. Abbildung 9.20 zeigt die beobachteten Anteile und die angepasste Beta-Binomialverteilung Beobachtet Beta Binomial Abbildung 9.20: Beobachtete Anteile und angepasste Beta-Binomialverteilung Anzahl Jungen Anzahl Familien Erwartet Abweichung Beitrag zu ¾ Summe: Die Anpassung ist nur geringfügig besser geworden. Ein Blick auf die Tabelle mit den beobachteten und erwarteten Häufigkeiten zeigt, dass die Anpassung in der Mitte (Ü ) sogar schlechter geworden ist, während sie im übrigen Bereich besser geworden ist. Der ¾ -Wert ist von ½ gefallen auf ½¾ gefallen. Dieser Wert ist immer noch so groß, dass die Hypothese, dass die Daten einer

18 9.3. STETIGE MISCHUNGEN DISKRETER VERTEILUNGEN 177 Betabinomialverteilung genügen, abzulehnen ist. Der kritische Wert der ¾ -Verteilung bei Freiheitsgraden für «¼¼½ ist ½¼. Die Parameter «und Ø der Betabinomialverteilung wurden nach der Maximum-Likelihood-Methode geschätzt zu «½¼¾ und ¼. Es wäre also eine weitere Analyse dieser Daten nötig. Definition 9.5 Die Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung ist definiert durch È Üµ Ò Ü Ü «Ò ܵ «µ ¼ Ü ¼ ½ Ò sonst Die Beta-Binomialverteilung hat drei Parameter, für die gelten muss Ò ¾ ÁÆ «¼ und ¼ Nach dem vorangehenden Beispiel kann die Beta-Binomialverteilung als stetige Mischung der Binomialverteilung aufgefasst werden, wenn der Parameter eine Betaverteilung besitzt. Für die Wahrscheinlichkeitsfunktion und die Verteilungsfunktion der Beta-Binomialverteilung kann man auf die folgende Weise R-Funktionen schreiben. dbbinom<-function(x, n, a, b) # Wahrscheinlichkeitsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Vektor # Verwendete Funktion beta siehe Seite 53 f1<-gamma(n+1)/(gamma(x+1)*gamma(n-x+1)) # Binomialkoeffizient f2<-beta(x+a,n+b-x) # Betafunktion im Zähler f3<-beta(a,b) # Betafunktion im Nenner f1*f2/f3 pbbinom<-function(x, n, a, b) # Verteilungsfunktion der Beta-Binomialverteilung # Parameter n, a, b; x Zahl sum(dbbinom(0:x, n, a, b) Die negative Binomialverteilung Die negative Binomialverteilung kann als stetige Mischung der Poissonverteilung aufgefasst werden, wenn man annimmt, dass der Parameter der Poissonverteilung eine Zufallsvariable mit einer Gammaverteilung ist. (Entgegen der sonst verwendeten Notation bezeichnen wir den Parameter der Poissonverteilung hier mit, da auch in der Gammaverteilung auftaucht.) Wir nehmen also an:

19 178 KAPITEL 9. MISCHVERTEILUNGEN Die bedingte Verteilung von, gegeben, ist eine Poissonverteilung mit dem Parameter. Die Zufallsvariable besitzt eine Gammaverteilung mit den Parametern und. Die obigen Annahmen besagen, dass die bedingte Verteilung von, gegeben, eine Poissonverteilung mit dem Parameter ist, d.h. È Üµ Ü Ü Ü ¼ ½ ¾ Die Randverteilung von ist eine Gammaverteilung, d.h. µ ½ µ ¼ ¼ sonst Die Randverteilung von erhält man auf die folgende Weise È Üµ ½ ¼ È Üµ µ Ü µ ½ ¼ Ü ½ ½ µ ½ Ü ¼ ½ Ü µ Wir verwenden die Substitution Dann ist oder Þ ½ Die Grenzen ändern sich wie folgt: Þ ½ µ Þ ½ und Þ ½ µ Wenn ¼, ist Þ ¼. Wenn ½, ist Þ ½. Damit erhalten wir È Üµ Ü µ ½ ¼ Ü µ ½ µ Ü Ü µ ½ µ Ü Ü ½ ½ Þ Ü ½ ½ µ Ü ½ Þ Þ ½ µ ½ ¼ ½ Þ Ü ½ Þ Þ Ü µ ½ ½ Ü ½µ Ü ½µ Ü ½ µ Ü

20 9.4. ML SCHÄTZUNG BEI MISCHVERTEILUNGEN 179 Im vorletzten Schritt wurde µ ½µ und Ü µ Ü ½µ verwendet (siehe Satz 3.9) und schließlich Ü ½ ½ Ü ½µ Ü ½µ Wir haben also die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung mit den Parametern Ö und ½ µ erhalten. Die negative Binomialverteilung mit den Parametern Ö und hatte die Wahrscheinlichkeitsfunktion Ü Ö ½ È Üµ Ö ½ µ Ü Ü ¼ ½ ¾ Ö ½ In Analogie zum Namen Beta-Binomialverteilung findet man für die negative Binomialverteilung auch den Namen Gamma-Poissonverteilung. Die negative Bimomialverteilung hat gegenüber der Beta-Binomialverteilung den Vorteil, dass sie nur zwei statt drei Parameter hat. 9.4 ML Schätzung bei Mischverteilungen Einführung Bei den nachfolgenden Erläuterungen zur Parameterschätzung werden zwei Fälle unterschieden. Zum einen wird der Fall betrachtet, in dem die Anzahl der Mischungskomponenten bekannt ist und zum anderen der Fall, in dem die Anzahl der Subpopulationen unbekannt ist. Die Fälle unterscheiden sich nur unwesentlich, wenn man die Likelihoodfunktionen betrachtet. Inhaltlich sind die Fälle aber unterschiedlich zu interpretieren. Im ersten Fall hat man eine klare Vorstellung aus welchen unterschiedlichen Gruppen die Population besteht. Im zweiten Fall hingegen ist die Anzahl der Subpopulationen ein Ergebnis der Datenanalyse. Erst nach der Parameterschätzung erhält man Informationen darüber, aus welchen Gruppen sich die Population zusammensetzen könnte. Alle folgenden Ausführungen beziehen sich auf diskrete Mischungen Die Likelihoodfunktion für Mischverteilungen Zunächst wird der Fall betrachtet, bei der die Anzahl der Mischungskomponenten als gegeben betrachtet wird. Sei È Ü µ È Á ½ Ö È Ü µ die Wahrscheinlichkeitsfunktion einer diskreten Mischung von einparametrigen diskreten Zufallsvariablen mit den Parametern und seien Ü Ü ½ Ü ¾ Ü Ò µ die Beobachtungen, an die die Mischverteilung angepasst werden soll, dann gilt:

21 180 KAPITEL 9. MISCHVERTEILUNGEN Satz 9.5 Ä ½ Á Ö ½ Ö Á ܵ ist die Likelihoodfunktion der Mischverteilung. Ò Á ½ ½ Ö È Ü µ Um die die Likelihoodfunktion über die Parameter der einzelnen Mischungskomponenten, ½ Á, sowie über die Mischungsparameter Ö, ½ Á, zu maximieren. Insgesamt sind also ¾Á ½ Parameter zu schätzenschätzer zu erhalten, ist. (Der letzte Mischungsparameter ergibt sich aus den übrigen, da die Summe eins betragen muss.) Leider ist es nicht möglich, das Problem analytisch zu lösen, d.h. das gewohnte Vorgehen (Ableiten und Nullsetzen) versagt. In diesem Fall muss die Maximierung numerisch mit entsprechender Software durchgeführt werden (siehe übernächster Abschnitt). Die vorgestellte Likelihoodfunktion gilt für diskrete Zufallsvariablen. Das analoge Ergebnis für stetige Zufallsvariablen erhält man, wenn man in der Likelihoodfunktion die Wahrscheinlichkeitsfunktionen durch Dichtefunktionen ersetzt: È Á ½ Ö Ü µ. Beispiel 9.9 Im folgenden Beispiel wird gezeigt, wie die Likelihoodfunktion aufzustellen ist, wenn an gegebene Daten eine Mischverteilung angepasst werden soll und die Anzahl der Mischungskomponenten bekannt ist. An die folgenden zehn Beobachtungen soll eine aus zwei Exponentialverteilungen bestehende Mischverteilung angepasst werden: Die anzupassende Dichtefunktion lautet ܵ Ö ½ ½Ü ½ Öµ¾ ¾Ü und man erhält für die gemeinsame Verteilung der Beobachtungen als Funktion der Parameter, also für die Likelihoodfunktion: ½¼ Ä ½ ¾ Öµ Ö ½ ½Ü ½ Öµ ¾ ¾Ü ½ Um die Parameterschätzer zu erhalten, ist die Funktion über ½ ¾ und Ö zu maximieren. Das Maximierungsproblem ist analytisch nicht zu lösen. Die numerische Lösung erhält man beispielsweise mit dem Programm C.A.MAN. Die Schätzwerte sind: Ö ¼, ½ ½¼½ und ¾ ½½¼¼. Tatsächlich sind die Daten aus einer Mischverteilung mit Ö ¼, ½ ½ und ¾ ½½¼ simuliert worden. Wenn die Anzahl der Mischungskomponenten unbekannt ist, erfolgt die Konstruktion der Likelihoodfunktion analog zum oben dargestellten Vorgehen. Der Unterschied zwischen den Fällen liegt darin, dass die Funktion über einen weiteren Parameter, nämlich Á, zu maximieren ist. Man könnte zunächst vermuten, dass die Likelihoodfunktion ein Maximum annimmt, wenn für jede (unterschiedliche) Beobachtung eine Mischungskomponente verwendet wird. Dies ist jedoch nicht der Fall, was anhand des nachfolgenden Beispiels verdeutlicht wird.

22 9.4. ML SCHÄTZUNG BEI MISCHVERTEILUNGEN 181 Beispiel 9.10 Das folgende Beispiel ist so konstruiert, dass angedeutet wird, welche Anzahl von Komponenten zu einer maximalen Likelihood führt. Betrachtet werden zwei Beobachtungen, Ü ½ ½ und Ü ¾ ¾, an die eine Mischverteilung angepasst werden soll, die aus Poissonverteilungen besteht. Zunächst wird davon ausgegangen, dass ein Parameter ausreicht, um eine maximale Likelihood zu erhalten. Dass dies tatsächlich so ist, verdeutlicht Abbildung Die Abbildung ist wie folgt zu interpretieren. An den Achsen sind die Wahrscheinlichkeiten der Beobachtungen (È Ü ½ ½µ und È Ü ¾ ¾µ) zu sehen. Diese Wahrscheinlichkeiten nehmen je nach Parameter unterschiedliche Werte an. Plottet man È ½ µ gegen È ¾ µ für alle möglichen Werte von, d.h. ¾ ¼ ½, so erhält man die fett gezeichnete Blase. Sie beschreibt alle möglichen Kombinationen von È ½ µ und È ¾ µ bei Verwendung eines Parameters, d.h. einer Mischungskomponente. Auf den eingezeichneten Hyperbeln gilt È ½ µ È ¾ µ ist konstant und je weiter außen die Hyperbel liegt, desto größer ist der Wert der Konstanten. Beispielsweise gilt auf der höchsten Hyperbel in Abbildung 9.21 È ½ µ È ¾ µ ¼½. Allgemein ist das Produkt È ½ µ È ¾ µ die gemeinsame Wahrscheinlichkeit der Beobachtungen, also die Likelihood. Graphisch ist der ML Schätzer demnach zu bestimmen, indem man die Hyperbel findet, die die Blase tangiert, weil man für weiter am Ursprung liegende Hyperbeln die Likelihood noch erhöhen kann und weiter oben liegende Hyperbeln nicht zulässig sind. P(2) L=3 L=0.13 L max = P(1) Abbildung 9.21: Parameterschätzung bei Mischverteilungen I. Die Frage, ob durch die Einführung zweier weiterer Parameter, d.h. die Verwendung einer Mischung aus zwei Poissonverteilungen die Likelihood erhöht werden kann, muss mit nein beantwortet werden. Dies liegt daran, dass alle möglichen Kombinationen È ½ ½ ¾ Öµ und È ¾ ½ ¾ Öµ innerhalb der Blase liegen. Eine höhere Likelihood (eine weiter außen liegende Hyperbel) kann also nicht erreicht werden. Dies ändert sich, wenn andere Beobachtungen vorliegen. Angenommen, die Beobachtungen seien Ü ½ ¾ und Ü ¾. In diesem Fall verändert sich die Gestalt der Blase. Sie ist nicht mehr konvex (vgl. Abbildung 9.22). Es ist jetzt möglich, die Likelihood durch Verwendung von zwei Mischungskomponenten zu erhöhen. Die eingezeichnete Gerade zeigt alle Kombinationen von È ½ ½ ¾ Öµ und È ¾ ½ ¾ Öµ für Ö ¾ ¼ ½. Die Hyperbel, die die maximale Likelihood charakterisiert tangiert jetzt diese Gerade und nicht mehr einen Punkt der Blase. Mit anderen Worten wird die maximale Likelihood durch eine Mischung aus zwei Komponenten erreicht. Das Beispiel zeigt, dass es von der Datenkonstellation abhängt, ob die Aufnahme einer weiteren Komponente zu einer Erhöhung der Likelihood führt. Im ersten Fall lagen die Beobachtungen dicht beieinander. Es macht in diesem Fall keinen Sinn, die Daten durch zwei

23 182 KAPITEL 9. MISCHVERTEILUNGEN P(8) λ 2 (rp(1;λ 1 ),(1 r)p(2; λ 2 )) L max =1 λ P(2) Abbildung 9.22: Parameterschätzung bei Mischverteilungen II Mischungskomponenten zu beschreiben. Im zweiten Fall lagen die Beobachtungen weiter auseinander, so dass ein Modell mit zwei Komponenten den Beobachtungen eine größere Wahrscheinlichkeit zuordnet (höhere Likelihood). Ein weiterer Aspekt ist intuitiv einleuchtend: Satz 9.6 Wenn an Ò Beobachtungen mit unterschiedlichen Ausprägungen eine Mischverteilung angepasst wird, ist die maximale Anzahl der Mischungskomponenten. Die Aufnahme weiterer Komponenten kann die Likelihood nicht erhöhen. Das folgende Beispiel verdeutlicht dies. Beispiel 9.11 An die folgenden Daten soll eine Mischverteilung angepasst werden: ¼ ½ ¼ ¾ ¼ ¼ ½ ½ Der Datensatz besteht aus unterschiedlichen Ausprägungen: 0, 1 und 2. Die maximale Anzahl der Mischungskomponenten beträgt daher Á, d.h. eine Mischung aus 4 oder mehr Komponenten kann nicht zu einer höheren Likelihood führen Parameterschätzung mit C.A.MAN Es ist eine erfreuliche Entwicklung, dass die Möglichkeiten des Internets auch im Rahmen der Statistik eine immer breitere Verwendung finden. Ein Aspekt ist die Bereitstellung von Software. Die Software C.A.MAN wurde von Dankmar Böhning entwickelt und steht kostenlos zum Download unter bereit. Es wird in diesem Abschnitt an einem Beispiel gezeigt, wie die Parameterschätzung für Mischverteilungen mit dem Programm erfolgt.

24 9.4. ML SCHÄTZUNG BEI MISCHVERTEILUNGEN 183 Anzahl verkaufter Packungen Häufigkeit Anzahl verkaufter Packungen Häufigkeit Beispiel 9.12 Betrachtet werden noch einmal die Daten zur Einführung des Süßwarenprodukts, die bereits in Beispiel 9.3 betrachtet worden sind. Diese sind in der folgenden Tabelle nochmals dargestellt. Es wird im folgenden an einem Beispiel dargestellt, welche Schritte durchzuführen sind, um den Parameterschätzer zu erhalten. Eine allgemeine Beschreibung der Anwendung findet sich bei Böhning, D. (1999, S ). a) Erstellung der Inputdatei: Zunächst ist eine Datei zu erstellen, die die Daten enthält. Dazu werden in eine Textdatei die Ausprägungen und die Häufigkeiten der Ausprägungen geschrieben. Ausprägungen und Häufigkeiten werden durch ein Leerzeichen getrennt, und verschiedene Ausprägungen werden durch einen Absatz getrennt. Für das Beispiel also: Anschließend ist die Datei (zum Beispiel unter der Bezeichnung candy.dat) in dem Verzeichnis zu speichern, in dem das Programm liegt. b) Start des Programms: Als nächstes ist das Programm (Caman.exe) zu starten und so lange Return zu drücken, bis man im Hauptmenü angekommen ist. c) Bestimmung von Inputdatei und Outputdatei: Im Hauptmenü ist der Punkt INPUT DATA zu wählen, indem eine 1 eingetippt wird und anschließend Return gedrückt wird. Im erscheinenden Untermenü erneut der Punkt 1 (Specify data file) zu wählen. Anschließend ist der Name der Datei einzutippen, in der die Beobachtungen stehen, also candy.dat. Danach kann die Bezeichnung der Ausgabedatei (candy.out) bestätigt werden oder eine selbsgewählte Bezeichnung eingegeben werden. Die Ausgabedatei enthält die Ergebnisse der Parameterschätzung. d) Bestimmung des Datenformats: Nach Bestätigung der Ausgabedatei befindet man sich weiterhim im Untermenü INPUT DA- TA. Jetzt ist das Datenformat anzugeben. Da die Daten in der Form [Ausprägung, Häufigkeit der Ausprägung] vorliegen, ist die Alternative 3 ( VARIABLE REPLICATION FACTOR ) zu wählen. Daraufhin wird angezeigt, wieviele unterschiedliche Beobachtungen in den Daten enthalten sind, und durch erneutes Drücken der Returntaste gelangt man wieder in das Hauptmenü.

25 184 KAPITEL 9. MISCHVERTEILUNGEN e) Wahl der Verteilung: Als nächstes ist der Punkt 3 CHOISE OF DISTRIBUTION zu wählen. Da die Mischungskomponenten hier vom Typ Poisson sind, ist in diesem Untermenü der Punkt 2 Poissondistribution zu bestätigen. f) Durchführung der Schätzung: Mit dem Schritt d sind die minimal notwendigen Daten eingegeben, so dass mit der Parameterschätzung begonnen werden kann. Diese beginnt mit der Wahl des Menüpunktes 7 COM- PUTE NPMLE (NPMLE steht für Nonparametric Maximum Likelihood Estimator). Nach Auswahl dieser Option fasst das Programm noch einmal die Voraussetzungen der Optimierung zusammen und fragt, ob noch Änderungen vorgenommen werden sollen. Durch Eingabe von N(o) beginnt die Parameterschätzung. Jetzt ist die Returntaste so häufig zu betätigen, bis der folgende Output erscheint: The NPMLE consists of 5 support points Result after combining equal estimates: weight:.0068 parameter: weight:.2373 parameter: weight:.5019 parameter: weight:.1516 parameter: weight:.1024 parameter: Log-Likelihood at iterate: Dies ist das Ergebnis der Parameterschätzung. Eine Mischverteilung mit fünf Komponenten besitzt die höchste Likelihood. Diese Werte der Schätzer sind bereits weiter oben (bei der erstmaligen Betrachtung der Daten) angegeben worden. Ferner ist die Likelihood der Lösung angegeben. Das letzte Beispiel betrachtet einen Fall, bei dem die Anzahl der Komponenten nicht bekannt ist. Man erhält als Resultat das Modell das zu der höchstmöglichen Likelihood führt. Es ist jedoch denkbar, dass ein Modell mit weniger Komponenten (und somit weniger Parameteren) die Daten ebenfalls angemessen beschreibt. Möchte man ein Modell mit weniger Parametern anpassen, so ist die Parameterschätzung für eine bekannte Anzahl von Komponenten durchzuführen. Beispiel 9.13 Es wird jetzt gezeigt, wie man mit C.A.MAN an die Daten des vorangegangenen Beispiels ein Modell mit einer bekannten Anzahl von Komponenten anpassen kann. a) Es sind die Schritte a) bis e) aus dem letzten Beispiel durchzuführen. b) Bestimmung der Anzahl von Komponenten und der Startwerte: Es ist jetzt das Untermenü 2 CHOICE OF PARAMETER GRID aufzurufen und der Punkt 3 (If you want to use fixed support size and if you want to enter starting values) zu wählen. Anschließend wird man aufgefordert, die Anzahl der Komponenten einzugeben. Dies könnte beispielsweise der Wert 4 sein. Danach ist es notwendig, die Startwerte für die numerische Maximierung anzugeben. Beispielsweise könnte man einfach die Komponente mit dem kleinsten Mischungsparameter aus der vorangegangenen Schätzung entfernen und die übrigen vier (evtl. gerundet) als Startwerte verwenden. Eine mögliche Eingabe wäre also (der jeweils erste Wert steht für den Parameter und der jeweils zweite Wert für das entsprechende Gewicht):

26 9.4. ML SCHÄTZUNG BEI MISCHVERTEILUNGEN 185 c) Wahl des Algorithmus: Als nächstes ist im Untermenü CHOICE OF ALGORITHM (Menüpunkt 4) die Option 5 (Fixed support size) zu setzen. Die anschließend angeforderten Eingaben sind nicht unbedingt notwendig, d.h. man kann durch die Wahl von Punkt 6 (Back to Main Menu) zum Hauptmenü zurückkehren. d) Durchführung der Parameterschätzung: Dieser Schritt entspricht dem Schritt 6 aus dem letzten Beispiel. Man erhält jetzt die folgenden Ergebnisse: The NPMLE consists of 5 support points Result after combining equal estimates: weight:.244 parameter: weight:.5022 parameter: weight:.1515 parameter: weight:.1023 parameter: Log-Likelihood at iterate: Man sieht, dass die Likelihood des Modell mit vier Komponenten nur um 06 kleiner ist als für das Modell mit fünf Komponenten. Eine weitergehende Frage ist jetzt, welches Modell man zur Beschreibung der Daten verwenden sollte: Sollte man das Modell mit fünf Komponenten verwenden, weil die Beobachtungen unter diesem Modell eine höhere Wahrscheinlichkeit besitzen oder sollte man das Modell mit vier Komponenten wählen, weil man dadurch den Fehler durch Schätzung verringern könnte? Böhning verwendet in praktischen Situationen einen Signifikanztest zur Modellauswahl. Er weist aber gleichzeitig darauf hin, dass die Voraussetzungen zur Durchführung des Tests nur approximativ erfüllt sind (Böhning, D., 1999, S. 77). Eine weitere Möglichkeit wäre eine Analyse der Modelle mit Hilfe von Pseudo Residuen (vgl. Verallgemeinerte Lineare Modelle, 1999, S ).

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch

Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch Kapitel 4 Diskrete Verteilungen 4.1 Bernoulli-Verteilung Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch È Üµ ½ für Ü ¼ für Ü ½ ¼ sonst Die Bernoulli-Verteilung

Mehr

Beziehungen zwischen Verteilungen

Beziehungen zwischen Verteilungen Kapitel 5 Beziehungen zwischen Verteilungen In diesem Kapitel wollen wir Beziehungen zwischen Verteilungen betrachten, die wir z.t. schon bei den einzelnen Verteilungen betrachtet haben. So wissen Sie

Mehr

Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion

Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion Kapitel 2 Erwartungswert 2.1 Erwartungswert einer Zufallsvariablen Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion È ist definiert als Ü ÜÈ Üµ Für spätere

Mehr

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung

Mehr

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Modellanpassung und Parameterschätzung. A: Übungsaufgaben 7 Modellanpassung und Parameterschätzung 1 Kapitel 7: Modellanpassung und Parameterschätzung A: Übungsaufgaben [ 1 ] Bei n unabhängigen Wiederholungen eines Bernoulli-Experiments sei π die Wahrscheinlichkeit

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Kapitel 10. Bayes sche Verfahren Einführung Das Theorem von Bayes

Kapitel 10. Bayes sche Verfahren Einführung Das Theorem von Bayes Kapitel 10 Bayes sche Verfahren 10.1 Einführung Alle bislang besprochenen Konzepte und Methoden (einschließlich der Grundstudiumsinhalte), können unter der Überschrift Klassische Methoden eingeordnet werden.

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Aufgabe 1 (8=2+2+2+2 Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten: Die Zufallsvariable X bezeichne die Note. 1443533523253. a) Wie groß ist h(x 5)? Kreuzen

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Chi-Quadrat-Verteilung

Chi-Quadrat-Verteilung Chi-Quadrat-Verteilung Wikipedia http://de.wikipedia.org/wiki/chi-quadrat-verteilung 1 von 7 6/18/2009 6:13 PM Chi-Quadrat-Verteilung aus Wikipedia, der freien Enzyklopädie Die Chi-Quadrat-Verteilung ist

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Zufallsvariable Erinnerung: Merkmal, Merkmalsausprägung Deskriptive Statistik:

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1 Aufgabe 1: Wieviele der folgenden Variablen sind quantitativ stetig? Schulnoten, Familienstand, Religion, Steuerklasse, Alter, Reaktionszeit, Fahrzeit,

Mehr

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI Lösungen zu Übungsblatt 9 Höhere Mathematik/Stochastik Anpassung von Verteilungen Zu Aufgabe ) a) Zeichnen des Histogranmmes: Um das Histogramm zu zeichnen, benötigen wir die Höhe der Balken. Die Höhe

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung

Mehr

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen Kapitel 5 Univariate Zufallsvariablen Im ersten Teil dieses Skriptes haben wir uns mit Daten beschäftigt und gezeigt, wie man die Verteilung eines Merkmals beschreiben kann. Ist man nur an der Population

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

SozialwissenschaftlerInnen II

SozialwissenschaftlerInnen II Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen

Mehr

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II Statistik II Statistische Tests Statistik II - 12.5.2006 1 Test auf Anteilswert: Binomialtest Sei eine Stichprobe unabhängig, identisch verteilter ZV (i.i.d.). Teile diese Stichprobe in zwei Teilmengen

Mehr

1. Grundbegri e der Stochastik

1. Grundbegri e der Stochastik Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt

Mehr

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne

Mehr

Formelsammlung: Statistik und Wahrscheinlichkeitstheorie

Formelsammlung: Statistik und Wahrscheinlichkeitstheorie Formelsammlung: Statistik und Wahrscheinlichkeitstheorie Kapitel 1: Deskriptive und explorative Statistik Empirische Verteilungsfkt (S15): Quantile (S24): Bei Typ7 1.Pkt = 0 Danach 1/(n-1) Median (S24):

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Zusammenfassung PVK Statistik

Zusammenfassung PVK Statistik Zusammenfassung PVK Statistik (Diese Zusammenfassung wurde von Carlos Mora erstellt. Die Richtigkeit der Formeln ist ohne Gewähr.) Verteilungen von diskreten Zufallsvariablen Beschreibung Binomialverteilung

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Klausur zur Vorlesung

Klausur zur Vorlesung Institut für Mathematische Stochastik WS 2006/2007 Universität Karlsruhe 12. Februar 2007 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Aufgabe 1 (15 Punkte) Klausur zur Vorlesung Statistik für Biologen

Mehr

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60 WESTFÄLISCHE WILHELMS - UNIVERSITÄT MÜNSTER Wirtschaftswissenschaftliche Faktultät Prof. Dr. Bernd Wilfling Professur für VWL, insbesondere Empirische Wirtschaftsforschung Musterlösung zur Klausur im Fach

Mehr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

5 Binomial- und Poissonverteilung

5 Binomial- und Poissonverteilung 45 5 Binomial- und Poissonverteilung In diesem Kapitel untersuchen wir zwei wichtige diskrete Verteilungen d.h. Verteilungen von diskreten Zufallsvariablen): die Binomial- und die Poissonverteilung. 5.1

Mehr

3 Grundlagen statistischer Tests (Kap. 8 IS)

3 Grundlagen statistischer Tests (Kap. 8 IS) 3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung

Mehr

Anliegen: Beschreibung von Versuchsergebnissen mit Zahlen, um mit Zahlen bzw. bekannten Funktionen rechnen zu können.

Anliegen: Beschreibung von Versuchsergebnissen mit Zahlen, um mit Zahlen bzw. bekannten Funktionen rechnen zu können. 2 Zufallsvariable 2.1 Einführung Anliegen: Beschreibung von Versuchsergebnissen mit Zahlen, um mit Zahlen bzw. bekannten Funktionen rechnen zu können. Eine Zufallsvariable X ordnet jedem elementaren Versuchsausgang

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung Heute Die Binomialverteilung Poissonverteilung Approximation der Binomialverteilung durch die Normalverteilung Arbeiten mit Wahrscheinlichkeitsverteilungen Die Binomialverteilung Man werfe eine Münze n

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind: Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Inhalte Themen dieses Kapitels sind: Das Konzept stetiger Zufallsvariablen Die

Mehr

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007 Mathematik IV für Maschinenbau und Informatik Stochastik Universität Rostock, Institut für Mathematik Sommersemester 007 Prof. Dr. F. Liese Dipl.-Math. M. Helwich Serie Termin: 9. Juni 007 Aufgabe 3 Punkte

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg 2 R. 06-206 (Persike) R. 06-214 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

1.5.4 Quantile und Modi. Bem [Quantil, Modus]

1.5.4 Quantile und Modi. Bem [Quantil, Modus] 1.5.4 Quantile und Modi 1.5 Erwartungswert und Varianz Bem. 1.73. [Quantil, Modus] und Vertei- Analog zu Statistik I kann man auch Quantile und Modi definieren. Gegeben sei eine Zufallsvariable X mit Wahrscheinlichkeitsverteilung

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Arbeitsbuch zur deskriptiven und induktiven Statistik

Arbeitsbuch zur deskriptiven und induktiven Statistik Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Dr. Maike M. Burda Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9. Januar 2011 BOOTDATA11.GDT: 250 Beobachtungen für die Variablen...

Mehr

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung Statistik 2 für SoziologInnen Normalverteilung Univ.Prof. Dr. Marcus Hudec Statistik 2 für SoziologInnen 1 Normalverteilung Stetige Zufalls-Variable Erweitert man den Begriff der diskreten Zufallsvariable

Mehr

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen Inhaltsverzeichnis Robert Galata, Sandro Scheid Deskriptive und Induktive Statistik für Studierende der BWL Methoden - Beispiele - Anwendungen Herausgegeben von Robert Galata, Markus Wessler ISBN (Buch):

Mehr

6.6 Poisson-Verteilung

6.6 Poisson-Verteilung 6.6 Poisson-Verteilung Die Poisson-Verteilung ist eine Wahrscheinlichkeitsverteilung, die zur Modellierung der Anzahl von zufälligen Vorkommnissen in einem bestimmten räumlichen oder zeitlichen Abschnitt

Mehr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr Die so genannte Gütefunktion g gibt allgemein die Wahrscheinlichkeit an, mit der ein Test die Nullhypothese verwirft. Für unser hier entworfenes Testverfahren gilt ( ) k np g(n, p) = Pr p [T K] = Pr p

Mehr

Zufallsvariablen [random variable]

Zufallsvariablen [random variable] Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden

Mehr

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97. Aufgabenblock 4 Aufgabe ) Da s = 8. cm nur eine Schätzung für die Streuung der Population ist, müssen wir den geschätzten Standardfehler verwenden. Dieser berechnet sich als n s s 8. ˆ = = =.88. ( n )

Mehr

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2 TECHNISCHE UNIVERSITÄT DORTMUND Sommersemester 2011 FAKULTÄT STATISTIK Dr. M. Arnold Dipl.-Stat. R. Walter Übungen zur Vorlesung Statistische Methoden Kapitel 1-2 Aufgabe 1: Gegeben ist eine diskrete Zufallsvariable

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests Nach Verteilungsannahmen: verteilungsabhängig: parametrischer [parametric] Test verteilungsunabhängig: nichtparametrischer [non-parametric] Test Bei parametrischen Tests

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten

Mehr

1 Univariate Statistiken

1 Univariate Statistiken 1 Univariate Statistiken Im ersten Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X. Fragenkatalog zur Übung Methoden der empirischen Sozialforschung WS 2014/15 Hier finden Sie die denkbaren Fragen zum ersten Teil der Übung. Das bedeutet, dass Sie zu diesem Teil keine anderen Fragen im

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau

Mehr

Wahrscheinlichkeitsrechnung und schließende Statistik

Wahrscheinlichkeitsrechnung und schließende Statistik Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

8 Stichprobenkennwerteverteilung

8 Stichprobenkennwerteverteilung 8 Stichprobenkennwerteverteilung 8.1 Vorbemerkungen 8.2 Die Normalverteilung: Teil 2 8.3 Die t Verteilung 8.4 Normalverteilungs Approximation: Der zentrale Grenzwertsatz 8.1 Vorbemerkungen Daten x 1,...,

Mehr

Schließende Statistik

Schließende Statistik Schließende Statistik [statistical inference] Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

70 Wichtige kontinuierliche Verteilungen

70 Wichtige kontinuierliche Verteilungen 70 Wichtige kontinuierliche Verteilungen 70. Motivation Zufallsvariablen sind nicht immer diskret, sie können oft auch jede beliebige reelle Zahl in einem Intervall [c, d] einnehmen. Beispiele für solche

Mehr

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung 1.8 Kolmogorov-Smirnov-Test auf Normalverteilung Der Kolmogorov-Smirnov-Test ist einer der klassischen Tests zum Überprüfen von Verteilungsvoraussetzungen. Der Test vergleicht die Abweichungen der empirischen

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten

Mehr

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme Binomialverteilung Wahrscheinlichkeitsfunktion Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Typisierung der stetigen theoretischen Verteilungen Bibliografie:

Mehr

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers 4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis

Mehr

Eindimensionale Zufallsvariablen

Eindimensionale Zufallsvariablen Eindimensionale Grundbegriffe Verteilungstypen Diskrete Stetige Spezielle Maßzahlen für eindimensionale Erwartungswert Varianz Standardabweichung Schwankungsintervalle Bibliografie Bleymüller / Gehlert

Mehr

Nachklausur zur Vorlesung

Nachklausur zur Vorlesung Institut für Mathematische Stochastik WS 003/004 Universität Karlsruhe 30. April 004 Priv.-Doz. Dr. D. Kadelka Nachklausur zur Vorlesung Statistik für Biologen Musterlösungen Aufgabe 1 Gemessen wurde bei

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Überblick Bessere Modelle, die nicht nur den Mittelwert von Referenzvektoren sondern auch deren Varianz berücksichtigen Weniger Fehlklassifikationen Mahalanobis Abstand Besseres Abstandsmaß basierend

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente... Inhaltsverzeichnis 0 Einführung 1 1 Zufallsvorgänge und Wahrscheinlichkeiten 5 1.1 Zufallsvorgänge.......................... 5 1.1.1 Ergebnismengen..................... 6 1.1.2 Ereignisse und ihre Verknüpfung............

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal

Mehr

Standardnormalverteilung

Standardnormalverteilung Standardnormalverteilung 1720 erstmals von Abraham de Moivre beschrieben 1809 und 1816 grundlegende Arbeiten von Carl Friedrich Gauß 1870 von Adolphe Quetelet als "ideales" Histogramm verwendet alternative

Mehr

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

Kapitel VI - Maximum-Likelihood-Schätzfunktionen Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel VI - Maximum-Likelihood-Schätzfunktionen Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Karin Waldherr & Pantelis Christodoulides 11. Mai 2011 Waldherr / Christodoulides Einführung in Quantitative Methoden- 8.VO 1/40 Poisson-Verteilung Diese Verteilung

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt 2. Stock, Nordflügel R. 02-429 (Persike) R. 02-431 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 2008/2009

Mehr

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken... I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)

Mehr

Modelle diskreter Zufallsvariablen

Modelle diskreter Zufallsvariablen Statistik 2 für SoziologInnen Modelle diskreter Zufallsvariablen Univ.Prof. Dr. Marcus Hudec Zufallsvariable Eine Variable (Merkmal) X, deren numerische Werte als Ergebnisse eines Zufallsvorgangs aufgefasst

Mehr

Grundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz

Grundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz - 1 - Grundgesamtheit, Merkmale, Stichprobe Dimension, Umfang Skalierung Eigenschaften der Stichprobe kennzeichnende Größen Eigenschaften der Stichprobe kennzeichnende Größen Punktediagramm, Regressionsgerade,

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Stichwortverzeichnis. Symbole

Stichwortverzeichnis. Symbole Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote

Mehr

Kapitel 10 VERTEILUNGEN

Kapitel 10 VERTEILUNGEN Kapitel 10 VERTEILUNGEN Fassung vom 18. Januar 2001 130 VERTEILUNGEN Zufallsvariable. 10.1 10.1 Zufallsvariable. HäuÞg wird statt des Ergebnisses ω Ω eines Zufalls-Experiments eine zugeordnete Zahl X(ω)

Mehr

A: Beispiele Beispiel 1: Zwei Zufallsvariablen X und Y besitzen die beiden folgenden Wahrscheinlichkeitsfunktionen:

A: Beispiele Beispiel 1: Zwei Zufallsvariablen X und Y besitzen die beiden folgenden Wahrscheinlichkeitsfunktionen: 5 Diskrete Verteilungen 1 Kapitel 5: Diskrete Verteilungen A: Beispiele Beispiel 1: Zwei Zufallsvariablen X und Y besitzen die beiden folgenden Wahrscheinlichkeitsfunktionen: 5 0.6 x 0.4 5 x (i) P x (x)

Mehr

Statistische Inferenz

Statistische Inferenz Statistische Inferenz Prinzip der statistischen Inferenz Datensätze = Stichproben aus einer Gesamtpopulation (meistens) Beispiel : Messung der Körpertemperatur von 106 gesunden Individuen man vermutet,

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr