Stochastische Lernalgorithmen



Ähnliche Dokumente
10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Kapitel 2 Wahrscheinlichkeitsrechnung

Ü b u n g s b l a t t 15

Wahrscheinlichkeitsverteilungen

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1.5.4 Quantile und Modi. Bem [Quantil, Modus]

Von der Normalverteilung zu z-werten und Konfidenzintervallen

SozialwissenschaftlerInnen II

Kapitel VI - Lage- und Streuungsparameter

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

Mathematische und statistische Methoden II

Modelle diskreter Zufallsvariablen

Wahrscheinlichkeitsverteilungen

Kenngrößen von Zufallsvariablen

Wahrscheinlichkeitsrechnung und schließende Statistik

SS 2017 Torsten Schreiber

Fit for Abi & Study Stochastik

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Biostatistik, Sommer 2017

Statistik 1 Beispiele zum Üben

Probeklausur zur Vorlesung Statistik II für Studierende der Soziologie und Nebenfachstudierende

Vorlesung: Statistik II für Wirtschaftswissenschaft

4 Diskrete Wahrscheinlichkeitsverteilungen

Statistik und Wahrscheinlichkeitsrechnung

Übungsrunde 9, Gruppe 2 LVA , Übungsrunde 8, Gruppe 2, Markus Nemetz, TU Wien, 12/2006

Wichtige Definitionen und Aussagen

DWT 314/460 csusanne Albers

Inferenzstatistik (=schließende Statistik)

Vorlesung: Statistik II für Wirtschaftswissenschaft

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Forschungsstatistik I

Statistik und Wahrscheinlichkeitsrechnung

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Glücksrad-Aufgabe. Das Glücksrad ist in 2 Sektoren mit den Zahlen 1 (Winkel 120 ) und 2 eingeteilt.

Allgemeine Definition von statistischer Abhängigkeit (1)

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Wirtschaftsstatistik Normalverteilung

Zufallsvariablen [random variable]

Definition der Entropie unter Verwendung von supp(p XY )

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Beziehungen zwischen Verteilungen

7.5 Erwartungswert, Varianz

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Wahrscheinlichkeitstheorie 2

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Diskrete Verteilungen

12 Die Normalverteilung

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Stetige Wahrscheinlichkeitsverteilung

Die Maximum-Likelihood-Methode

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Aufgabe 8: Stochastik (WTR)

Statistik für Bachelorund Masterstudenten

So berechnen Sie einen Schätzer für einen Punkt

Statistik für SozialwissenschaftlerInnen II p.85

Zusammenfassung PVK Statistik

1. Grundbegri e der Stochastik

Einführung in die Maximum Likelihood Methodik

Mathematische Grundlagen (Bayes sches Lernen)

Willkommen zur Vorlesung Statistik (Master)

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Über den Autor 7. Teil Beschreibende Statistik 29

Mathematische und statistische Methoden II

Übungsblatt 7 zur Vorlesung Wahrscheinlichkeitsrechnung und mathematische Statistik für Informatiker

Prof. Dr. Christoph Karg Hochschule Aalen. Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik. Sommersemester 2017

Wahrscheinlichkeitsrechnung

Psychologische Methodenlehre und Statistik I

Diskrete Verteilungen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Binomialverteilung und Bernoulli- Experiment

QM III Normalverteilung Aufgabe 10.1 Die Lebensdauer (in Jahren) von KFZ-Batterien des Typs

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Spezielle diskrete Verteilungen

Spezielle diskrete Verteilungen

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Wahrscheinlichkeitsrechnung und schließende Statistik

Grundbegriffe der Wahrscheinlichkeitstheorie

Statistik für NichtStatistiker

Gegeben sei folgende zweidimensionale Wahrscheinlichkeitsdichtefunktion zweier Zufallsvariablen. 0 sonst.

70 Wichtige kontinuierliche Verteilungen


Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Polizeidienst-Aufgabe Abiturprüfung Bayern LK 2003

Basistext - Wahrscheinlichkeitsrechnung

Transkript:

Stochastische Lernalgorithmen Gerhard Jäger 23. April 2003 Wahrscheinlichkeitsrechnung (Forts.) Gängige Wahrscheinlichkeitsfunktionen Bernoulli-Verteilung Besitzt ein Zufallsexperiment nur zwei mögliche Ergebnisse, so spricht man von einem Bernoulli-Experiment (Jakob Bernoulli 1654-1705). Diese werden i. A. mit Zufallsvariablen beschrieben, die die Werte 0 oder 1 annehmen können. Wenn p die Wahrscheinlichkeit für das Ergebnis 1 ist, dann ist die Verteilungsfunktion durch den Parameter p schon eindeutig bestimmt. Diese heißt Bernoulliverteilung (Schreibweise (b(1, p)). Die Wahrscheinlichkeitsfunktion ist gegeben durch b(1; 1, p) = p; b(0; 1, p) = 1 p Erwartungswert: Varianz: E(b(1, p) = p V ar(b(1, p)) = p(1 p) Binomial-Verteilung Wir betrachten den n-fachen Münzwurf. Die Wahrscheinlichkeit, genau k-mal Zahl zu werfen, ist nicht gleichmäßig verteilt. Die hier vorliegende Wahrscheinlichkeitsverteilung heißt Binomialverteilung. Bezeichnung: b(n, p) Dabei gibt der Parameter n die Gesamtzahl der Versuche an und p die Wahrscheinlichkeit des Ereignisses, das k-mal auftreten soll. Beispiel: Beim zweifachen Münzwurf (also n = 2) einer fairen Münze ist die Wahrscheinlichkeit P (k) für k-mal Zahl : P (k = 0) = 0.25 P (k = 1) = 0.5 P (K = 2) = 0.25 1

Die Ungleichverteilung ergibt sich daraus, dass es zwei Möglichkeiten gibt, die Summe 1 zu erzielen, aber nur jeweils eine für 0 und 2. Als Wahrscheinlichkeitsfunktion ausgedrückt, ergibt sich also b(0; 2, 0.5) = 0.25 b(1; 2, 0.5) = 0.5 b(2; 2, 0.5) = 0.25 Allgemein gesprochen ergibt sich die Binomialverteilung b(n, p) aus der n-fachen stochastisch unabhängigen Wiederholung eines Bernoulli-Experiments mit Verteilung b(1, p). Was ist i.a. der Wert für b(k; n, p)? Die Wahrscheinlichkeit einer konkreten Folge aus k positiven und n k negativen Ausgängen ist p k (1 p) n k (da die einzelnen Experimente stochastisch unabhängig sind). ( ) n Es gibt ingesamt verschiedene Folgen aus k Einsen und n k Nullen. k Also gilt Erwartungswert: Varianz: b(k; n, p) = ( n k ) E(b(n, p)) = np V ar(b(n, p)) = np(1 p) p k (1 p) n k Normalverteilung (Generell sehr wichtig für alle möglichen Anwendungen der Statistik; in der Computerlinguistk aber nicht so zentral). Exkurs: Stetige Verteilungen: Wenn der Wertebereich einer Zufallsvariablen überabzählbar ist (z.b. alle reellen Zahlen oder alle reellen Zahlen im Intervall [0,1]), ist es nicht möglich, jeder Zahl einen Wert größer 0 zuzuweisen, auch wenn alle Zahlen mögliche Werte der Variablen sind. In diesem Fall stellt man die Wahrscheinlichkeitsverteilung nicht durch eine Wahrscheinlichkeitsfunktion, sondern eine Wahrscheinlichkeitsdichtefunktion f X dar. Die Fläche zwischen x-achse und Funktionskurve im Intervall [a, b] also formal das bestimmte Integral b a f X(x)dx entspricht der Wahrscheinlichkeit, dass a X b. 2

Wenn sich eine Vielzahl unabhängiger zufälliger und ungerichteter Effekte summieren, ergibt sich eine Normalverteilung. Bei vielen statistischen Verfahren wird davon ausgegangen, dass die Daten die Werte normalverteilter Zufallswerte darstellen, oder kurz gesagt normalverteilt sind. Es gilt: N(x; µ, σ) = 1 e (x µ)2 2σ 2 2πσ Erwartungswert: Varianz: E(N(µ, σ)) = µ V ar(n(µ, σ)) = σ 2 Für große Werte von n nähert sich die Binomialverteilung der Normalverteilung an; die Normalverteilung kann deshalb auch als Näherung für diskrete Zufallsvariablen verwendet werden. Parameter-Schätzung Ausgangspunkt der statistischen Analyse ist eine beobachtbare stochastische Größe X, deren Verteilungsfunktion F (x θ) von unbekannten Parametern θ Ξ abhängt, wobei Ξ, der Parameterraum, alle möglichen Werte von θ beinhaltet. Beispiel: X b(1, p), θ = p Die unbekannte numerische Größe θ kann dabei interpretiert werden als Repräsentant der Unsicherheit des Modells. Um Information über θ zu erhalten, betrachtet man eine Beobachtung von X, die dadurch gewonnen wird, dass ein zu X gehöriges stochastisches Experiment durchgeführt und der erhaltene Zahlenwert X festgehalten wird. Maximum-Likelihood-Schätzung Maximum-Likelihood-Schätzer (ML-Schätzer, nach Fisher, 1890-1962) basieren auf der Annahme, dass wahrscheinlich das Wahrscheinlichste wahr ist. Diese Methode ist offensichtlich fehlbar. Trotzdem neigt man auch im Alltag gerne dazu, nach diesem Prinzip zu schätzen. Weiß man von einem Koch z.b. dass er wesentlich wahrscheinlicher eine Suppe versalzt, wenn er verliebt ist, als wenn er es nicht ist, so wird man sich während dem Essen einer versalzenen Suppe denken: wahrscheinlich ist der Koch (mal wieder) verliebt. Genau das ist eine ML-Schätzung. Um ML-Schätzungen durchführen zu können, braucht man eine Likelihood-Funktion L(θ; x), die angibt, welcher Wert des gesuchten Parameters θ bei der vorgegebenen Stichprobe x = (x 1, x 2,, x n ) wie wahrscheinlich ist. Das Maximum 3

dieser Funktion in Abhängigkeit von θ bei gegebener Stichprobe x ist der Wert der ML- Schätzung. Um die Likelihood-Funktion zu erzeugen, entscheidet man sich aufgrund seiner Erfahrung (oder ähnlich überzeugender Argumente) dafür, dass die Stichprobe aus einem bestimmten Modell stammt. Das Modell kann dann Stichproben erzeugen. Die Likelihood- Funktion ist nun die Wahrscheinlichkeit für eine Realisation x in Abhängigkeit von den m Parametern θ = θ 1, θ 2,, θ m des angenommenen Modells. Die Likelihood-Funktion braucht dann nur noch uminterpretiert zu werden. Man betrachtet nicht die Wahrscheinlichkeit für die x i in Abhängigkeit von ˆθ, sondern ˆθ als Variablen und die x i als Parameter. Beispiel 1: 10 Würfe einer Münze haben 8 mal Kopf und 2 mal Zahl ergeben. Aufgrund unseres Wissens über Münzfürfe gehen wir davon aus, dass die einzelnen Würfe stochastisch unabhängig voneinander sind. Die zugrundeliegende Wahrscheinlichkeitsverteilung wird also durch die Wahrscheinlichkeit p, bei einem Wurf Kopf zu werfen, vollständig festgelegt. Demnach gilt Beispiel 2: θ = p Ξ = [0, 1] Σ 10 i=1x i = 8 L(θ; x) = p 8 (1 p) 2 arg θ max L(θ; x) = 0.8 Ist der Löwe hungrig, müde oder ist ihm schlecht? Der Einfachheit halber wollen wir uns vorstellen, dass ein Löwe nur in einem von drei Zuständen sein kann: Er kann hungrig sein, er kann müde sein oder ihm kann schlecht sein. Je nach Zustand pflegt er, eine unterschiedliche Gierigkeit im Verspeisen von Menschen in der Nacht an den Tag zu legen. Da die Menschenjagd stochastischen Einflüssen unterworfen ist, ergibt sich für jeden Gefräßigkeitszustand eine Verteilung für die in einer Nacht vertilgten Menschen. Diese Verteilungen lassen sich in der folgenden Tabelle ablesen: Zustand 0 1 2 3 4 hungrig 0.00 0.05 0.05 0.80 0.10 müde 0.05 0.05 0.80 0.10 0.00 magenkrank 0.90 0.08 0.02 0.00 0.00 Die Zeilen zeigen also die verschiedenen Verteilungen, die zu den drei verschiedene Zuständen gehören. Etwas formaler lässt sich die Tabelle so hinschreiben: θ i 0 1 2 3 4 p(j θ i ) θ 1 0.00 0.05 0.05 0.80 0.10 p(j θ 1 ) θ 2 0.05 0.05 0.80 0.10 0.00 p(j θ 2 ) θ 3 0.90 0.08 0.02 0.00 0.00 p(j θ 3 ) 4

Jetzt stellen Sie sich vor, vor Ihnen taucht ein Löwe auf! Dann sehen Sie sich sofort der Frage gegenüber: In welchem Zustand befindet sich der Löwe? Sie können die Situation auch so beschreiben, dass zunächst zu klären ist, welche der drei Verteilungen der Tabelle zutreffend ist, oder wenn Sie die drei als eine Verteilung mit einem Löwenaktivitätsparameter ansehen: Welches wird der zutreffende Löwenaktivitätsparameter sein? Jetzt zeigt sich wieder einmal, dass Entscheidungen ohne Informationshintergrund, sprich: Daten, unbefriedigend sein müssen. Woher soll man den Aktivitätszustandsparameter erahnen können? Zu Ihrem Glück sind Sie in Begleitung eines Löwenparkwächters. Und dieser Wächter teilt Ihnen (zu Ihrem Glück?) mit, dass der Löwe in der letzten Nacht keinen einzigen Menschen gefressen hat! Nun die Frage: Was meinen Sie, in welchem Aktivitätszustand sich der Löwe befindet? Wenn Sie geantwortet haben: magenkrank! haben Sie offensichtlich das Maximum-Likelihood- Prinzip bereits verstanden und unbewusst angewendet. Sie müssen sich nur noch darüber klar werden, was Sie warum bei Ihrer Antwortfindung gemacht haben! Der ML-Algorithmus im diskreten Fall Die Beobachtung 0 verzehrte Menschen in der letzten Nacht führt zu der Betrachtung der ersten Spalte der Tabelle. Aus ihr entnimmt man, dass der Zustand hungrig auf jeden Fall nicht vorliegen kann. Also bleiben die Alternativen müde und magenkrank. Wäre der Löwe müde gewesen, hätte sich die Beobachtung mit 5 % Wahrscheinlichkeit realisiert. Im Gegensatz dazu führt eine Magenverstimmung in 90 % aller Fälle zu einer Diätnacht. Damit ist der dritte Zustand viel naheliegender, und wenn die Frage im Raum steht: Welchen Aktivitätszustand vermuten Sie? lautet die Antwort: Ich schätze der Löwe hatte eine Magenverstimmung! Algorithmus: Der Algorithmus zu dieser Antwort lässt sich schnell formulieren: 1. Suche die Spalte, die zu der Beobachtung gehört. 2. Suche in der Spalte die Zeile mit dem maximale Wert. 3. Lese am Rand den Parameter der gefundenen Zeile ab. Es sei noch einmal betont, dass zu einem festen Parameterwert in der entsprechenden Zeile die zugehörige Verteilung (Wahrscheinlichkeitsfunktion) zu finden ist. Demgegenüber wird in dem dargelegten Algorithmus aufgrund der Beobachtung eine Spalte betrachtet, in der auf jeden Fall keine Wahrscheinlichkeitsverteilung zu finden ist. Ein Hinweis zur Bezeichnung ML Dieser Algorithmus setzt das Maximum-Likelihood-Prinzip (ML-Prinzip) um und erklärt in gewisser Weise auch den Namen. M steht für Maximum zur Erinnerung an den zweiten Schritt, in dem das Maximum einer Spalte ermittelt wird. L steht für Likelihood oder Mutmaßlichkeit oder Wahrscheinlichkeit. Es wird das Maximum von Werten gesucht, die in unserem Fall Wahrscheinlichkeiten der Spalten darstellen. Jedoch bilden diese Wahrscheinlichkeiten keine Wahrscheinlichkeitsverteilung, wie man durch Summation der Werte schnell überprüfen kann. (In jeder Zeile enthält die Tabelle jedoch eine Wahrscheinlichkeitsverteilung.) Aus diesem Grund und auch für die 5

Übertragbarkeit auf kontinuierliche Problemfälle ist die Bezeichnung Likelihood und nicht zum Beispiel Probability gewählt worden. Bayes-Statistik Die klassischen statistischen Methoden behandeln den Parameter θ als unbekannte Konstante und leiten Information über θ lediglich aus den Beobachtungen ab. Im Gegensatz dazu wird bei den Bayes-Methoden der Parameter θ als Realisation einer stochastischen Größe Θ betrachtet, die eine Wahrscheinlichkeitsverteilung auf Ξ, die A-priori-Verteilung G(θ), besitzt. Der Gewinn, der durch die Einführung der A-priori-Verteilung erzielt wird, liegt darin, dass auch bereits vorhandenes Wissen über θ (etwa in Form von früheren Erfahrungen, Expertenwissen oder plausiblen Annahmen über Parameter) in der Analyse verwertet werden kann. Die Bayes-Analyse wird durchgeführt, indem man die A-priori-Information G(θ) über den Parameter und die Information aus einer Beobachtung x in Form der sogenannten A- posteriori-verteilung von Θ, bedingt durch x, kombiniert, und aus ihr Entscheidungen und Folgerungen θ betreffend ableitet. Beispiel 1: Angenommen, wir kennen den Wert p für die Wahrscheinlichkeit von Kopf zwar nicht, aber wir halten ein faire Münze wahrscheinlicher als eine unfaire je fairer, umso wahrscheinlicher. Dieses Vorurteil lässt sich sogar quantifizieren (evt. aufgrund unserer bisherigen Erfahrungen mit Münzen aus diesem Land). Und zwar gilt: { 6θ(1 θ) wenn 0 < θ < 1 G(θ) = 0 sonst Aufgrund der Beobachtung müssen wir unsere A-priori-Annahme korrigieren. Die A-posteriori-Verteilung ist die bedingte Wahrscheinlichkeit eines Wertes von θ unter Voraussetzung der gemachten Beobachtung: P (θ s) = P (s θ)g(θ) P (s) = θ8 (1 θ) 2 6θ(1 θ) P (s) = 6θ9 (1 θ) 3 P (s) P (s), die A-priori-Wahrscheinlichkeit der Beobachtung s, kennen wir nicht, aber sie hängt nicht von θ ab. Daher können wir auch so den Wert von θ berechnen, für den die A- Posteriori-Wahrscheinlichkeit von θ maximal wird: arg θ max P (θ s) = arg θ max 6θ 9 (1 θ) 3 = 0.75 Vor dem Hintergrund unseres Vorwissens über θ ist auf der Basis der Beobachtung θ = 0.75 die plausibelste Hypothese, obwohl θ = 0.8 die Wahrscheinlichkeit der Beobachtung maximieren würde. 6

Hausaufgaben Manning und Schütze, S. 60, Aufgabe 2.7 und 2.8 7