Vorlesung Wissensentdeckung

Ähnliche Dokumente
Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Einführung in die Maximum Likelihood Methodik

BAYES SCHE STATISTIK

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Vorlesung: Lineare Modelle

Vorlesung Wissensentdeckung

Das Bayes'sche Prinzip

Vorlesung Wissensentdeckung

Bayes sches Lernen: Übersicht

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Bayes sches Lernen: Übersicht

Errata für: Methoden der statistischen Inferenz: Likelihood und Bayes

Zufallsvariablen [random variable]

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Kapitel VII. Einige spezielle stetige Verteilungen

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Kapitel VI - Maximum-Likelihood-Schätzfunktionen

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

6. Schätzverfahren für Parameter

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Biostatistik, Sommer 2017

Punktschätzer Optimalitätskonzepte

Statistik und Wahrscheinlichkeitsrechnung

Fit for Abi & Study Stochastik

2.3 Intervallschätzung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Vorlesung: Statistik II für Wirtschaftswissenschaft

Mathematische Statistik Aufgaben zum Üben. Schätzer

5. Spezielle stetige Verteilungen

6.6 Poisson-Verteilung

Stetige Standardverteilungen

Wahrscheinlichkeitsrechnung und Statistik

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Wahrscheinlichkeit und Statistik: Zusammenfassung

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Willkommen zur Vorlesung Statistik (Master)

Statistische Methoden in den Umweltwissenschaften

Wichtige Definitionen und Aussagen

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

2.3 Intervallschätzung

Klassifikation von Daten Einleitung

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Bayes Inferenz Schätzen und Testen von Hypothesen. Helga Wagner Bayes Statistik WS 2010/11 301

Spezielle Verteilungen

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Statistisches Testen

Wahrscheinlichkeitstheorie 2

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

70 Wichtige kontinuierliche Verteilungen

BZQ II: Stochastikpraktikum

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

5. Stichproben und Statistiken

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Statistics, Data Analysis, and Simulation SS 2017

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

15.5 Stetige Zufallsvariablen

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Kapitel VII - Funktion und Transformation von Zufallsvariablen

1 Diskriminanzanalyse

Maschinelle Sprachverarbeitung: N-Gramm-Modelle

Einführung in die statistische Testtheorie II

Signalverarbeitung 2. Volker Stahl - 1 -

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

4 Statistik der Extremwertverteilungen

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

3.3 Methoden zur Evaluierung von Schätzern

Biostatistik, Winter 2011/12

Mathematik für Biologen

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Pareto optimale lineare Klassifikation

9 Die Normalverteilung

Ludwig-Maximilian-Universität. Mathematik, Informatik und Statistik. Institut für Statistik. Bachelorarbeit. über das Thema

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung

Statistik und Datenanalyse (Handout zum Seminarvortrag von Norman Bhatti, gehalten am )

Mathematik für Biologen

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Chi-Quadrat-Verteilung

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Vorlesung: Statistik II für Wirtschaftswissenschaft

4. Verteilungen von Funktionen von Zufallsvariablen

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

j K j d j m j h j f j

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Einführung in das statistische Lernen

Statistik I für Betriebswirte Vorlesung 14

Transkript:

Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24

Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung zur Bayes Kriterien zur 2 von 24

Funktionsapproximation Likelihood Die beiden vorgestellten Verfahren zu maschinellem Lernen, lineare Modelle und k-nächste Nachbarn, sind Instanzen der Funktionsapproximation. Gegeben sind die Trainingsbeispiele T, gesucht ist eine Funktion K f θ ( x) = h k ( x)θ k k=1. Dabei gibt es Parameter θ, die abzuschätzen sind, bei den linearen Modellen ist dies β. Darüber hinaus können die Daten transformiert werden in einen Raum, der für das Lernen besser geeignet ist: h k ( x). Optimiert wird ein Qualitätskriterium, z.b. wird eine Verlustfunktion minimiert oder die Wahrscheinlichkeit maximiert. 3 von 24

Wege der Funktionsapproximation Likelihood Verlustfunktion: Fehler minimieren als Abstand zwischen wahrem Wert und Ergebnis der gelernten Funktion, z.b. RSS(θ) minimieren. Das haben wir bisher gesehen. Likelihood: Wahrscheinlichkeit der wahren Werte maximieren! Das schauen wir uns jetzt an. 4 von 24

Maximum Likelihood Funktionsapproximation Likelihood Gegeben eine Verteilung P r θ (y) und eine Stichprobe dieser Verteilung y 1,..., y N, ist die logarithmierte Wahrscheinlichkeit: L(θ) = N log P r θ (y i ) (1) i=1 Genau das θ, das y i am wahrscheinlichsten macht, ist gut L(θ) maximieren! Wir können dafür eine Verteilung annehmen, da wir die wahre Verteilung nicht kennen. Meist ist die Normalverteilung eine gute Annahme. 5 von 24

Normalverteilung N (µ, σ) Funktionsapproximation Likelihood normalverteilt Eine Zufallsvariable X heißt normalverteilt mit den Parametern µ, σ, wenn sie die Dichtefunktion besitzt. Normalverteilung g(x) = 1 σ 2π e 1 2 ((x µ)/σ)2 (2) Die zugehörige Wahrscheinlichkeitsverteilung X N (µ, σ 2 ) heißt Normalverteilung, der Graph ihrer Dichtefunktion wird Gaußsche Glockenkurve genannt. 6 von 24

Likelihood Bei linearen Modellen ist die Maximum Likelihood gleich der Minimierung von RSS Wir wollen θ schätzen, so dass die richtige Ausprägung von Y auch die wahrscheinlichste ist, gegeben X, θ. Unter der Annahme der Normalverteilung: P r(y X, θ) = N (f θ (X), σ 2 ) Nun entspricht die log-likelihood der Daten gerade RSS(θ): Wie das? L(θ) = N 1 log( σ 2π e i=1 = C 2 + C 1 1 2 ( y i f θ ( x i ) σ ) 2 ) N (y i f θ ( x i )) 2 i=1 7 von 24

Likelihood Herleitung von L(θ) = RSS(θ) C 1 + C 2 bei Normalverteilung L(θ) = = = N 1 log( σ 2π e i=1 N i=1 i=1 1 2 ( y i f θ ( x i ) σ ) 2 ) (log(1) log(σ ) 2π) + log(e 1 2 ( y i f θ ( x i ) ) σ 2 ) N ( 0 log(σ) log( 2π) 1 ) 2 (y i f θ ( x i ) ) 2 σ = N log(σ) N 2 log(2π) }{{} =:C 2 = RSS(θ) C 1 + C 2 1 2σ 2 }{{} =:C 1 N (y i f θ ( x i )) 2 N, σ sind konstant für einen Datensatz. 8 von 24 i=1

Likelihood Log-likelihood bei nominalem Y ist Entropie Cross-Entropie Sei Y eine Zufallsvariable, die als Werte die Namen von K verschiedenen Klassen annimmt. P r(y = y k X = x) = p k,θ ( x), k = 1,..., K L(θ) = N log(p yi,θ( x i )) (3) i=1 Wenn man L(θ) maximiert, passt θ gut zu den Daten im Sinne der Likelihood. 9 von 24

Funktionsapproximation Wir haben zwei Modellklassen gesehen: lineare Modelle und Nächste Nachbarn. Bei der Verallgemeinerung zur Funktionsapproximation haben wir außerdem Basisfunktionen zur Vorverarbeitung gesehen, die ebenfalls Modellklassen induzieren. Wie wählen wir nun Modelle aus? 10 von 24

Verfahren zur Kreuzvalidierung für verschiedene Modelle das mit dem geringsten durchschnittlichen Fehler nehmen! (Minimierung der Verlustfunktion jetzt auf der Ebene der Modelle) Direkt anhand der a posteriori Wahrscheinlichkeit Modelle vergleichen. (Maximierung der Wahrscheinlichkeit jetzt auf der Ebene der Modelle) Bayes Information Criterion Minimum Description Length 11 von 24

Kreuzvalidierung zur Gegeben eine Klasse von Modellen f( x, α), wobei α ein Modell der Klasse indiziert, eine Verlustfunktion L(y, f( x, α)), N Beispiele und eine Aufteilung der Beispiele in K Partitionen mit der Indexfunktion κ : {1,..., N} {1,..., K}, die für jede Beobachtung die zugehörige Partition angibt. Kreuzvalidierung für alle Modelle: Lasse die κ(i)-te Partition aus, lerne das α-te Modell: ˆf κ(i) ( x, α). rechne den Fehler aus: CV (α) = 1 N N L(y i, ˆf κ(i) ( x i, α)) i=1 Minimiere CV (α), wähle also das Modell mit dem 12 von 24

über Kreuzvalidierung praktisch In RapidMiner wird die Kreuzvalidierungsschleife schon angeboten. Es geht aber auch anders... 13 von 24

Bayes Statistik Funktionsapproximation A posteriori Wahrscheinlichkeit Gegeben eine beliebige Einteilung von X in Klassen y 1, y 2,..., y K und eine Beobachtung x X. Die Wahrscheinlichkeit von y j unter der Bedingung, dass x beobachtet wird, ist P r(y j x) = P r(y j)p r( x y j ) P r( x) (4) P r(y j ) ist die a priori Wahrscheinlichkeit der Klasse. P r(y j x) ist die a posteriori Wahrscheinlichkeit der Klasse. 14 von 24

Bayes Gegeben eine Menge von Modellen M m, m = 1,..., M mit entsprechenden Parametern θ m, Trainingsdaten T und eine Verteilung P r(θ m M m ), dann ist die a posteriori Wahrscheinlichkeit eines Modells P r(m m T ) P r(m m ) P r(t M m ) Gegeben dass P r(m l T ) 0, P r(t M l ) 0, P r(m l ) 0: Zum Vergleich zweier Modelle M j, M l berechnen wir den Quotienten: P r(m m T ) P r(m l T ) = P r(m m) P r(m l ) P r(t M m) P r(t M l ) Ist das Ergebnis > 1, nehmen wir M m, sonst M l. 15 von 24

Approximieren der a posteriori Wahrscheinlichkeit Wenn alle Modelle a priori gleich wahrscheinlich sind, müssen wir nur P r(t M i ) approximieren. Mit Maximum Likelihood schätzen wir ˆθ i. Die Anzahl freier Parameter in M i nennen wir d i. Das ist z.b. die Dimension der Beispiele, kann aber wegen h k ( x) oder einiger Eigenschaften des Lernverfahrens auch etwas anderes sein. Als Wahrscheinlichkeit nähern wir an: log P r(t M i ) = log P r(t ˆθ i, M i ) d i 2 log N + O(1) (5) 16 von 24

Maximale a posteriori Wahrscheinlichkeit und BIC Bayes Informationskriterium Sei d die Anzahl der Parameter eines Modells und N die Anzahl der Beispiele, dann ist das Bayes Informationskriterium BIC BIC = 2 loglik + (log N) d (6) Dabei ist loglik = N i=1 log P rˆθ(y i ). BIC als Qualitätskriterium bei Likelihood Maximierung wählt eher einfache Modelle. Unter einer Gaußschen Verteilung und bei bekannter Varianz σ 2 rechnen wir 2 loglik (y i ŷ i ) 2 σ 2 i Die Wahl des Modells mit kleinstem BIC entspricht der Wahl des Modells mit größter a posteriori Wahrscheinlichkeit. 17 von 24

Relative Qualität der Modelle per BIC Die Wahl des Modells mit kleinstem BIC ist zuverlässig. Gegeben eine Familie von Modellen, darunter das richtige, konvergiert die Wahrscheinlichkeit, dass BIC das richtige wählt, gegen 1, wenn die Anzahl der Beispiele gegen konvergiert. Wenn wir für jedes Modell M m, m = 1,..., M den BIC ausrechnen, können wir (wie bei Kreuzvalidierung auch) die Modelle relativ zueinander bewerten, hier: e 1 2 BICm M l=1 e 1 2 BIC l (7) 18 von 24

Minimum Description Length Ein Modell kodiert eine Menge von Beispielen. Wir können Nachrichten so kodieren, dass keine Nachricht Präfix einer anderen ist, z.b. Nachricht z1 z2 z3 z4 Code 0 10 110 111 Wir wollen den kürzesten Code für die häufigste Nachricht. Der Code des Beispiels ist optimal, wenn P r(z1) = 1/2, P r(z2) = 1/4, P r(z3) = 1/8, P r(z4) = 1/8. Wieso das? 19 von 24

Shannon/Weaver Theorem Code-Länge als Entropie Wählen wir die Code-Länge l i einer Nachricht z i als l i = log 2 P r(z i ) so ist die durchschnittliche Nachrichtenlänge length P r(z i )log 2 (P r(z i )) (8) Wenn p i = A l i, wobei A die Anzahl der verwendeten Zeichen ist, gilt sogar die Gleichheit (s. Beispiel): P r(z 1 ) = 1/2 = 2 1 = A l 1, A = 2, l 1 = 1 20 von 24

Minimum Description Length zur Gegeben ein Modell M mit Parametern θ und Beispiele T = (X, y), der Empfänger kennt alle X und soll die y empfangen. Dazu müssen wir den Unterschied zwischen Modell und wahren Werten sowie die Modellparameter übermitteln. Prinzip der Minimum Description Length MDL Wähle immer das Modell mit der kürzesten Nachrichtenlänge! length = log P r(y θ, M, X) log P r(θ M) (9) 21 von 24

Eigenschaften von MDL Bei normalverteilten y, θ, wenn wir X zur Einfachheit weglassen, sehen wir den Einfluss von σ: length = log σ + (y θ)2 σ 2 + θ2 2 Je kleiner σ desto kürzer die Nachricht und einfacher das Modell! 22 von 24

Bezug zwischen MDL und BIC Wenn wir die Länge (Gleichung 9) minimieren length = log P r(y θ, M, X) log P r(θ M) maximieren wir auch die a posteriori Wahrscheinlichkeit (vgl. Gleichung 4) P r(y X). Mit Hilfe des BIC haben wir Modelle für die Funktionsapproximation durch Maximum Likelihood ausgewählt: das Modell mit dem kleinsten BIC entspricht dem Modell mit größter a posteriori Wahrscheinlichkeit. Also kann man das Modell mit der kleinsten Code-Länge (MDL-Prinzip) auch durch die Minimierung des BIC finden. 23 von 24

Was wissen Sie jetzt? Funktionsapproximation optimiert eine Qualitätsfunktion. Fehlerminimierung, z.b. RSS, MSE Maximierung der Likelihood, z.b. durch Approximation der a posteriori Wahrscheinlichkeit Fehlerminimierung RSS entspricht Maximum Likelihood, falls Normalverteilung gegeben (Regression). Für die kann man die Kreuzvalidierung mit Fehlerminimierung und die Kriterien nach Bayes (BIC, MDL) nutzen. 24 von 24