Behandelte Themen. 0. Motivation : Lernen in Statistik und Biologie. 1. Überblick über statistische Datenmodellierungs-Verfahren

Größe: px

Ab Seite anzeigen:

Download "Behandelte Themen. 0. Motivation : Lernen in Statistik und Biologie. 1. Überblick über statistische Datenmodellierungs-Verfahren"

Catrin Melsbach
vor 5 Jahren
Abrufe

1 Behandelte Theen 0. otivation : Lernen in Statistik und Biologie. Überblick über statistische Datenodellierungs-Verfahren. Das lineare odell Regression 3. Perceptron und ultilagen-perceptron Funktionsapproiation 4. Selbstorganisierende erkalskarten Dichteschätzung 5. Lernen von Datenodellen Approiation: Bayes sches Schließen, AP, aiu Likelihood Schätzung und Fehleriniierung Generalisierung und Regularisierung Optiierungsverfahren 6. Bayesianische Netze Dichteschätzung und Funktionsapproiation 7. Kern-Trick und Support Vector achine PD Dr. artin Stetter, Sieens AG Statistische und neuronale Lernverfahren

2 Lernen von Datenodellen Approiation Bayesianische Philosophie und Bayes sches Schließen Bayesianische Datenodellierung Spezialfall: aiu-likelihood-schätzung

3 Ziel aschinellen Lernens statistische Inferenz Gegeben: an verfügt nur über einen Datensatz D {,,..., } Statistische Datenodelle verfügen über freie Paraeter als Beispiel Ziel: Gute odellhafte Beschreibung der zugrundeliegenden statistischen Struktur... Also Gute Beschreibung des Datensatzes D > Optiierung der Paraeter... Aber auch Gute Generalisierung, d.h. Beschreibung neuer Datensätze > Regularisierung 3

4 Bayesianische Philosophie und Bayes sches Schließen Wiederholung: Frequentistische Philosophie: Der Datenpunkt ist eine Stichprobe aus einer eistierenden ahren Verteilung > kann als Grenzert der relativen Häufigkeit interpretiert erden Wahrscheinlichkeit als Prozentsatz Typisches Beispiel: Wahrscheinlichkeit, 6 zu ürfeln Bayesianische Philosophie: Nur der Datenpunkt 0 eistiert, es gibt keine zugrundeliegende Verteilung Wahrscheinlichkeit als Glaube Belief des Eintretens eines Sachverhalts Basiert allein auf Vorissen und auf den beobachteten Daten Typisches Beispiel: Wahrscheinlichkeit, den nächsten arathon zu geinnen PD Dr. artin Stetter, Sieens AG Wahrscheinlichkeitstheorie: Grundlagen, Definitionen 4

5 otivation: Es gilt, die Daten zu erklären. Es gibt kein einzelnes zugrundeliegendes odell Bestie Wahrscheinlichkeitsverteilung über die odelle, gegeben -- den Datensatz D -- unser Vertrauen Vorissen, Prior Belief in die odelle Prinzip: Bayes sches Gesetz p D D D p p D D p D a Priori-Wissen bz. Vertrauen Belief in ein odell ohne Daten prior Wahrscheinlichkeit der Daten i Lichte des odells likelihood a Posteriori Wahrsch. Belief in ein odell geg. Daten posterior Evidenz evidence, beertet Güte der odellfailie vgl. Hyperparaeter 5

6 Beispiel zu Bayes schen Schließen: Ein Labortest gibt it Unsicherheit behaftete Auskunft über einen Krebstyp -- an eiß, dass 0.8 der Bevölkerung diesen Krebs entickeln. -- Der Test reagiert in 98 der Fälle positiv +, enn der Patient Krebs hat. -- Der Test reagiert in 97 der Fälle negativ -, enn der Proband gesund ist. Frage: Wie sicher hat der Proband Krebs, enn das Testergebnis bekannt ist? Vor de Test: + krebs 0.98 krebs krebs 0. 0 gesund gesund 0.03 gesund 0.97 Nach de Test: krebs + + krebs krebs / / krebs " " krebs krebs / " / Eintreffen eines Datenpunktes verändert die Schätzung -- Positiver Test erhöht die Krebschance nur oderat + + krebs krebs + + gesund gesund

7 Bayes sche Dichteschätzung: Benutze alle odelle zur Schätzung der Wahrscheinlichkeit für neuen Datenpunkt : p D D d Bayes sche Regression: arginalisiere über odelle und bilde Erartungsert über Outputs: yˆ D D {,..., } y pn y " f D d dy Iteratives Lernen von Bayes-Schätzern: Vor de ersten Datenpunkt: Nach de ersten Datenpunkt: Nach de zeiten Datenpunkt:... Bayesianische Datenodellierung p p, 7 p,,

8 Likelihood-Funktion und konjugierter Prior: Beobachtung: Posterior i -ten Schritt ist Prior i +. Schritt Wünschensert: Funktionelle For von Prior und Posterior sollen übereinstien Geg: Likelihood-Funktion D Def: Prior ist zur Likelihood-Funktion konjugiert, enn, D dieselbe funktionelle For haben Bsp: Likelihood Gauss Ep. Binoial Fkt. von, para. durch konjugierter Prior Fkt. von µ # e " " µ p e p / Gauss Gaa µ # e " µ " / p # e " k k k " Beta # # ", Bsp. für Hyperparaeter des Prior, Bsp. für Likelihood-Hyperparaeter 8

9 Hierarchische Bayes-odelle: Hierarchisches odell: Schätzung der Hyperparaeter aus der Evidenz p # ", D # D, α Prior-Hyperparaeter, β Likelihood-Hyperparaeter. Die Evidenz ird p D " D #, $ D, $ # d Evidenz Evidenz von α, β i Lichte der Daten Fähigkeit der gesaten odellklasse, beschrieben durch α, β, die Daten zu erklären Bayes sche Schätzung der Hyperparaeter: ", D # ", D ", ", D Hyperprior p " D, Hierarchische odellierung: Evidenz Level k Likelihood Level k+ Bsp: Zei Prior-Hyperparaeter 9

10 aiu a Posteriori AP Schätzer: D arginalisierung über odelle oft schierig Näherung: Verende das odell it der größten a-posteriori-wahrscheinlichkeit AP arg a D D AP Gute Näherung durch AP: Schlechte Näherung durch AP: Gute Näherung bei konzentrierte, syetrische posterior > viele Daten Übergang zu frequentistischer Sicht relative Häufigkeiten, ein ahres odell AP AP Lernen: aiiere posterior D a Äquivalent : iniiere -log posterior ln D ln + const in Später: Risikoiniierung Regularisierung Nur ein odell, aber das uss an finden > Optiierung 0

11 aiu-likelihood-paraeterschätzung Ziel: aiiere Wahrscheinlichkeit, dass die Daten aus de odell erzeugt urden > aiu Likelihood Be: aiu-likelihood entspricht AP ohne Vorissen Prinzip: Likelihood: a. Likelihood: Äquivalent: L p D Für iid independent, identically distributed gezogene Datenpunkte sind die Likelihood-Funktionen verschiedener Datenpunkte unabhängig: { } L ln p,..., {, arg a D arg in,..., ln { ln " # ln, },..., } : arg in ird auch als negative log-likelihood oder Likelihood-Funktion bezeichnet L

12 PD Dr. artin Stetter, Sieens AG Bsp: -Schätzung einer Gauss-Verteilung paraetrische Dichteschätzung:, p p, " # $ & ' ' ' ' ep det, / / T d Eindiensional: c L + + " # # µ # ln, c L T + + " " det ln, -Schätzung für µ: Verschindende Ableitung: " # # $ $ L 0, µ µ µ -Schätzung für σ: " # + " " $ $ L 3 0, µ µ Be: Bei Gauss-verteilten Daten ißt L gerade die ittlere quadratische Abeichung der Daten vo ittel quadratischer Fehler, siehe später Lernen von Datenodellen: Approiation

Ähnliche Dokumente

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben