Naive Bayes. Naive Bayes

Ähnliche Dokumente
Kapitel ML:IV (Fortsetzung)

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

7.11. Naïve Bayes, Entscheidungsbäume

Maschinelles Lernen: Symbolische Ansätze. Wintersemester 2013/2014 Musterlösung für das 7. Übungsblatt

Statistische Modellierung. Vorlesungsplan. Bayesche Regel. Wahrscheinlichkeiten für Wetterdaten

Vortragsthema. Thema: Klassifikation. Klassifikation. OS Data Mining SS10 Madeleine Weiand 1

Maschinelles Lernen: Symbolische Ansätze

Data Mining und Maschinelles Lernen Lösungsvorschlag für das 7. Übungsblatt

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Klausur vom

Modellierung. Entscheidungsbäume, ume, Boosting, Metalerner, Random Forest. Wolfgang Konen Fachhochschule Köln Oktober 2007.

Dokument Klassifikation. Thomas Uhrig: Data-Mining SS10

Naive Bayes für Regressionsprobleme

Wahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung

Mathematische Grundlagen III

10.5 Maximum-Likelihood Klassifikation (I)

Clustering. Ausarbeitung von Michael Speckner. Proseminar Data Mining

Pairwise Naive Bayes Classifier

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

1. Grundbegri e der Stochastik

Data Mining. I. H. Witten and E. Frank. übersetzt von N. Fuhr

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Klassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar

Data Mining. I. H. Witten and E. Frank

Statistik und Wahrscheinlichkeitsrechnung

Klassifikation von Daten Einleitung

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Vorlesung: Statistik II für Wirtschaftswissenschaft

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Kapitel VI. Wahrscheinlichkeitsbegriff. Wahrscheinlichkeitsbegriff. LF: VI Bayesian Learning c STEIN

Biostatistik, Sommer 2017

Wahrscheinlichkeitstheorie 2

SozialwissenschaftlerInnen II

Fit for Abi & Study Stochastik

Die tatsächlichen Breiten und Höhen der Säulen und damit der Flächeninhalt bleiben unverändert:

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Einführung in das Maschinelle Lernen I

Die tatsächlichen Breiten und Höhen der Säulen und damit der Flächeninhalt bleiben unverändert:

Statistik für Bachelorund Masterstudenten

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Clustering. Herbert Stoyan Stefan Mandl. 18. Dezember 2003

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Biostatistik, Sommer 2017

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Maschinelles Lernen: Symbolische Ansätze

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Wahrscheinlichkeitsrechnung

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Maschinelles Lernen: Symbolische Ansätze

Mathematica: u=5;s=1;plot[exp[-0.5((x-u)/s)^2],{x,0,10}] 76

Pareto optimale lineare Klassifikation

Wahrscheinlichkeit und Statistik: Zusammenfassung

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Wahrscheinlichkeitstheorie und Statistik

Maschinelles Lernen: Symbolische Ansätze

Stetige Verteilungen Rechteckverteilung

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Aufgabe Punkte

Statistik I für Betriebswirte Vorlesung 14

Statistik und Wahrscheinlichkeitsrechnung

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Musterlösung der Klausur vom 29. Juli 2003

Musterlösung zur Übungsklausur Statistik

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Wichtige Definitionen und Aussagen

Wahrscheinlichkeitstheorie und Naive Bayes

Forschungsstatistik I

Chi-Quadrat-Verteilung

Künstliche Intelligenz Maschinelles Lernen

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Statistik für Ingenieure und Naturwissenschaftler

Statistische Methoden für Bauingenieure WS 2013/14. Literatur

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Bachelorprüfung: Statistik (1 Stunde)

Einführung in die Maximum Likelihood Methodik

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Wahrscheinlichkeit und Statistik BSc D-INFK

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Klausur (Modulprüfung) zum Lehrerweiterbildungskurs Stochastik am von 10:00 bis 11:00 Uhr

Mathematische Grundlagen III

Statistik I für Betriebswirte Vorlesung 14

Wahrscheinlichkeitsrechnung mathematische Statistik und statistische Qualitätskontrolle

Statistik I für Betriebswirte Vorlesung 5

Transkript:

Naive Bayes Ein einfacher Klassifikator Wolfgang Konen Fachhochschule Köln November 007 W. Konen DMC WS007 Seite - 1 informatikö Inhalt Naive Bayes Der Ansatz Beispiel Wetterdaten Bayes sche Regel Das Problem der Häufigkeit 0 Fehlende Werte Numerische Werte Diskussion W. Konen DMC WS007 Seite - informatikö

Der Ansatz für f r Naive Bayes Naive Bayes benutzt alle Attribute Zwei Annahmen über Attribute: Alle gleich wichtig Statistisch unabhängig (in Bezug auf Klassenwert) D. h. Kenntnis des Wertes eines Attributs sagt nichts über den Wert eines anderen Attributs (wenn die Klasse bekannt ist) Unabhängigkeitsannahme stimmt nie! Aber dieses Verfahren funktioniert gut in der Praxis Kann auch gut mit fehlenden Werten umgehen W. Konen DMC WS007 Seite - 3 informatikö Beispiel Wetterdaten Aktivierung: Was enthält sie? Häufigkeitstabelle: W. Konen DMC WS007 Seite - 4 informatikö

Beispiel Wetterdaten Ein neuer Tag: Likelihood für beide Klassen: Für yes : /9 x 3/9 x 3/9 x 6/9 x 9/14 = 0.0053 Für no : 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.006 Umwandlung in Wahrscheinlichkeiten durch Normalisierung: Pr( yes ) = 0.0053 / (0.0053 + 0.006) = 0.05 = 0.5% Pr( no ) =0.006 / (0.0053 + 0.006) = 0.795 = 79.5% W. Konen DMC WS007 Seite - 5 informatikö Bayes sche sche Regel Wahrscheinlichkeit des Ereignisses H, wenn die Evidenz E gegeben ist : Pr( H E) Pr(E H)Pr(H) Pr(E) Apriori-Wahrscheinlichkeit von H : Pr(H) Wahrscheinlichkeit eines Ereignisses, bevor die Evidenz bekannt ist Aposteriori-Wahrscheinlichkeit von H : Wahrscheinlichkeit eines Ereignisses, nachdem die Evidenz bekannt ist Pr(H E) Aktivierung: Was besagt sie? Thomas Bayes, 170-1761, England W. Konen DMC WS007 Seite - 6 informatikö

Naive Bayes für f r die Klassifikation Lernen von Klassifikationen: Was ist die Wahrscheinlichkeit einer Klasse, wenn die Instanz gegeben ist? Evidenz E = Instanz = Input-Variablen Ereignis H = Klassenwert der Instanz = Soll-Output Naive Annahme: Evidenz kann aufgeteilt werden auf die Attribute, die unabhängig voneinander sind Pr( H E) Pr(E H) Pr(E H)... Pr(E Pr(E) H) 1 n Pr(H) W. Konen DMC WS007 Seite - 7 informatikö Wetterdaten-Beispiel W. Konen DMC WS007 Seite - 8 informatikö

Was tun mit Pr(E)? Die Wahrscheinlichkeit Pr(E) ist allen Faktoren gemeinsam, sie ist aber i.d.r. unbekannt. Wir brauchen sie auch überhaupt nicht, wenn wir erst die Zähler ausrechnen, dann die Summe aller Resultatwahrscheinlichkeiten (Zähler) auf 1 normieren: Pr(" yes" E) Pr("no" E) 1 W. Konen DMC WS007 Seite - 9 informatikö Das Problem der Häufigkeit H 0 Was tun, wenn ein Attributwert nicht mit jedem Klassenwert vorkommt? (z. B. Outlook=overcast für die Klasse no ) Wahrscheinlichkeit ergibt sich zu 0! Aposteriori Wahrscheinlichkeit ergibt sich ebenfalls zu 0! (Egal, wie groß die anderen Wahrscheinlichkeiten sind!) Pr(Overcast "no" ) 0 Bayes Pr("no" Overcast) 0 W. Konen DMC WS007 Seite - 10 informatikö

Das Problem der Häufigkeit H 0 Abhilfe: Addiere (kleinen) Wert zu den Häufigkeiten in Zähler und Nenner von Pr(E H): (z. B. Outlook=overcast für die Klasse no ) 3 / 3 5 "Sunny" sog. Laplace-Schätzer 0 / 3 5 "Overcast" / 3 5 "Rainy" Ergebnis: Wahrscheinlichkeiten können nie 0 werden! (außerdem: die Wahrscheinlichkeitsschätzungen werden stabilisiert) W. Konen DMC WS007 Seite - 11 informatikö Umgang mit fehlenden Werte Training: Instanz wird bei der Häufigkeitszählung für die Attributwert-Klassenkombination nicht berücksichtigt Klassifikation: Attribut wird bei der Berechnung ausgelassen Beispiel: W. Konen DMC WS007 Seite - 1 informatikö

Numerische Werte bei Naive Bayes Übliche Annahme: Attributwerte sind normalverteilt (innerhalb jeder Klasse) Die Dichtefunktion für die Normalverteilung enthält zwei Parameter: Mittelwert 1 n n x i i1 Standardabweichung 1 n 1 n i1 (x i ) W el h c e?p A kti v ie run lo t? g : Dichtefunktion f(x) 1 e (x) W. Konen DMC WS007 Seite - 13 informatikö Anwendung auf die Wetterdaten Beispiel für Dichtewert: f(temperature 66 yes) 1 e 6. (6673) 6. 0.0340 W. Konen DMC WS007 Seite - 14 informatikö

Klassifikation bei numerischem Input Ein neuer Tag: W. Konen DMC WS007 Seite - 15 informatikö Naive Bayes: Diskussion Naiver Bayes funktioniert überraschend gut (selbst wenn die Unabhängigkeitsannahme klar verletzt ist) Warum? Weil die Klassifikation keine exakten Wahrscheinlichkeitsschätzungen benötigt, solange die maximale Wahrscheinlichkeit der korrekten Klasse zugewiesen wird Allerdings: Hinzufügen zu vieler redundanter Attribute führt zu Problemen (z. B. identische Attribute) Außerdem: viele numerische Attribute sind nicht normalverteilt ( kernel density-schätzer) Fazit: Naive Bayes eignet sich als Plain-Vanilla - Standardverfahren der Klassifikation ( Wieviel besser als andere Standard-Klassifikationsverfahren ist mein Verfahren? ) W. Konen DMC WS007 Seite - 16 informatikö

Aufgabe: Naive Bayes in R Schreiben Sie in R zwei Funktionen naivebayes <- function(respvar, d, laplace=1) predict.naivebayes <- function(res.nb,newdata=d) die das Modell Naive-Bayes implementieren. 1. Version: numerische Input-Variablen, keine MV s. Version: numerische oder nominale Inputs 3. Version: auch MV s (missing values) erlaubt Hinweis: ( x nlev)-matrix mit Zeilen- und Spaltennamen: pmat <- matrix(0,nrow=,ncol=nlev, dimnames= list(c("mean","sig"),levels(d[,respvar]))) W. Konen DMC WS007 Seite - 17 informatikö