Kapitel 3: Klassifikation

Ähnliche Dokumente
Inhalt dieses Kapitels

Kapitel 5: Klassifikation

Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

Streuungs-, Schiefe und Wölbungsmaße

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Grundgedanke der Regressionsanalyse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Anwendungsmöglichkeiten von Lernverfahren

Stochastische Prozesse

18. Dynamisches Programmieren

Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Lineare Regression (1) - Einführung I -

Nomenklatur - Übersicht

Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Übung zur Vorlesung - Theorien Psychometrischer Tests II

Prof. Dr. Roland Füss Statistik II SS 2008

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

Modelle, Version Spaces, Lernen

Bayessches Lernen (3)

Modelle, Version Spaces, Lernen

Mining Concept-Drifting Data Streams using Ensemble Classifiers

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

2.1 Einfache lineare Regression 31

Alternative Darstellung des 2-Stichprobentests für Anteile. Beobachtete Response No Response Total absolut DCF CF

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

Gesichtsfindung mit der Support Vektor Maschine

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Lineare Optimierung Dualität

Auswertung univariater Datenmengen - deskriptiv

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Technische Universität München Zentrum Mathematik Diskrete Optimierung: Fallstudien aus der Praxis. Das Cutting Stock-Problem

Werkstoffmechanik SS11 Baither/Schmitz. 5. Vorlesung

Beispiel: Textklassifikation

6. Modelle mit binären abhängigen Variablen

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Maße der zentralen Tendenz (10)

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayessches Lernen

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

6. Übung zur Linearen Algebra II

Facility Location Games

Der Erweiterungsfaktor k

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Mehrfachregression: Einfluss mehrerer Merkmale auf ein metrisches Merkmal. Designmatrix Bestimmtheitsmaß F-Test T-Test für einzelne Regressoren

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Gruppe. Lineare Block-Codes

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Spiele und Codes. Rafael Mechtel

Näherungsverfahren. Wiederhole den Algorithmusbegriff. Erläutere die Begriffe: Klasse der NP-Probleme. Probleme. Probleme. Approximative Algorithmen

Lösungen zum 3. Aufgabenblock

Übung zur Vorlesung. Informationstheorie und Codierung

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

Teil E: Qualitative abhängige Variable in Regressionsmodellen

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. .

Weitere NP-vollständige Probleme

Beschreibende Statistik Mittelwert

Elemente der Mathematik - Sommer 2016

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik

3. Lineare Algebra (Teil 2)

WS 2016/17 Prof. Dr. Horst Peters , Seite 1 von 9

Kapitel 8: Graph-Strukturierte Daten

-70- Anhang: -Lineare Regression-

Kapitel 10 Die Support-Vektor-Maschine (SVM) Ein statistischer Ansatz der Lerntheorie zum Entwurf eines optimalen Klassifikators

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

(2) i = 0) in Abhängigkeit des Zeitunterschieds x ZeitBus ZeitAuto für seinen Arbeitsweg.) i = 1) oder Bus ( y

4. Rechnen mit Wahrscheinlichkeiten

Nullstellen Suchen und Optimierung

FORMELSAMMLUNG STATISTIK (I)

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Konzept der Chartanalyse bei Chart-Trend.de

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Auswertung univariater Datenmengen - deskriptiv

1.1 Das Prinzip von No Arbitrage

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

ω 0 = Protokoll zu Versuch E6: Elektrische Resonanz

Konkave und Konvexe Funktionen

F A C H H O C H S C H U L E W E D E L. Seminararbeit Informatik

Fachbereich Mathematik Prof. K. Grosse-Brauckmann D. Frisch WS 2007/08 10./ Gruppenübung

Klassifikation mit dem Perceptron von Rosenblatt. Vom Perceptron zum Multilagen-Perceptron. Error-Backpropagation Lernregel

Hefte zur Logistik Prof. Dr. Siegfried Jetzke. Heft 1 Begriffsdefinitionen

Lineare Regression. Stefan Keppeler. 16. Januar Mathematik I für Biologen, Geowissenschaftler und Geoökologen

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Standardnormalverteilung / z-transformation

9 Komplexe Zahlen ( ) ( ) 9.1 Ziele. 9.2 Warum braucht man komplexe Zahlen? 9.3 Darstellung von komplexen Zahlen. r 2. j 2. j 1.

12 UMPU Tests ( UMP unbiased )

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

6 Rechnen mit Zahlen beliebig hoher Stellenzahl 7 Intervall-Arithmetik 8 Umsetzung in aktuellen Prozessoren

Statistik und Wahrscheinlichkeit

3.3 Lineare Abbildungen und Matrizen

Bildverarbeitung Herbstsemester Bildspeicherung

Transkript:

Ludwg Mamlans Unverstät München Insttut für Informatk Lehr- und Forschungsenhet für Datenbanksysteme Skrpt zur Vorlesung Knowledge Dscovery n Databases m Wntersemester 2007/2008 Kaptel 3: Klassfkaton Skrpt 2003 Johannes Aßfalg, hrstan Böhm, Karsten Borgwardt, Martn Ester, Eshref Januzaj, Karn Kalng, Peer Kröger, Jörg Sander und Matthas Schubert http://www.dbs.f.lmu.de/lehre/kdd 48 3. Klassfkaton Inhalt deses Kaptels 3. Grundbegrffe der Klassfkaton 3.2 Bayes-Klassfkatoren 3.3 Nächste-Nachbarn-Klassfkatoren 3.4 Entschedungsbaum-Klassfkatoren 3.5 Neuronale Netze 3.5 Support Vector Machnes and Kernel Learnng 3.6 Herarchsche Klassfkaton 49

3. Grundbegrffe der Klassfkaton Das Klassfkatonsproblem Gegeben: ene Menge O von Objekten des Formats (o,..., o d ) mt Attrbuten A, d, und Klassenzugehörgket c, c = {c,..., c k } Gesucht: de Klassenzugehörgket für Objekte aus DB \ O en Klassfkator K : DB Abgrenzung zum lusterng Klassfkaton: Klassen apror bekannt lusterng: Klassen werden erst gesucht Verwandtes Problem: Vorhersage (Predcton) gesucht st der Wert für en numersches Attrbut Methode z.b. Regresson. 50 Enletung Enfacher Klassfkator Bespel ID Alter Autotyp Rsko 23 Famle hoch 2 7 Sport hoch 3 43 Sport hoch 4 68 Famle nedrg 5 32 LKW nedrg f Alter > 50 then Rskoklasse = Nedrg; f Alter 50 and Autotyp=LKW then Rskoklasse=Nedrg; f Alter 50 and Autotyp LKW then Rskoklasse = Hoch. 5

Der Prozess der Klassfkaton Konstrukton des Modells Tranngsdaten Klassfkatons- Algorthmus NAME RANK YEARS TENURED Mke Assstant Prof 3 no Mary Assstant Prof 7 yes Bll Professor 2 yes Jm Assocate Prof 7 yes Dave Assstant Prof 6 no Anne Assocate Prof 3 no Klassfkator f rank = professor or years > 6 then tenured = yes 52 Der Prozess der Klassfkaton Anwendung des Modells Unbekannte Daten (Jeff, Professor, 4) Tenured? Klassfkator yes manchmal: kene Klassfkaton unbekannter Daten sondern nur besseres Verständns der Daten 53

Bewertung von Klassfkatoren Grundbegrffe Se K en Klassfkator und se TR O de Tranngsmenge. O DB st de Menge der Objekte, be denen de Klassenzugehörgket berets bekannt st. Problem der Bewertung: gewünscht st gute Performanz auf ganz DB. Klassfkator st für TR optmert. Test auf TR erzeugt n der Regel vel bessere Ergebnsse, als auf DB\TR. Daher ken realstsches Bld der Performanz auf DB. Overfttng 54 Bewertung von Klassfkatoren Tran-and-Test Bewertung ohne Overfttng durch Auftelen von O n : Tranngsmenge TR zum Lernen des Klassfkators (Konstrukton des Modells) Testmenge TE zum Bewerten des Klassfkators 55

Bewertung von Klassfkatoren Grundbegrffe Tran-and-Test ncht anwendbar, wenn nur wenge Objekte mt bekannter Klassenzugehörgket Stattdessen: m-fache Überkreuz-Valderung (m-fold ross-valdaton) m-fache Überkreuz-Valderung tele de Menge O n m glech große Telmengen verwende jewels m Telmengen zum Tranng und de verblebende Telmenge zur Bewertung kombnere de erhaltenen m Klassfkatonsfehler (und de m gefundenen Modelle!) 56 Bewertung von Klassfkatoren Ablauf 3-fache Überkreuzvalderung (3-fold ross Valdaton) Se n = 3 : Menge aller Daten mt Klassenformaton de zur Verfügung stehen 2 3 a b c fold: Testmenge 2 fold: Testmenge 3 fold: Testmenge 3 c 2 b Tranngsmenge 2 a b Klassfkator Tranngsmenge Klassfkatons -ergebnse 3 a c Klassfkator Tranngsmenge Klassfkatons -ergebnse 2 3 b c a Klassfkator Klassfkatons -ergebnse gesamtes Klassfkatonsergebns 57

Bewertung von Klassfkatoren Ergebns des Tests : Konfusonsmatr (confuson matr) Klasse klassfzert als... Klasse Klasse 2 Klasse 3 Klasse 4 other 35 4 tatsächlche Klasse... Klasse 2 Klasse 3 Klasse 4 other 0 3 3 3 50 0 9 5 2 0 2 5 3 korrekt klassfzerte Objekte Aus der Konfusonsmatr lassen sch folgende Kennzahlen berechnen : Accuracy, lassfcaton Error, Precson und Recall. 58 Bewertung von Klassfkatoren Gütemaße für Klassfkatoren Se K en Klassfkator, TR O de Tranngsmenge, TE O de Testmenge. Bezechne (o) de tatsächlche Klasse enes Objekts o. Klassfkatonsgenaugket (classfcaton accuracy) von K auf TE: { o TE K( o) = ( o)} GTE ( K) = TE Tatsächlcher Klassfkatonsfehler (true classfcaton error) { o TE K( o) ( o)} FTE ( K) = TE Beobachteter Klassfkatonsfehler (apparent classfcaton error) { o TR K( o) ( o)} FTR ( K) = TR 59

Bewertung von Klassfkatoren Recall: Antel der Testobjekte ener Klasse, de rchtg erkannt wurden. Se = {o TE (o) = }, dann st Recall TE { o K( o) = ( o)} ( K, ) = Tatsächl. Klasse (o) Zugeordnete Klasse K(o) 2 2 K Precson: Antel der zu ener Klasse zugeordneten Testobjekte, de rchtg erkannt wurden. Se K = {o TE K(o) = }, dann st Precson TE ( K, ) = { o K K( o) = ( o)} K 60 Bewertung von Klassfkatoren wetere Gütemaße für Klassfkatoren Kompakthet des Modells z.b. Größe enes Entschedungsbaums Interpreterbarket des Modells wevel Enschten vermttelt das Modell dem Benutzer? Effzenz der Konstrukton des Modells der Anwendung des Modells Skalerbarket für große Datenmengen für sekundärspecherresdente Daten Robusthet gegenüber Rauschen und fehlenden Werten 6

Überblck über Klassfkatonsmethoden Tranngsmenge mt 3 Klassen 3 Klassenbereche (weß, grau, schwarz) Alle Klassfkatoren legen bem Tranng Klassengrenzen fest. Aber: Es gbt vele Methoden Klassengrenzen aus Tranngsdaten abzuleten. => Unterschedlche Klassfkatoren (statsche Kl., Entschedungsbäume, Support Vektor Maschnen, knn Klassfkatoren, neuronale Netze, ) 62 Motvaton der Klassfkatonsmethoden() -dmensonale Projekton Klassengrenzen Bayes Klassfkatoren Unterschedung durch Dchtefunktonen. Unterschedung durch Vorono-Zellen ( nächster Nachbar Klassfkator) NN-Klassfkator 63

Motvaton der Klassfkatonsmethoden(2) 2 2 3 4 Entschedungsbäume 3 Festlegen der Grenzen durch rekursve Untertelung n Enzeldmenson. 4 Grenzen über lneare Separaton Support Vektor Maschnen 64 Anwendungen Klassfkaton Klassfkaton von Rskoklassen be Verscherungen und Kredtvergabe Funktonsvorhersage von Protenen Geschtserkennung Erkennen von relevanten Webnhalten Erkennen von Spam- Emals 65

3.2 Bayes-Klassfkatoren Statstsche Klassfkatoren Was snd Bayes-Klassfkatoren? Klassen werden durch statstsche Prozesse beschreben Beruht auf dem Satz von Bayes Bestmme Wahrschenlchketen mt denen jeder Prozess das Objekt erklärt (lass-membershp-probablty) Vorhersage der wahrschenlchsten Klasse (Mamum Lkelhood lassfcaton) -dmensonale Projekton Klassengrenzen 66 Überblck Bayes Klassfkatoren. Grundlagen statstscher Klassfkatoren. A-pror und A-posteror Wahrschenlchketen 2. Regel von Bayes 3. Mamum Lkelhood Klassfkaton Klassfkatoren und Statstsche Prozeße Nave Bayes Bayes Netzwerke LDA multvarate Gauss-Prozesse 67

Bayes-Klassfkatoren Grundlagen Regeln und Fakten zur Klassfkaton werden mt Hlfe des Satzes von Bayes als bedngte Wahrschenlchketen formulert A-Pror-Wahrschenlchketen modelleren Faktenwssen über de Häufgket ener Klasse und das Auftreten von Merkmalen, z.b. 20% der Objekte snd Äpfel 30% snd Orangen 50% der Objekte snd rund 40% haben Farbe orange A-Pror Wahrsch. f. Klassenzugehörgk. A-Pror Merkmalshäufgket Bedngte Wahrschenlchketen ( A-Posteror ) modelleren Zusammenhänge zwschen Klassen und Merkmalen: 00% der Orangen snd rund: P (rund Orange) = 00% 00% der Äpfel snd rund: P (rund Apfel) = 00% 90% der Orangen snd orange: P (orange Orange) = 90% 68 Bayes-Klassfkatoren Be enem gegebenen Merkmals-Vektor M lässt sch de Wahrschenlchket der Klassenzugehörgket zu Klasse mt dem Satz von Bayes ermtteln: P( M ) = P( M ) P( ) P( M ) = Im Bespel: Wahrschenlchket, dass en oranges Objekt ene Orange st: De entsprechenden Wahrschenlchketen werden aus den Tranngsdaten geschätzt P( M ) P( ) P( ) P( M c j P(orange Orange) P(Orange) 0.9 0.3 P( Orange orange) = = = 0.675 P(orange) 0.4 j j ) 69

Bayes-Klassfkaton Der Bayes-Klassfkator schätzt de Wahrschenlchket der Klassenzugehörgket enes Merkmalsvektors Zur endeutgen Zuordnung enes Klassen-Labels geht man mest nach dem Prnzp Mamum Lkelhood vor: = argma P( P( M M ) = argma ) P( ) P( M ) = argma P( M ) P( ) Da P(M) be allen glech st, st nur das Produkt zu optmeren Bespel: P(Apfel M) = 32% P(Orange M) = 32% = Kw P(Kw M) = 36% 70 Schätzung der Wahrschenlchketen A-pror Wahrschenlchketen Mestens: relatve häufgket n den Tranngsdaten. Bsp: 7 Orangen, 2 Äpfel, Sten => A-Posteror Wahrschenlchketen 7 P( Orange) = = 70% 7 + 2 + Statstscher Prozess modellert Zusammenhänge zwschen Merkmalen und ener Klasse Unterschede verwendeter Prozesse: Abhänggket der Merkmale ( Korrelaton oder Unabhänggket) Verwendete Vertelungsfunktonen der Merkmalswerte (dskret, Normalvertelung, Multnomal ) Beschaffenhet der Objekte (Vektor, Sequenz ) 7

-dmensonale Vertelungen Dskrete Merkmale Auszählen relatver Häufgketen Bsp: 3 P( Form = rund A) = = 75% 4 2 P( Farbe = grün A) = = = 50% 4 2 0 P( Form = oval A) = = 0% 4 ID Form Farbe Klasse rund orange A 2 rund grün A 3 rund gelb A 4 eckg grün A 5 oval weß B Problem: (Form = oval) => Klasse A Man verwendet häufg Smoothng, d.h. P( Klasse) > ε. mt 0 < ε <<. D.h. 0 P( Form = oval A) = ma, ε = ε 4 72 -dmensonale Vertelungen Kontnuerlche metrsche Attrbutte dskrete Appromaton P ( 9.0 < Durchmesser 9.5 Orange) = 0% P ( 9.5 < Durchmesser 0.0 Orange) = 30% P (0.0 < Durchmesser 0.5 Orange) = 30% P (0.5 < Durchmesser.0 Orange) = 0% P (.0 < Durchmesser.5 Orange) = 5% 30 25 20 5 0 5 0 2 3 4 5 R Wahrschenlchkets-Dchtefunktonen z.b. Orangen haben enen Durchmesser von 0± cm: p(durchmesser Orange) = N (0, ) mest Berechnung nach Normalvertelung: P( ) = e 2πσ ( μ ) 2σ 2 2 wobe μ = TR TR und σ = TR ( μ) TR 2 73

Motvaton Be hochdmensonalen Merkmalsvektoren schwerge Schätzung der bedngten Wahrschenlchketen P(M ) und damt P( M): M besteht aus velen enzelnen Komponenten, de UND-verknüpft snd: P( M M 2...) = P( M M 2... ) P( ) P( M M...) 2 Be d verschedenen Merkmalen und jewels r verschedenen Werten ergeben sch r d verschedene Merkmalskombnatonen Probleme: De Wahrschenlchketen lassen sch ncht mehr abspechern Man bräuchte >> r d Tranngsdatensätze, um de Wahrschenlchket der enzelnen Merkmalskombnatonen überhaupt ermtteln zu können 74 Nave Bayes-Klassfkaton Lösung deses Problems bem naven Bayes-Klassfkator: Annahme der Bedngten Unabhänggket d.h. be jeder enzelnen Klasse werden de Merkmale so behandelt als wären se vonenander statstsch unabhängg: P (M M 2 ) = P (M ) P (M 2 ) Was bedeutet des? M 2 = Gewcht Klasse=Orange: M = Durchmesser Annahme kann falsch sen Des führt ncht unbedngt dazu, dass de Klassfkaton versagt Aber schlechte Lestung, wenn alle Merkmale be mehreren Klassen etwa glech vertelt snd Unterschede nur n Relatonen der Merkmale zuenander 75

Nave Bayes-Klassfkaton Damt st de Wahrschenlchket der Zugehörgket zu Klasse : P( M M 2...) = = P( ) P( M M 2... ) P( M M...) P( ) k Auch her st der Nenner für alle Klassen glech, so dass nur der Zähler zu mameren st: P( ) k j j P( M j 2 P( M ) j ) k = argma{ P( ) j P( M j )} 76 Bayes-Netzwerke Grundbegrffe Graph mt Knoten = Zufallsvarable und Kante = bedngte Abhänggket Jede Zufallsvarable st be gegebenen Werten für de Vorgänger-Varablen bedngt unabhängg von allen Zufallsvarablen, de kene Nachfolger snd. Für jeden Knoten (Zufallsvarable): Tabelle der bedngten Wahrschenlchketen Traneren enes Bayes-Netzwerkes be gegebener Netzwerk-Struktur und allen bekannten Zufallsvarablen be gegebener Netzwerk-Struktur und telwese unbekannten Zufallsvarablen be apror unbekannter Netzwerk-Struktur 77

Bayes-Netzwerke Bespel Famly Hstory Smoker FH,S FH, S FH,S FH, S L 0.8 0.5 0.7 0. Lungancer Emphysema ~L 0.2 0.5 0.3 0.9 PostveXRay Dyspnea bedngte Wahrschenlchketen für Lungancer be gegebenen Werten für FamlyHstory und Smoker lefert der Wert für Emhysema kene zusätzlche Informaton über Lungancer 78 Lneare Dskrmnanz Analyse Modellere alle Klassen als multvarate Normalvertelungen Berückschtgt Korrelatonen der Attrbute Varanzen und Korrelatonen für alle Klassen glech Bass multvarate Normalvertelung (Gauss-Vertelung) P( ) = Σ(, j) = TR (2π ) Erwartungsvektor: Kovaranzmatr : ( d e T ( μ) 2 TR μ = TR μ ) ( TR j μ ) j ( ) ( μ) Egenschaften: Korrelaton zwschen und j Varanz n der Dagonalen 79

80 Lneare Dskrmnanz Analyse Tranng:. Bestmme μ und Σ für alle Klassen. 2. Mttle globale Kovaranzmatr Σ. (Gewchteter Durchschntt der Kovaranzmatrtzen aller Klassen) Klassfkaton: Σ Σ = ( ) ( ) ( ) ( ) ) ( )) ( log( 2 arg ma )) ( log( ) ( ) ( 2 arg ma ) ( ) (2 arg ma ) ( arg ma ) ( ) ( 2 P P P e P T T T T d σ μ μ μ μ μ π μ μ = + = + = = Lneare Dskrmnanzfunkton 8 Lneare Dskrmnanz Analyse 2 3 Beobachtung: Da nur Erwartungswerte unterschedlch Lneare Separaton Man muss ncht de Wahrschenlchket berechnen. Es recht de Auswertung der folgenden Dskrmnanzfunkton: Klasse mt mamalem σ () wrd vorhergesagt. ) ( log 2 ) ( T T P + Σ Σ = μ μ μ σ

Multvarate Gauss-Prozesse Modellere jede Klasse als multvarate Normalvertelung (Vektoren m R d ) Berückschtgt Korrelatonen der Attrbute Her: Varanzen und Korrelatonen für alle Klassen ndvduell!!!!! Berechnung der Wahrschenlchketen zur Klassfkaton (Mamum Lkelhood) Probleme: Braucht sehr vel Tranngsobjekte für jede Klasse, um sgnfkante Korrelatonswerte zu bestmmen. 82 Interpretaton von Rasterbldern Motvaton automatsche Interpretaton von d Rasterbldern enes bestmmten Gebets für jedes Pel en d-dmensonaler Grauwertvektor (o,..., o d ) verschedene Oberflächenbeschaffenheten der Erde bestzen jewels en charakterstsches Refleons- und Emssonsverhalten (2),(7.5) (8.5),(8.7) 2 2 2 3 2 3 2 3 3 3 3 Erdoberfläche Band 2 0 8 luster luster 2 Ackerland Stadt luster 3 6.5 8.0 20.0 22.0 Band 2 Feature-Raum Wasser 83

Interpretaton von Rasterbldern Grundlagen Anwendung des Bayes-Klassfkators mt Gauss Prozess Schätzung der P(o c) ohne Annahme der bedngten Unabhänggket Annahme ener d-dmensonalen Normalvertelung für de Grauwertvektoren ener Klasse Wahrschenlchket der Klassenzugehörgket Wasser Stadt Entschedungsflächen Ackerland 84 Interpretaton von Rasterbldern Zu schätzen aus den Tranngsdaten Methode μ : d-dmensonaler Mttelwertvektor aller Feature-Vektoren der Klasse c Σ : Kovaranzmatr der Klasse c d d Probleme der Entschedungsregel - Lkelhood für de gewählte Klasse sehr klen - Lkelhood für mehrere Klassen ähnlch unklassfzerte Regonen Grenzwert 85

Bayes-Klassfkatoren Dskusson + hohe Klassfkatonsgenaugket n velen Anwendungen + Inkrementaltät Klassfkator kann enfach an neue Tranngsobjekte adaptert werden + Enbezug von Anwendungswssen - Anwendbarket de erforderlchen bedngten Wahrschenlchketen snd oft unbekannt - Ineffzenz be sehr velen Attrbuten nsbesondere Bayes-Netzwerke 86 3.3 Nächste-Nachbarn-Klassfkatoren Schrauben Nägel Klammern Neues Objekt Instanzbasertes Lernen (nstance based learnng) Enfachster Nächste-Nachbar-Klassfkator: Zuordnung zu der Klasse des nächsten Nachbarpunkts Im Bespel: Nächster Nachbar st ene Schraube Regonen der Klassenzuordnung können als Vorono-Dagramme dargestellt werden: Tranngsdaten Mttelsenkrechte 87

Nächste-Nachbarn-Klassfkatoren Problem: Punkt rechts oben wahrschenlch nur Ausreßer Besser: Betrachte mehr als nur enen Nachbarn k-nächste-nachbarn-klassfkator Entschedungsmenge de Menge der zur Klassfkaton betrachteten k-nächsten Nachbarn Entschedungsregel we bestmmt man aus den Klassen der Entschedungsmenge de Klasse des zu klassfzerenden Objekts? Interpretere Häufgket ener Klasse n der Entschedungsmenge als Wahrschenlchket der Klassenzugehörgket Mamum-Lkelhood-Prnzp: Mehrhetsentschedung Ggf. Gewchtung 88 Wahl des Parameters k zu klenes k: hohe Senstvtät gegenüber Ausreßern zu großes k: vele Objekte aus anderen lustern (Klassen) n der Entschedungsmenge. mttleres k: höchste Klassfkatonsgüte, oft << k < 0 Entschedungsmenge für k = Entschedungsmenge für k = 7 Entschedungsmenge für k = 7 : zu klassfzeren 89

Entschedungsregel Standardregel wähle de Mehrhetsklasse der Entschedungsmenge Gewchtete Entschedungsregel gewchte de Klassen der Entschedungsmenge nach Dstanz, mest nvers quadrert: weght (dst) = /dst 2 nach Vertelung der Klassen (oft sehr unglech!) Problem: Klasse mt zu weng Instanzen (< k/2) n der Tranngsmenge bekommt kene hance, ausgewählt zu werden, selbst be optmaler Dstanzfunkton Klasse A: 95 %, Klasse B 5 % Entschedungsmenge = {A, A, A, A, B, B, B} Standardregel A, gewchtete Regel B 90 Klassfkaton von Sternen Analyse astronomscher Daten Entfernen von Rauschen Manuelle Analyse der nteressanten Sterntypen Automatsche Klassfkaton des Sterntyps Bldsegmenterung Feature-Etrakton Klassfkaton des Sterntyps mt Nächste-Nachbarn-Klassfkator baserend auf dem Hpparcos-Katalog 9

Klassfkaton von Sternen Hpparcos-Katalog [ESA 998] enthält ca. 8 000 Sterne mt 78 Attrbuten (Hellgket, Entfernung, Farbe,...) Klassenattrbut: Spektraltyp (Attrbut H76) z.b. ANY H76: G0 G K... H76: G7.2 H76: KIII/IV G0 G G2... Werte des Spektraltyps snd vage Herarche von Klassen benutze de erste Ebene der Klassenherarche 92 Klassfkaton von Sternen Klasse #Instanzen Antel Instanzen Vertelung der Klassen K 32 036 27.0 F 25 607 2.7 G 22 70 9.3 A 8 704 5.8 B 0 42 8.8 M 4 862 4. O 265 0.22 65 0.4 R 89 0.07 W 75 0.06 N 63 0.05 S 25 0.02 D 27 0.02 häufge Klassen seltene Klassen 93

Klassfkaton von Sternen Epermentelle Untersuchung [Poschenreder 998] Dstanzfunkton mt 6 Attrbuten (Farbe, Hellgket und Entfernung) mt 5 Attrbuten (ohne Entfernung) beste Klassfkatonsgenaugket mt 6 Attrbuten Anzahl k der Nachbarn beste Klassfkatonsgenaugket für k = 5 Entschedungsregel Gewchtung nach Dstanz Gewchtung nach Klassenvertelung beste Klassfkatonsgenaugket be Gewchtung nach Dstanz aber ncht nach Klassenvertelung 94 Klassfkaton von Sternen Klasse Falsch Korrekt Klassfkatonsklassfzert klassfzert genaugket K 408 2338 85.% F 350 20 85.8% G 784 405 64.2% A 32 975 75.8% B 308 24 43.9% M 88 349 79.9% 4 5 55.6% R 5 0 0% W 4 0 0% O 9 0 0% N 4 20% D 3 0 0% S 0 0% Total 246 7529 75.3% hohe Klassfkatonsgenaugket für de häufgen Klassen, schlechte Genaugket für de seltenen Klassen de mesten seltenen Klassen bestzen wenger als k / 2 = 8 Instanzen! 95

Nächste-Nachbarn-Klassfkatoren Dskusson + Anwendbarket erfordert als Engabe nur de Tranngsdaten + hohe Klassfkatonsgenaugket n velen Anwendungen + nkrementell Klassfkator kann sehr enfach an neue Tranngsobjekte adaptert werden + auch zur Vorhersage ensetzbar - Ineffzenz be der Auswertung des Modells erfordert k-nächste-nachbarn Anfrage an de Datenbank - lefert ken eplztes Wssen über de Klassen 96 3.4 Entschedungsbaum-Klassfkatoren Motvaton ID Alter Autotyp Rsko 23 Famle hoch 2 7 Sport hoch 3 43 Sport hoch 4 68 Famle nedrg 5 32 LKW nedrg Autotyp = LKW LKW Rskoklasse = nedrg Alter > 60 60 Rskoklasse = nedrg Rskoklasse = hoch fnden eplztes Wssen Entschedungsbäume snd für de mesten Benutzer verständlch 97

Grundbegrffe En Entschedungsbaum st en Baum mt folgenden Egenschaften: en nnerer Knoten repräsentert en Attrbut, ene Kante repräsentert enen Test auf dem Attrbut des Vaterknotens, en Blatt repräsentert ene der Klassen. Konstrukton enes Entschedungsbaums anhand der Tranngsmenge Top-Down Anwendung enes Entschedungsbaums Durchlauf des Entschedungsbaum von der Wurzel zu enem der Blätter endeutger Pfad Zuordnung des Objekts zur Klasse des errechten Blatts 98 Konstrukton enes Entschedungsbaums Bass-Algorthmus Anfangs gehören alle Tranngsdatensätze zur Wurzel. Das nächste Attrbut wrd ausgewählt (Spltstratege). De Tranngsdatensätze werden unter Nutzung des Spltattrbuts parttonert. Das Verfahren wrd rekursv für de Parttonen fortgesetzt. lokal optmerender Algorthmus Abbruchbedngungen kene weteren Spltattrbute alle Tranngsdatensätze enes Knotens gehören zur selben Klasse 99

Entschedungsbaum-Klassfkatoren Bespel Tag Ausscht Temperatur Feuchtgket Wnd Tennspelen sonng heß hoch schwach nen 2 sonng heß hoch stark nen 3 bedeckt heß hoch schwach ja 4 regnersch mld hoch schwach ja 5 regnersch kühl normal schwach ja 6 regnersch kühl normal stark nen 7............... Ist heute en Tag zum Tennsspelen? 00 Entschedungsbaum-Klassfkatoren Bespel Ausscht sonng bedeckt regnersch Feuchtgket ja Wnd hoch normal stark schwach nen ja nen ja 0

Spltstrategen Kategorsche Attrbute Typen von Splts Spltbedngungen der Form attrbut = a or attrbut set vele möglche Telmengen attrbut attrbut = a = a 2 = a 3 Numersche Attrbute Spltbedngungen der Form attrbut < a vele möglche Spltpunkte s s 2 attrbut < a a 02 Spltstrategen Qualtätsmaße für Splts Gegeben ene Menge T von Tranngsobjekten ene dsjunkte, vollständge Parttonerung T, T 2,..., T m von T p de relatve Häufgket der Klasse c n T Gesucht en Maß der Unrenhet ener Menge S von Trannsgobjekten n Bezug auf de Klassenzugehörgket en Splt von T n T, T 2,..., T m, der deses Maß der Unrenhet mnmert Informatonsgewnn, Gn-Inde 03

Spltstrategen Informatonsgewnn Entrope: mnmale Anzahl von Bts zum oderen der Nachrcht, mt der man de Klasse enes zufällgen Tranngsobjekts mttelen möchte De Entrope für ene Menge T von Tranngsobjekten st defnert als entrope( T) = p logp k = entrope(t) = 0, falls p = für en entrope(t) = für k = 2 Klassen mt p = /2 Das Attrbut A habe de Parttonerung T, T 2,..., T m erzeugt. Der Informatonsgewnn des Attrbuts A n Bezug auf T st defnert als m T nformatonsgewnn( T, A) = entrope( T) T entrope ( T ) = 04 Spltstrategen Gn-Inde Gn-Inde für ene Menge T von Tranngsobjekten gn( T)= k j= 2 pj klener Gn-Inde gernge Unrenhet, großer Gn-Inde hohe Unrenhet Das Attrbut A habe de Parttonerung T, T 2,..., T m erzeugt. Gn-Inde des Attrbuts A n Bezug auf T st defnert als gn A m T ( T) = T gn ( T ) = 05

Spltstrategen Bespel 9 ja 5 nen Entrope = 0,940 Feuchtgket hoch normal 3 ja 4 nen 6 ja nen Entrope = 0,985 Entrope = 0,592 9 ja 5 nen Entrope = 0,940 Wnd schwach stark 6 ja 2 nen 3 ja 3 nen Entrope = 0,8 Entrope =,0 7 nformatonsgewnn( T, Feuchtgket) = 094,,, =, 4 0 985 7 0 592 0 5 4 8 6 nformatonsgewnn( T, Wnd) = 0,94 0,8,0 = 0,048 4 4 Feuchtgket lefert den höheren Informatonsgewnn 06 Overfttng Enführung Overfttng be der Konstrukton enes Entschedungsbaums, wenn es zwe Entschedungsbäume E und E gbt mt E hat auf der Tranngsmenge ene klenere Fehlerrate als E, E hat auf der Grundgesamthet der Daten ene klenere Fehlerrate als E. Klassfkatonsgenaugket auf Tranngsdaten auf Testdaten Baumgröße 07

Overfttng Ansätze zum Vermeden von Overfttng Entfernen von fehlerhaften Tranngsdaten nsbesondere wdersprüchlche Tranngsdaten Wahl ener geegneten Größe der Tranngsmenge ncht zu klen, ncht zu groß Wahl ener geegneten Größe des mnmum support mnmum support: Anzahl der Datensätze, de mndestens zu enem Blattknoten des Baums gehören müssen mnmum support >> 08 Overfttng Ansätze zum Vermeden von Overfttng Wahl ener geegneten Größe der mnmum confdence mnmum confdence: Antel, den de Mehrhetsklasse enes Blattknotens mndestens bestzen muß mnmum confdence << 00% Blätter können auch fehlerhafte Datensätze oder Rauschen absorberen nachträglches Prunng des Entschedungsbaums Abschneden der überspezalserten Äste 09

Prunng von Entschedungsbäumen Fehlerreduktons-Prunng [Mtchell 997] Auftelung der klassfzerten Daten n Tranngsmenge und Testmenge Konstrukton enes Entschedungsbaums E für de Tranngsmenge Prunng von E mt Hlfe der Testmenge T bestmme denjengen Telbaum von E, dessen Abschneden den Klassfkatonsfehler auf T am stärksten reduzert entferne desen Telbaum fertg, falls ken solcher Telbaum mehr estert nur anwendbar, wenn genügend vele klassfzerte Daten 0 Numersche Spltgrenzen Wo sollen dskrete Attrbute gesplttet werden? => An den Stellen, de den Informaton Gan mameren. Idee: Ordnen der numerschen Attrbutwerte Wert 0.9 0.8 0.65 0.5 0.45 0.3 0.5 0.0 Klasse A A B B B A A A Potentelle Spltkanddaten Teste de Kombnaton, de den höchsten Informaton Gan erzelen. Schnellere Methode: Blde Gauß-Kurve über alle Klassen Wähle Schnttpunkte der Gauß-Kurven als Kanddaten. Potentelle Spltkanddaten

Entschedungsbaum-Klassfkatoren Dskusson + Interpretaton des gefundenen Baumes relatv enfach + Implzte Gewchtung der Attrbute + Lestungsfähger Klassfkator, häufg n der Pras verwendet + Effzente Auswertung des gefundenen Modells - Fnden enes optmalen Entschedungsbaums st eponentell - Heurstsche Methoden können nur lokales Optmum fnden - Anfällg für Overfttng 2 3.4 Neuronale Netze Grundlagen [Bgus 996], [Bshop 995] Paradgma für en Maschnen- und Berechnungsmodell Funktonswese ähnlch der von bologschen Gehrnen Neuronales Netz: Menge von Neuronen, über Kanten mtenander verbunden Neuron: entsprcht bologschem Neuron Aktverung durch Input-Sgnale an den Synapsen Erzeugung enes Output-Sgnals, das zu anderen Neuronen wetergeletet wrd Organsaton enes neuronalen Netzes Input-Schcht, verborgene Schchten, Output-Schcht Knoten ener Schcht mt allen Knoten der vorhergehenden Schcht verbunden 3

Grundlagen Kanten bestzen Gewchte Funkton enes neuronalen Netzes Output-Vektor y Output-Schcht verborgene Schcht Vorhergesagte Klasse w j Input-Schcht w j Input-Vektor 4 Neuronen allgemenes Neuron a: Aktverungswert n a = w = 2 n... w w 2 w n Σ a y = + e a Threshold Logc Unt (TLU) 2 n w... w 2 w n Σ a y θ a, wenn a θ y = 0, sonst 5

Neuronen Klassfkaton mt Hlfe ener TLU repräsentert ene (Hyper-)Ebene lnks von der Ebene: Klasse 0 rechts von der Ebene: Klasse n = w = θ 2 0 0 0 0 0 0 0 0 Traneren ener TLU Lernen der rchtgen Gewchte zur Unterschedung der zwe Klassen Iteratve Anpassung der Gewchte w j Rotaton der durch w und θ gegebene Hyperebene um enen klenen Betrag n Rchtung v, wenn v noch ncht auf der rchtgen Sete der Ebene legt 6 Kombnaton mehrerer Neuronen zwe Klassen, de ncht lnear separerbar snd: zwe nnere Knoten und en Output-Knoten Bespel y 0 A A A A A A A A A A A B B B B B B B B A A A A A 0 h h 2 h = 0 h = 0: y = 0 ( Klasse B) 2 andernfalls: y = ( Klasse A) 7

Lernalgorthmus für komplee Neuronale Netze be Abwechung von vorhergesagter und tatsächlcher Klasse: Anpassung der Gewchte mehrerer Knoten Frage n welchem Maße snd de verschedenen Knoten an dem Fehler betelgt? Anpassung der Gewchte durch Gradentenverfahren, das den Gesamtfehler mnmert Gesamtfehler: Summe der (quadratschen) Abwechungen des tatsächlchen Outputs y vom gewünschten Output t für de Menge der Inputvektoren Voraussetzung: Output y stetge Funkton der Aktverung a 8 Algorthmus Backpropagaton für jedes Paar(v,t) // v = Input,t = gewünschter Output forward pass : Bestmme den tatsächlchen Output y für Engabe v; backpropagaton : Bestmme den Fehler (t y) der Output-Enheten und passe de Gewchte der Output-Enheten n de Rchtung an, de den Fehler mnmert; Solange der Input-Layer ncht errecht st: Propagere den Fehler auf de nächste Schcht und passe auch dort de Gewchte der Enheten n fehlermnmerender Wese an; 9

Desgn der Netztopologe Bestmmung von Anzahl der Input-Knoten Anzahl der nneren Schchten und jewelge Anzahl der Knoten Anzahl der Output-Knoten starker Enfluß auf de Klassfkatonsgüte zu wenge Knoten nedrge Klassfkatonsgüte zu vele Knoten Overfttng 20 Bestmmung der Netztopologe nach [SPSS lementne 2000] Statsche Topologe Topologe wrd apror festgelegt ene verborgene Schcht recht n velen Anwendungen aus Dynamsche Topologe dynamsches Hnzufügen von Neuronen (und verborgenen Schchten) solange Klassfkatonsgüte sgnfkant verbessert wrd Multple Topologen Traneren mehrerer dynamscher Netze parallel z.b. je en Netz mt, 2 und 3 verborgenen Schchten 2

Bestmmung der Netztopologe Prunng Traneren enes Netzes mt statscher Topologe nachträglches Entfernen der unwchtgsten Neuronen solange Klassfkatonsgüte verbessert wrd Schlußfolgerung statsche Topologe: nedrge Klassfkatonsgüte, aber relatv schnell. Prunng: beste Klassfkatonsgüte, aber sehr hoher Laufzetaufwand zum Tranng. 22 Dskusson + m Allgemenen sehr hohe Klassfkatonsgüte belebg komplee Entschedungsflächen + robust gegen Rauschen n den Tranngsdaten + Effzenz der Anwendung - schlechte Verständlchket (lernt nur Gewchte, aber kene Klassenbeschrebung) - Ineffzenz des Lernens (sehr lange Tranngszeten) - kene Integraton von Hntergrundwssen 23

3.5. Support Vector Machnes Motvaton: Lneare Separaton Vektoren n R d repräsenteren Objekte. Objekte gehören zu genau ener von je 2 Klassen Klassfkaton durch lneare Separaton: Suche Hyperebene, de bede Klassen mamal stabl vonenander trennt. trennende Hyperebene ordne unbekannte Elemente der Sete der Ebene zu, auf der se sch befnden. 24 Support Vector Machnes Probleme be lnearer Separaton: Was st de mamal stable Hyperebene und we berechnet man Se effzent? Klassen ncht mmer lnear trennbar. Berechnung von Hyperebenen nach Auswahl sehr aufwendg. Enschränkung auf 2 Klassen.... Lösungen deser Probleme mt Support Vector Machnes(SVMs ) [Vapnk 979 u. 995]. 25

Mamum Margn Hyperplane Problem: Hyperebene de P und P 2 trennt st ncht endeutg. Welche Hyperebene st für de Separaton de Beste? P 2 P 2 P P Krteren: Stabltät bem Enfügen Abstand zu den Objekten beder Klassen 26 Mamum Margn Hyperplane Lneare Separaton mt der Mamum Margn Hyperplane Mamum Margn Hyperplane P 2 ξ ξ P Abstand zu Punkten aus beden Mengen st mamal, d.h. mnd. ξ. Wahrschenlchket, dass bem Enfügen de trennende Hyperebene verschoben werden muss, st mnmal. generalsert am besten. Mamum Margn Hyperplane (MMH) st mamal stabl Rand (margn) MMH st nur von Punkten P abhängg, de Abstand ξ zur Ebene aufwesen. P heßt Support Vector 27

Mamum Margn Hyperplane Zusammenfassung der Schrebwesen der benötgten algebraschen Konstrukte für Featurespace FS: Skalarprodukt zweer Vektoren: z.b., y = ( y ) = Beschrebung ener Hyperebene: d, y,, y FS kanonsches Skalarprodukt ( w, b) H = FS 0 = w, + b ( ) b Abstand enes Vectors zur Ebene: dst, H ( w, b) = w, + w, w 28 Mamum Margn Hyperplane Berechnung der Mamum Margn Hyperplane. Bedngung: ken Klassfkatonsfehler (Klasse: y =,Klasse 2:y =-) ( y ) [, ] 0 = w + b < y w, ( y = ) [ w, + b] > 0 2. Bedngung: Mamaler Rand (Margn) ( ) [ + b] > 0 mamere: ξ = mn TR w, w w, + b (Abstand von zur Ebene H( w, b) ) oder mamere: ξ, so dass y [ w, + b] ξ w, w für [..n] 29

Mamum Margn Hyperplane mamere ξ n y [ w, + b] ξ, für [..n] w, w Setze = ξ : ma., mt y ξ w + b ξ [..n] w, w w, w ( ( ) ) ma., mt y w, + b [..n] w, w ( ( (, ) ) Statt w, w nvertere, quadrere und mnmere das Ergebns: Prmäres OP: mnmere J ( w, b) = w, w unter Nebenbedngung für [..n] se ( y ( w, +b) ) 30 Mamum Margn Hyperplane Zur Berechnung wrd das prmäre Optmerungsproblem n en duales OP überführt (Umformulerung n Form mt Langrange Multplkatoren). Duales OP: mamere n n n L ( α) = α α α j y y j, = 2 = j= j unter Bedngung n = α y = 0, 0 α und n α R Lösung des Problems mt Algorthmen aus der Optmerungstheore bs jetzt nur lnear separerbarer Fall: Soft Margn Optmerung Enführung von Kernelfunktonen zur Stegerung der Kapaztät 3

Soft Margn Behandlung ncht lnear trennbarer Daten: Soft Margn Optmerung Daten ncht separerbar vollständge Separaton st ncht optmal Trade-Off zwschen Tranngsfehler und Brete des Randes 32 Soft Margn Betrachte bem Optmeren zusätzlch noch de Anzahl der Tranngsfehler. P ξ 2 ξ P 2 ξ st der Abstand von P zum Rand (wrd auch Slack-Varable genannt) regulert den Enfluss enes enzelnen Tranngsvektors Prmäres OP : mnmere unter Nebenbedngung für [..n] se n J ( w, b, ξ ) = w, w + ξ 2 y = ( w, + b) ξ und ξ 0 Prmäres Optmerungsproblem unter wechen Grenzen (Soft Margn) 33

Soft Margn Das duale OP mt Langrange Multplkatoren verändert sch we folgt: Duales OP: mamere mt Bedngung n = α n n n L ( α) = α α α j y y j, = 2 = j= y = 0 und 0 α j 0 < α < Support Vektor mt ξ = 0 α = Support Vektor mt ξ >0 α = 0 sonst ξ 2 P 2 P Entschedungsregel: () h = sgn α y, + b SV ξ 34 Kernel Machnes Lernen be ncht lnear trennbaren Datenmengen Problem: Be realen Problemen st häufg kene lneare Separaton mt hoher Klassfkatonsgenaugket mehr möglch. Idee: Transformere Daten n enen ncht lnearen Feature-Raum und versuche se m neuen Raum lnear zu separeren. (Erweterung des Hypothesenraumes) Bespel: quadratsche Transformaton 35

Kernel Machnes Erweterung der Hypothesenraumes Engaberaum φ erweterter Feature Raum Versuche jetzt n erwetertem Feature Raum lnear zu separeren Bespel: φ a b c a b c a a a b a c b b b c c c her: Ene Hyperebene m erweterten Feature Raum st en Polynom 2. Grades m Engaberaum. 36 Kernel Machnes Engaberaum: = m erweterten Raum: (6 Attrbute) ( ), 2 φ (2 Attrbute) 2 2 ( ) = (, 2, 2, 2,), 2 2 2 2 2 2 37

Kernel Machnes Enführung enes Kernels (Implzte) Featuretransformaton mttels φ ( ) : FS alt FSneu Duales OP: mamere mt Bedngung L( α) n α = α 2 = 0 n = y = n n = j= und 0 α α α j y y j φ( ), φ( j ) Zusätzlche Featuretransformaton wrkt sch nur auf das Skalarprodukt der Tranngsvektoren aus. Kernel K st ene Funkton mt: K (, j ) φ( ), φ( j ) φ = 38 Kernel Machnes Notwendge Bedngungen: K y = φ ( ), φ( y) = φ( y), φ( ) = K y, (Symmetre) φ (, ) φ ( ) 2 ( ) ( ) ( ) K, y K, K y, y (auchy-schwarz) φ Wann st ene Funkton K(,y) en Kernel? Wenn de Kernel-Matr (Gram Matr) KM K(, ).. K(, n) KM ( K) =...... K( n, ).. K( n, n) postv (sem)defnt st, also kene negatven Egenwerte bestzt, dann st K(,y) en Kernel (sehe Mercer s Theorem) φ φ Symmetre und auchy-schwarz snd kene hnrechenden Bedngungen! 39

Kernel Machnes enge Regeln zur Kombnaton vom Kerneln: (, y) = K(, y) K2( y) (, y) = K (, y) + K2( y) (, y) = a K( y) T (, y) = B y K, K, K, K für K, K 2 Kernelfunktonen, a ene postve Konstante und B ene symmetrsche postv sem-defnte Matr. 40 Kernel Machnes Bespele für verwendete Kernel-Funktonen: lnear: K (, y) =, y polynomell: ( y c) d K (, y) =, + Radale Bassfunktonen: K(, y) = ep γ y 2 y GaussKernel: K(, y) = ep 2 2σ Sgmod: ( ( y) c) K (, y) = tanh γ + 2 4

42 Kernel Machnes Radal Bass Kernel Polynomeller Kernel (Grad 2) 43 Tranng ener SVM zu lösen st folgendes Problem: ( ) j j n n j j n K y y L, 2 ) ( = = = = α α α α Duales OP: mamere mt Bedngung und 0 α = = n y 0 α n n n n n n n n n T n n T K y y K y y K y y K y y α α α α α α.. ), (.. ), (...... ), (.. ), (.. 2.... ma oder mt Bedngung und 0 α = = n y 0 α

Tranng ener SVM zur Lösung: Standardalgorthmen aus der Optmerungstheore für konvee quadratsche Programme für große Tranngsmengen numersche Algorthmen notwendg es esteren enge Spezalalgorthmen für SVM-Tranng: hunkng / Decomposton Sequental Mnmal Optmsaton (SMO) 44 Mult-lass SVMs Bsher SVMs nur anwendbar auf 2 Klassen Probleme!! Idee: Kombnaton mehrere 2-Klassen SVMs zu Klassfkatoren, de belebg vele Klassen unterscheden können. Mult-lass SVMs 2 klasssche Ansätze:. Unterschede jede Klasse von allen anderen (-versus-rest) 2. Unterschede je 2 Klassen (-versus-) 45

-versus-rest Ansatz y B A SVMs: A B R E S T Klassfkaton y A B ξ ξ A O ξ B A B - - Klasse von O R E S T -versus-rest Ansatz : SVM für jede Klasse. SVM trennt jedes Klasse von Verengung aller anderen Klassen ab Klassfzere O mt allen Bass-SVMs. Multple Klassenzugehörgket möglch (Mult-lassfcaton) oder Entschedung für de Klasse, be der Abstand ξ am größten st. 46 -versus- Ansatz y B A SVMs: A B A-B A- B- A B Klassfkaton y A B o SVMs: A B A A B 0 2 Votng-Vektor A B -versus- Ansatz : SVM für jedes Paar von Klassen. Klassfkaton von Objekt O:. Klassfzere O mt allen Bass-SVMs. 2. Zähle Stmmen (Votes) für jede Klasse. Mamale Anzahl an Votes => Ergebns. 47

Verglech -versus-rest und -versus- Krterum Aufwand Tranng Aufwand Klassfkaton Genaugket -versus-rest lnear zur Anzahl der Klassen ( O( K ) ) lnear zur Anzahl der Klassen ( O( K ) ) tendenzell schlechter -versus- Quadratsch zur Anzahl der Klassen ( O( K 2 ) ) Quadratsch zur Anzahl der Klassen ( O( K 2 ) ) Verbesserung: Decson Drected Acyclc Graphs Klassfkaton n O( K ) [Platt,hrstann 999] tendenzell höher, (nutzt wssen über unterschedlche Klassen besser aus) 48 Anwendungen von SVM SVM zur Tetklassfkaton [Joachms98] 2 Datensätze Reutersdatensatz: Nachrchtenagenturtete 9603 Tranngsdokumente, 3299 Testdokumente, 90 Kategoren Ohsumed corpus: Medznsche Tete jewels 0.000 Test- und Tranngsdokumente, 23 Kategoren (unterschedlche Krankheten) Epermente durch Verglech zwschen: Nave Bayes 4.5(Entschedungsbaum) Roccho (Relevance Feedback) k-nn Klassfkator SVM (polynomeller und radal bass functon -Kernel ) 49

Anwendungen von SVM Ergebnsse: Nave Bayes Roccho 4.5 k-nn SVM (poly.) SVM (rbf) durchschn. Genaugket 72.0 79.9 79.4 82.3 86.0 86.4 ma. pro Kl. 95.9 96. 96. 97.3 98.5 98.5 (Klassfkaton mt Klassfkator pro Klasse, der Zugehörgket prüft.) Ergebns: SVM leferten deutlch bessere Ergebnsse k-nn Klassfkator bester der etablerten Methoden Wahl des Kernel/der Kernelparameter rel. unkrtsch Bsp.: Grad des Polynoms : 84.2% (d=2) - 86.2% (d=4) 50 Anwendungen von SVM wetere Anwendungsbespele: Blderkennung [Pontl, Verr 98] Buchstabenerkennung [Boser, Guyon, Vapnk 92] Bonformatk Genepressonsanalyse [Brown et al. 99] Erkennen homologer Protene [Jaakkola, Haussler 98] 5

Support Vector Machnes Dskusson + erzeugt Klassfkatoren mt hoher Genaugket + verhältnsmäßg schwache Tendenz zu Overfttng (Begründung durch Generalserungtheore) + effzente Klassfkaton neuer Objekte + kompakte Modelle - unter Umständen lange Tranngszeten - aufwendge Implementerung - gefundene Modelle schwer zu deuten 52 Support Vector Machnes Lteratur:. ortes, V. Vapnk: Support-vector networks. Machne Learnng, 20:273-297, November 995..J.. Burges: A tutoral on support vector machnes for pattern recognton. Data Mnng and Knowledge Dscovery, 2(2):2-67,998. T. Joachms: Tet categorsaton wth Support Vector Machnes. n Proceedngs of European onference on Machne Learnng (EML), 998. N. rstann, J Shawne-Taylor: An Introducton to Support Vector Machnes and other kernel-based learnng methods. ambrdge Unversty Press 2000. 53

3.6 Herarchsche Klassfkaton Bsher: Flacher Klassenraum = {,.., n } Bespel: Ene Emal st Spam oder ncht. Häufg: Herarchscher Klassenraum Bespel: Nachrchten über Fußball snd en Tel der Sportnachrchten. Herarchsche Klassfkaton berückschtgt Bezehungen der Klassen zuenander. 54 Bespel zur herarchschen Klassfkaton Nachrchtenklassen Alle Sport Poltk Wrtschaft Ballsport Motorsport Kampfsport Klassen snd n ener Taonome organsert! (s-a Bezehungen) Es glt: Gehört en (Tranngs-)Objekt o zu Klasse, dann gehört o auch zu allen Klassen, de Oberklassen von snd. es recht aus, wenn de Tranngsdokumente, hrer spezellsten Klasse zugeordnet snd. Top-Down Klassfkaton n der Taonome: Damt en Objekt zur Klasse gehört, muss es erstmal zur Vaterklasse gehören. Achtung: Es gbt auch andere Arten von herarchschen Klassfkatoren, de Klassen-Ähnlchketen ausnützen! 55

Aufbau von herarchschen Klassfkatoren Für de Klassfkatoren K st prnzpell jedes Klassfkatonverfahren anwendbar. Aufbau des Klassfkatonssystems: Objekt hat genau ene Klasse: Pro nneren Knoten wrd en Klassfkator tranert. K K2 K3 K4 Objekt kann mehrere Klassen haben: Pro Kante wrd en Klassfkator tranert. K K2 K3 K4 K6 K8 K5 K7 K9 K0 56 Tranng von herarchschen Klassfkatoren Top-Down Tranng für endeutge Klassenzugehörgket: Tranngsmenge TR Tranere K mt TR für Klassen,2,3 All Tranere K2 mt TR ={ TR class() = } für Klassen 4 und 5 Tranere K3 mt TR 2 ={ TR class() = 2} für Klassen 6, 7, 8 4 K 2 3 K2 K3 K4 5 6 7 8 9 0 57

Tranng von herarchschen Klassfkatoren Top-Down Tranng für mehrfache Klassenzugehörgket: Tranngsmenge TR, lass(o) = {Menge der Klassen von o} Tranere K mt TR für Klassen, Other wobe TR = { TR lass()} TR other = { TR lass()}. Tranere K4 mt TR für Klassen 4, Other wobe TR 4 = { TR 4 lass()} TR other = { TR 4 lass()} K4 4 5 K All K2 K3 2 3 K5 K6 K7 K8 K9 K0 6 7 8 9 0 58 Klassfkaton mt herarchschen Klassfkatoren Greedy-Ansatz: Klassfkaton von Objekt o.klassfzere o mt K => t {, 2, 3} 2. Gehe zu t und klassfzere o mt Kt: Klassfkaton entlang des Pfades auf dem de jewels vorhergesagte Klasse legt. Abbruch wenn Blatt errecht st. 4 o All K 2 3 K2 K3 K4 5 6 7 8 9 0 o gehört zu 8. 59

Klassfkaton mt herarchschen Klassfkatoren Vortele des Greedy-Ansatz:. Effzenz Nur en Pfad n der Taonome muß besucht werden. 2. Taonome belebg Blätter dürfen auf unterschedlcher Höhe legen. 3. Belebge Klassfkatoren anwendbar. 4 K2 5 All K o 2 3 o gehört zu 2. K4 9 0 Nachtel des Greedy-Ansatzes: Fehler be Vaterknoten können ncht durch korrekte Behandlung be den Söhnen ausgeglchen werden. D.h. Falls K nur 55 % Genaugket lestet, kann Klassfkatonsgüte des gesamten Klassfkators nur schlechter werden. 60 Klassfkaton mt herarchschen Klassfkatoren Vollständge herarchsche Klassfkaton Bedngungen:. alle Blätter auf selber Höhe. 2. Klassfkator lefert Wahrschenlchketen /Konfdenzwerte für jede Klasse. Berechne Konfdenz/Wahrschenlchket jeder Blattklasse. Bsp: P(4 o) = P( o) P(4 o ). = 0,4 0,9 = 0,36 Ausglech be Fehlklassfkaton möglch. Nachtele: - schlechte Effzenz - von der Güte der berechneten Konfdenzwerte abhängg. 4 All K 2 3 K2 K3 K4 5 0,4 0,9 0, 0,4 0,45 0,5 0,3 0,3 0,5 0,5 6 7 8 9 0 0,36 0,04 0,8 0,35 0,35 0,075 0,075 wahrschenlchstes Blatt 6

Klassfkaton be mehrfacher Klassenzugehörgket Bestmme alle Klassen m Baum zu denen Objekt o gehört.. Klassfzere o mt K, K2, K3: Falls K Klasse vorhersagt, gehe zu Knoten. {, 3} 2. Für alle errechten Knoten, bestmme Klassfkatoren auf Kanten zu Sohnknoten. {K4,K5, K9, K0} K 3. Klassfzere o mt desen Klassfkatoren und bestmme alle errechten Sohnknoten All K2 K3 2 3 Sagt ncht nur Blätter sondern belebge Klassen vorher!!! Fehler n allgemenen Knoten können vele falsche Klassen m Ergebns bewrken. K6 K8 K4 K5 K9 K0 K7 4 5 6 7 8 9 0 lass(o) = {5, 0} 62 Dskusson herarchsche Klassfkaton Zel: Mtenbezehen von Taonomen für schnellere und genauere Klassfkaton. Anwendungsberech: Probleme mt velen Klassen de berets n Taonome organsert snd. (z.b. Webpages nach Yahoo-Taonome, Protenklassen,..) schnelle Klassfkaton mt Greedy-Ansatz. vollständge herarchsche Klassfkaton sehr aufwendg. Stegerung der Klassfkatonsgüte hängt von Anwendung ab. In der Regel mäßge Verbesserung der Genaugket m Verglech zu flachen Klassensystemen. Klassfkaton mt mehrfachen Klassenzugehörgketen ordnet Objekt ene Telmenge aller möglchen Klassen zu. 63