Die Kosten mitzählen. Die Kosten mitzählen. Verschiedene Typen von Klassifikationsfehlern haben oft auch verschiedene Kosten Beispiel:

Transkript

1 Glederung Motvaton für Evaluaton chätzen des Klassfkatonsfehlers Traneren, Valderen und Testen Fehler engrenzen, Vertrauensntervalle Auftelung n Tranngs- und Testmenge Wederholtes Auftelen Kreuz-Valderung Leave-One-Out Bootstrap Performanzverglech von DM Methoden Enbezehen der Varanz der Performanz: gnfkanz Tests Gepaarter und ungepaarter t-test Performanz be der Vorhersage von Wahrschenlchketen Quadratsche- und Informatonsverlust-Funkton Performanzverglech be verschedenen Kosten der Fehler Lft Charts ROC Kurve Precson und Recall Evaluerung nummerscher Vorhersagen verschedene Maße Das MDL Prnzp Modellauswahl Bayes Theorem, Log-Lkelyhood und MDL Epkurus Prnzp und Modellmttelung MDL und Clusteranalyse ete 49 De Kosten mtzählen Verschedene Typen von Klassfkatonsfehlern haben oft auch verschedene Kosten Bespel: Entdecken von Terrorsten Ken Terrorst 99.99% der Fälle korrekt En ncht entdeckter Terrorst verursacht sehr vel mehr Kosten, als en als Terrorst beschuldgter Tourst Öl-Teppche fnden Fehlerdagnose Postwurfsendungen ete 50 De Kosten mtzählen Confuson Matrx: Actual class No False postve Es gbt noch vele andere Arten von Kosten! z.b.: Kosten um Tranngsdaten zu sammeln Predcted class True postve No False negatve True negatve ete 51 Lft Charts In der Praxs snd de Kosten oft ncht bekannt Entschedungen werden durch Verglech von zenaren getroffen Bespel: Postwurfsendungen zu 1,000,000 Haushalten sende an alle; 0.1% Antworten (1000) DM dentfzert Telmenge von 100,000, 0.4% von desen antworten (400) 40% der Antworten für 10% der Kosten oder DM dentfzert Telmenge von 400,000, 0.% antworten (800) lft chart gbt enen vsuellen Verglech ete 5

2 Erzeugung des Lft charts Aufgabe Fnde Telmenge der Testnstanzen, mt überproportaler Anzahl an Postven. Idee Klassfkator sagt Antwort-Whr. vorher ortere Instanzen abstegend nach der vorhergesagten Whr. postv zu sen Top- snd beste Wahl, wenn Klasse unbekannt st x Achse st tchprobengröße y Achse st Anzahl der wahren Postven Predcted probablty Actual class No ete 53 En hypothetscher Lft Chart 40% der Antworten für 10% der Kosten 80% der Antworten für 40% der Kosten ete 54 ROC Kurven ROC Kurve snd ähnlch zu Lft Charts ROC recever operatng characterstc Wrd n der gnalverarbetung genutzt, um den Kompromss zwschen Treffer- und Fehlalarmrate zu zegen Unterschede zu Lft Charts: y Achse zegt Prozente der wahren Postven der tchprobe m Verglech zu ener absoluten Anzahl x Achse zegt Prozente der falschen Postven der tchprobe m Verglech zur tchprobengröße Bespel für ROC Kurve Treppenstufen Kurve ene Testdatenmenge Glatte Kurve mt Kreuzvalderung ete 55 ete 56

3 Kreuzvalderung und ROC Kurven Enfache Methode um ene ROC Kurve aus der Kreuzvaldaton zu erhalten: Berechne Whr. für Instanzen n Testmenge ammle Whr.s für alle Testmengen ortere Instanzen aller Testmengen nach Whr. Dese Methode st mplementert n WEKA Andere Möglchket Mttele de ROC Kurven für jede Testmenge ete 57 ROC Kurven für zwe chemata Für ene klene, fokuserte Menge, nutze Methode A Für größere Mengen, nutze Methode B Für mttlere Mengen, nutze Methoden A und B mt passenden Whr. ete 58 Konvexe Hülle Für zwe gegebene Lernschemata kann jeder Punkt auf der konvexen Hülle errecht werden! TP und FP Raten für chema 1: t 1 und f 1 TP und FP Raten für chema : t und f Falls chema 1 de ersten 100 q % Fälle vorhersagen soll und chema den Rest, dann TP Rate für kombnertes chema: q t 1 +(1-q) t FP Rate für kombnertes chema: q f +(1-q) f Kosten-orentertes Lernen Mesten Lernschemata snd ncht Kostenorentert Genereren den glechen Klassfkator unabhängg von den Kosten für verschedene Klassen Bespel: tandard Entschedungsbaum Algorthmus Enfache Methode für kosten-orentertes Lernen: Vervelfältge Instanzen m Verhältns zu den Kosten Gewchte Instanzen m Verhältns zu den Kosten Enge chemata können Kosten über Parameter berückschtgen, z.b. naïve Bayes ete 59 ete 60

4 Maße n Informaton Retreval Zusammenfassung der Maße Prozentsatz der zurückgegebenen Dokumente de relevant snd: precson=tp/(tp+fp), (Präzson ) Prozentsatz der relevanten Dokumente, de zurückgegeben werden: recall =TP/(TP+FN), (Ausbeute) Zusammengefaßte Maße: Durchschnttlche Precson für 0%, 50% und 80% Recall (Dre-Punkt Recall-Durchschntt) F-Maß=( recall precson)/(recall+precson) Lft chart ROC Kurve Recall- Precson Kurve Domäne Marketng Kommunkaton Informaton Retreval, uche Kurve TP Telmengengröße TP rate FP rate Recall Precson Erklärung TP (TP+FP)/(TP+FP+TN+FN) TP/(TP+FN) FP/(FP+TN) TP/(TP+FN) TP/(TP+FP) ete 61 ete 6 Glederung Motvaton für Evaluaton chätzen des Klassfkatonsfehlers Traneren Valderen und Testen Fehler engrenzen, Vertrauensntervalle Auftelung n Tranngs und Testmenge Wederholtes Auftelen Kreuz-Valderung Leave-One-Out Bootstrap Performanzverglech von DM Methoden Enbezehen der Varanz der Performanz: gnfkanz Tests Gepaarter und Ungepaarter t-test Performanz be der Vorhersage von Wahrschenlchketen Quadratsche und Informatonsverlust Funkton Performanzverglech be verschedenen Kosten der Fehler Lft Charts ROC Kurve Precson und Recall Evaluerung nummerscher Vorhersagen verschedene Maße Das MDL Prnzp Modellauswahl Bayes Theorem, Log-Lkelyhood und MDL Epkurus Prnzp und Modellmttelung MDL und Clusteranalyse ete 63 Evaluerung nummerscher Vorhersagen Glechen trategen: unabhängge Testmenge, Kreuz-Valderung, gnfkanz Tests, usw.. Unterschede: Fehlermaße Zelwerte: a 1 a a n Vorhergesagte Werte: p 1 p p n Oft gnutztes Maß: gemttelter, quadrerter Fehler (mean-squared error) ( p1 a1) ( pn an) n ete 64

5 Andere Maße Root Mean-quared Error (RME): 1 n) ( p a1) ( pn a n Der Mean Absolute Error st wenger empfndlch gegenüber Ausreßern als der mean-squared error: p1 a pn an n In manchen tuattonen st der relatve Fehler passender, z.b. 10% als Fehler, wenn 50 statt 500 vorhergesagt wurde Verbesserung gegenüber dem Durchschntt Um wevel st das chema besser als wenn enfach mmer der Durchschntt vorhergesagt werden würde? Der relatve quadrerte Fehler st ( a st Durchschntt): ( p1 a1) ( pn an) ( a a1) ( a an) Der relatve absolute Fehler st: p1 a a a pn an a a n ete 65 ete 66 Korrelatonskoeffzent Mßt de statstsche Korrelaton zwschen den vorhergesagten und tatsächlchen Werten PA = ( p p)( a n 1 a) kalenunabhängg, zwschen 1 und +1 Gute Performanz führen zu großen Werte! P PA P = A ( p p) n 1 A = ( a a) n 1 ete 67 Welches Maß? Am besten alle betrachten Oft ergbt sch ken Untersched Bespel: Root mean-squared error Mean absolute error Root rel squared error Relatve absolute error Correlaton coeffcent A % 43.1% 0.88 B % 40.1% 0.88 D bester C zwet-bester A, B verglechbar % 34.8% 0.89 C D % 30.4% 0.91 ete 68

6 Glederung Motvaton für Evaluaton chätzen des Klassfkatonsfehlers Traneren Valderen und Testen Fehler engrenzen, Vertrauensntervalle Auftelung n Tranngs und Testmenge Wederholtes Auftelen Kreuz-Valderung Leave-One-Out Bootstrap Performanzverglech von DM Methoden Enbezehen der Varanz der Performanz: gnfkanz Tests Gepaarter und Ungepaarter t-test Performanz be der Vorhersage von Wahrschenlchketen Quadratsche und Informatonsverlust Funkton Performanzverglech be verschedenen Kosten der Fehler Lft Charts ROC Kurve Precson und Recall Evaluerung nummerscher Vorhersagen verschedene Maße Das MDL Prnzp Modellauswahl Bayes Theorem, Log-Lkelyhood und MDL Epkurus Prnzp und Modellmttelung MDL und Clusteranalyse ete 69 Das MDL-Prnzp MDL steht für mnmum descrpton length De Beschrebungslänge st defnert als: Platz um de Theore zu beschreben + Platz um de Ausnahmen der Theore zu beschreben In unserem Fall st de Theore der Klassfkator und de Ausnahmen snd de Fehler aus der Tranngsmenge Zel: suche Klassfkator mt mnmaler Beschrebungslänge MDL-Prnzp st en Modellauswahlkrterum ete 70 Modellauswahlkrterum Modellauswahlkrterum sucht enen guten Kompromß zwschen: Der Komplexät des Modells und der Vorhersagegenaugket auf den Tranngsdaten Idee: en gutes Modell st en enfaches Modell, das ene hohe Genaugket auf den gegebenen Daten errecht Auch bekannt als Ockham s Rasermesser : de beste Theore st de Klenste, de alle Fakten beschrebt Wllam of Ockham, born n the vllage of Ockham n urrey (England) about 185, was the most nfluental phlosopher of the 14th century and a controversal theologan. Eleganz vs. Fehler Theore 1: sehr enfache, elegante Theore, welche de Daten fast perfekt erklärt Theore : sgnfkant komplexere Theore, welche de Daten ohne Fehler erklärt Theore 1 wrd whr. bevorzugt Klasssches Bespel: Kepler s dre Gesetze über Planetenbahnen Wenger genau als Coperncus letzte Verbesserung der Ptolemäschen Theore der Epzyklen ete 71 ete 7

7 MDL und Kompresson MDL Prnzp steht n Bezehung zur Datenkompresson De beste Theore st jene, de de Daten am mesten komprmert I. Allg. wrd ene Datenmenge komprmert, ndem en Modell der Daten erstellt wrd und de Ausnahmen zusätzlch gespechert werden Folgendes muß berechnet werden (a) Größe des Modells und (b) Platzbedarf für de Ausnahmen (b) Lecht: nutze Entrope (a) das Modell muß kodert werden ete 73 MDL und Bayes s Theorem L[T]= Länge der Theore L[E T]=Tranngsmenge mttels Theore kodert Beschrebungslänge= L[T] + L[E T] Bayes s Theorem ergbt Posteror-Whr. ener Theore be gegebenen Daten: Pr[ E T ]Pr[ T ] Pr[ T E] = Pr[ E] Äquvalent zu: log Pr[ T E] = log Pr[ E T ] log Pr[ T ] + log Pr[ E] konstant ete 74 MDL und MAP MAP steht für maxmum a posteror probablty Fnden der MAP Theore entsprcht dem Fnden der MDL Theore chwerger chrtt bem Anwenden des MAP Prnzps: Bestmmen der Pror Whr. Pr[T] der Theore Entsprcht dem schwergen Tel bem Anwenden des MDL Prnzps: fnden des passenden Koderungsschemas für de Theore I.Allg. wenn bekannt st, daß ene bestmmte Theore wahrschenlcher st als andere, braucht man wenger Bts um se zu koderen Dskusson des MDL Prnzps Vortel: nutzt de Tranngsdaten voll aus, um das Modell zu bestmmen Nachtel 1: passendes Koderungsschema bzw. Pror-Whr. für de Theoren snd entschedend Nachtel : kene Garante, daß de MDL Theore den erwarteten Klassfkatonsfehler mnmert Bemerkung: Ockham s Rasermesser st en Axom! Epkurus Prnzp der mehrfachen Erklärungen: nutze alle Theoren, de m Enklang mt den Daten snd ete 75 ete 76

8 Bayesche Modellmttelung, BMA ] Reflektert Epkurus Prnzp: alle Theoren werden mttels P[T E] gewchtet und zur Vorhersage genutzt e I ene neue Instanz, deren Klasse vorhergesagt werden soll e C de Zufallsvarable, welche de Klasse angbt Dann ergbt BMA de Whr. für C be gegebenem I Tranngsdaten E Pr[ C I, E] Pr[ C I, T ]Pr[ T E möglchen Theoren T j = j j j ete 77 MDL und Clusteranalyse Beschrebungslänge der Theore: Anzahl der Bts um de Cluster zu koderen z.b. Cluster Repräsentanten Beschrebungslänge der Daten bezüglch der Theore: kodere Clustermtgledschaft und Poston relatve zum Cluster z.b. Dstanz zum Clusterrepräsentanten Funktonert falls das Koderungsschema wenger Platz für klene Zahlen als für große Zahlen verbraucht Be nomnalen Attrbuten muß de Klassenwahrschenlchketsvertelung für jeden Cluster kodert werden MDL kann genutzt werden, um den Parameter k be k-means zu bestmmen ete 78