Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Größe: px

Ab Seite anzeigen:

Download "Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining."

Lorenz Jakob Holtzer
vor 8 Jahren
Abrufe

1 Motivation Themenblock: Klassifikation Praktikum: Data Warehousing und Data Mining Ziel Item hat mehrere Attribute Anhand von n Attributen wird (n+)-tes vorhergesagt. Zusätzliches Attribut erst später bekannt Grundlage für Voraussage Menge von Tupeln (Trainingsmenge) für die alle Werte bekannt Beispiel: Attribute,, n: Alter, Einkommen, Beruf, Attribut n+: Kreditwürdigkeit Ansätze Binäre Entscheidungsbäume Neuronale Netze genetische Algorithmen Case-Based Reasoning Entscheidungsbäume Bayes Baum wird aufgebaut, basierend auf Training Set Unterschiedliche Entscheidungsbäume für das gleiche Trainings Set möglich. 3 4

Zusätzliches Attribut erst später bekannt Grundlage für Voraussage Menge von Tupeln (Trainingsmenge) für die alle Werte bekannt Beispiel: Attribute,, n:

2 Binäre Entscheidungsbäume - Aufbau Wie findet man gute Split-Attribute und wie legt man den Schwellwert fest? Entropie eines Splits: Ziel: Split finden, der Entropie minimiert. Definition von Entropie: Wann ist Entropie minimal, wann maximal? Naive Bayes weitere Möglichkeit, einen Attributwert vorherzusagen Beispiel: Vorherzusagendes Tupel: (,,,c=?) Vorgehen nach Naive Bayes: a a a3 c Sei X={a, a, a3}. Wahrscheinlichkeit, dass unser Tupel den Wert c= hat: P(c= X)= P(c=)*P(X c=)= P(c=)*P(a= c=)*p(a= c=)*p(a3= c=)=,574*,5*,5*,5=,8 Wahrscheinlichkeit, dass unser Tupel den Wert c= hat: P(c= X)= P(c=)*P(X c=)= P(c=)*P(a= c=) P(a= c=), P(a3= c=)=,486*,33*,66*,66=,6 Jetzt die wahrscheinlichste Hypothese suchen (max {P(c= X), P(c= X)}) -> c= 5 6 Naive Bayes - Weitere Eigenschaften Klassifikation mit dem Oracle Data Miner Attribute unabhängig voneinander betrachtet Vgl. Entscheidungsbaum: Reihenfolge nicht wichtig Liefert in der Theorie sehr gute Ergebnisse Aber: In der Praxis nicht unbedingt da Zusammenhänge zwischen Attributen ignoriert neues Modell erstellen: Classificationsmodell Wizard: Trainingsdaten auswählen Art der Daten angeben: single record per case: EinTupel für einen Fall oder multi record per case = mehrere Tupel für Fall (z.b.: Ein Kunde kauft beliebig viele Artikel. Pro gekauftem Artikel bekommt der Kunde ein Tupel) 7 8

) Vorgehen nach Naive Bayes: a a a3 c Sei X={a, a, a3}.

3 Data Miner - Naive Bayes Beschleunigen des Algorithmus: Singleton Treshold: nur solche berücksichtigt, deren Vorkommen über eingegebenen Threshold liegt z.b. Range=.3 -> Item muss in mind. 3% aller Tupel vorkommen Pairwise Treshold: wie Singleton nur für jeweils zwei Items Data Miner - Adaptive Bayes Network Parameter: SingleFeatureBuild: baut Entscheidungsbaum auf Einziger Classifier, der Regeln anzeigt Predictors: Maximale Anzahl der genutzten Attribute Default: 5 Network Feature Deapth: Maximale Anzahl der Ebenen des Baums Default: Möglichkeit Zeitlimit einzusetzen 9 Data Miner - Adaptive Bayes Network - Regeln Knoten der Entscheidungsbäume mit Regeln Support Anzahl Tupel die alle Regeln erfüllen / Anzahl aller Tupel Confidence Anzahl Tupel, die Regel erfüllen / Anzahl Tupel die Werte der Bedingung der Regel enthalten Beispiel Regel 98:,6% aller Tupel enthalten die Attributwerte HOUSEHOLD_SIZE=3, PROMO_RESPOND= und AFFINITY_CARD= 6,5% der Tupel mit Attributwert HOUSEHOLD_SIZE=3 und PROMO_RESPOND= haben den Attributwert AFFINITY_CARD= Adaptive Bayes Network MultiFeatureBuild Kombination aus Naive Bayes Classifier und Entscheidungsbäumen Predictors: max. Anzahl der Attribute für die Erstellung der Entscheidungsbäume Naive Bayes Predictors: max. Anzahl Attribute für den Naive Bayes-Classifier Network Feature Depth: max. Tiefe der Entscheidungsbäume Pruned Network Features: Wenn ein weiterer Baum erstellt wurde, wird getestet, ob er die Akkuratheit des Modells verbessert oder verschlechtert. Mithilfe des PNF wird festgelegt, ab wie vielen verschlechternden Bäumen der Algorithmus terminiert.

der Regeln anzeigt Predictors: Maximale Anzahl der genutzten Attribute Default: 5 Network Feature Deapth: Maximale Anzahl der Ebenen des Baums Default: Möglichkeit Zeitlimit einzusetzen 9 Data Miner

4 Adaptive Bayes Network NaiveBayesBuild erstellt einen reduzierten Naive Bayes Classifier Naive Bayes Predictors: maximale Anzahl der Attribute, die bei der Modellerstellung berücksichtigt werden Berechtigung wohl aus Kompatibilitätsgründen mit früheren Versionen des Oracle Data Miners Singleton Treshold und Pairwise Treshold sind fest auf gestellt. Klassifikation Cost weitere Parameter bei der Modellerstellung Kostenmatrix: Im Beispiel: Gesucht sind Kunden, die Ihren Umsatz nach erhalt einer Rabattkarte um Prozent erhöhen (Avinity_Card = ) Target Value ist somit False Positive: Ein Kunde bekommt eine Rabattkarte, aber kauft nicht entsprechend mehr False Negative: Ein Kunde bekommt keine Karte, hätte aber mit Karte mehr gekauft 3 4 Klassifikation Kostenmatrix I ohne Kostenatrix: Veränderungen geht der Algorithmus davon aus, dass uns False Positive und False Negative gleich stören Algorithmus versucht, die Gesamtkosten des Ergebnisses zu minimieren in unserem Beispiel möchte der Kaufhausbesitzer unbedingt den Umsatz steigern und gibt dafür lieber mal ein paar Karten zuviel aus der Hand, als eine zu wenig. False Positive stören uns also weniger als False Negative Klassifikation Kostenmatrix II in den Zeilen sind die tatsächlichen Werte eingetragen und in den Spalten die Vorhergesagten Für welche Kunden steht dieses Feld? Was haben wir verändert? 5 6

Klassifikation Cost weitere Parameter bei der Modellerstellung Kostenmatrix: Im Beispiel: Gesucht sind Kunden, die Ihren Umsatz nach erhalt einer Rabattkarte um Prozent erhöhen (Avinity_Card = )

5 Klassifikation - Prior Priors Probability Setting wenn die Daten auf einem Stratified Sample erstellt wurden, kann man den Algorithmus anpassen in diesem Beispiel wurde ein Sample mit gleicher Verteilung der Werte des Attributs Avinity_Card erstellt tatsächliche Datenverteilung: Klassifikation Test I Modell testen Parameter: Standard Test: Test findet auf einem neuen Datensatz statt Cross Validation Test: nur sehr wenige Datentupel zur Verfügung Modell auf gesamtem Datensatz erstellen mit leave-one-out crossvalidation -Methode auf demselben Datensatz testen 7 8 Klassifikation Test II Ergebnis: die Hälfte aller Kunden, denen wir eine Karte zuteilen, werden Ihren Umsatz entsprechend erhöhen (ohne Data Mining hier 3%) ca.,5% der Kunden, die den Umsatz um % gesteigert hätten sind uns entgangen (Pred= Act= / Act= *) Möglichkeit, das Ergebnis in Excel zu exportieren Classifikation Test III Lift ist eine weitere Möglichkeit der Modellbewertung. Bsp.: Wie viele meine Kunden muss ich mit Karten versorgen, um mit meinem Modell % der Leute zu finden, die Ihren Umsatz um % steigern? 9

Validation Test: nur sehr wenige Datentupel zur Verfügung Modell auf gesamtem Datensatz erstellen mit leave-one-out crossvalidation -Methode auf demselben Datensatz testen 7 8 Klassifikation Test II

6 Classifikation - Modellbewertung Classifikation Modellbewertung Ergebnis Cumulative Target: zu lesen: nach rechts sind die Quantile in % angetragen nach oben die Gesamtpopulation und in blau die True Positives um % der Kunden zu finden, die wir suchen, sind ca. 5% unserer mit größter Sicherheit vorhergesagten Kunden notwendig wie sähe Cumulative Target Chart für Algorithmus aus, der alle Tupel richtig klassifiziert? Ergebnis Cumulative Lift: zeigt an, um wieviel besser das Modell klassifiziert, als eine zufällige Vorhersage des Zielattributs Beispiel.Quantil: Faktor 3,6 bedeutet, wir finden mit unseren sichersten vorhergesagten % der Tupel über 3mal soviele gewünschte Kunden wie ohne Modell Ist es sinnvoll, Kunden des neunten Quantils, deren Vorhersagewert AFFINITY_CARD = ist, eine Rabattkarte zuzuteilen?

5% unserer mit größter Sicherheit vorhergesagten Kunden notwendig wie sähe Cumulative Target Chart für Algorithmus aus, der alle Tupel richtig klassifiziert?

Ähnliche Dokumente

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002) 6. Bayes-Klassifikation (Schukat-Talamazzini 2002) (Böhm 2003) (Klawonn 2004) Der Satz von Bayes: Beweis: Klassifikation mittels des Satzes von Bayes (Klawonn 2004) Allgemeine Definition: Davon zu unterscheiden