Informationsmaß. Konzeptbeschreibung. Beispiel für Konzept-Charakterisierung (1) Beispiel für Konzept-Charakterisierung (2)

Transkript

1 Konzeptbeschreibung Ziel: Knappe Charakterisierung einer Datenmenge im Vergleich zu einer anderen Datenmenge (Kontrastmenge) Methode: Herausfinden charakteristischer Attribute auf angemessener Abstraktionsebene Vorgehen: Entfernen von Attributen, die viele verschiedene Werte (> Schwellwert1) in der Datenmenge aber keinen Generalisierungsoperator haben oder deren Verallgemeinerungen durch andere Attribute ausgedrückt werden. Verallgemeinerung von Attributen, die viele verschiedene Werte (> Schwellwert2) in der Datenmenge und einen Generalisierungsoperator haben, mit Tupel-Zähler. Relevanzanalyse der restlichen Attribute durch Vergleich mit Kontrastmenge, wobei Attribute mit einem Informationsgewinn > Schwellwert3 ausgewählt werden. Wissen: Generalisierungshierarchie (z.b. Konzepthierarchie) für Verallgemeinerung, Schwellwerte, Informationsmaß Varianten: Konzept-Charakterisierung: Charakterisierung einer Teil- Datenmenge im Vergleich zur Restmenge Konzept-Vergleich: Vergleich zweier Datenmengen Informationsmaß Die erwartete Information in Bits (Anzahl ja/nein Fragen), um eine Klasse i mit der Häufigkeit h i aus einer Menge mit n verschiedenen Klassen der Häufigkeiten (h 1, h 2,... h n ) zu klassifizieren, ist: I (h 1, h 2,..., h n) = (i=1.. n) (h i/h) log 2 (h i/h) mit h = Gesamthäufigkeit; h i = Häufigkeit der i-ten Klasse Wie hoch ist der Informationsgewinn des Attributwertes? Wenn ein Attribut A eine Menge entsprechend seiner m Werte in m Teilmengen aufteilt, dann ist seine Entropie E(A) der gewichtete Durchschnitt der erwarteten Information aller Teilmengen entsprechend obiger Formel. Der Informationsgewinn des Attributwertes ist dann: Gewinn (A) = I (h 1, h 2,..., h n) - E(A) 1 2 Beispiel für Konzept-Charakterisierung (1) 1. Anfrage in DMQL: use Big-University-DB mine characteristics as "Science-Students" in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in "graduate" 2. Transformation in SQL: use Big-University-DB select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in { M.Sc, M.A M.B.A.", Ph.D."} Beispiel für Konzept-Charakterisierung (2) 4. Attribut-orientierte Induktion Name: viele Werte ohne Hierarchie entfällt Geschlecht: 2 Werte ohne Hierarchie behalten Studienfach: 20 Werte (Schwellwert sei 5) mit Hierarchie (arts, engineering, business) generalisiert Geburtsort: viele Werte mit Hierarchie (Stadt < Bundesstaat < Land {Kanada, Ausland}) generalisiert Geburtstag: viele Werte mit Hierarchie (Geburtstag < Alter < Altersgruppe) generalisiert Wohnort: viele Werte mit Hierarchie generalisiert Telefon#: viele Werte ohne Hierarchie entfällt Punkte: viele Werte mit Hierarchie (Punkte < Punktintervall > Note) generalisiert 5. Generalisierte Daten der graduate-studenten 3. Initiale Daten aller graduate-studenten 3 4

2 Beispiel für Konzept-Charakterisierung (3) 6. Berechnung der Kontrastmenge für Relevanzanalyse Kontrastmenge: nicht graduate, d.h. undergraduate Kontrastmenge (undergraduate, ohne residence_city): Beispiel für Konzept-Charakterisierung (4) 8. Auswahl von Attributen mittels Relevanz-Schwelle Relevanzschwelle = 0,1 gender und birth_country fallen raus. Ergebnis: Graduate Studenten werden durch die Attribute: Studienfach (major) Altersgruppe (age_range) Noten (gpa) am besten charakterisiert. Zielmenge (graduate, ohne residence_city): 7. Berechnung des Informationsgewinn der Attribute: I (grad, ugrad) = I (120, 130) = - 120/250 log 2 (120/250) - 130/250 log 2 (130/250) = 0,9988 Informationsgehalt von Studienfach (major): major = science S grad = 84 S ugrad = 42 I(S grad, S ugrad ) = 0,92 major = engine E grad = 36 E ugrad = 46 I(E grad, E ugrad ) = 0,99 major = business B grad = 0 B ugrad = 42 I(B grad, B ugrad) = 0 Entropie(major) = 126/250 * 0, /250 * 0, /250 * 0 = 0,79 Entropiegewinn (major) = 0,9988 0,79 = 0,21 Entropiegewinn (gender) = 0,0003 Entropiegewinn (birth_country) = 0,04 Entropiegewinn (gpa) = 0,45 Entropiegewinn (age) = 0, Konzept-Vergleich Gleiche Vorgehensweise wie bei Konzept-Charakterisierung, wobei die Vergleichsklasse explizit festgelegt ist. Sie wird auf das gleiche Niveau abstrahiert wird und im Ergebnis mitausgegeben. Beispiel: Vergleich zwischen graduate und undergraduate: Graduate: Statistische Maße zur Beschreibung von Datenmengen Gegeben sei eine Menge von (numerischen) Daten. Diese kann durch folgende Parameter beschrieben werden: Durchschnitt (mean): Summe / Anzahl Standardabweichung: 1/(n-1) (i=1.. n) (x i x mittel ) 2 Median: Mittlere Wert in sortierter Liste 1. Quartil: 25% der Werte sind kleiner 2. Quartil: Median, 50% der Werte sind kleiner bzw. größer 3. Quartil: 75% der Werte sind kleiner Minimum: kleinster Wert Maximum: größter Wert Box-Plot: 5-Zahlen-Zusammenfassung: Min, 1Q, Median, 3Q, Max Undergraduate: 7 8

3 Finden von Assoziationsregeln Datenmaterial: Transaktionen (z.b. Warenkörbe) Ziel: Herausfinden von Assoziationsregeln über den Elementen in Transaktionen, z.b. welche Waren zusammen gekauft werden Vorgehensweise Finden von Assoziationsregeln ist ein zweistufiger Prozess: 1. Finde alle häufigen Itemsets (support > Schwellwert1) 2. Generiere aus häufigen Itemsets starke Assoziationsregeln (confidence > Schwellwert2) Der zweite Schritt ist relativ einfach. Der erste Schritt bestimmt den Gesamtaufwand. Beispielregel: Wenn Computer dann auch Finanzsoftware support = 2%, d.h. die Regel ist für 2% aller Transaktionen relevant. confidence = 60%, d.h. die Schlussfolgerung stimmt in 60% aller relevanten Transaktionen. Interessantheit wird meist so definiert, dass die Regeln einen minimalen support und eine minimale confidence haben müssen. support (A B) = P (A B) confidence (A B) = P (B A) 9 10 Apriori-Algorithmus Motivation: Wenn zu einem itemset I ein item A hinzugefügt wird, dann gilt: I A kann nicht häufiger sein als I alleine! Daher verringert sich die Häufigkeit in jeder Ebene (oder bleibt gleich). Beispiel Apriori-Algorithmus (1) Input mit Transaktionsdaten: Vorgehensweise: Iterativer Ansatz, der ebenenweise vorgeht: Erst alle häufigen 1-elementigen Elementmengen (1-itemsets) berechnen, dann alle häufigen 2-itemsets, wobei die häufigen k-itemsets zum Finden der häufigen (k+1)-itemsets benutzt werden (dabei werden die itemsets lexikografisch sortiert): 1. Erweiterungsschritt: Bilde aus je 2 k-itemsets, deren erste (k-1) items gleich sind, ein (k+1)-itemset (ohne Duplikate). 2. Logik-Filterschritt: Lösche aus den (k+1)kandidaten alle heraus, die irgendeine k-teilmenge enthalten, die nicht häufig ist. Da alle häufigen Teilmengen bereits vorher berechnet wurden, kann man sie zur Effizienzsteigerung in einer Hash-Tabelle speichern. 3. Zähl-Filterschritt: Für die übriggebliebenen Kandidaten wird deren Häufigkeit gezählt und entsprechend gefiltert

4 Beispiel Apriori-Algorithmus (2) Apriori-Algorithmus: Regelgenerierung für jedes häufige Itemset werden alle Regeln ausprobiert und überprüft, ob der confidence > Schwellwert ist (der support ist für alle Regeln gleich). confidence (A B) = P (B A) = support_count (A B) / support_count (A) Generierung der Regeln: 1. Generiere alle nichtleeren Teilmengen T des Itemset I. 2. Generiere daraus die Regel T (I T) 3. Überprüfe, ob die confidence der Regel größer als der Schwellwert ist. Vorgehensweise: 1. Zählen der Häufigkeit aller 1-itemsets 2. Berechnung der häufigen 1-itemsets (Schwelle sei 2) 3. Erweiterung der Kandidaten für 2-itemsets 4. Logik-Filtern: liefert keine Einschränkung 5. Zählen der Häufigkeit aller 2-itemsets 6. Berechnung der häufigen 2-itemsets 7. Erweiterung der Kandidaten für 3-itemsets {(I1, I2, I3) (I1, I2, I5) (I1, I3, I5) (I2, I3, I4) (I2, I3, I5) (I2, I4, I5)} 8. Logik-Filtern: Übrig bleiben nur {(I1, I2, I3) (I1, I2, I5)} 9. Zählen der Häufigkeit beider 3-itemsets 10. Berechnung der häufigen 3-itemsets: liefert keine Einschränkung 11. Erweiterung der Kandidaten für 4-itemsets {(I1, I2, I3, I5)} 12. Logik-Filtern: Kandidat wird ausgefiltert, da Teilmenge (I2, I3, I5) nicht häufig. Beispiel für Itemset (I1, I2, I5): 1. Teilmengen: {(I1), (I2), (I5), (I1, I2), (I1, I5), (I2, I5)} Regeln mit confidence: I1 & I2 I5 confidence 2/4 = 50% I1 & I5 I2 confidence 2/2 = 100% I2 & I5 I1 confidence 2/2 = 100% I1 I2 & I5 confidence 2/6 = 33% I2 I1 & I5 confidence 2/7 = 29% I5 I1 & I2 confidence 2/2 = 100% Angenommen der confidence-schwellwert liegt bei 70%. Dann bleiben nur die 2., 3., und 6. Regel übrig Effizienzsteigerung des Apriori- Algorithmus 1. Verwendung von Hash-Tabellen für Logik-Filterschritt (s.o.) 2. Reduktion der Transaktionen, die nicht in mindestens einem häufigen Itemset vorkommen: verbessert den Zähl-Filterschritt. 3. Partitionierung der Transaktionen in Teildatenbanken, die jeweils in den Hauptspeicher passen. Probleme des Apriori-Algorithmus Potentiell große Kandidatenmengen, z.b. bei häufigen 1-itemsets müssen mehr als 10 Millionen 2-itemsets generiert und getestet werden. Mehrfache Überprüfung der Datenbank zum Zählen relevanter Transaktionen, insbesondere bei n-itemsets mit großem n. Alternativ-Algorithmus: Frequent-Pattern-Growth (FP-Growth) Erstelle aus der Menge der häufigen itemsets einen frequentpattern-baum (FP-Baum), der anstelle der Transaktionsdatenbank weiterbearbeitet wird (wesentlich effizienter). 4. Arbeiten mit repräsentativen Teilmengen der Transaktionen

5 Frequent Pattern Growth Algorthmus 1. Datenbankdurchlauf: Berechne 1-item Mengen und sortiere sie nach Häufigkeit (sortierte Liste L). 2. Datenbankdurchlauf: 2.1. Starte mit einen Null-Knoten 2.2. Für jede Transaktion tue Sortiere die Items nach Häufigkeit (L) Baue einen Pfad auf, der aus den Items besteht Falls ein Item schon vorkommt, erhöhe Zähler ansonsten verzweige baumartig. Beispiel für 2. Schritt: 1. Transaktion (I1, I2, I5): Pfad: null I2 (1) I1 (1) I5 (1) 2. Transaktion (I2, I4): erhöhe Zähler von I2 auf 2 und verzweige von dort nach I4 mit Zähler Transaktion (I2, I3): erhöhe Zähler von I2 auf 3 und verzweige von dort nach I3 mit Zähler 1 4. Transaktion (I1, I2, I4): erhöhe Zähler von I2 auf 4, von I1 auf 2 und füge neue Verzweigung für I4 ein (mit Zähler 1), die mit altem I4 verbunden wird.. Fertige Struktur für alle 9 Transaktionen: Generierung häufiger Itemsets aus FP- Baum Für jedes 1-Itemset in umgekehrter Häufigkeitsreihenfolge tue: 1. Konstruiere seine conditional pattern base (Menge aller Prefix-Pfade) 2. Konstruiere seinen conditional FP-tree (Reduktion der Pfade aufgrund des minimalen Supports (hier 2), wobei bereits abgearbeitete Items (deswegen umgekehrte Reihenfolge) ignoriert werden können. 3. Generierung des Ergebnisses (frequent patterns). Beispiel: Frquent-Pattern-Growth Algorithmus Berücksichtigen von Konzepthierarchien Problem: Interessante Assoziationsregeln finden sich möglicherweise auf höheren Abstraktionsebenen (z.b. Produktgruppen), da bei konkreten Items (z.b. Produkten) der support sehr klein sein kann. Lösung: Benutzen von Konzepthierarchien mit Top-Down-Ansatz, d.h. zunächst nur Berücksichtigung des Top-Level, dann Verfeinerung. Wenn bei allen Ebenen die gleiche Support-Schwelle gilt, ist ein effektives Abschneiden von unteren Zweigen möglich, wenn der übergeordnete Knoten einen zu niedrigen Support hat (da der Support nach unten nur kleiner werden kann). Wenn unterschiedliche Support-Schwellen gelten, kann man Heuristiken zum Abschneiden verwenden

6 Weitere Aspekte Multidimensionale Assoziationsregeln, z.b. Alter (X, 20-29) & Beruf (X, student) kauft (X, Laptop) Konstruktion eines entsprechenden Data Cube mit Analyse Finden quantitativer Assoziationsregeln (u.a. Finden von Intervallen, z.b. Binning) Berücksichtigung von Korrelationen, z.b. kauft (X, Computer-Spiele) kauft (X, Videos) [support 40%, confidence = 60%] kann irreführend sein, wenn z.b. kauft (X, Videos) einen support von 75% hat. Constraint-basiertes Finden von Assoziationsregeln (z.b. durch Metaregeln geführt) 21