Kapitel 13: Pattern Mining unter Constraints

Transkript

1 Kapitel 13: Pattern Mining unter Dieses Kapitel: Nicht mehr Suche nach allen Frequent Itemsets/Association Rules, sondern Einschränkung der Ziel-Menge. Strukturen, auf denen wir operieren, sind wie bisher (Mengen von Transaktionen, Warenkörbe ). Data Warehousing und Mining 1 Data Warehousing und Mining Association Rules unter Unterschiedliche Arten des Prunings Mining, wie bisher vorgestellt, bietet keine Möglichkeit der Fokusierung. Man will für die zu findenden Association Rules angeben, z. B. Association Rules nur mit Items, die mehr als EUR 100,-- kosten. Motivation: licheres Resultat. Chance: Kürzere Laufzeit entsprechender Algorithmen? Support-basiert Kandidat wird eliminiert (candidate is pruned), wenn eine seiner Teilmengen nicht frequent ist. Constraint-basiert Kandidat wird eliminiert, wenn er ein aus den vorgegebenen abgeleitetes Constraint nicht erfüllt. Data Warehousing und Mining 3 Data Warehousing und Mining 4

2 Was für? (1) Was für? () Data, Data : Rule. Einschränkung auf konkrete Werte Beispiel: Finde alle Produkte, die in Basel im Dezember 98 oft zusammen verkauft wurden. (Auch Intervall-Angaben möglich.) Einschränkung auf bestimmte Attribute (z. B. Dimensionen/Levels) des Raums. Beispiel: Einschränkung auf region, price, brand, customer category. Data Warehousing und Mining 5 Data Warehousing und Mining 6 Was für? (3) Unterschiedliche Ansätze Rule : Unterschiedliche Ansätze: Spezifikation der Struktur oder von Eigenschaften der zu ermittelnden Regeln. Constraint-basierte Association Rules Beispiel: Nur Frequent Itemsets der Größe 3. Meta-Rule Guided Mining, und -var. Meta-Rule Guided Mining: Zugrundeliegende relationale Datenbank mit Schema. und -var : Zugrundeliegende Struktur Menge von Items mit Attributen. Ansätze kombinierbar. (Wird hier nicht explizit dargestellt.) Data Warehousing und Mining 7 Data Warehousing und Mining 8

3 Meta-Rule Guided Mining (1) Meta-Rule Guided Mining (1) - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address - Introduction - Overview - Idea - - Succinct ness Beispiel: Zugrundeliegende Relationen: student(name, sno, status, major, gpa, birth_date, birth_place, address) course(cno, title, dept) grading(sno, cno, instructor, semester, grade) Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Data Warehousing und Mining 9 Data Warehousing und Mining 10 Meta-Rule Guided Mining () Meta-Rule Guided Mining (3) - Introduction - Overview - Idea - - Succinct ness Beispiel (Forts.): Data Mining Query/Constraint: Finde alle Regeln der Form: major (s: student, x) Q(s, y) R(s, z) from student where birth_place = "Canada" in relevance to major, gpa, status, address Erklärung: Zweite Zeile: meta-rule, Q, R Variable für Prädikate, mit Attributen instanziierbar, z. B. gpa, status, birth_place, address Beispiel für Regel, die gefunden wird: major(s, "Science") & gpa(s, "Excellent") status(s, "Graduate") (60%) - Introduction - Overview - Idea - - Succinct ness Meta-Rule Guided Mining: Sowohl Data als auch Rule birth_place = "Canada" Zwei Prädikate auf der linken Seite der Regel. Data Warehousing und Mining 11 Data Warehousing und Mining 1

4 , -var (1), -var () I. d. R. Aggregation über Werte/Belegungen mehrerer/aller Items Beispiel: Left-Hand Side sum(lhs) < 100 min(lhs) > 0 count(lhs) > 3 sum(rhs) > 1000 iable vs. -variable : : Constraint, das nur eine Seite der Regel (L oder R) einschränkt, wie im Beispiel oben. -var: Constraint bezüglich beider Seiten (L und R). Beispiel: sum(lhs) < min(rhs) max(rhs) < 5 sum(lhs) Hier: Regel als Tupel, mit zwei Komponenten (LHS, RHS). Verallgemeinerung möglich: Suche nach Tupeln mit n Komponenten (S 1,, S n ) (S i Itemset) D. h. S 1 =LHS, S =RHS. Data Warehousing und Mining 13 Data Warehousing und Mining 14 Weitere Beispiele für und -var (1) Weitere Beispiele für und -var () {(S 1, S ) S 1 Item & S Item & count(s 1 )=1 & count(s ) = 1 & freq(s 1 ) & freq(s )} spezifiziert Frequency. (Item- und Frequency- werden im folgenden weggelassen.) {(S 1, S ) agg 1 (S 1.Price) 100 & agg (S.Price) 1000} agg 1, agg irgendwelche Aggregationsfunktionen, S 1.Price Menge der Werte des Price-Attributs der Elemente von S 1. {(S 1, S ) count(s 1.Type)=1 & count(s.type)=1 & S 1.Type S.Type} Paare von Mengen von Items unterschiedlichen Typs (Type ist hier ein Attribut.) Data Warehousing und Mining 15 Data Warehousing und Mining 16

5 (1) Illustration Auflistung der Single-Variable ( ), die wir im Folgenden betrachten: Domain : Sθv θ {=,, <,, >, } Jedes Item s aus S muß das Constraint sθv erfüllen. Beispiel: Price 100 vθs θ {, } Beispiel: Snack Type SθV, VθS θ {=,,,, } Data Warehousing und Mining 17 SθV, VθS {Food, Drink} Type Association Rules: Burger, Pommes Cola Benzin, Frostschutzmittel Schokoriegel Zugrundeliegende Relation Item Type Burger Food Pommes Food Cola Drink Benzin Non-Food Frostschutz Non-Food Schokoriegel Non-Food Wenn Constraint für LHS, dann zweite Regel nicht. Wenn Constraint für RHS, ebenfalls nicht. Data Warehousing und Mining 18 () Single-Variable (Fortsetzung): Class : S A S ist Mengenvariable, A ist Attribut. S ist Menge von Werten aus dem Definitionsbereich von A. Beispiel: S 1 Item Aggregate : agg(s)θv agg ist min, max, sum, count, oder avg, θ {=,, <,, >, } Beschleunigung des Data Mining Prozesses Rigideres Pruning möglich ( Monotonizität ), Explizites Erzeugen des Itemsets ( ). z Data Warehousing und Mining 19 Data Warehousing und Mining 0

6 Mining von Association Rules unter (1) Postprocessing Naive Lösung: Finde alle Frequent Itemsets mit Apriori, und überprüfe dann für jede dieser Mengen, ob sie die erfüllt. Optimierung umfassende Analyse der Eigenschaften der mit dem Ziel, sie möglichst tief in den Algorithmus hizudrücken. Mining von Association Rules unter () Relevante Eigenschaften der : Monotonizität Ziel: Constraint möglichst früh überprüfen und Pruning so früh wie möglich stattfinden lassen, Ziel: Kandidaten, die Constraint nicht erfüllen, werden gar nicht erst erzeugt. Data Warehousing und Mining 1 Data Warehousing und Mining Monotonizität (1) Monotonizität () Definition: Ein single-variable Constraint ist anti-monoton gdw. für alle Mengen S, S gilt: S S & S erfüllt C S erfüllt C. D.h. jede Teilmenge erfüllt das Constraint. Beispiel: min(s) v ist anti-monoton. Was ist mit den folgenden? max(s) v size(s) v size(s) v Warum ist Monotonizität interessant? Wenn S Bedingung nicht erfüllt, brauchen wir Obermengen von S nicht mehr betrachten. Constraint Sθv, θ {=,, } v S S V S V S=V min(s) v min(s) v min(s) =v max(s) v max(s) v max(s) =v count(s) v count(s) v count(s) =v sum(s) v sum(s) v sum(s) =v avg(s)θv, θ {=,, } <frequency constraint> anti-monoton ja ja teilweise ja teilweise ja teilweise ja teilweise ja teilweise <ja> teilweise je nachdem, wie die Menge das Constraint verletzt. Beispiel für teilweise max(s)=v. Sei S S. Wenn max(s )>v: Man braucht S nicht mehr betrachten. Wenn max(s )<v: Das gilt nicht. Data Warehousing und Mining 3 Data Warehousing und Mining 4

7 Beispiel succinct = kurz und bündig, kurz und knapp, Eigenschaft von Constraint ist succinct, wenn man alle Itemsets, die das Constraint erfüllen, explizit in kurzer Art und Weise hinschreiben kann. - Introduction - Overview - Idea - Constraint C S.Type=Nonfood Nur drei Produkte mit 'Type=Nonfood'im Sortiment. Wieviele Frequent Itemsets gibt es maximal, die o. g. Constraint erfüllen? Anstelle von Apriori die Itemsets mit den drei Produkten erzeugen, ein Mal Support Counting. - Succinct ness z Data Warehousing und Mining 5 Data Warehousing und Mining 6 Motivation (1) Motivation () Motivation am Beispiel des Einzelhandels: Logisch zusammengehörige Einkäufe (z. B. CD-Brenner und CD-Rohlinge; Korn und Aspirin) oft nicht in einer Transaktion, sondern nacheinander. Annahme: Wir können Einkäufe dem Kunden eindeutig zuordnen, z. B. anhand von Treuekarte. Kundenverhalten nicht Menge, sondern Folge von Waren. (Folge von Mengen von Waren wäre präziser, hier zunächst aber nur Folge von Waren.) Alternativen: 1. Zeitpunkt/absoluter Zeitabstand zwischen Käufen interessiert nicht/ nicht verfügbar.. Jedem Einkauf entspricht expliziter Zeitpunkt. In diesem Kapitel erste Alternative. Ziel der Analyse: Subsequenzen mit bestimmter Mindesthäufigkeit. Sequential Patterns. Subsequenz wird gleich erklärt. Data Warehousing und Mining 7 Data Warehousing und Mining 8

8 Constraint-basiertes Mining von Sequenzen (1) Finden häufiger Sequenzen ohne Im folgenden: Finden häufiger Subsequenzen in Mengen von Sequenzen Beispiel: <1,3> und <1,,4> sind Subsequenzen von <1,,3,4>. Support einer Sequenz Beispiel: <1 3>, <1 4>, <4 >; minsup=50%: <1 > ist frequent, < 4> dagegen nicht. Geht wie Apriori, Kandidatenerzeugung ist wiederum Self-Join von F k-1, die Join-Attribute sind die letzten k- Elemente der ersten und die ersten k- Elemente der zweiten Sequenz. Illustration: <1 3 4>, < 3 4 5> < > Data Warehousing und Mining 9 Data Warehousing und Mining 30 Constraint-basiertes Mining von Sequenzen () Constraint-basiertes Mining von Sequenzen (3) : Reguläre Ausdrücke Beispiel: (ab)* Diese Art von ist nicht anti-monoton. Warum nicht? Beispiel für Constraint, das nicht anti-monoton ist: (ab)* abababab hat Subsequenz aaaa. Bisheriges Vorgehen funktioniert nicht. Data Warehousing und Mining 31 Data Warehousing und Mining 3

9 Wiederholung wichtiger Eigenschaften regulärer Ausdrücke und deterministischer endlicher Automaten: Regulärer Ausdruck R deterministischer Automat M R Sequenz s ist zulässig bezüglich Zustand b, wenn es ausgehend von b eine Folge von Transitionen für die Elemente von s gibt. Sequenz s ist gültig bezüglich Zustand b, wenn s zulässig ist, und Zustand nach den Transitionen ist Endzustand. Illustration. Support-basiertes Pruning Sei Kandidat c der Länge k gegeben. c wird eliminiert, wenn (k-1)-elementige Teilfolge, die R erfüllt, nicht frequent ist. Data Warehousing und Mining 33 Data Warehousing und Mining 34 Beispiel Constraint-basiertes Pruning (1) Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> ist Folge, die Constraint erfüllt. Diese Folge hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur eine dieser Teilfolgen erfüllt das Constraint: <,3,4> Algorithmus: Schritt k generiert F k. Constraintbasiertes Pruning F k Menge der frequent k-sequences, die Constraint R erfüllen. Es scheint: Je selektiver Constraint R, desto besser. Nicht wirklich: Angenommen, R ist extrem selektiv (und nicht anti-monoton). Dann funktioniert Constraint-basiertes Pruning offensichtlich gut. Support-basiertes Pruning jedoch nicht! Data Warehousing und Mining 35 Data Warehousing und Mining 36

10 Constraint-basiertes Pruning () Warum? Support-basiertes Pruning betrachtet alle Teilstrukturen der Größe k-1. Es gibt möglicherweise nur wenige solche Strukturen! Data Warehousing und Mining 37 Constraint-basiertes Pruning Beispiel Constraint R, abgebildet auf Automat: > 1 a b 3 4 c d 4 <1,,3,4> erfüllt Constraint. <1,,3,4> hat diverse Teilfolgen der Größe 3, z. B. <1,,3>, <1,,4>, <1,3,4>, <,3,4>. Aber nur <,3,4> erfüllt das Constraint. Angenommen, Wahrscheinlichkeit, daß Sequence mit drei Items frequent ist, beträgt stets 50%. Support-basiertes Pruning ist wirksamer ohne Constraint! Data Warehousing und Mining 38 Constraint-basiertes Pruning (3) Weiterer Punkt: Wie erzeugt man überhaupt die Kandidaten? Hier Constraint ist regulärer Ausdruck kann man sich mit dem Automaten behelfen. Konflikt Constraint-basiertes vs. Support-basiertes Pruning Schwächeres Constraint erleichtert Support-basiertes Pruning. Sollte man eigentliches Constraint zunächst abschwächen? Wenn ja, wie sehr? Data Warehousing und Mining 39 Data Warehousing und Mining 40

11 Alternativen Illustration Alternative 3 wenn Constraint nicht anti-monoton: Naives Postprocessing, d. h. nur Kandidaten generieren, die Constraint erfüllen. Kombination Support-basiertes und Constraint-basiertes Pruning mit ursprünglichem Constraint. Kombination Support-basiertes und Constraint-basiertes Pruning mit abgeschwächtem Constraint. Hoffnung ist, daß Support-basiertes Pruning besser funktioniert. Data Warehousing und Mining 41 k=1: > 1 a b 3 4 c d 4 Gemäß Automat keine einelementige gültige Folge. k=: Aus Automat: <4, 4>, <, > Beide ungültig, Teilfolgen: <4> <> d. h. kein Pruning. Support Counting für <4, 4> und <, > k=3: Aus Automat: <1, 4, 4>, <1,, >, <, 3, 4> Teilfolgen z. B.: <1,4>, <4, 4> Kein Pruning, Support Counting für alle Kandidaten. k=4: Data Warehousing und Mining 4 Illustration Alternative 3 Schlußbemerkungen > 1 a b 3 4 c d 4 k=4: Aus Automat: <1, 1, 4, 4>, <1, 1,, >, <1,, 3, 4> Teilfolgen z. B.: <1, 1, >, <1,, > <1,, > ist gültig, hat aber nicht genug Support. Mining unter. Nützlich aus Benutzersicht. ausnutzen, um Mining-Prozeß zu beschleunigen. Monotonizität nett. Ansonsten weniger klar, was man tun sollte. Tradeoff Support-basiertes Pruning vs. Constraint-basiertes Pruning. <1, 1,, > wird gepruned. Data Warehousing und Mining 43 Data Warehousing und Mining 44

12 Literatur Raymond Ng et al. Exploratory Mining and Pruning Optimizations of Association Rules. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data, Minos Garofalakis, Rajeev Rastogi, Kyuseok Shim. SPIRIT: Sequential Pattern Mining with Regular Expression, Proceedings of 5th International Conference on Very Large Data Bases, Prüfungsfragen, beispielhaft (1) Was ist Constraint-basiertes Mining? Was sind die Vorteile? Was für Arten von kennen sie? Beispiele hierfür. Was ist Monotonizität,? <Für ein bestimmtes Constraint sagen/begründen, ob anti-monoton/succinct.> Data Warehousing und Mining 45 Data Warehousing und Mining 46 Prüfungsfragen, beispielhaft () Wie läßt sich Apriori für das Sequence Mining verallgemeinern? 'Konflikt'zwischen Support-basiertem und Constraint-basiertem Pruning erklären können. Alternativen für Constraint-basiertes Pruning (wenn Constraint nicht anti-monoton) erklären können. Data Warehousing und Mining 47