Kapitel 15: Mining von Sequential Patterns

Transkript

1 Kapitel 15: Mining von Sequential Patterns Lernziele Weitere Art von Sequential Patterns/ Constraints für den Mining Prozeß kennenlernen. Erkennen, daß Generate&Test Paradigma für diverse Mining-Problemstellungen anwendbar. Erkennen der Verallgemeinerbarkeit des Ansatzes (genauer: Verallgemeinert wird Erweiterung des Ansatzes). Data Warehousing und Mining: Zeitreihenanalyse 1 Data Warehousing und Mining: Zeitreihenanalyse 2 Motivation (1) Motivation (2) Motivation am Beispiel des Einzelhandels: Logisch zusammengehörige Einkäufe (z. B. Apfelkorn und Aspirin; CD-Brenner und CD-Rohlinge) oft nicht in einer Transaktion, sondern nacheinander. Annahme: Wir können Einkäufe dem Kunden eindeutig zuordnen, z. B. anhand von Treuekarte. Kundenverhalten nicht Menge von Waren, sondern Folge von Mengen. Alternativen: 1. Zeitpunkt/absoluter Zeitabstand zwischen Käufen interessiert nicht/ nicht verfügbar. 2. Jedem Einkauf entspricht expliziter Zeitpunkt. Ziel der Analyse: Subsequenzen mit bestimmter Mindesthäufigkeit. Sequential Patterns. Subsequenz wird gleich erklärt. Data Warehousing und Mining: Zeitreihenanalyse 3 Data Warehousing und Mining: Zeitreihenanalyse 4

2 Subsequenz Diese Folie: Fall 1., d.h. keine explizite Betrachtung der Zeitpunkte. Notation für Sequenzen Beispiele: <a(abc)(ac)d(cf)> <eg(af)cbc> Subsequenz Beispiel: <a(bc)df> ist Subsequenz von <a(abc)(ac)d(cf)> besteht aus fünf Transaktionen. <a(abc)(ac)d(cf)> Transaktion hier: Menge von Items innerhalb Sequenz. Darstellung der Transaktionen bereits normalisiert, eigentlich handelt es sich um Mengen. Sequential Pattern Mining Problemstellung (1) Falls Transaktionen einem Zeitpunkt zugeordnet sind, sind Verfeinerungen möglich. Maximaler/minimaler Zeitraum zwischen einzelnen Käufen anggebbar; min-gap/max-gap constraints. Beispiel: Gesucht sind Sequenzen dergestalt, daß zwischen aufeinanderfolgenden Käufen mindestens fünf Zeiteinheiten liegen. (min-gap constraint) Ist dieses Constraint anti-monoton? Data Warehousing und Mining: Zeitreihenanalyse 5 Data Warehousing und Mining: Zeitreihenanalyse 6 Sequential Pattern Mining Problemstellung (2) Falls Transaktionen einem Zeitpunkt zugeordnet sind, sind Verfeinerungen möglich. (Forts.) Rigide Definition einer Transaktion wird durch Sliding Window ersetzt. Illustration: Käufe innerhalb eines Zeitfensters der Größe 2 gehören zu einer Transaktion. Vorgehen, Alternativen 1. mäßig, d. h. schrittweise kleine Muster aus größeren erzeugen. 2. Verallgemeinerung von s. Data Warehousing und Mining: Zeitreihenanalyse 7 Data Warehousing und Mining: Zeitreihenanalyse 8

3 Vorgehen 1: Algorithmus zum Finden der Sequential Patterns Prinzip - wie bei Apriori: In jedem Schritt die Zahl der Items um 1 erhöhen, Kandidaten erzeugen und Support ermitteln. Sequenz mit k Items heißt k-item Sequenz. (Anzahl der Transaktionen einer k-item Sequenz ist beliebig.) Item kann mehrmals in unterschiedlichen Transaktionen vorkommen. L k - Menge der k-item Sequenzen. Beispiel: <a(abc)(ac)d(cf)> und <aabc(ac)dcf> sind 9-Item Sequenzen. Erzeugung der Kandidaten (1) Beispiel: <(abc)(ac)d(cf)> und <a(ab)cdf> sind zusammenhängende Subsequenzen von <a(abc)(ac)d(cf)>, <a(abc)(ac)(cf)> aber nicht. <a(abc)(ac)d> ist zusammenhängende Subsequenz von <a(abc)(ac)d(cf)>. Definition (s. b. folgende Folie) wird gebraucht, um Kandidaten systematisch zu erzeugen. Data Warehousing und Mining: Zeitreihenanalyse 9 Data Warehousing und Mining: Zeitreihenanalyse 10 Erzeugung der Kandidaten (2) Definition zusammenhängende Subsequenz: Sequenz c ist eine zusammenhängende Subsequenz von s=<s 1 s 2 s n >, wenn c sich aus s ergibt durch Weglassen eines Items aus s 1 oder s n, oder c sich aus s ergibt durch Weglassen eines Items aus s i, und s i enthält mehr als zwei Items, oder c ist eine zusammenhängende Subsequenz von c, und c ist eine zusammenhängende Subsequenz von s. Erzeugung der Kandidaten (3) Join Phase: s 1 wird mit s 2 gejoined, wenn s 1 ohne das erste Item identisch ist mit s 2 ohne das letzte Item, Beispiel: <(x)> und <(y)> (beide natürlich aus L 1 ) führen zu <(x y)>, <(x) (y)> und <(y) (x)>. Prunen von Kandidaten, die eine zusammenhängende Teilsequenz ohne genügend Support haben. Warum zusammenhängend? Beispiel: L 3 Ergebnis C 4 des Joins <(1 2) (3)>, <(1 2) (4)>, <(1 2) (3 4)>, <(1 2) (3 4)> <(1) (3 4)>, <(1 3) (6)>, <(1 2) (3) (5)> <(2) (3 4)>, <(2) (3) (5)> Data Warehousing und Mining: Zeitreihenanalyse 11 Data Warehousing und Mining: Zeitreihenanalyse 12

4 Enthält eine Sequenz eine andere? Beispiel-Daten: Parameter: max-gap=30, min-gap=5, window-size=0. Kandidat für Teilsequenz: <(1 2) (3) (4)> Algorithmus: (1 2) wird ab Zeitpunkt 0 gesucht und zum Zeitpunkt 10 gefunden, (3) wird ab Zeitpunkt 15 gesucht und zum Zeitpunkt 45 gefunden, (1 2) wird ab Zeitpunkt 10 gesucht und zum Zeitpunkt 50 gefunden, (3) wird ab Zeitpunkt 55 gesucht und zum Zeitpunkt 65 gefunden, (4) wird ab Zeitpunkt 70 gesucht und zum Zeitpunkt 90 gefunden. Transaction-Time Items 1, 2 4, 6 3 1, 2 3 2, 4 6 Data Warehousing und Mining: Zeitreihenanalyse 14 Finden eines Itemsets ab einem bestimmten Zeitpunkt Beispiel Überführen der Daten in andere Darstellung: Item Zeitpunkte NULL NULL NULL NULL 5 NULL NULL 7 NULL window-size=7; gesucht wird (2 6) ab t=20. Ablauf: Gesucht wird ab wird zum Zeitpunkt t=50 gefunden, 6 zum Zeitpunkt t=25. Gesucht wird ab 43. 2: t=50, 6: t=95 Gesucht wird ab 88. 2: t=90, 6: t=95 Data Warehousing und Mining: Zeitreihenanalyse 15 Bestandsaufnahme Bis hierhin: Verallgemeinerung von Apriori. Wichtige Punkte: Join kann mehrere Ergebnisse haben. Systematisierung der Erzeugung der Kandidaten unumgänglich. Constraint- vs. Support-basiertes Pruning. Im folgenden (für den Rest des Kapitels): Verallgemeinerungen von s. Phase 1 ( Sortieren der Frequent Items ) TID Items Sortierte häufige Items 100 c, a, f, d, g, i, m, p c, f, a, m, p 200 a, b, f, c, l, m, o c, f, a, b, m 300 b, c, h, j, o c, b 400 b, f, k, s, p f, b, p 500 a, c, f, e, l, p, m, n c, f, a, m, p Häufigste Items in der Sortierung zuerst. L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Man sieht: Manche Präfixe sind recht häufig, z. B. c, f, a. Data Warehousing und Mining: Zeitreihenanalyse 16 Data Warehousing und Mining: Zeitreihenanalyse 17

5 Aufbau des s s große Datenbestände (1) Item c f a b m p Listenkopf c:4 f:3 a:3 m:2 b:1 b:1 root f:1 b:1 p:1 Wenn Datenbank zu groß, paßt nicht in Hauptspeicher. Ansatz basiert auf Partitionierung der Menge der Muster. Wichtiges Konzept: Projected Databases. p:2 m:1 Data Warehousing und Mining: Zeitreihenanalyse 18 Data Warehousing und Mining: Zeitreihenanalyse 19 Projected Databases Illustration (1) Projected Databases Illustration (2) Ausgangspunkt: Frequent Item List L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Transaktion <c f a b m> In m-projected Database: <c f a b m> In b-projected Database: <c f a b>, usw. In c-projected Database: <c> Mit m-projected Database alle maximalen Frequent Itemsets bestimmen, die m enthalten. Aufbau des s, Ermitteln dieser Frequent Itemsets mit diesem. Mit b-projected Database alle maximalen Frequent Itemsets bestimmen, die b, aber nicht m enthalten. Gleiches Vorgehen wie oben. Usw. Data Warehousing und Mining: Zeitreihenanalyse 20 Data Warehousing und Mining: Zeitreihenanalyse 21

6 Projected Databases Erklärung s große Datenbestände (2) Warum ist für Projected Database i. d. R. kleiner als für Ausgangsdatenbestand? m-projected Database: Nicht alle Transaktionen enthalten m, nur relativ wenige. c-projected Database: Nur eine Art von Transaktion, nämlich <c> Gar nicht erforderlich, aufzubauen; Support von {c} direkt ermittelbar. F-projected Database: Nur Transaktionen mit c und f. Sehr kleiner. Angenommen, m-projected Database istimmernochzugroß. Rekursion; {cm}-projected Database, {fm}-projected Database, usw. aus m-projected Database erstellen. Beispiel: {fb}-projected Database alle Transaktionen, die f und b enthalten, ohne m, dient der Ermittlung aller maximalen Frequent Itemsets mit f und b, aber ohne m. Ausgangspunkt: Frequent Item List L=<c: 4, f: 4, a: 3, b: 3, m: 3, p: 3> Data Warehousing und Mining: Zeitreihenanalyse 22 Data Warehousing und Mining: Zeitreihenanalyse 23 Zusammenfassung bis hierhin Begriffe Zerlegung der Datenbank in mehrere Datenbanken (x-projected Database). (Eine Transaktion kann in mehrere Datenbanken gelangen.) Jede x-projected Database dient dazu, bestimmte Menge von Frequent Itemsets zu bestimmen. Sequence, Sequenz: <s 1,, s l >; s i ist Itemset, l-sequence (anderes Konzept als k-item Sequenz zuvor; l zählt jetzt die Transaktionen.) steht im folgenden für Subsequenz-Beziehung. Sequence Database, Sequential Pattern Subsequenz mit hinreichendem Support (die Muster, die wir wollen). Explizite Zeitpunkte bleiben im folgenden außen vor. Data Warehousing und Mining: Zeitreihenanalyse 24 Data Warehousing und Mining: Zeitreihenanalyse 25

7 Nächstes Verfahren: Vorgehen (1) Ähnlich s, Kategorisierung der Menge der Patterns, Erster Schritt wieder Erstellung von sortierter Liste der Frequent Items. Beispiel Datenbank: Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> 1. Sortierte Liste der Frequent Items erstellen. Projektion einer Sequenz bezüglich eines Items: Nur Item und Items, die davor in der Liste stehen, behalten. (Reihenfolge der Liste der Frequent Items ist maßgeblich.) Beispiel: Sequenz <(ad)c(bc)(ae)> gegeben. Projektion bezüglich {b}: <aba>, Projektion bezüglich {c}: <ac(bc)a> Liste der Frequent Items: a:4, b:4, c:4, d:3, e:3, f:3 Gezählt wird Anzahl Sequences, die Item enthalten, nicht Anzahl Vorkommen. Data Warehousing und Mining: Zeitreihenanalyse 26 Data Warehousing und Mining: Zeitreihenanalyse 27 Vorgehen (2) Vorgehen (3) 2. Projected Databases erstellen. Erzeugung mehrerer Datenbanken aus der ursprünglichen. Projektion, wie eben dargestellt. Beispiel: Sequenz <(ad)c(bc)(ae)> wird zu <aba> in {b}-projected Datenbank und zu <ac(bc)a> in {c}-projected Datenbank. 3. Weitermachen, rekursiv: Unterschiedliche projected Databases, z. B. aus c-projected Database <bc>-projected, (bc)-projected, <cb>-projected. D. h. Erzeugung mehrerer Datenbanken (für jedes o. g. Bullet eine) aus der ursprünglichen. Weitermachen, rekursiv, bis Datenbanken klein (z. B. kleiner als Hauptspeicher oder Anzahl Sequences kleiner minsup). Dann herkömmliche Technik anwenden. Data Warehousing und Mining: Zeitreihenanalyse 28 Data Warehousing und Mining: Zeitreihenanalyse 29

8 Optimierung: S-Matrix (1) Optimierung: S-Matrix (2) Hauptkostenpunkt bei : Konstruktion der Projected Databases. Struktur, die der Optimierung zugrundeliegt: S-Matrix. Beispiel: Sequence <a(abc)(ac)d(cf)> <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> <eg(af)cbc> a 2 b (4, 2, 2) 1 c (4, 2, 1) (3, 3, 2) 3 d (2, 1, 1) (2, 2, 0) (1, 3, 0) 0 e (1, 2, 1) (1, 2, 0) (1, 2, 0) (1, 1, 0) 0 f (2, 1, 1) (2, 2, 0) (1, 2, 1) (1, 1, 1) (2, 0, 1) 1 a b c d e f Nur Präfixe der Länge 2 gemäß S-Matrix betrachten. Erstellen der Matrix in jedem Rekursionsschritt. Drei Arten, wie a und c Sequenz bilden können: <ac>, <ca>, <(ac)> Data Warehousing und Mining: Zeitreihenanalyse 30 Data Warehousing und Mining: Zeitreihenanalyse 31 Übersicht (1) Übersicht (2) Im Prinzip gleiches Vorgehen wie Projected Databases, rekursive Abarbeitung. Systematisches Vorgehen bei der Erzeugung der Patterns. Normalisierte Darstellung der Sequences im folgenden obligatorisch. Beispiel: <a(abc)(ac)d(cf)> ist normalisiert, <a(bca)(ac)d(fc)> dagegen nicht. Präfix, Postfix Beispiele: <a(abc)a>, <a(abc)(ac)> sind Präfixe von <a(abc)(ac)d(cf)>, nicht aber <a(abc)c>. <cd(cf)> ist Postfix von <a(abc)(ac)d(cf)> bezüglich Präfix <a(abc)a>. Wir schreiben auch <(_c)d(cf)>. Präfix, Postfix wird gebraucht für bessere Definition von Projected Databases (s.b. folgende Folien). Data Warehousing und Mining: Zeitreihenanalyse 32 Data Warehousing und Mining: Zeitreihenanalyse 33

9 Projektion Vorgehen Sequenzen α, β mit β α. α ist Projektion von α bezüglich Präfix β gdw. α hat Präfix β, und kein α α, so daß α α, und α hat Präfix β. Beispiele: <d(cf)> ist Projektion von <a(abc)(ac)d(cf)> bezüglich Präfix <d>. <a(abc)(ac)d(cf)> ist Projektion von <a(abc)(ac)d(cf)> bezüglich Präfix <a>. Motivation: Systematische und schrittweise Erstellung der Projected Databases. 1. Sortierte Liste der Frequent Items, d. h. der length-1 Sequential Patterns, erstellen. Die Frequent Items sind mögliche Präfixe. 2. Projected Databases erstellen. Für jeden Präfix aus Schritt 1. eine. Weitermachen, rekursiv. Data Warehousing und Mining: Zeitreihenanalyse 34 Data Warehousing und Mining: Zeitreihenanalyse 35 e hat Support 2. Transaktionen: Beispiel (1) Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Projected Databases: Präfix Projected Databases <a> <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> <b> <(_c)(ac)d(cf)>, <(_c)(ae)>, <(df)cb>, <c> <c> <(ac)d(cf)>, <(bc)(ae)>, <b>, <bc> <d> <(cf)>, <c(bc)(ae)>, <(_f)cb> <e> <(_f)(ab)(df)cb>, <(af)cbc> <f> <(ab)(df)cb>, <cbc> (Präfix selbst wird weggelassen.) Data Warehousing und Mining: Zeitreihenanalyse 36 Transaktionen: Beispiel (2) Eine Projected Database: Präfix <a> Sequence_id Sequence 10 <a(abc)(ac)d(cf)> 20 <(ad)c(bc)(ae)> 30 <(ef)(ab)(df)cb> 40 <eg(af)cbc> Projected Databases <(abc)(ac)d(cf)>, <(_d)c(bc)(ae)>, <(_b)(df)cb>, <(_f)cbc> Verfahren wiederholt sich rekursiv. Jetzt aus o. g. Datenbank die Projected Databases mit (Gesamt-)Präfixen <aa>, <ab>, <(ab)>,, <af> generieren. Verfahren hört auf, wenn Anzahl Datenbankelemente kleiner als minsup. Data Warehousing und Mining: Zeitreihenanalyse 37

10 S-Matrix Zeitreihenanalyse Beispiel: Sequence <a(abc)(ac)d(cf)> a 2 <(ad)c(bc)(ae)> <(ef)(ab)(df)cb> b (4, 2, 2) 1 <eg(af)cbc> c (4, 2, 1) (3, 3, 2) 3 d (2, 1, 1) (2, 2, 0) (1, 3, 0) 0 e (1, 2, 1) (1, 2, 0) (1, 2, 0) (1, 1, 0) 0 f (2, 1, 1) (2, 2, 0) (1, 2, 1) (1, 1, 1) (2, 0, 1) 1 a b c d e f Drei Arten, wie a und c Sequenz bilden können: <ac>, <ca>, <(ac)> Sequential Pattern Mining wurde anhand des Beispiels Einzelhandel motiviert; Übertragbarkeit auf andere Anwendungsszenarien ist aber offensichtlich. Verallgemeinerungen sowohl von Apriori als auch der basierten Technik wurden vorgestellt. Verallgemeinerungsmöglichkeiten für andere Strukturen, z. B. Bäume und Graphen. Data Warehousing und Mining: Zeitreihenanalyse 38 Data Warehousing und Mining: Zeitreihenanalyse 39 Problemstellung: Lag Plot (1) Gegeben: Zeitreihe x 1, x 2,, x t. Gesucht: Vorhersage für x t+1 ( Predict-1 ) Anwendungen beispielhaft: Finanzsysteme, Börse, Business, Physik, z. B. Verhalten von Lasern, Medizin, Wert Ökosysteme. Existierende Ansätze Zeit zu primitiv, z. B. lineare Modelle, aufwendig zu trainieren, z. B. Neuronale Netze. Data Warehousing und Mining: Zeitreihenanalyse 40 Data Warehousing und Mining: Zeitreihenanalyse 41

11 Lag Plot (2) Lag Plot (3) Lag Plot für L=1: x(t) x(t-1) Lag Plot für L=2: x(t) x(t-2) x(t-1) Data Warehousing und Mining: Zeitreihenanalyse 42 Data Warehousing und Mining: Zeitreihenanalyse 43 Lag Plot (4) basierend auf Lag Plots (1) Erläuterungen: Erläuterung für L=1: Lag Plot für L=1 (Lag = (zeitliche) Verzögerung, Zeitabstand) Logistic Parabola x t = 3.8 x t-1 (1 x t-1 ) + e t e t ist N(0, 0.001) Zufallsvariable. Lag Plot besteht aus endlich vielen Punkten, im Gegensatz zu dieser Parabel. Ermittlung der k-nn entlang der x-achse. y-werte der k-nn nehmen und interpolieren. Delay Coordinate Vector b := [x t, x t-1,, x t-l ] Lag Plot für Lag L ist Plot der Delay Coordinate Vectors. z Data Warehousing und Mining: Zeitreihenanalyse 44 Data Warehousing und Mining: Zeitreihenanalyse 45

12 basierend auf Lag Plots (2) basierend auf Lag Plots (3) x Verallgemeinerung für L>1 offensichtlich. Wie sähe Lag Plot für L=2 für unser aktuelles Beispiel aus? Satz von Takens: optimaler Wert L opt für L, keine besseren Vorhersagen für L > L opt. x Data Warehousing und Mining: Zeitreihenanalyse 46 Data Warehousing und Mining: Zeitreihenanalyse 47 Offene Punkte Ermittlung der NN-Anzahl k opt (1) Ermittlung von L k automatisch, effizient. Wie interpoliert man? (Weniger wichtig, nicht so schwierig.) Vorstellung eines möglichen Ansatzes (gut darstellbar, aber nicht unbedingt der schnellste). Cross-Validation Datenbestand zerlegen in Training Set und Holdout Set, R-Baum für das Training Set aufbauen. Für k=1, 2, Prediction Error ermitteln. Aufhören, wenn Fehler nicht mehr merklich kleiner wird. Data Warehousing und Mining: Zeitreihenanalyse 48 Data Warehousing und Mining: Zeitreihenanalyse 49

13 Ermittlung der NN-Anzahl k opt (2) Interpolation Alternativen: x xxx x x Durchschnittsermittlung gewichteter Durchschnitt (je kleiner der Abstand, desto größer Gewicht). blaue Punkte Holdout Set (restliche Punkte: Training Set) rote bzw. violette Punkte NNs, die für Prediction verwendet werden Data Warehousing und Mining: Zeitreihenanalyse 50 Data Warehousing und Mining: Zeitreihenanalyse 51 Zusammenfassung Wichtigkeit des Problems ist offensichtlich. Auf den ersten Blick einfache Lösung. Problem: Ermittlung der Parameter-Werte. Parameter-Ermittlung basierend auf fraktaler Dimensionalität. Prüfungsfragen, beispielhaft Wie sieht Verallgemeinerung von Apriori für komplexere Muster aus? Wie läßt sich das basierte Verfahren für sehr große Datenbestände erweitern? Wie lassen sich s für das Finden von Mustern komplexerer Struktur verallgemeinern? Welche Aspekte des Verfahrens werden verallgemeinert, was bleibt gleich? Geben Sie die -Technik aus der Vorlesung wieder. Welche Parameter hat das Verfahren, wie kann man sie bestimmen? Data Warehousing und Mining: Zeitreihenanalyse 52 Data Warehousing und Mining: Zeitreihenanalyse 53

14 Literatur (1) Ramakrishnan Srikant, Rakesh Agrawal Mining Sequential Patterns: Generalizations and Performance Improvements Proc. 5th Int. Conf. Extending Database Technology (EDBT), Jiawei Han et al.: : Frequent Pattern- Projected Sequential Pattern Mining Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Literatur (2) Jian Pei et al.: : Mining Sequential Patterns by Prefix-Projected GrowthSource Proceedings of the 17th International Conference on Data Engineering, Deepay Chakrabarti and Christos Faloutsos F4: Large-Scale Automated using Fractals CIKM 2002, Washington DC, Nov Data Warehousing und Mining: Zeitreihenanalyse 54 Data Warehousing und Mining: Zeitreihenanalyse 55