Stream Mining: Clustering von Streamdaten

Transkript

1 Mining: von daten Betreuer: Prof. Dr. Klemens Böhm Imperfektion und erweiterte Konzepte im Data Warehousing Seminar im Sommersemester Mining: von daten- 1

2 Mining Gold Mining Alaska, USA; um 1900 [12] Mining: von daten- 2

3 Mining Datenstrom Zusammenhänge in Daten Gold Mining Alaska, USA; um 1900 [12] Mining: von daten- 2

4 Anwendungsbeispiel: Network Intrusion Detection source destination duration bytes 20K 99K 37K protocol http ssh http Mining: von daten- 3

5 Anwendungsbeispiel: Network Intrusion Detection source duration DOS destination duration bytes 20K 99K 37K protocol http ssh http Buffer Overflow Normal bytes Mining: von daten- 3

6 Übersicht Eigenschaften von daten Allg. Lösungsansätze für Datenstruktur Mikroclustering Pyramidal Time Frame Makroclustering Zusammenfassung Mining: von daten- 4

8 Gruppen in statischen Daten finden y x Mining: von daten- 6

9 Gruppen in statischen Daten finden y x Datenpunkt Mining: von daten- 6

10 Gruppen in statischen Daten finden y x Datenpunkt Dimension Mining: von daten- 6

11 Gruppen in statischen Daten finden y x Datenpunkt Dimension Abstand Mining: von daten- 6

12 Gruppen in statischen Daten finden y x Datenpunkt Dimension Abstand Cluster Mining: von daten- 6

14 Gruppen in dynamischen Daten finden Aktuelles zu jedem Zeitpunkt Analyse der historischen Cluster y x Mining: von daten- 8

18 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9

19 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9

20 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt t Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9

21 Eigenschaften von daten Zeitliche Komponente Aktuelle Daten Historische Daten Kontinuität Große Datenmengen Hohe Datenraten y x neu mittel alt t Eingschränkte Zugriffsmöglichkeit Mining: von daten- 9

22 Allgemeine Lösungsansätze Aktuelle Cluster Einfache Operationen Konstanter Speicher: Alte Daten verdrängen Historische Cluster Verlangsamen des Wachstums: Alte Daten eliminieren Approximation eliminierter Daten Mining: von daten- 10

24 Architektur eines Systems Mikroclustering Snapshots Online Mining: von daten- 12

25 Architektur eines Systems Mikroclustering Snapshots Online Makroclustering Offline Ergebnis Mining: von daten- 12

27 Mikrocluster Datenstruktur Repräsentiert ein Cluster Fasst Daten über kurze Zeitperiode zusammen Anzahl der Mikrocluster konstant ID Mikrocluster n x i : Datenpunkt n: # Datenpunkte d: Dimension Eigenschaft: Additivität und Subtraktivität Erlaubt inkrementelle Updates Mining: von daten- 13

28 Mikrocluster Datenstruktur Repräsentiert ein Cluster Fasst Daten über kurze Zeitperiode zusammen Anzahl der Mikrocluster konstant ID Mikrocluster n x i : Datenpunkt n: # Datenpunkte d: Dimension Eigenschaft: Additivität und Subtraktivität Erlaubt inkrementelle Updates Mining: von daten- 13

29 Projected y x xx x x x x x x xx x x x xx x Betrachte für jedes Cluster nur eine Teilmenge der Dimensionen 2 Aufgaben: Finden geeignete Dimensionen D Finden von Cluster auf D x z xx xxx xx xx x xx xx x Mining: von daten- 14

30 Mikroclustering (1) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 15

35 Mikroclustering (1) y x C1 C2 C3 x y Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 15

36 Mikroclustering (2) y Manhattan Segmental Distance Â d (x d - m d ) msd = #d 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster x Mining: von daten- 16

37 Mikroclustering (2) Manhattan Segmental Distance y msd = Â d (x d - m d ) #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16

38 Mikroclustering (2) Manhattan Segmental Distance y Â d ) d (x d - m msd = #d x C1 C2 C3 x y msd 3,5 1, Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster Mining: von daten- 16

41 Mikroclustering (3) y 1. Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster 3 natural limiting radius: Verwende Daten aus Mikrocluster x Mining: von daten- 17

42 Mikroclustering (3) y Bestimme Dimensionen für jedes Cluster 2. Finde nächstes Cluster 3. Hinzufügen oder neues Cluster natural limiting radius: Verwende Daten aus Mikrocluster x Mining: von daten- 17

45 Speichern der Snapshots Momentaner Zustand aller Mikrocluster Periodisch alte Snapshots filtern Unterschiedliche zeitliche Auflösungen Zeitliche Auflösung abhängig von Neuigkeit bestimmt die Granularität Umgesetzt in Pyramidal Time Frame Mining: von daten- 20

46 Pyramidal Time Frame Mining: von daten- 21

49 Pyramidal Time Frame Anzahl Daten O(log(t)) Mining: von daten- 21

51 Makroclustering Anzahl A der Cluster Zeithorizont H Makroclustering Snapshots 1. Erstelle Menge der Mikrocluster über Zeithorizont H 2. Berechne A Cluster aus Mikroclustern mit herkömmlichem Ergebnis Mining: von daten- 23

53 Zusammenfassung Finden von Zusammenhängen in schnellen Datenströmen Veraltete Daten identifizieren und vergessen Datenstruktur: Inkrementelle Updates : Zerlegung in Online-/Offline-Komponenten Umgang mit hochdimensionalen Daten Mining: von daten- 25

54 Literatur (1) [1] C. Aggarwal. An intuitive framework for understanding changes in evolving datastreams, [2] Charu C. Aggarwal. A framework for diagnosing changes in evolving data streams. In ACM SIGMOD [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71 80, [6] John A. Hartigan. Algorithms. Wiley, New York, [7] Anil K. Jain and Richard C. Dubes. Algorithms for Data. Prentice Hall,1988. Mining: von daten- 26

55 Literatur (1) [1] C. Aggarwal. An intuitive framework for understanding changes in evolving datastreams, [2] Charu C. Aggarwal. A framework for diagnosing changes in evolving data streams. In ACM SIGMOD [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71 80, [6] John A. Hartigan. Algorithms. Wiley, New York, [7] Anil K. Jain and Richard C. Dubes. Algorithms for Data. Prentice Hall,1988. Mining: von daten- 26

56 Literatur (2) [8] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. Wiley, New York, [9] Rainer Koschke and Thomas Eisenbarth. A framework for experimental evaluation of clustering techniques. In 8th International Workshop on Program Comprehension (IWPC2000), pages , Limerick, Irland, Juni [10] L. O Callaghan, N. Mishra, A. Meyerson, S. Guha, and R. Motwani. ingdata algorithms for high-quality clustering. In Proceedings of IEEE International Conference on Data Engineering, [11] Tian Zhang, Raghu Ramakrishnan, and Miron Livny. Birch: An efficient clustering method for very large databases. In ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, pages , Montreal, Canada, [12] Alaska State Library [13] NYSE Statistical Data Mining: von daten- 27

57 Fragen Mining: von daten- 28

58 Zusatzfolien Mining: von daten- 29

59 Anwendungsbeispiel: Network Intrusion Detection source destination duration bytes 20K 99K 37K protocol http ssh http Mining: von daten- 30

60 Anwendungsbeispiel: Network Intrusion Detection source duration DOS destination duration bytes 20K 99K 37K protocol http ssh http Buffer Overflow Normal bytes Mining: von daten- 30

61 Anwendungsbeispiel: Analyse von Marktdaten Datum Gesellschaft Abweichung Delta Delta , 12: , 14: , 12:00 Lufthansa Royal Dutch BP #Trades +200 K +450 K +300 K Ölpreis Marktwert Mining: von daten- 31

62 Anwendungsbeispiel: Analyse von Marktdaten ur ring sg. Datum , 12: , 14: , 12:00 Delta Marktwert Gesellschaft Abweichung Delta #Trades Ölpreis Lufthansa +200 K +5 Royal Dutch +450 K +6 BP +300 K Delta Marktwert BP Delta Ölpreis Lufthansa Mining: von daten- 31

63 Anwendungen von Data Mining Mining: von daten- 32

64 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt Mining: von daten- 33

65 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt Mining: von daten- 33

66 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt 30 Mining: von daten- 33

67 Einsatz herkömmlicher Algorithmen? Zeitliche Komponente Gesamte Daten werden benötigt Dominanz historischer Daten Kontinuität Speicher- und Laufzeitkomplexität Zugriffsmöglichkeit Random Access benötigt 30 Mining: von daten- 33

68 Zerlegung des Mikroclustering (Online) Schnell, Für große Datenmengen Während Daten ankommen Erzeugt Zwischenergebnisse Makroclustering (Offline) Verarbeitet Nutzereingaben Nutzt Zwischenergebnisse Unabhängig von ankommenden Daten Zwischenergebnis: Menge von Mikroclusters Mining: von daten- 34

69 Mikroclustering # Microcluster Snapshot <= const Mining: von daten- 35

70 Hochdimensionale Daten Wie finden wir interessante Parameterkombinationen? Datum AG Lufthansa Royal Dutch BP Delta Marktwert Varianz #Trades +200 K +450 K +300 K Delta Ölpreis Delta Marktwert Cash 4.89 B 5.3 B 1.52 B #Insider Trades K 3 K #Short Orders M 5.43 M BP Delta Ölpreis Lufthansa Mining: von daten- 36

71 Zeitabhängige Granularität averaged support a b averaged support a b time now time now Mining: von daten- 37

72 Pyramidal Time Frame Momentaner Zeitpunkt: T Modellparameter: a Anzahl Ordnungen: o [0, log a (T) ] Ordnung o(t) := max i (i (t mod a i ) = 0) Daten der letzten a+1 Zeitpunkte pro Ordnung Anzahl Daten: log a (T) *(a+1) O(log(t)) Garantie für Approximierbarkeit Weitere Optimierungen der PTF möglich Mining: von daten- 38

73 Pyramidal Time Frame Momentaner Zeitpunkt: T Modellparameter: a Anzahl Ordnungen: o [0, log a (T) ] Ordnung o(t) := max i (i (t mod a i ) = 0) Daten der letzten a+1 Zeitpunkte pro Ordnung Anzahl Daten: log a (T) *(a+1) O(log(t)) Garantie für Approximierbarkeit Weitere Optimierungen der PTF möglich Mining: von daten- 38

74 Vergleich zu Birch Gemeinsamkeiten Cluster Feature = Mikrocluster zusätzlich Zeit (kann aber als zus. Dimension aufgefasst werden) Birch hat Elefantengedächtnis Ein Durchlauf genügt Unterschiede Evolution in Clu berücksichtigt (PTF) = Vergessen Online/Offline Trennung Snapshots Mining: von daten- 39

75 Bewertung von Algorithmen Qualität: verschiedene Maße Sum of square distances (SSQ) Mining: von daten- 40