Streaming Algorithmen Dynamische Zuordnung von Objekten mit größter Häufigkeit

Transkript

1 Streaming Algorithmen Streaming Algorithmen Dynamische Zuordnung von Objekten mit größter Häufigkeit Seminar über Algorithmen, SS 2012 Simon Tippenhauer Freitag, 06. Juni

2 Gliederung Gliederung 1. Motivation 2. Data Streams und Data Stream Algorithm 3. Formalisierung der Aufgabe: Dynamische Zuordnung von Objekten mit größter Häufigkeit. 4. Der Algorithmus (i) Methoden und Idee (ii) Bestimmung der absoluten Mehrheit (iii) Bestimmung von k Hot Items 5. Evaluation 2

3 1. Motivation 1. Motivation Internet Service Provider (ISP) führt Statistik über den Datenverkehr. Welche Netzwerkadressen verursachen den meisten Datenverkehr oder unterliegen den häufigsten Anfragen? Der ISP kann daraufhin den Datenfluss steuern und einer Überlastung der Server entgegenwirken. Anhand der Statistik können auch Anomalien festgestellt werden. 3

4 2. Data Streams und Data Stream Algorithms 2. Data Streams und Data Stream Algorithms Ein einführendes Beispiel: Finde die fehlende Zahl! Sei π eine Permutation der Zahlen 1, 2,..., n und π -1 die selbe Permutation mit einer fehlenden Zahl (n ist dabei sehr groß!). Nun werden die Zahlen von π -1 nacheinander gezeigt und mit O(log n) Speicherplatz, soll die fehlende Zahl bestimmt werden. Die fehlende Zahl ist dann: Beispiel: n = 8, π -1 = 4,2,7,6,1,5,8 s = 8(8 +1) s = n(n +1) π 1 [i] = = 3 i=1 2 n 1 i=1 π 1 [i] 4

5 2. Data Streams und Data Stream Algorithms Data Streams Definition 1: Ein Data Stream stellt Eingabedaten a i dar, die in einer sehr hohen Rate eintreffen. Eine hohe Rate liegt vor, wenn die Kommunikations- und Berechnungsinfrastruktur stark beansprucht werden. Es ist also schwierig die gesamte Eingabe dem Programm zu übermitteln - transmit (T) anspruchsvolle Funktionen zu berechnen - compute (C) die Eingabe temporär oder auf Dauer zu speichern - space (S) Die Aufgabe ist es ständige Updates zu bearbeiten und zeitnahe Statistiken zu liefern. 5

6 2. Data Streams und Data Stream Algorithms Data Stream Models Eine Eingabefolge a 1, a2,... beschreibt ein zugrunde liegendes Signal A. Das Signal A ist eine Funktion A:[1...N] R. Die Modelle unterscheiden sich dadurch, wie die a i s das Signal A beschreiben. Time Series Model Turnstile Model Cash Register Model 6

7 2. Data Streams und Data Stream Algorithms Time Series Model Jedes a i entspricht A[i] und sie treten in aufsteigender Reihenfolge auf. 100 Time Series Model Signal A 7

8 2. Data Streams und Data Stream Algorithms Cash Register Model Jedes a i = (j, Ii) entspricht einer Erhöhung von A[j] um den Wert Ii > 0. Also, Ai = Ai-1[j] + Ii A i ist der Zustand des Signals A, nachdem die i-te Eingabe erfolgt ist. Mehrere a i s können ein gegebenes A[j] mit der Zeit erhöhen. Dies ist das wohl am häufigsten auftretende Model. 8

9 2. Data Streams und Data Stream Algorithms Turnstile Model Jedes a i = (j, Ui) entspricht einer Erhöhung von A[j] um den Wert Ui. Also, Ai = Ai-1[j] + Ui A i ist der Zustand des Signals A, nachdem die i-te Eingabe erfolgt ist. Die Werte U i können positiv oder negativ sein. Dies ist das wohl allgemeinste Model. Das Turnstile Model ist strikt, wenn immer alle A[j] s 0 sind. 9

10 2. Data Streams und Data Stream Algorithms Data Stream Algorithms Auf dem Signal A sollen unterschiedliche Funktionen berechnet werden. Die Performance hängt von drei wesentlichen Messverfahren ab: 1. Verarbeitungszeit pro Eingabe ai. (Proc. Time) 2. Speicherbedarf der Datenstruktur für A zum Zeitpunkt t. (Storage) 3. Laufzeit zur Berechnung von Funktionen auf A. (Compute Time) Daraus ergeben sich folgende Anforderung an die Algorithmen: Zu jedem Zeitpunkt t soll Proc. Time, Storage und Compute Time gleichzeitig o(n, t) sein, vorzugsweise polylog(n, t). Dabei entspricht N die Größe der Domäne. Abgeschwächt kann Compute Time auch nicht sublinear sein. 10

11 3. Formalisierung der Aufgabe Gliederung 1. Motivation 2. Data Streams und Data Stream Algorithm 3. Formalisierung der Aufgabe: Dynamische Zuordnung von Objekten mit größter Häufigkeit. 4. Der Algorithmus (i) Methoden und Idee (ii) Bestimmung der absoluten Mehrheit (iii) Bestimmung von k Hot Items 5. Evaluation 11

12 3. Formalisierung der Aufgabe 3. Formalisierung der Aufgabe: Dynamische Zuordnung von Objekten mit größter Häufigkeit Datenbanksystem mit Lösch- und Einfügeoperationen. Aufgabe: Bestimmung der k häufigsten Objekte. I. Folge von Transaktionen auf Objekten, II. o.b.d.a. sind die Objekte mit Zahlen von 1 bin m identifizierbar. III.Das Nettovorkommen von Objekt i zum Zeitpunkt t wird bezeichnet mit: IV. Aktuelle relative Häufigkeit von Objekt i: f i (t) = n i (t) / V. Die k häufigsten Objekte haben die k größten f i (t). m j=1 n j (t) n i (t) VI. Es liegt ein strict Turnstile Model vor. 12

13 3. Formalisierung der Aufgabe Anforderungen an den Algorithmus I. Berechnung der k häufigsten Objekte zu jedem Zeitpunkt. II. Sublinear zu jedem Zeitpunkt t bezüglich (i) der Verarbeitungszeit pro Transaktion ai, (ii) dem Speicherbedarf der Datenstruktur und (iii) der Laufzeit für die Berechnung der k häufigsten Objekte. Die Anforderungen für Streaming Algorithmen können für I. nicht eingehalten werden. Daher werden statt der k häufigsten Objekt, die Hot Items gefordert. 13

14 3. Formalisierung der Aufgabe Hot Item Definition: Ein Objekt i ist ein Hot Item zum Zeitpunkt t, wenn gilt: f i (t) > 1 k +1 Es kann maximal k Hot Items geben, aber auch weniger oder keins. Beispiel: k = 3, m = 4 m c = n j (t) = 20 j=1 1 k +1 = 1 4 = 5 20 f 1 (t) = 2 20 f 2 (t) = 7 20 f 3 (t) = 5 20 f 4 (t) = 6 20 f 2 (t) > 1 k +1 f 4 (t) > 1 k +1 Somit sind die Hot Items 2 und 4. 14

15 3. Formalisierung der Aufgabe Lemma 1: Jeder Algorithmus, der garantiert alle und nur Objekte zu finden, die eine größeren Häufigkeit als 1/(k + 1) haben, benötigt Ω(m) viele Bits. Mit o(m) Speicherplatz folgt, dass 1. nicht alle Hot Items bestimmt werden können oder 2. Objekte mit niedrigerer relativen Häufigkeit als Hot Item klassifiziert werden. Wenn die Small Tail Eigenschaft vorausgesetzt wird, gilt das Lemma 1 nicht! Definition: Sei F eine Menge von relativen Häufigkeiten ƒi mit ƒ1 ƒ2... fk fk+1... ƒm. Dann hat F einen Small Tail, wenn gilt: m f i 1 i>k k +1 15

16 3. Formalisierung der Aufgabe Gliederung 1. Motivation 2. Data Streams und Data Stream Algorithm 3. Formalisierung der Aufgabe: Dynamische Zuordnung von Objekten mit größter Häufigkeit. 4. Der Algorithmus (i) Methoden und Idee (ii) Bestimmung der absoluten Mehrheit (iii) Bestimmung von k Hot Items 5. Evaluation 16

17 4. Der Algorithmus Methoden Summary Datenstruktur mittels Random Sampling Summary Datenstruktur repräsentiert die zugrundeliegende Relation mit deutlich weniger Speicherplatzbedarf und bietet ausreichend viele Informationen, um Anfragen zufriedenstellend zu beantworten. Random Sampling beschreibt ein Auswahlverfahren für Stichproben, indem die Stichproben zufällig ausgewählt werden. Benötigt viele Samples und Resampling ist von Zeit zu Zeit notwendig. 17

18 Methoden (non-adaptive) Group Testing Group Testing dient zur effektiven Bestimmung von ausgezeichneten Elementen einer Menge. non-adaptive bedeutet, dass alle Test unabhängig von den Ergebnissen, der anderen Test durchgeführt werden. 18

19 Idee zum Algorithmus Es werden Gruppen für eine Teilmenge von Objekten gebildet. Die Zähler bilden die Summary Datenstruktur. Aus den Ergebnissen lassen sich die Hot Items ermitteln. Jede Gruppe hat einen Zähler für das Nettovorkommen innerhalb dieser. Zusätzlich wird ein Zähler für das gesamte Nettovorkommen geführt. Der Gruppentest informiert über die Beinhaltung eines Hot Items in der Gruppe. 19

20 Herausforderungen für diesen Ansatz 1. Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). 2. Geeignete (platzsparende) Repräsentation der Teilmengen. 3. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Starten wir mit dem einfachen Fall! 20

21 k = 1 Deterministische Bestimmung der absoluten Mehrheit Gegeben ein Stream a 1,..., at zum Zeitpunkt t mit ai {1,..., m}. Objekt i ist ein Hot Item, wenn gilt: Auswahl der Teilmengen (Gruppen) G j ist die Teilmenge von Objekten, dessen j-te Ziffer in Binärdarstellung eine 1 ist. Die zugehörigen Zähler werden mit c 0,..., clog m bezeichnet. Die Datenstruktur umfasst die Zähler c 0,..., clog m der Gruppen und f i > 1 1+ k > 1 2 einen Zähler c für das Nettovorkommen aller Objekt. 21

22 Verarbeitung des Streams und Bestimmung des Hot Items Einfügen von Objekt i: Inkrementiere den Zähler c. Erhöhe jeden Zähler c j um 1, wenn das j-te Bit von i gesetzt ist. Löschen von Objekt i: Dekrementiere den Zähler c. Verringere jeden Zähler c j um 1, wenn das j-te Bit von i gesetzt ist. Bestimmung des Hot Items: Wenn es existiert, so ist hot = log m 2 j greater(c j, c 2 ) j=0 22

23 Beispiel (nur Inserts): k = 1, m = 8, t = 17, Signal A = 3,1,2,3,8,5,3,3,8,7,7,7,3,3,3,3,3 15 Nettovorkommen Signal Hot Item Bit 0 Bit 1 Bit 2 Bit 3 23

24 Satz 1: Wenn ein Objekt mit der absoluten Mehrheit vorhanden ist, so findet der Algorithmus dieses in O(log m) Zeit pro Operation. 1. Der Zustand der Datenstruktur ist der selbe nach k Inserts und l Deletes, wie wenn nur n = k - l Inserts vorliegen. 2. Der Algorithmus arbeitet nur mit Inserts korrekt. Beweis zu 2.: Sei i das Hot Item mit relativer Häufigkeit ƒi > 0.5 zum Zeitpunkt t. ni(t) > 0.5 c Für die Zähler von i gilt: cj > 0.5 c n j i f j = 1 f i < 0.5 Für die anderen Zähler gilt: cj < 0.5 Die Ziffern der Binärdarstellung kann somit abgelesen werden. Laufzeit abhängig von der Anzahl der Zähler, d.h. O(log m) 24

25 Erfüllte Herausforderungen Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). Geeignete (platzsparende) Repräsentation der Teilmengen. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Weiter geht es mit dem allgemeinen Fall! 25

26 k > 1 Randomisierte Bestimmung der Hot Items Idee für k = 1 kann mit folgenden Beobachtungen verwendet werden. In einer Teilmenge mit nur einem Hot Item, besitzt dieses die Mehrheit. Mit der Small Tail Eigenschaft sogar die absolute Mehrheit. Durch geschickte Wahl der Teilmengen kann sichergestellt werden, dass jedes Hot Item in solch einer Gruppe vorkommt. Für jede Teilmenge werden O(log m) Zähler geführt. Definition: Sei F {1,..., m} die Menge der Hot Items mit F k. Dann ist S {1,..., m} eine gute Teilmenge, wenn S F = 1 ist. 26

27 Wiederholung: Herausforderungen für diesen Ansatz mit k > 1 Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). Geeignete (platzsparende) Repräsentation der Teilmengen. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Starten mit den Begrenzung der notwendigen Teilmengen. 27

28 Satz 2: Durch wählen von O(k ln k) Teilmengen, indem zufällig (m/k) Objekte von 1 bis m gleichverteilt gewählt werden, sind mit konstanter Wahrscheinlichkeit k Teilmengen S1,..., Sk enthalten, sodass gilt: Pr[i ist ein Hot Item] = m k k i (F S i ) = F m k Pr[Ein Hot Item bei Objekten] = p = m (1 k m m ) k 1 m Für Relevante Fälle mit 1 k gilt: 0 p Aus dem Coupon Collector Problem folgt die Wahl von O(k ln k) Teilmengen 28

29 Herausforderungen für diesen Ansatz mit k > 1 Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). Geeignete (platzsparende) Repräsentation der Teilmengen. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Weiter mit der geeigneten Repräsentation der Teilmengen. 29

30 Primzahl P 2k, a und b gleichverteilte Zufallszahlen aus {0, 1,..., P-1} Definieren Universelles Hashing zur Repräsentation von Teilmengen h a,b(x) = ((ax + b mod P) mod 2k) und S a,b,i = {x ha,b(x) = i} zugehörige Teilmenge. 1 Mit Wahrscheinlichkeit sind zwei Objekte in der selben Teilmenge. 2k 30

31 Brauchen O(k ln k) Teilmengen, damit jedes Hot Item in einer guten Teilmenge ist. Dazu werden T = O(log k Paare von (a,b) gewählt. δ ) Teilmengen. 2Tk = 2k log k δ Jedes Objekt gehört T Teilmengen an. Universelles Hashing Genaue Anzahl der Teilmengen Anhand der Bitrepräsentation des Objekts werden die entsprechende Zähler der Teilmengen erhöht bzw. verringert. Lemma 2 (ohne Beweis): Für jedes Hot Item ist die Wahrscheinlichkeit in mindestens einer guten Menge zu sein mindestens 1 - δ. 31

32 Die Teilmengen im Bild S a1,b 1,0 S a1,b 1,1 S a1,b 1,2k 1 S a2,b 2,2k S at,b T,2Tk Gruppenzähler c c 0 c 00 c 01 c 0 log m c 1 c 10 c 11 c 1log m c 2k 1 c 2k 10 c 2k 11 c 2k 1log m c 2k c 2k 0 c 2k1 c 2k log m c 2Tk 1 c 2Tk 10 c 2Tk 11 c 2Tk 1log m 0-te Bit 1-te Bit (log m)-te Bit 32

33 Herausforderungen für diesen Ansatz mit k > 1 Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). Geeignete (platzsparende) Repräsentation der Teilmengen. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Es müssen nur noch die Hot Items bestimmt werden. 33

34 Effiziente Bestimmung der Hot Items 1. Für jede Teilmenge Sa,b,i teste, 1.1. ob der zugehörige Gruppenzähler und 1.2. es eine gute Teilmenge ist. 2. Wenn ja, 2.1. Nutze den Algorithmus von k = 1 und bestimme das Hot Item der Gruppe. 3. Wenn nein, 3.1. Teste die nächste Teilmenge. 4. Gebe alle Hot Items aus. c i > c k +1 34

35 Lemma 3: Sei Sa,b,i eine Teilmenge mit den assoziierten Zählern ca,b,i, c0, c1,..., clog m. Mit der Small Tail Eigenschaft vorausgesetzt, lässt sich deterministisch bestimmen, ob Sa,b,i eine gute Teilmenge ist. 1. Fall: Kein Hot Item in der Menge, dann gilt: c a,b,i < c k Fall: Zwei oder mehr Hot Items in der Menge, dann ex. ein j, sodass gilt: c a,b,i c j > c k +1 35

36 Satz 3a: Mit einer Wahrscheinlichkeit von mindestens 1 - δ können alle Hot Items mit O(k(log k + log 1/δ)) Speicherplatz zu jedem Zeitpunkt t bestimmt werden. Speicherplatz für die Hashfunktionen Primzahl P in Abhängigkeit von m, also O(log m), sowie O(log k δ ) Werte von Paaren (a,b) für alle Teilmengen. Also O(log m) + O(log k δ ). Speicherplatz für die Zähler Für jede Gruppe Zähler. Bei Teilmenge also O(log m k log k. δ ) 2Tk = 2k log k δ O(log m) O(log m k log k δ ) Speicherplatz für die Datenstruktur. 36

37 Satz 3a: Mit einer Wahrscheinlichkeit von mindestens 1 - δ können alle Hot Items mit O(k(log k + log 1/δ)) Speicherplatz zu jedem Zeitpunkt t bestimmt werden. Lemma 2 Wahrscheinlichkeit 1 - δ ist jedes Hot Item in einer guten Menge. Lemma 3 und Satz 1 Kann deterministische bestimmt werden, ob ein Hot Item in der Teilmenge ist. Wenn ein Hot Item vorhanden ist, so kann es bestimmt werden. 37

38 Satz 3b: Dabei wird O(log k/δ log m) Zeit für eine Aktualisierung und O(k log k/δ log m) Zeit für die Auflistung aller Hot Items benötigt. Bei einer Aktualisierung werden T = O(log k δ ) jeweils Hashfunktionen in berechnet und Zähler verändert. Zeit pro Aktualisierung. Für die Auflistung der Hot Items gilt: Hot Item kann in einer Gruppe in dies für Gruppen. O(log m) O(log k log m) δ O(k log k δ ) O(k log k log m) δ O(log m) Zeit für alle Hot Items. Zeit bestimmt werden und 38

39 Herausforderungen für diesen Ansatz mit k > 1 Begrenzung der Anzahl notwendiger Teilmengen (Gruppen). Geeignete (platzsparende) Repräsentation der Teilmengen. Effiziente Bestimmung der Hot Items anhand von Gruppentests. Fertig! 39

40 5. Evaluation Gliederung 1. Motivation 2. Data Streams und Data Stream Algorithm 3. Formalisierung der Aufgabe: Dynamische Zuordnung von Objekten mit größter Häufigkeit. 4. Der Algorithmus (i) Methoden und Idee (ii) Bestimmung der absoluten Mehrheit (iii) Bestimmung von k Hot Items 5. Evaluation 40

41 5. Evaluation Vergleich mit vorherigen Ansätzen Recall on Synthetic Data Precision on Synthetic Data Recall Zipf parameter Group Testing Lossy Counting Frequent Precision Zipf parameter Group Testing Lossy Counting Frequent recall = truepositive truepositive + falsenegative precision = truepositive truepositive + falsepositive 41

42 5. Evaluation Vergleich mit vorherigen Ansätzen Recall on Real Data Precision on Precision Real Data on Real Data Recall Precision Precision Number of Transactions / 10^6 Number of Transactions Number of / 10^6 Transactions / 10^6 Group Testing Lossy Counting Frequent Group Testing Group Lossy Testing Counting Lossy Frequent Counting Frequent recall = truepositive Figure 6: Performance results on real data truepositive + falsenegative very poor: for every hot item that is reported, around n infrequent items are also included in the output, and we nnot distinguish between these two types. There is a price to pay for the extra power of the Group esting algorithm: it takes longer to process each item under not. ur implementation, and requires more memory. However, ese memory requirements are all very small compared to precision = truepositive truepositive + falsepositive recall of the Frequent algorithm looks reasonably good especially as time progresses, but its precision, which begins poorly, appears to degrade further. One possible explanation is that the algorithm is collecting all items which are are ever hot, and outputting these whether they are hot or Certainly, it outputs between two to three times as many items as are currently hot, meaning that its output 42

43 Literatur Literatur S. Muthukrishnan. Data Streams: Algorithms and Applications. Foundations and Trends in Theoretical Computer Science. Volume 1, Issue 2, G. Cormode and S. Muthukrishnan. What s Hot and What s Not: Tracking most frequent items dynamically. ACM PODS, Vielen Dank für eure Aufmerksamkeit! 43