Streaming Data: Das Modell

Transkript

1 Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer Denial-of-Service Attacke, - Verarbeitung von durch Satelliten erfassten Daten, oder - fortlaufende Protokollierung von Telefonverbindungen durch weltweit agierende Telefonunternehmen und die damit verbundenen Reaktionen auf überlastete Leitungen. Das Modell 1 / 74

2 Algorithmische Fragestellungen (1/2) Erstellung von Stichproben: Stichproben reduzieren die Größe der Datenmenge und sind deshalb ein wichtiges Hilfsmittel für viele einfache Probleme. Beachte, dass sich Stichproben dynamisch mit dem Datenstrom ändern müssen. Das Modell 2 / 74

3 Algorithmische Fragestellungen (1/2) Erstellung von Stichproben: Stichproben reduzieren die Größe der Datenmenge und sind deshalb ein wichtiges Hilfsmittel für viele einfache Probleme. Beachte, dass sich Stichproben dynamisch mit dem Datenstrom ändern müssen. Häufigkeitsanalyse für Datenströme: Wenn au = {i x i = u} die Häufigkeit des Schlüssels u ist, dann berechne das k te Häufigkeitsmoment H k = u U a k u. H0 ist die Anzahl verschiedener Schlüssel, H 1 die Anzahl der bisher gesehenen Schlüssel. H2 misst wie gleichmäßig n Daten (auf m verschiedene Schlüssel) verteilt sind: Es ist m ( ) n 2 = n2 H m m 2 n 2. Kleine Werte von H 2 implizieren eine gleichmäßige Verteilung. Das Modell 2 / 74

4 Algorithmische Fragestellungen (2/2) Zeitfenster: Um das Verhalten eines Datenstroms in der jüngsten Vergangenheit bestimmen zu können, wertet man Datenströme in Zeitfenstern aus. Entwickle Methoden, um die quantitative Analyse nach dem Verschwinden veralteter und dem Erscheinen junger Schlüssel zu aktualisieren. Das Modell 3 / 74

5 Reservoir Sampling: Stichproben für Datenströme Stichproben Reservoir Sampling 4 / 74

6 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). Stichproben Reservoir Sampling 5 / 74

7 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. Stichproben Reservoir Sampling 5 / 74

8 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. (2) Durchlaufe die Schlüssel nacheinander: (2a) Setze t = t + 1. Stichproben Reservoir Sampling 5 / 74

9 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. (2) Durchlaufe die Schlüssel nacheinander: (2a) Setze t = t + 1. (2b) t T : Füge den Schlüssel in STICHPROBE ein. Stichproben Reservoir Sampling 5 / 74

10 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. (2) Durchlaufe die Schlüssel nacheinander: (2a) Setze t = t + 1. (2b) t T : Füge den Schlüssel in STICHPROBE ein. (2c) t > T : Werfe eine Münze mit Erfolgswahrscheinlichkeit Stichproben Reservoir Sampling 5 / 74

11 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. (2) Durchlaufe die Schlüssel nacheinander: (2a) Setze t = t + 1. (2b) t T : Füge den Schlüssel in STICHPROBE ein. (2c) t > T : Werfe eine Münze mit Erfolgswahrscheinlichkeit T t. Bei einem Erfolg entferne einen zufällig aus STICHPROBE gewählten Schlüssel; der aktuelle Schlüssel wird eingefügt. Stichproben Reservoir Sampling 5 / 74

12 Reservoir Sampling Berechne eine ohne Ersetzung gleichverteilt gezogenen Stichprobe S { (i, x i ) 1 i n } des Datenstroms (x i i). (1) T sei eine obere Schranke für die Größe der Stichprobe. Der Parameter t zählt die bisher gesehenen Schlüssel. Setze t = 0 und STICHPROBE=. (2) Durchlaufe die Schlüssel nacheinander: (2a) Setze t = t + 1. (2b) t T : Füge den Schlüssel in STICHPROBE ein. (2c) t > T : Werfe eine Münze mit Erfolgswahrscheinlichkeit T t. Bei einem Erfolg entferne einen zufällig aus STICHPROBE gewählten Schlüssel; der aktuelle Schlüssel wird eingefügt. Bei einem Misserfolg wird nichts unternommen. Kommentar: Die Stichprobengröße T bleibt unverändert. Stichproben Reservoir Sampling 5 / 74

13 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Stichproben Reservoir Sampling 6 / 74

14 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Stichproben Reservoir Sampling 6 / 74

15 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. Stichproben Reservoir Sampling 6 / 74

16 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. Stichproben Reservoir Sampling 6 / 74

17 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. p ist die Wahrscheinlichkeit, dass (t, xt ) in einer zufälligen T -elementigen Teilmenge X {(i, x i 1 i t} enthalten ist, denn ( ) ( ) t 1 t / = T 1 T Stichproben Reservoir Sampling 6 / 74

18 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. p ist die Wahrscheinlichkeit, dass (t, xt ) in einer zufälligen T -elementigen Teilmenge X {(i, x i 1 i t} enthalten ist, denn ( ) ( ) t 1 t / = T T 1 T t. Stichproben Reservoir Sampling 6 / 74

19 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. p ist die Wahrscheinlichkeit, dass (t, xt ) in einer zufälligen T -elementigen Teilmenge X {(i, x i 1 i t} enthalten ist, denn ( ) ( ) t 1 t / = T T 1 T t. Wir erhalten eine T -elementige Stichprobe, wenn wir - mit Erfolgswahrscheinlichkeit T t entscheiden, ob (t, x t) gewählt wird. Stichproben Reservoir Sampling 6 / 74

20 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. p ist die Wahrscheinlichkeit, dass (t, xt ) in einer zufälligen T -elementigen Teilmenge X {(i, x i 1 i t} enthalten ist, denn ( ) ( ) t 1 t / = T T 1 T t. Wir erhalten eine T -elementige Stichprobe, wenn wir - mit Erfolgswahrscheinlichkeit T t entscheiden, ob (t, x t) gewählt wird. - Wenn (t, x t) nicht gewählt wird, dann wähle eine zufällige, T -elementige Stichprobe aus der Menge {(i, x i ) 1 i t 1}: Wende die Induktionshypothese an. Stichproben Reservoir Sampling 6 / 74

21 Analyse Für alle t T : Jede T -elementige Teilmenge X {(i, x i ) 1 i t} tritt mit Wahrscheinlichkeit 1/ ( t T) als Stichprobe auf. Beweis durch Induktion nach t: Die Aussage ist für t = T richtig. Wir nehmen an, dass die Aussage für t 1 richtig ist. (t, xt ) wird mit Wahrscheinlichkeit p = T t aufgenommen. p ist die Wahrscheinlichkeit, dass (t, xt ) in einer zufälligen T -elementigen Teilmenge X {(i, x i 1 i t} enthalten ist, denn ( ) ( ) t 1 t / = T T 1 T t. Wir erhalten eine T -elementige Stichprobe, wenn wir - mit Erfolgswahrscheinlichkeit T t entscheiden, ob (t, x t) gewählt wird. - Wenn (t, x t) nicht gewählt wird, dann wähle eine zufällige, T -elementige Stichprobe aus der Menge {(i, x i ) 1 i t 1}: Wende die Induktionshypothese an. Und wenn (t, x t ) gewählt wird? Stichproben Reservoir Sampling 6 / 74

22 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Stichproben Reservoir Sampling 7 / 74

23 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Was macht Reservoir Sampling? Stichproben Reservoir Sampling 7 / 74

24 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Was macht Reservoir Sampling? Die alte Stichprobe X ist eine zufällige T -elementige Teilmenge von {(i, x i ) 1 i t 1}. Stichproben Reservoir Sampling 7 / 74

25 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Was macht Reservoir Sampling? Die alte Stichprobe X ist eine zufällige T -elementige Teilmenge von {(i, x i ) 1 i t 1}. Reservoir Sampling entfernt ein zufälliges Element aus X und erhält damit eine zufällige Stichprobe aus {(i, x i ) 1 i t 1} mit T 1 Elementen. Stichproben Reservoir Sampling 7 / 74

26 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Was macht Reservoir Sampling? Die alte Stichprobe X ist eine zufällige T -elementige Teilmenge von {(i, x i ) 1 i t 1}. Reservoir Sampling entfernt ein zufälliges Element aus X und erhält damit eine zufällige Stichprobe aus {(i, x i ) 1 i t 1} mit T 1 Elementen. Diese modifizierte Stichprobe wird um (t, x t ) vergrößert und wir erhalten eine zufällige T -elementige Stichprobe X. Stichproben Reservoir Sampling 7 / 74

27 Wenn (t, x t ) gewählt wird: Dann ist eine zufällige Stichprobe mit T 1 Elementen aus der Menge {(i, x i ) 1 i t 1} zu wählen. Was macht Reservoir Sampling? Die alte Stichprobe X ist eine zufällige T -elementige Teilmenge von {(i, x i ) 1 i t 1}. Reservoir Sampling entfernt ein zufälliges Element aus X und erhält damit eine zufällige Stichprobe aus {(i, x i ) 1 i t 1} mit T 1 Elementen. Diese modifizierte Stichprobe wird um (t, x t ) vergrößert und wir erhalten eine zufällige T -elementige Stichprobe X. Reservoir Sampling funktioniert. Stichproben Reservoir Sampling 7 / 74

28 Approximative Berechnung des Medians Stichproben Median Berechnung 8 / 74

29 Berechnung des approximativen Medians 1 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 2 Bestimme den Median M von S und gib M als Approximation des tatsächlichen Medians aus. Stichproben Median Berechnung 9 / 74

30 Berechnung des approximativen Medians 1 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 2 Bestimme den Median M von S und gib M als Approximation des tatsächlichen Medians aus. - δ, ε [0, 1] seien vorgegeben. Stichproben Median Berechnung 9 / 74

31 Berechnung des approximativen Medians 1 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 2 Bestimme den Median M von S und gib M als Approximation des tatsächlichen Medians aus. - δ, ε [0, 1] seien vorgegeben. - Arbeite mit einer Stichprobe der Größe s = c 1 ε 2 ln 1 δ für ein hinreichend großes c. Stichproben Median Berechnung 9 / 74

32 Berechnung des approximativen Medians 1 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 2 Bestimme den Median M von S und gib M als Approximation des tatsächlichen Medians aus. - δ, ε [0, 1] seien vorgegeben. - Arbeite mit einer Stichprobe der Größe s = c 1 ε 2 ln 1 δ für ein hinreichend großes c. Dann liegt der Rang des ausgegebenen Schlüssels mit Wahrscheinlichkeit 1 δ in dem Intervall [ n 2 ε n, n 2 + ε n]. Stichproben Median Berechnung 9 / 74

33 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Stichproben Median Berechnung 10 / 74

34 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Ein Schlüssel kleiner als xunten wird mit Wahrscheinlichkeit ( 1 2 ε) gezogen. Die erwartete Anzahl dieser kleinen Schlüssel ist deshalb höchstens ( 1 2 ε) s. Stichproben Median Berechnung 10 / 74

35 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Ein Schlüssel kleiner als xunten wird mit Wahrscheinlichkeit ( 1 2 ε) gezogen. Die erwartete Anzahl dieser kleinen Schlüssel ist deshalb höchstens ( 1 2 ε) s. Wir haben also nur Pech, wenn sogar 1 2 s = ( 1 ε 2 ε) s (1 + 1/2 ε ) kleine Schlüssel gezogen werden. Stichproben Median Berechnung 10 / 74

36 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Ein Schlüssel kleiner als xunten wird mit Wahrscheinlichkeit ( 1 2 ε) gezogen. Die erwartete Anzahl dieser kleinen Schlüssel ist deshalb höchstens ( 1 2 ε) s. Wir haben also nur Pech, wenn sogar 1 2 s = ( 1 ε 2 ε) s (1 + 1/2 ε ) kleine Schlüssel gezogen werden. Mit der Chernoff-Schranke passiert dies mit Wahrscheinlichkeit höchstens e Ω(ε2 s). e Ω(ε2 s) δ gilt, falls ε 2 s = Stichproben Median Berechnung 10 / 74

37 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Ein Schlüssel kleiner als xunten wird mit Wahrscheinlichkeit ( 1 2 ε) gezogen. Die erwartete Anzahl dieser kleinen Schlüssel ist deshalb höchstens ( 1 2 ε) s. Wir haben also nur Pech, wenn sogar 1 2 s = ( 1 ε 2 ε) s (1 + 1/2 ε ) kleine Schlüssel gezogen werden. Mit der Chernoff-Schranke passiert dies mit Wahrscheinlichkeit höchstens e Ω(ε2 s). e Ω(ε2 s) δ gilt, falls ε 2 s = Ω(ln 1 δ ). Stichproben Median Berechnung 10 / 74

38 Analyse x unten (bzw. x oben ) sei der Schlüssel vom Rang ( 1 2 ε) n (bzw. Rang ( ε) n). Wir haben nur Pech, wenn 50% aller Schlüssel der Stichprobe unterhalb von x unten (bzw. oberhalb von x oben ) liegen. Ein Schlüssel kleiner als xunten wird mit Wahrscheinlichkeit ( 1 2 ε) gezogen. Die erwartete Anzahl dieser kleinen Schlüssel ist deshalb höchstens ( 1 2 ε) s. Wir haben also nur Pech, wenn sogar 1 2 s = ( 1 ε 2 ε) s (1 + 1/2 ε ) kleine Schlüssel gezogen werden. Mit der Chernoff-Schranke passiert dies mit Wahrscheinlichkeit höchstens e Ω(ε2 s). e Ω(ε2 s) δ gilt, falls ε 2 s = Ω(ln 1 δ ). Die Behauptung folgt, da die Anzahl der großen Schlüssel ein analoges Verhalten zeigt. Stichproben Median Berechnung 10 / 74

39 Clustering Stichproben Clustering 11 / 74

40 Clustering: Das k-zentren Problem - Ein vollständiger ungerichteter Graph G = (V, E) und eine Metrik d : V 2 R 0 ist gegeben. Stichproben Clustering 12 / 74

41 Clustering: Das k-zentren Problem - Ein vollständiger ungerichteter Graph G = (V, E) und eine Metrik d : V 2 R 0 ist gegeben. - Für ein fixiertes k bestimme eine Menge Z V von k Knoten, so dass der maximale Abstand zu einem Zentrum, also kleinstmöglich ist. max min v V w Z d(v, w), Stichproben Clustering 12 / 74

42 Clustering: Das k-zentren Problem - Ein vollständiger ungerichteter Graph G = (V, E) und eine Metrik d : V 2 R 0 ist gegeben. - Für ein fixiertes k bestimme eine Menge Z V von k Knoten, so dass der maximale Abstand zu einem Zentrum, also kleinstmöglich ist. max min v V w Z d(v, w), Minimiere den Radius, also den größten Abstand eines Punktes vom nächstliegenden Cluster-Zentrum. Stichproben Clustering 12 / 74

43 Clustering: Das k-zentren Problem - Ein vollständiger ungerichteter Graph G = (V, E) und eine Metrik d : V 2 R 0 ist gegeben. - Für ein fixiertes k bestimme eine Menge Z V von k Knoten, so dass der maximale Abstand zu einem Zentrum, also kleinstmöglich ist. max min v V w Z d(v, w), Minimiere den Radius, also den größten Abstand eines Punktes vom nächstliegenden Cluster-Zentrum. Die Sprachenversion des k-zentren Problems ist NP-vollständig. Bestimme eine approximative Lösung! Stichproben Clustering 12 / 74

44 Clustering für Datenströme 1 Die Zahl k der erlaubten Cluster-Zentren ist gegeben ebenso wie die Metrik d. Die Folge (x j j) bezeichne den Datenstrom. Stichproben Clustering 13 / 74

45 Clustering für Datenströme 1 Die Zahl k der erlaubten Cluster-Zentren ist gegeben ebenso wie die Metrik d. Die Folge (x j j) bezeichne den Datenstrom. 2 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. Stichproben Clustering 13 / 74

46 Clustering für Datenströme 1 Die Zahl k der erlaubten Cluster-Zentren ist gegeben ebenso wie die Metrik d. Die Folge (x j j) bezeichne den Datenstrom. 2 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 3 Setze Z = {x j } für einen beliebigen Schlüssel x j S. Stichproben Clustering 13 / 74

47 Clustering für Datenströme 1 Die Zahl k der erlaubten Cluster-Zentren ist gegeben ebenso wie die Metrik d. Die Folge (x j j) bezeichne den Datenstrom. 2 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 3 Setze Z = {x j } für einen beliebigen Schlüssel x j S. Wiederhole k 1 mal: Bestimme einen Schlüssel xi S, dessen minimaler Abstand zu einem Schlüssel in Z größtmöglich ist. Füge x i in die Menge Z ein. Stichproben Clustering 13 / 74

48 Clustering für Datenströme 1 Die Zahl k der erlaubten Cluster-Zentren ist gegeben ebenso wie die Metrik d. Die Folge (x j j) bezeichne den Datenstrom. 2 Benutze Reservoir Sampling, um eine Stichprobe S der Größe s zu ziehen. 3 Setze Z = {x j } für einen beliebigen Schlüssel x j S. Wiederhole k 1 mal: Bestimme einen Schlüssel xi S, dessen minimaler Abstand zu einem Schlüssel in Z größtmöglich ist. Füge x i in die Menge Z ein. 4 Z wird als Menge der Cluster-Zentren ausgegeben. Stichproben Clustering 13 / 74

49 Analyse Das Clustering ist 2-approximativ auf der Stichprobe. Der optimale Radius sei opt. Angenommen, es gibt einen Punkt p S mit einem Abstand von größer als 2 opt zu allen Punkten in Z. Stichproben Clustering 14 / 74

50 Analyse Das Clustering ist 2-approximativ auf der Stichprobe. Der optimale Radius sei opt. Angenommen, es gibt einen Punkt p S mit einem Abstand von größer als 2 opt zu allen Punkten in Z. Nach Konstruktion von Z haben je zwei Punkte in Z {p} einen Abstand von größer als 2 opt. Stichproben Clustering 14 / 74

51 Analyse Das Clustering ist 2-approximativ auf der Stichprobe. Der optimale Radius sei opt. Angenommen, es gibt einen Punkt p S mit einem Abstand von größer als 2 opt zu allen Punkten in Z. Nach Konstruktion von Z haben je zwei Punkte in Z {p} einen Abstand von größer als 2 opt. Die Punkte aus Z {p} gehören zu verschiedenen Clustern der optimalen Lösung: Stichproben Clustering 14 / 74

52 Analyse Das Clustering ist 2-approximativ auf der Stichprobe. Der optimale Radius sei opt. Angenommen, es gibt einen Punkt p S mit einem Abstand von größer als 2 opt zu allen Punkten in Z. Nach Konstruktion von Z haben je zwei Punkte in Z {p} einen Abstand von größer als 2 opt. Die Punkte aus Z {p} gehören zu verschiedenen Clustern der optimalen Lösung: Wenn ein Clusterpunkt y der optimalen Lösung nächstliegender Punkt für zwei Elemente u, v Z {p} ist, dann ist d(u, v) d(u, y) + d(y, v) 2 opt. Stichproben Clustering 14 / 74

53 Analyse Das Clustering ist 2-approximativ auf der Stichprobe. Der optimale Radius sei opt. Angenommen, es gibt einen Punkt p S mit einem Abstand von größer als 2 opt zu allen Punkten in Z. Nach Konstruktion von Z haben je zwei Punkte in Z {p} einen Abstand von größer als 2 opt. Die Punkte aus Z {p} gehören zu verschiedenen Clustern der optimalen Lösung: Wenn ein Clusterpunkt y der optimalen Lösung nächstliegender Punkt für zwei Elemente u, v Z {p} ist, dann ist d(u, v) d(u, y) + d(y, v) 2 opt. Die optimale Lösung hat nur k Clusterpunkte: Widerspruch. Stichproben Clustering 14 / 74

54 Der Algorithmus funktioniert für die Stichprobe, aber wie gut ist die Stichprobe? Stichproben Clustering 15 / 74

55 Das Resultat Ein Datenstrom der Länge n sei gegeben. - Wähle eine Stichprobe der Größe s = k ln n+ln( 1 δ ) ε. Stichproben Clustering 16 / 74

56 Das Resultat Ein Datenstrom der Länge n sei gegeben. - Wähle eine Stichprobe der Größe s = k ln n+ln( 1 δ ) ε. - Dann ist unser Clustering mit Wahrscheinlichkeit mindestens 1 δ auf einer Teilmenge der Größe (1 ε) n 2-approximativ. Stichproben Clustering 16 / 74

57 Das Resultat Ein Datenstrom der Länge n sei gegeben. - Wähle eine Stichprobe der Größe s = k ln n+ln( 1 δ ) ε. - Dann ist unser Clustering mit Wahrscheinlichkeit mindestens 1 δ auf einer Teilmenge der Größe (1 ε) n 2-approximativ. Warum müssen wir eine kleine Menge von Punkten ausschließen? Stichproben Clustering 16 / 74

58 Das Resultat Ein Datenstrom der Länge n sei gegeben. - Wähle eine Stichprobe der Größe s = k ln n+ln( 1 δ ) ε. - Dann ist unser Clustering mit Wahrscheinlichkeit mindestens 1 δ auf einer Teilmenge der Größe (1 ε) n 2-approximativ. Warum müssen wir eine kleine Menge von Punkten ausschließen? Einige wenige Ausreißer gehören hochwahrscheinlich nicht zur Stichprobe. Stichproben Clustering 16 / 74

59 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. Stichproben Clustering 17 / 74

60 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Stichproben Clustering 17 / 74

61 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? prob[ S Weitweg(Z ) = ] Stichproben Clustering 17 / 74

62 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? prob[ S Weitweg(Z ) = ] ( (1 ε)n ) s n Stichproben Clustering 17 / 74

63 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? prob[ S Weitweg(Z ) = ] ( (1 ε)n ) s = (1 ε) s n Stichproben Clustering 17 / 74

64 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? prob[ S Weitweg(Z ) = ] ( (1 ε)n ) s = (1 ε) s n e ε s Stichproben Clustering 17 / 74

65 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? (1 ε)n prob[ S Weitweg(Z ) = ] ( ) s = (1 ε) s n e ε s = e (k ln n+ln( 1 δ )) Stichproben Clustering 17 / 74

66 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? prob[ S Weitweg(Z ) = ] (1 ε)n ( ) s = (1 ε) s n e ε s = e (k ln n+ln( 1 δ )) = δ n k Stichproben Clustering 17 / 74

67 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? (1 ε)n prob[ S Weitweg(Z ) = ] ( ) s = (1 ε) s n e ε s = e (k ln n+ln( 1 δ )) = δ n ( ) k n δ/. k Stichproben Clustering 17 / 74

68 Die Wahrscheinlichkeit schlechter Zentren - Sei opt der optimale Radius. - Sei Z eine schlechte Zentrenmenge: Die Menge Weitweg(Z ) = {x i d(x i, Z ) > 2 opt}, also die Menge aller Punkte mit einem Abstand von mehr als 2 opt von ihrem nächstliegenden Zentrum in Z, habe mehr als ε n Elemente. Mit welcher Wahrscheinlichkeit verfehlt die Stichprobe S die Menge Weitweg(Z )? (1 ε)n prob[ S Weitweg(Z ) = ] ( ) s = (1 ε) s n e ε s = e (k ln n+ln( 1 δ )) = δ n ( ) k n δ/. k Und wenn Weitweg(Z ) getroffen wird? Stichproben Clustering 17 / 74

69 Wenn die Stichprobe S die Menge Weitweg(Z ) trifft: - Dann gibt es s S mit d(s, z) > 2opt für alle z Z. Stichproben Clustering 18 / 74

70 Wenn die Stichprobe S die Menge Weitweg(Z ) trifft: - Dann gibt es s S mit d(s, z) > 2opt für alle z Z. - Aber wir berechnen ein Clustering, das auf Stichprobe S 2-approximativ oder besser ist: Widerspruch zur Definition von opt. Stichproben Clustering 18 / 74

71 Wenn die Stichprobe S die Menge Weitweg(Z ) trifft: - Dann gibt es s S mit d(s, z) > 2opt für alle z Z. - Aber wir berechnen ein Clustering, das auf Stichprobe S 2-approximativ oder besser ist: Widerspruch zur Definition von opt. Die Wahrscheinlichkeit irgendeine schlechte Zentrenmenge zu wählen, ist somit höchstens ( ) ( ) n n δ/ = δ. k k Stichproben Clustering 18 / 74

72 Wenn die Stichprobe S die Menge Weitweg(Z ) trifft: - Dann gibt es s S mit d(s, z) > 2opt für alle z Z. - Aber wir berechnen ein Clustering, das auf Stichprobe S 2-approximativ oder besser ist: Widerspruch zur Definition von opt. Die Wahrscheinlichkeit irgendeine schlechte Zentrenmenge zu wählen, ist somit höchstens ( ) ( ) n n δ/ = δ. k k Unser Clustering wird mit Wahrscheinlichkeit mindestens 1 δ eine Zentrenmenge Z mit Weitweg(Z ) ε n bestimmen und das war zu zeigen. Stichproben Clustering 18 / 74

73 Was können Stichproben nicht? Stichproben Die Grenzen 19 / 74

74 Die Grenzen der Stichproben-Methode Bestimme die Anzahl verschiedener Schlüssel approximativ. Stichproben Die Grenzen 20 / 74

75 Die Grenzen der Stichproben-Methode Bestimme die Anzahl verschiedener Schlüssel approximativ. Betrachte alle (deterministischen oder probabilistischen) Algorithmen zur Stichproben-Erstellung, die nur r << n Schlüssel inspizieren. Reservoir Sampling wird erfasst. Stichproben Die Grenzen 20 / 74

76 Die Grenzen der Stichproben-Methode Bestimme die Anzahl verschiedener Schlüssel approximativ. Betrachte alle (deterministischen oder probabilistischen) Algorithmen zur Stichproben-Erstellung, die nur r << n Schlüssel inspizieren. Reservoir Sampling wird erfasst. Können diese Algorithmen die beiden folgenden Szenarien voneinander unterscheiden? Szenario 1 besteht aus der nur mit Einsen besetzten Folge. Szenario 2 besteht aus allen Folgen, für die jedes i {2,..., k} genau einmal auftritt. Alle restlichen Folgenelemente haben den Wert 1. Stichproben Die Grenzen 20 / 74

77 Die Grenzen der Stichproben-Methode Bestimme die Anzahl verschiedener Schlüssel approximativ. Betrachte alle (deterministischen oder probabilistischen) Algorithmen zur Stichproben-Erstellung, die nur r << n Schlüssel inspizieren. Reservoir Sampling wird erfasst. Können diese Algorithmen die beiden folgenden Szenarien voneinander unterscheiden? Szenario 1 besteht aus der nur mit Einsen besetzten Folge. Szenario 2 besteht aus allen Folgen, für die jedes i {2,..., k} genau einmal auftritt. Alle restlichen Folgenelemente haben den Wert 1. Für eine approximative Bestimmung der Anzahl verschiedener Schlüssel muss ein Algorithmus beide Szenarien voneinander unterscheiden. Stichproben Die Grenzen 20 / 74

78 Unterscheidung der beiden Szenarien Sei A ein Algorithmus und sei X i die Zufallsvariable, die den iten von A ausgewählten Schlüssel als Wert besitzt. Dann gilt prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = n i k + 1 n i + 1, wenn nur Eingaben des Szenarios 2 auftreten. Stichproben Die Grenzen 21 / 74

79 Unterscheidung der beiden Szenarien Sei A ein Algorithmus und sei X i die Zufallsvariable, die den iten von A ausgewählten Schlüssel als Wert besitzt. Dann gilt prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = n i k + 1 n i + 1, wenn nur Eingaben des Szenarios 2 auftreten. Wir betrachten Szenario 2. Angenommen, die ersten i 1 inspizierten Schlüssel besitzen sämtlich den Wert 1: Stichproben Die Grenzen 21 / 74

80 Unterscheidung der beiden Szenarien Sei A ein Algorithmus und sei X i die Zufallsvariable, die den iten von A ausgewählten Schlüssel als Wert besitzt. Dann gilt prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = n i k + 1 n i + 1, wenn nur Eingaben des Szenarios 2 auftreten. Wir betrachten Szenario 2. Angenommen, die ersten i 1 inspizierten Schlüssel besitzen sämtlich den Wert 1: Von den n k Schlüsseln mit Wert 1 verbleiben somit n k (i 1) noch nicht inspizierte Schlüssel mit Wert 1. Stichproben Die Grenzen 21 / 74

81 Unterscheidung der beiden Szenarien Sei A ein Algorithmus und sei X i die Zufallsvariable, die den iten von A ausgewählten Schlüssel als Wert besitzt. Dann gilt prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = n i k + 1 n i + 1, wenn nur Eingaben des Szenarios 2 auftreten. Wir betrachten Szenario 2. Angenommen, die ersten i 1 inspizierten Schlüssel besitzen sämtlich den Wert 1: Von den n k Schlüsseln mit Wert 1 verbleiben somit n k (i 1) noch nicht inspizierte Schlüssel mit Wert 1. Aber insgesamt n (i 1) Schlüssel wurden noch nicht inspiziert und die Behauptung folgt. Stichproben Die Grenzen 21 / 74

82 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. Stichproben Die Grenzen 22 / 74

83 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. prob[ I ] = Π r i=1 prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] Stichproben Die Grenzen 22 / 74

84 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. prob[ I ] = Π r i=1 prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = Π r n i k + 1 i=1 n i + 1 Stichproben Die Grenzen 22 / 74

85 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. prob[ I ] = Π r i=1 prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = Π r n i k + 1 i=1 n i + 1 ( ) n r k + 1 r ( ) n r k r n r + 1 n r Stichproben Die Grenzen 22 / 74

86 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. prob[ I ] = Π r i=1 prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = Π r n i k + 1 i=1 n i + 1 ( ) n r k + 1 r ( ) n r k r n r + 1 n r ( = 1 k ) r n r Stichproben Die Grenzen 22 / 74

87 Wie wahrscheinlich sind Stichproben nur mit Einsen? Sei I das Ereignis, dass alle r inspizierten Schlüssel den Wert 1 besitzen. prob[ I ] = Π r i=1 prob[ X i = 1 X 1 = X 2 = = X i 1 = 1 ] = Π r n i k + 1 i=1 n i + 1 ( ) n r k + 1 r ( ) n r k r n r + 1 n r ( = 1 k ) r e 2 k r n r, falls k n r n r 1 2, denn 1 z e 2 z für 0 z 1 2. Stichproben Die Grenzen 22 / 74

88 Wie wahrscheinlich sind Stichproben nur aus Einsen? Es ist prob[ I ] e 2 k r n r, falls k n r 1 2. Stichproben Die Grenzen 23 / 74

89 Wie wahrscheinlich sind Stichproben nur aus Einsen? Es ist prob[ I ] e 2 k r n r, falls k n r 1 2. Wir setzen k = n r 2 r ln(2) und prob[ I ] 1 2 folgt. Stichproben Die Grenzen 23 / 74

90 Wie wahrscheinlich sind Stichproben nur aus Einsen? Es ist prob[ I ] e 2 k r n r, falls k n r 1 2. Wir setzen k = n r 2 r ln(2) und prob[ I ] 1 2 folgt. Es ist für r 2. k n r 1 2 Stichproben Die Grenzen 23 / 74

91 Wie wahrscheinlich sind Stichproben nur aus Einsen? Es ist prob[ I ] e 2 k r n r, falls k n r 1 2. Wir setzen k = n r 2 r ln(2) und prob[ I ] 1 2 folgt. Es ist für r 2. k n r Es gelte k = n r 2 r ln(2) sowie r 2. - Wenn Algorithmus A nur r Schlüssel inspiziert, dann bestimmt A mit Wahrscheinlichkeit 1/2 eine Stichprobe nur aus Einsen, obwohl der Datenstrom k verschiedene Schlüssel besitzt. Stichproben Die Grenzen 23 / 74

92 Kommunikation Das 2-Parteien Kommunikationsmodell: - Zwei Parteien, Alice und Bob, besitzen Eingaben x bzw. y, wobei weder Alice noch Bob die Eingabe des Partners kennt. Häufigkeitsmomente Kommunikation 24 / 74

93 Kommunikation Das 2-Parteien Kommunikationsmodell: - Zwei Parteien, Alice und Bob, besitzen Eingaben x bzw. y, wobei weder Alice noch Bob die Eingabe des Partners kennt. - Alice schickt eine Nachricht message(x) an Bob. Bob muss das Ergebnis nur in Abhängigkeit von seiner Eingabe y und der von Alice geschickten Nachricht berechnen. Häufigkeitsmomente Kommunikation 24 / 74

94 Kommunikation Das 2-Parteien Kommunikationsmodell: - Zwei Parteien, Alice und Bob, besitzen Eingaben x bzw. y, wobei weder Alice noch Bob die Eingabe des Partners kennt. - Alice schickt eine Nachricht message(x) an Bob. Bob muss das Ergebnis nur in Abhängigkeit von seiner Eingabe y und der von Alice geschickten Nachricht berechnen. - Alice und Bob besitzen, im Rahmen der ihnen zur Verfügung stehenden Informationen, eine unbeschränkte Rechenkraft. Häufigkeitsmomente Kommunikation 24 / 74

95 Kommunikation Das 2-Parteien Kommunikationsmodell: - Zwei Parteien, Alice und Bob, besitzen Eingaben x bzw. y, wobei weder Alice noch Bob die Eingabe des Partners kennt. - Alice schickt eine Nachricht message(x) an Bob. Bob muss das Ergebnis nur in Abhängigkeit von seiner Eingabe y und der von Alice geschickten Nachricht berechnen. - Alice und Bob besitzen, im Rahmen der ihnen zur Verfügung stehenden Informationen, eine unbeschränkte Rechenkraft. Deterministische oder probabilistische Protokolle bestimmen die Nachricht von Alice und die von Bob berechnete Antwort. Häufigkeitsmomente Kommunikation 24 / 74

96 Kommunikation Das 2-Parteien Kommunikationsmodell: - Zwei Parteien, Alice und Bob, besitzen Eingaben x bzw. y, wobei weder Alice noch Bob die Eingabe des Partners kennt. - Alice schickt eine Nachricht message(x) an Bob. Bob muss das Ergebnis nur in Abhängigkeit von seiner Eingabe y und der von Alice geschickten Nachricht berechnen. - Alice und Bob besitzen, im Rahmen der ihnen zur Verfügung stehenden Informationen, eine unbeschränkte Rechenkraft. Deterministische oder probabilistische Protokolle bestimmen die Nachricht von Alice und die von Bob berechnete Antwort. Das Ziel: Berechne einen Funktionswert f(x, y) zumindest approximativ. Minimiere die Länge der längsten von Alice geschickten Nachricht. Häufigkeitsmomente Kommunikation 24 / 74

97 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Häufigkeitsmomente Kommunikation 25 / 74

98 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Häufigkeitsmomente Kommunikation 25 / 74

99 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Häufigkeitsmomente Kommunikation 25 / 74

100 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Häufigkeitsmomente Kommunikation 25 / 74

101 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Alice wird Nachrichten mit mindestens n Bits verschicken müssen. Häufigkeitsmomente Kommunikation 25 / 74

102 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Alice wird Nachrichten mit mindestens n Bits verschicken müssen. Probabilistische Kommunikation: Alice und Bob interpretieren ihre Eingaben als Zahlen 0 x, y 2 n 1. Häufigkeitsmomente Kommunikation 25 / 74

103 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Alice wird Nachrichten mit mindestens n Bits verschicken müssen. Probabilistische Kommunikation: Alice und Bob interpretieren ihre Eingaben als Zahlen 0 x, y 2 n 1. Alice würfelt eine Primzahl p n 2 aus und verschickt das Paar (x mod p, p) mit O(log 2 n) Bits. Häufigkeitsmomente Kommunikation 25 / 74

104 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Alice wird Nachrichten mit mindestens n Bits verschicken müssen. Probabilistische Kommunikation: Alice und Bob interpretieren ihre Eingaben als Zahlen 0 x, y 2 n 1. Alice würfelt eine Primzahl p n 2 aus und verschickt das Paar (x mod p, p) mit O(log 2 n) Bits. Bob entscheidet auf x y, wenn x mod p y mod p: Kein Fehler. Häufigkeitsmomente Kommunikation 25 / 74

105 Kommunikation: Ein Beispiel - Alice erhält x {0, 1} n, Bob erhält y {0, 1} n. - Entscheide, ob x = y gilt. Deterministische Kommunikation: Angenommen, Alice schickt für die beiden Zeichenketten x 1, x 2 {0, 1} n dieselbe Nachricht m. Bob weiss nicht, ob Alice die Eingabe x1 oder x 2 besitzt und kann nicht fehlerfrei arbeiten. Alice wird Nachrichten mit mindestens n Bits verschicken müssen. Probabilistische Kommunikation: Alice und Bob interpretieren ihre Eingaben als Zahlen 0 x, y 2 n 1. Alice würfelt eine Primzahl p n 2 aus und verschickt das Paar (x mod p, p) mit O(log 2 n) Bits. Bob entscheidet auf x y, wenn x mod p y mod p: Kein Fehler. Bob entscheidet auf x = y, wenn x mod p = y mod p: Kleiner Fehler. Häufigkeitsmomente Kommunikation 25 / 74

106 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Häufigkeitsmomente Kommunikation 26 / 74

107 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Häufigkeitsmomente Kommunikation 26 / 74

108 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Simuliere die Berechnung von A durch ein Kommunikationsprotokoll: Häufigkeitsmomente Kommunikation 26 / 74

109 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Simuliere die Berechnung von A durch ein Kommunikationsprotokoll: Alice erhält x 1, Bob erhält x 2. Häufigkeitsmomente Kommunikation 26 / 74

110 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Simuliere die Berechnung von A durch ein Kommunikationsprotokoll: Alice erhält x 1, Bob erhält x 2. Wenn A die Eingabe x1 abgearbeitet hat, sei w {0, 1} s(n) der Inhalt des Speichers. Häufigkeitsmomente Kommunikation 26 / 74

111 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Simuliere die Berechnung von A durch ein Kommunikationsprotokoll: Alice erhält x 1, Bob erhält x 2. Wenn A die Eingabe x1 abgearbeitet hat, sei w {0, 1} s(n) der Inhalt des Speichers. Alice kennt w, verschickt w und den gegenwärtigen Zustand an Bob. Bob kann die Berechnung von A erfolgreich zu Ende führen. Häufigkeitsmomente Kommunikation 26 / 74

112 Kommunikation und Streaming Data Warum interessiert uns das Kommunikationsmodell? Sei A ein Streaming Data Algorithmus, der auf Eingaben x 1 x 2 mit x 1, x 2 {0, 1} n/2 höchstens Speicherplatz s(n) benutzt. Simuliere die Berechnung von A durch ein Kommunikationsprotokoll: Alice erhält x 1, Bob erhält x 2. Wenn A die Eingabe x1 abgearbeitet hat, sei w {0, 1} s(n) der Inhalt des Speichers. Alice kennt w, verschickt w und den gegenwärtigen Zustand an Bob. Bob kann die Berechnung von A erfolgreich zu Ende führen. Nachrichten mit s(n) + O(1) Bits reichen aus. Häufigkeitsmomente Kommunikation 26 / 74

113 Kommunikation: Ein erstes Fazit Die Funktion f n : {0, 1} n X sei zu berechnen. - Jeder Algorithmus, der f deterministisch oder probabilistisch mit Speichergröße s(n) berechnet, kann durch ein deterministisches oder probabilistisches Kommunikationsprotokoll simuliert werden, Häufigkeitsmomente Kommunikation 27 / 74

114 Kommunikation: Ein erstes Fazit Die Funktion f n : {0, 1} n X sei zu berechnen. - Jeder Algorithmus, der f deterministisch oder probabilistisch mit Speichergröße s(n) berechnet, kann durch ein deterministisches oder probabilistisches Kommunikationsprotokoll simuliert werden, das Nachrichten mit höchstens s(n) + O(1) Bits verschickt. Häufigkeitsmomente Kommunikation 27 / 74

115 Kommunikation: Ein erstes Fazit Die Funktion f n : {0, 1} n X sei zu berechnen. - Jeder Algorithmus, der f deterministisch oder probabilistisch mit Speichergröße s(n) berechnet, kann durch ein deterministisches oder probabilistisches Kommunikationsprotokoll simuliert werden, das Nachrichten mit höchstens s(n) + O(1) Bits verschickt. - Wenn Kommunikationsprotokolle mindestens ω(s) Bits benötigen, dann kann es keine Streaming Data Algorithmen mit Speichergröße O(s) geben! Häufigkeitsmomente Kommunikation 27 / 74

116 Kommunikation: Ein erstes Fazit Die Funktion f n : {0, 1} n X sei zu berechnen. - Jeder Algorithmus, der f deterministisch oder probabilistisch mit Speichergröße s(n) berechnet, kann durch ein deterministisches oder probabilistisches Kommunikationsprotokoll simuliert werden, das Nachrichten mit höchstens s(n) + O(1) Bits verschickt. - Wenn Kommunikationsprotokolle mindestens ω(s) Bits benötigen, dann kann es keine Streaming Data Algorithmen mit Speichergröße O(s) geben! Probabilistische Kommunikation kann sehr viel effizienter als deterministische Kommunikation sein. Häufigkeitsmomente Kommunikation 27 / 74

117 ε-approximative Berechnungen Für Mengen A und B ist f : A B R zu berechnen. Häufigkeitsmomente Kommunikation 28 / 74

118 ε-approximative Berechnungen Für Mengen A und B ist f : A B R zu berechnen. (a) Ein deterministisches Protokoll heißt genau dann ε-approximativ, wenn Bob für jedes Eingabepaar (x, y) ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. Häufigkeitsmomente Kommunikation 28 / 74

119 ε-approximative Berechnungen Für Mengen A und B ist f : A B R zu berechnen. (a) Ein deterministisches Protokoll heißt genau dann ε-approximativ, wenn Bob für jedes Eingabepaar (x, y) ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. (b) C ε (f ) ist die Länge der längsten Nachricht eines besten ε-approximativen deterministischen Protokolls für f. Häufigkeitsmomente Kommunikation 28 / 74

120 ε-approximative Berechnungen Für Mengen A und B ist f : A B R zu berechnen. (a) Ein deterministisches Protokoll heißt genau dann ε-approximativ, wenn Bob für jedes Eingabepaar (x, y) ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. (b) C ε (f ) ist die Länge der längsten Nachricht eines besten ε-approximativen deterministischen Protokolls für f. (c) Ein probabilistisches Protokoll ist ε-approximativ mit Fehler δ, wenn Bob für alle Eingaben (x, y) mit Wahrscheinlichkeit mindestens 1 δ ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. Häufigkeitsmomente Kommunikation 28 / 74

121 ε-approximative Berechnungen Für Mengen A und B ist f : A B R zu berechnen. (a) Ein deterministisches Protokoll heißt genau dann ε-approximativ, wenn Bob für jedes Eingabepaar (x, y) ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. (b) C ε (f ) ist die Länge der längsten Nachricht eines besten ε-approximativen deterministischen Protokolls für f. (c) Ein probabilistisches Protokoll ist ε-approximativ mit Fehler δ, wenn Bob für alle Eingaben (x, y) mit Wahrscheinlichkeit mindestens 1 δ ein Ergebnis a(x, y) mit (1 ε) f (x, y) a(x, y) (1 + ε) f (x, y) berechnet. (d) Cδ ε (f ) ist die Länge der längsten Nachricht eines besten ε-approximativen probabilistischen Protokolls, das f mit Fehler δ berechnet. Häufigkeitsmomente Kommunikation 28 / 74

122 Das Disjunktheitsproblem - Im Disjunktheitsproblem der Größe n erhalten Alice und Bob Inzidenzvektoren der Teilmengen x, y {1,..., n}. - Es ist zu entscheiden, ob x y gilt. Häufigkeitsmomente Kommunikation 29 / 74

123 Das Disjunktheitsproblem - Im Disjunktheitsproblem der Größe n erhalten Alice und Bob Inzidenzvektoren der Teilmengen x, y {1,..., n}. - Es ist zu entscheiden, ob x y gilt. Definiere die Funktion D n durch { 1 x y = D n (x, y) = 0 sonst. Häufigkeitsmomente Kommunikation 29 / 74

124 Das Disjunktheitsproblem - Im Disjunktheitsproblem der Größe n erhalten Alice und Bob Inzidenzvektoren der Teilmengen x, y {1,..., n}. - Es ist zu entscheiden, ob x y gilt. Definiere die Funktion D n durch { 1 x y = D n (x, y) = 0 sonst. Man kann zeigen: C ε δ (D n) = Ω(n) für alle ε, δ < 1 2 : Eine randomisierte Lösung des Disjunktheitsproblems ist selbst dann schwierig, wenn die Fehlerwahrscheinlichkeit δ eine beliebige Konstante kleiner als 1 2 ist. Häufigkeitsmomente Kommunikation 29 / 74

125 Das Disjunktheitsproblem - Im Disjunktheitsproblem der Größe n erhalten Alice und Bob Inzidenzvektoren der Teilmengen x, y {1,..., n}. - Es ist zu entscheiden, ob x y gilt. Definiere die Funktion D n durch { 1 x y = D n (x, y) = 0 sonst. Man kann zeigen: C ε δ (D n) = Ω(n) für alle ε, δ < 1 2 : Eine randomisierte Lösung des Disjunktheitsproblems ist selbst dann schwierig, wenn die Fehlerwahrscheinlichkeit δ eine beliebige Konstante kleiner als 1 2 ist. Hat diese negative Aussage zum Beispiel Konsequenzen für die Berechnung der größten Häufigkeit? Häufigkeitsmomente Kommunikation 29 / 74

126 Bestimmung der größten Häufigkeit - ε, δ < 1 2 seinen beliebig. A sei ein probabilistischer Algorithmus, der die größte Häufigkeit ε-approximativ mit Fehlerwahrscheinlichkeit höchstens δ im Streaming-Data Modell berechnet. - Dann benötigt A die Speichergröße Ω(m), wenn m die Anzahl verschiedener Schlüssel ist. Häufigkeitsmomente Kommunikation 30 / 74

127 Bestimmung der größten Häufigkeit - ε, δ < 1 2 seinen beliebig. A sei ein probabilistischer Algorithmus, der die größte Häufigkeit ε-approximativ mit Fehlerwahrscheinlichkeit höchstens δ im Streaming-Data Modell berechnet. - Dann benötigt A die Speichergröße Ω(m), wenn m die Anzahl verschiedener Schlüssel ist. Der probabilistische Algorithmus A berechne die Häufigkeit des häufigsten Schlüssels approximativ. Häufigkeitsmomente Kommunikation 30 / 74

128 Bestimmung der größten Häufigkeit - ε, δ < 1 2 seinen beliebig. A sei ein probabilistischer Algorithmus, der die größte Häufigkeit ε-approximativ mit Fehlerwahrscheinlichkeit höchstens δ im Streaming-Data Modell berechnet. - Dann benötigt A die Speichergröße Ω(m), wenn m die Anzahl verschiedener Schlüssel ist. Der probabilistische Algorithmus A berechne die Häufigkeit des häufigsten Schlüssels approximativ. Wir lösen das Disjunkheitsproblem mit Hilfe von A: Häufigkeitsmomente Kommunikation 30 / 74