Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Transkript

1 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig Data Mining 2- WS 28/9

2 2-2 Data Mining WS 28/9 Übersicht Hochdimension. Daten Locality sensitive hashing Clustering Dimension. reduction Graphdaten PageRank, SimRank Network Analysis Spam Detection Unbegrenzte Daten Filtering data streams Web advertising Queries on streams Maschinelles Lernen Support Vector Machines Decision Trees Nearest Neighbors Anwendung Recommen. Systems Association Rules Duplicate document detection

3 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-3 WS 28/9

4 Pinterest Visual Search Finde ähnliche Bilder für einen gegebenen Bildbereich Data Mining 2-4 WS 28/9

5 Funktionsweise Image Q Feature Vector Hamming Distance Similarity (Q, B) Image B Feature Vector Sammle Milliarden von Bildern Bestimme Feature-Vektor für jedes Bild (z.b. 4 Dimensionen) Finde die ähnlichsten Bilder für ein gegebenes Bild Data Mining 2-5 WS 28/9

6 Anwendungen Viele Probleme können als folgendes Suchproblem formuliert werden: Finde die nächsten Nachbarn in einem hochdimensionalen Raum Beispiele: Dokumente mit ähnlichen Wörtern Klassifikation Duplikateleminierung, z.b. in der Webseiten-/Nachrichtensuche Plagiaterkennung Kunden mit ähnlichem Kaufverhalten Empfehlungen: Musik, Filme,... Bilder mit ähnlichen Merkmalen, z.b. Bildkomplettierung Data Mining 2-6 WS 28/9

7 Bildkomplettierung [Hays and Efros, SIGGRAPH 27, Data Mining 2-7 WS 28/9

8 Allgemeine Beschreibung des Problems Gegeben einer Menge von N hochdimensionalen Datenpunkten Beispiel: Pixel eines Bildes 2 2 x, x 2,, x N 2 2 Distanzfunktion d(x, x 2 ) Ziel: Finde alle Paare (x i, x j ) innerhalb einer Ähnlichkeitsgrenze s: d x i, x j s Naive Lösung: Vergleich aller Paare benötigt O N 2 Auch O N möglich! Data Mining 2-8 WS 28/9

9 Beispiel: Ähnliche Dokumente Ziel: Finde ähnliche Paare in einer riesigen Menge von Dokumenten (ähnliche Wörter, nicht unbedingt ähnlicher Inhalt) Probleme: Zu viele Dokumente zum Vergleichen aller Paare Bei N = 6 Dokumenten bedeutet dies N N Data Mining 2-9 WS 28/9 2 5 Vergleiche Mit 6 Vergleichen pro Sekunde, benötigt man dazu etwa 5 Tage Über Jahr bei N = 7 Dokumenten Dokumente sind so groß/zahlreich, dass sie nicht in den Hauptspeicher passen Gleiche Teile der Dokumente werden in unterschiedlichen Reihenfolgen angezeigt

10 3 Schritte zum Finden ähnlicher Dokumente. Shingling: Konvertierung der Dokumente in Mengenrepräsentationen 2. Min-Hashing: Konvertierung großer Mengenrepräsentationen in kurze ähnlichkeitserhaltende Signaturen 3. Locality-Sensitive Hashing (Familie von Techniken) Beschränkung auf Paare mit hoher Wahrscheinlichkeit ähnlich zu sein Sortiere dazu die Elemente mit Hilfe bestimmter Hash-Funktionen in Buckets Nur die Paare von Elementen, die sich einen Bucket teilen, werden untersucht Vorteil: Im Idealfall wird nur ein kleiner Bruchteil von Paaren untersucht Nachteil: Es gibt False Negatives ähnliche Paare, die nie untersucht werden Die Rate der False Negatives gilt es, so klein wie möglich zu halten Data Mining 2- WS 28/9

11 The Big Picture Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2- WS 28/9

13 Schritt : Dokument zu Menge Menge aller Wörter berücksichtigt nicht die Anordnung der Wörter (zu Sätzen) Ein Dokument ist eine Zeichenkette Ein k-shingle eines Dokuments ist ein Teil dieser Zeichenkette mit der Länge k Dokument Beispiel: k = 2, Dokument D = data mining Menge aller 2-Shingles: S(D ) = { da, at, ta, a, m, mi, in, ni, ng } Alternative: Shingles als Bag/Multiset: S (D ) = { da, at, ta, a, m, mi, in, ni, in, ng } Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Data Mining 2-3 WS 28/9

14 Shingles Vorteile: Dokumente, die intuitiv ähnlich sind, haben viele gemeinsame Shingles Änderungen eines Worts betrifft nur die k-shingles innerhalb einer Entfernung von k- Zeichen Wahl von k: die Wahrscheinlichkeit dass ein Shingle in einem Dokument vorkommt sollte gering sein Praxis: k = 5 für s, k = 9 für längere Dokumente Komprimierung Viele möglichen Shingles kommen nicht in realen Dokumenten vor Komprimierung auf kleinere Wertebereiche sinnvoll z.b. 9-Shingles auf 4 Byte Anwendung einer Hash-Funktion auf Shingles Data Mining 2-4 WS 28/9

15 Distanzmaß für Mengen Je nach Anwendung muss man die Bedeutung der Distanz zwischen zwei Objekten definieren Ähnlichkeit zweier Mengen X und X 2 : Jaccard-Koeffizient SIM X, X 2 = X X 2 X X 2 Jaccard-Metrik (Distanz) d X, X 2 = SIM X, X 2 SIM X, X 2 = 3/8 d X, X 2 = 5/8 Data Mining 2-5 WS 28/9

17 Schritt 2: Mengen zu Signaturen Min-Hashing: Konvertierung großer Mengen in kurze ähnlichkeitserhaltende Signaturen Dokument Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Data Mining 2-7 WS 28/9

18 Matrixrepräsentation einer Dokumentenmenge Shingles Kodierung eines Dokuments als Bit-Vektor Zeile = Shingle s (Element) Spalte = Dokument D (Menge) Setze Zelle in Zeile s und Spalte D auf genau dann, wenn s in D vorkommt Jaccard-Koeffizient lässt sich über Spaltenprodukt berechnen Matrizen sind typischerweise spärlich besetzt Dokumente D 2 D 3 D 4 s s 2 s 3 s 4 s 5 s 6 s 7 D Data Mining 2-8 WS 28/9

19 Hashing: Spalten zu Signaturen Signaturen sind kleinere Repräsentationen einer Spalte Vergleich über Signaturen anstatt Spalten Essentiell: Überführung von Spalte zu Signatur ist ähnlichkeitserhaltend Idee: Hash jede Spalte C (Dokument) in Buckets, so dass die meisten ähnlichen Paare in dem gleichen Bucket landen Finde eine Hash-Funktion h( ), so dass: Falls sim(c,c 2 ) groß, dann h(c ) = h(c 2 ) mit hoher Wahrscheinlichkeit. Falls sim(c,c 2 ) klein, dann h(c ) h(c 2 ) mit hoher Wahrscheinlichkeit. Hash-Funktion hängt vom Ähnlichkeitsmaß ab Jaccard-Metrik: Min-Hashing Data Mining 2-9 WS 28/9

20 Min-Hashing Anwenden einer Permutation auf die Reihen der Matrixrepräsentation Min-Hash-Funktion h : gegeben sei die Permutation h (C) := min s C (s), d.h. der Index der ersten Reihe der Spalte C mit einer Signatur einer Spalte besteht aus den Min-Hash-Werten h, h 2,, h n mehrerer unabhängiger Permutationen, 2,, n Ergebnis: Matrix von Signaturen Anzahl der Spalten: Anzahl der Dokumente Anzahl der Reihen: n (Anzahl der Permutationen) Data Mining 2-2 WS 28/9

21 2-2 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen h () = 2 (Permutation, Spalte ) 2. Element der Permutation zeigt die erste h 2 (3) = 4 (Permutation 2, Spalte 3) 4. Element der Permutation zeigt die erste Matrix (Shingles x Dokumenten) Permutation

22 Min-Hash: Zentrale Eigenschaft Für jede Permutation gilt: Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Begründung Sei X ein Dokument und z X ein Shingle, dann: Pr π(z) = min π(x) = x X X Sei Z X ein Menge von Shingles, dann: Z Pr z Z: π(z) = min π(x) = x X X Außerdem: min x C π(x) = min x C 2 π(x) z C C 2 : π(z) = Pr min x C π(x) = min x C 2 π(x) = Pr z C C 2 : π(z) = min x C C 2 π(x) = C C 2 C C 2 min π(x) x C C 2 Data Mining 2-22 WS 28/9

23 Ähnlichkeit der Signaturen Für JEDE Permutation gilt Pr h π (C ) = h π (C 2 ) = SIM C, C 2 Bei mehreren unabhängigen Permutationen, 2,, n, kann der Wert für SIM(C, C 2 ) über die relative Häufigkeit von h πi C = h πi C 2 geschätzt werden Je länger die Signatur, desto genauer die Schätzung Data Mining 2-23 WS 28/9

24 2-24 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen Matrix (Shingles x Dokumente) Permutation Spalte Signatur.67 Ähnlichkeiten

25 Min-Hash: Implementierung Tatsächliche Permutation wäre zu aufwendig Simulation einer Permutation über Zufallshashfunktionen Zufällige Abbildung der Zahlen,, N auf Zahlen,, N z.b. h x = (a x + b mod p) mod N, wobei a, b Zufallszahlen und p eine Primzahl mit p > N Hashfunktionen h, h 2,, h n Initiale Signaturmatrix: SIG i, c = für alle i, c Algorithmus: Für jede Zeile r der Dokumentenmatrix Berechne h r, h 2 r,, h n r Für jede Spalte c mit : SIG i, c min SIG i, c, h i r für alle i =,, n Data Mining 2-25 WS 28/9

26 Implementierung: Beispiel Zeile C C h(x) = x mod 5 g(x) = (2x+) mod 5 SIG(i, C ) SIG(i, C 2 ) Data Mining 2-26 WS 28/9 h() = g() = 3 3 h(2) = 2 2 g(2) = 3 h(3) = 3 2 g(3) = 2 2 h(4) = 4 2 g(4) = 4 2 h(5) = g(5) = 2 Signaturmatrix

28 Schritt 3: Signaturen zu Kandidaten Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2-28 WS 28/9

29 Locality Sensitive Hashing (LSH) Ziel: Dokumentenpaare mit Jaccard-Metrik größer als ein Schwellenwert s (z.b. s =.8) Idee: Verwende Hash-Funktion, die ähnliche Dokumente in gleiche Buckets sortiert und unähnliche Dokumente in unterschiedliche Buckets Effektive Methode (zum Beispiel): Teilung der Signaturmatrix in b Bänder mit jeweils r Reihen Eine Hash-Funktion für jedes Band, welche einen Vektor aus r Zahlen auf eine große Anzahl an Buckets verteilt Kandidaten sind zwei Signaturen, die mind. einmal in den gleichen Bucket sortiert wurden Einstellung von b und r zur Optimierung Signatur-Matrix r Zeilen pro Band Eine Signatur Data Mining 2-29 WS 28/9

30 Hashing der Bänder Buckets Spalten 2 und 6 sind in diesem Band wahrscheinlich gleich Spalten 6 und 7 sind hier garantiert unterschiedlich Annahme: Es gibt genügend Buckets, so dass zwei Spalten mit hoher Wahrscheinlichkeit nur dann in den gleichen Bucket sortiert werden, wenn sie in einem Band identisch sind Data Mining 2-3 WS 28/9

31 Hash-Funktion: Beispiel Man benötigt eine Hash-Funktion pro Band Wie findet man genügend Hash-Funktionen?. MurmurHash mit verschiedenen Seeds Original in C++: Java Implementierung: z.b. in Guava ( 2. Beliebige Hash-Funktion und XOR mit Zufallszahl Liste mit Hash-Funktionen: auch unsichere Hash-Funktionen wie MD5 können verwendet werden Java Implementierung: z.b. in Guava ( XOR in Java: int a = 6; /* 6 = */ int b = 3; /* 3 = */ int c = a ^ b; /* 49 = */ Data Mining 2-3 WS 28/9

32 Beispiel: Finde Paare von Dokumenten mit Jaccard-Metrik von mind. s =.8 Setze b = 2 und r = 5 (Signaturmatrix hat Zeilen) Annahme: SIM(C, C 2 ) =.8 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.8) 5 =.328 Wahrscheinlichkeit, dass C und C 2 nicht identisch in allen Bändern: (-.328) 2 =.35 D.h. einer von 3 Paaren mit 8%-Ähnlichkeit werden nicht entdeckt (False Negative) Annahme: SIM(C, C 2 ) =.3 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.3) 5 =.243 Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: - (-.243) 2 =.474 D.h. 4.74% der Paaren mit 3%- Ähnlichkeit werden zu Kandidaten (False Positives) Data Mining 2-32 WS 28/9

33 LSH: Analyse Angenommen t = SIM(C, C 2 ), b Bänder mit jeweils r Zeilen Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: tr b Wähle: Die Anzahl der Min-Hashes (Zeilen der Signatur-Matrix) Die Anzahl der Bänder b Die Anzahl der Reihen pro Band r um die Raten der False Positives und False Negatives anzugleichen Beispiel: Bei b = und r = anstatt b = 2 und r = 5 würde es weniger False Positives aber mehr False Negatives geben Data Mining 2-33 WS 28/9

34 LSH: Analyse Idealfall Wahrscheinlich keit im gleichen Bucket zu landen Null falls t < s Schwellenwert s Eins falls t > s Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-34 WS 28/9

35 LSH: Analyse Zeile und Band: Wahrscheinlich keit im gleichen Bucket zu landen False Positives s False Negatives Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-35 WS 28/9

36 LSH: Analyse r Zeilen und b Bänder: Wahrscheinlich keit im gleichen Bucket zu landen s b r r b t Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-36 WS 28/9

38 Zusammenfassung Shingling: Konvertierung der Dokumente zu Mengen von k-shingles Wähle k so, dass ein Shingle mit geringer Wahrsch. in einem Dokument vorkommt Evtl. Komprimierung der Shingles über Hashing Min-Hashing: Konvertierung der Mengen zu kürzeren Signaturen Ähnlichkeitserhaltend mit Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Zufälliges Hashing um Permutation zu simulieren Je länger die Signatur, desto genauer die Schätzung der Ähnlichkeit Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Hashing um Kandidaten mit Ähnlichkeit größer einem Schwellenwert s zu finden Einstellung von b und r, um Zahl der False Negatives/Positives zu minimieren Überprüfe im Hauptspeicher ob Kandidaten tatsächlich ähnlich sind Optional: Überprüfe auch die Dokumente der ähnlichen Signaturen, ob sie tatsächlich eine hohe Ähnlichkeit aufweisen Data Mining 2-38 WS 28/9

39 Referenzen, Beispiele, Übungen Kapitel 3 aus Mining of Massive Datasets : Übungen: Min-Hashing: LSH (MapReduce): Data Mining 2-39 WS 28/9

40 Übung Min-Hashing Element S S 2 S 3 S 4 h h 2 h S S 2 : /3 vs. S S 3 : /3 vs. S S 4 : /3 vs./4 S S 2 S 3 S h x = 2x + mod 6 h 2 x = 3x + 2 mod 6 h 3 x = 5x + 2 mod 6 S 2 S 3 : 2/3 vs. S 2 S 4 : 2/3 vs. /4 Data Mining 2-4 WS 28/9

41 Übung MapReduce: Eingaben: (D, (5,2,,,..)), (D 2, (3,4,,5,..)), Map: Anwendung der Hash-Funktionen h, h 2,, h b auf Bänder Ausgaben der Mapper: ([, h (5, 2, )], D ), ([2, h 2 (, )], D ),,([b, h b ( )], D ) ([, h (3, 4, )], D 2 ), ([2, h 2 (5, )], D 2 ),,([b, h b ( )], D 2 ) Reduce: Schlüssel [i, b j ] von Hashfunktion h i und deren Bucket b j Sammeln aller Dokumente, die diesem Schlüssel zugeordnet wurden Ausgabe der Reducer: Buckets {D, D 5, }, {D 2, D 3, }, 2. MapReduce: Map: Ausgabe aller Kombination (D i, D j ) mit i < j Reduce: Schlüssel D i mit allen zu vergleichenden Dokumenten D j als Werte; Duplikateleminierung Data Mining 2-43 WS 28/9