Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Größe: px
Ab Seite anzeigen:

Download "Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19"

Transkript

1 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig Data Mining 2- WS 28/9

2 2-2 Data Mining WS 28/9 Übersicht Hochdimension. Daten Locality sensitive hashing Clustering Dimension. reduction Graphdaten PageRank, SimRank Network Analysis Spam Detection Unbegrenzte Daten Filtering data streams Web advertising Queries on streams Maschinelles Lernen Support Vector Machines Decision Trees Nearest Neighbors Anwendung Recommen. Systems Association Rules Duplicate document detection

3 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-3 WS 28/9

4 Pinterest Visual Search Finde ähnliche Bilder für einen gegebenen Bildbereich Data Mining 2-4 WS 28/9

5 Funktionsweise Image Q Feature Vector Hamming Distance Similarity (Q, B) Image B Feature Vector Sammle Milliarden von Bildern Bestimme Feature-Vektor für jedes Bild (z.b. 4 Dimensionen) Finde die ähnlichsten Bilder für ein gegebenes Bild Data Mining 2-5 WS 28/9

6 Anwendungen Viele Probleme können als folgendes Suchproblem formuliert werden: Finde die nächsten Nachbarn in einem hochdimensionalen Raum Beispiele: Dokumente mit ähnlichen Wörtern Klassifikation Duplikateleminierung, z.b. in der Webseiten-/Nachrichtensuche Plagiaterkennung Kunden mit ähnlichem Kaufverhalten Empfehlungen: Musik, Filme,... Bilder mit ähnlichen Merkmalen, z.b. Bildkomplettierung Data Mining 2-6 WS 28/9

7 Bildkomplettierung [Hays and Efros, SIGGRAPH 27, Data Mining 2-7 WS 28/9

8 Allgemeine Beschreibung des Problems Gegeben einer Menge von N hochdimensionalen Datenpunkten Beispiel: Pixel eines Bildes 2 2 x, x 2,, x N 2 2 Distanzfunktion d(x, x 2 ) Ziel: Finde alle Paare (x i, x j ) innerhalb einer Ähnlichkeitsgrenze s: d x i, x j s Naive Lösung: Vergleich aller Paare benötigt O N 2 Auch O N möglich! Data Mining 2-8 WS 28/9

9 Beispiel: Ähnliche Dokumente Ziel: Finde ähnliche Paare in einer riesigen Menge von Dokumenten (ähnliche Wörter, nicht unbedingt ähnlicher Inhalt) Probleme: Zu viele Dokumente zum Vergleichen aller Paare Bei N = 6 Dokumenten bedeutet dies N N Data Mining 2-9 WS 28/9 2 5 Vergleiche Mit 6 Vergleichen pro Sekunde, benötigt man dazu etwa 5 Tage Über Jahr bei N = 7 Dokumenten Dokumente sind so groß/zahlreich, dass sie nicht in den Hauptspeicher passen Gleiche Teile der Dokumente werden in unterschiedlichen Reihenfolgen angezeigt

10 3 Schritte zum Finden ähnlicher Dokumente. Shingling: Konvertierung der Dokumente in Mengenrepräsentationen 2. Min-Hashing: Konvertierung großer Mengenrepräsentationen in kurze ähnlichkeitserhaltende Signaturen 3. Locality-Sensitive Hashing (Familie von Techniken) Beschränkung auf Paare mit hoher Wahrscheinlichkeit ähnlich zu sein Sortiere dazu die Elemente mit Hilfe bestimmter Hash-Funktionen in Buckets Nur die Paare von Elementen, die sich einen Bucket teilen, werden untersucht Vorteil: Im Idealfall wird nur ein kleiner Bruchteil von Paaren untersucht Nachteil: Es gibt False Negatives ähnliche Paare, die nie untersucht werden Die Rate der False Negatives gilt es, so klein wie möglich zu halten Data Mining 2- WS 28/9

11 The Big Picture Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2- WS 28/9

12 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-2 WS 28/9

13 Schritt : Dokument zu Menge Menge aller Wörter berücksichtigt nicht die Anordnung der Wörter (zu Sätzen) Ein Dokument ist eine Zeichenkette Ein k-shingle eines Dokuments ist ein Teil dieser Zeichenkette mit der Länge k Dokument Beispiel: k = 2, Dokument D = data mining Menge aller 2-Shingles: S(D ) = { da, at, ta, a, m, mi, in, ni, ng } Alternative: Shingles als Bag/Multiset: S (D ) = { da, at, ta, a, m, mi, in, ni, in, ng } Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Data Mining 2-3 WS 28/9

14 Shingles Vorteile: Dokumente, die intuitiv ähnlich sind, haben viele gemeinsame Shingles Änderungen eines Worts betrifft nur die k-shingles innerhalb einer Entfernung von k- Zeichen Wahl von k: die Wahrscheinlichkeit dass ein Shingle in einem Dokument vorkommt sollte gering sein Praxis: k = 5 für s, k = 9 für längere Dokumente Komprimierung Viele möglichen Shingles kommen nicht in realen Dokumenten vor Komprimierung auf kleinere Wertebereiche sinnvoll z.b. 9-Shingles auf 4 Byte Anwendung einer Hash-Funktion auf Shingles Data Mining 2-4 WS 28/9

15 Distanzmaß für Mengen Je nach Anwendung muss man die Bedeutung der Distanz zwischen zwei Objekten definieren Ähnlichkeit zweier Mengen X und X 2 : Jaccard-Koeffizient SIM X, X 2 = X X 2 X X 2 Jaccard-Metrik (Distanz) d X, X 2 = SIM X, X 2 SIM X, X 2 = 3/8 d X, X 2 = 5/8 Data Mining 2-5 WS 28/9

16 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-6 WS 28/9

17 Schritt 2: Mengen zu Signaturen Min-Hashing: Konvertierung großer Mengen in kurze ähnlichkeitserhaltende Signaturen Dokument Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Data Mining 2-7 WS 28/9

18 Matrixrepräsentation einer Dokumentenmenge Shingles Kodierung eines Dokuments als Bit-Vektor Zeile = Shingle s (Element) Spalte = Dokument D (Menge) Setze Zelle in Zeile s und Spalte D auf genau dann, wenn s in D vorkommt Jaccard-Koeffizient lässt sich über Spaltenprodukt berechnen Matrizen sind typischerweise spärlich besetzt Dokumente D 2 D 3 D 4 s s 2 s 3 s 4 s 5 s 6 s 7 D Data Mining 2-8 WS 28/9

19 Hashing: Spalten zu Signaturen Signaturen sind kleinere Repräsentationen einer Spalte Vergleich über Signaturen anstatt Spalten Essentiell: Überführung von Spalte zu Signatur ist ähnlichkeitserhaltend Idee: Hash jede Spalte C (Dokument) in Buckets, so dass die meisten ähnlichen Paare in dem gleichen Bucket landen Finde eine Hash-Funktion h( ), so dass: Falls sim(c,c 2 ) groß, dann h(c ) = h(c 2 ) mit hoher Wahrscheinlichkeit. Falls sim(c,c 2 ) klein, dann h(c ) h(c 2 ) mit hoher Wahrscheinlichkeit. Hash-Funktion hängt vom Ähnlichkeitsmaß ab Jaccard-Metrik: Min-Hashing Data Mining 2-9 WS 28/9

20 Min-Hashing Anwenden einer Permutation auf die Reihen der Matrixrepräsentation Min-Hash-Funktion h : gegeben sei die Permutation h (C) := min s C (s), d.h. der Index der ersten Reihe der Spalte C mit einer Signatur einer Spalte besteht aus den Min-Hash-Werten h, h 2,, h n mehrerer unabhängiger Permutationen, 2,, n Ergebnis: Matrix von Signaturen Anzahl der Spalten: Anzahl der Dokumente Anzahl der Reihen: n (Anzahl der Permutationen) Data Mining 2-2 WS 28/9

21 2-2 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen h () = 2 (Permutation, Spalte ) 2. Element der Permutation zeigt die erste h 2 (3) = 4 (Permutation 2, Spalte 3) 4. Element der Permutation zeigt die erste Matrix (Shingles x Dokumenten) Permutation

22 Min-Hash: Zentrale Eigenschaft Für jede Permutation gilt: Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Begründung Sei X ein Dokument und z X ein Shingle, dann: Pr π(z) = min π(x) = x X X Sei Z X ein Menge von Shingles, dann: Z Pr z Z: π(z) = min π(x) = x X X Außerdem: min x C π(x) = min x C 2 π(x) z C C 2 : π(z) = Pr min x C π(x) = min x C 2 π(x) = Pr z C C 2 : π(z) = min x C C 2 π(x) = C C 2 C C 2 min π(x) x C C 2 Data Mining 2-22 WS 28/9

23 Ähnlichkeit der Signaturen Für JEDE Permutation gilt Pr h π (C ) = h π (C 2 ) = SIM C, C 2 Bei mehreren unabhängigen Permutationen, 2,, n, kann der Wert für SIM(C, C 2 ) über die relative Häufigkeit von h πi C = h πi C 2 geschätzt werden Je länger die Signatur, desto genauer die Schätzung Data Mining 2-23 WS 28/9

24 2-24 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen Matrix (Shingles x Dokumente) Permutation Spalte Signatur.67 Ähnlichkeiten

25 Min-Hash: Implementierung Tatsächliche Permutation wäre zu aufwendig Simulation einer Permutation über Zufallshashfunktionen Zufällige Abbildung der Zahlen,, N auf Zahlen,, N z.b. h x = (a x + b mod p) mod N, wobei a, b Zufallszahlen und p eine Primzahl mit p > N Hashfunktionen h, h 2,, h n Initiale Signaturmatrix: SIG i, c = für alle i, c Algorithmus: Für jede Zeile r der Dokumentenmatrix Berechne h r, h 2 r,, h n r Für jede Spalte c mit : SIG i, c min SIG i, c, h i r für alle i =,, n Data Mining 2-25 WS 28/9

26 Implementierung: Beispiel Zeile C C h(x) = x mod 5 g(x) = (2x+) mod 5 SIG(i, C ) SIG(i, C 2 ) Data Mining 2-26 WS 28/9 h() = g() = 3 3 h(2) = 2 2 g(2) = 3 h(3) = 3 2 g(3) = 2 2 h(4) = 4 2 g(4) = 4 2 h(5) = g(5) = 2 Signaturmatrix

27 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-27 WS 28/9

28 Schritt 3: Signaturen zu Kandidaten Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2-28 WS 28/9

29 Locality Sensitive Hashing (LSH) Ziel: Dokumentenpaare mit Jaccard-Metrik größer als ein Schwellenwert s (z.b. s =.8) Idee: Verwende Hash-Funktion, die ähnliche Dokumente in gleiche Buckets sortiert und unähnliche Dokumente in unterschiedliche Buckets Effektive Methode (zum Beispiel): Teilung der Signaturmatrix in b Bänder mit jeweils r Reihen Eine Hash-Funktion für jedes Band, welche einen Vektor aus r Zahlen auf eine große Anzahl an Buckets verteilt Kandidaten sind zwei Signaturen, die mind. einmal in den gleichen Bucket sortiert wurden Einstellung von b und r zur Optimierung Signatur-Matrix r Zeilen pro Band Eine Signatur Data Mining 2-29 WS 28/9

30 Hashing der Bänder Buckets Spalten 2 und 6 sind in diesem Band wahrscheinlich gleich Spalten 6 und 7 sind hier garantiert unterschiedlich Annahme: Es gibt genügend Buckets, so dass zwei Spalten mit hoher Wahrscheinlichkeit nur dann in den gleichen Bucket sortiert werden, wenn sie in einem Band identisch sind Data Mining 2-3 WS 28/9

31 Hash-Funktion: Beispiel Man benötigt eine Hash-Funktion pro Band Wie findet man genügend Hash-Funktionen?. MurmurHash mit verschiedenen Seeds Original in C++: Java Implementierung: z.b. in Guava ( 2. Beliebige Hash-Funktion und XOR mit Zufallszahl Liste mit Hash-Funktionen: auch unsichere Hash-Funktionen wie MD5 können verwendet werden Java Implementierung: z.b. in Guava ( XOR in Java: int a = 6; /* 6 = */ int b = 3; /* 3 = */ int c = a ^ b; /* 49 = */ Data Mining 2-3 WS 28/9

32 Beispiel: Finde Paare von Dokumenten mit Jaccard-Metrik von mind. s =.8 Setze b = 2 und r = 5 (Signaturmatrix hat Zeilen) Annahme: SIM(C, C 2 ) =.8 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.8) 5 =.328 Wahrscheinlichkeit, dass C und C 2 nicht identisch in allen Bändern: (-.328) 2 =.35 D.h. einer von 3 Paaren mit 8%-Ähnlichkeit werden nicht entdeckt (False Negative) Annahme: SIM(C, C 2 ) =.3 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.3) 5 =.243 Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: - (-.243) 2 =.474 D.h. 4.74% der Paaren mit 3%- Ähnlichkeit werden zu Kandidaten (False Positives) Data Mining 2-32 WS 28/9

33 LSH: Analyse Angenommen t = SIM(C, C 2 ), b Bänder mit jeweils r Zeilen Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: tr b Wähle: Die Anzahl der Min-Hashes (Zeilen der Signatur-Matrix) Die Anzahl der Bänder b Die Anzahl der Reihen pro Band r um die Raten der False Positives und False Negatives anzugleichen Beispiel: Bei b = und r = anstatt b = 2 und r = 5 würde es weniger False Positives aber mehr False Negatives geben Data Mining 2-33 WS 28/9

34 LSH: Analyse Idealfall Wahrscheinlich keit im gleichen Bucket zu landen Null falls t < s Schwellenwert s Eins falls t > s Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-34 WS 28/9

35 LSH: Analyse Zeile und Band: Wahrscheinlich keit im gleichen Bucket zu landen False Positives s False Negatives Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-35 WS 28/9

36 LSH: Analyse r Zeilen und b Bänder: Wahrscheinlich keit im gleichen Bucket zu landen s b r r b t Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-36 WS 28/9

37 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-37 WS 28/9

38 Zusammenfassung Shingling: Konvertierung der Dokumente zu Mengen von k-shingles Wähle k so, dass ein Shingle mit geringer Wahrsch. in einem Dokument vorkommt Evtl. Komprimierung der Shingles über Hashing Min-Hashing: Konvertierung der Mengen zu kürzeren Signaturen Ähnlichkeitserhaltend mit Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Zufälliges Hashing um Permutation zu simulieren Je länger die Signatur, desto genauer die Schätzung der Ähnlichkeit Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Hashing um Kandidaten mit Ähnlichkeit größer einem Schwellenwert s zu finden Einstellung von b und r, um Zahl der False Negatives/Positives zu minimieren Überprüfe im Hauptspeicher ob Kandidaten tatsächlich ähnlich sind Optional: Überprüfe auch die Dokumente der ähnlichen Signaturen, ob sie tatsächlich eine hohe Ähnlichkeit aufweisen Data Mining 2-38 WS 28/9

39 Referenzen, Beispiele, Übungen Kapitel 3 aus Mining of Massive Datasets : Übungen: Min-Hashing: LSH (MapReduce): Data Mining 2-39 WS 28/9

40 Übung Min-Hashing Element S S 2 S 3 S 4 h h 2 h S S 2 : /3 vs. S S 3 : /3 vs. S S 4 : /3 vs./4 S S 2 S 3 S h x = 2x + mod 6 h 2 x = 3x + 2 mod 6 h 3 x = 5x + 2 mod 6 S 2 S 3 : 2/3 vs. S 2 S 4 : 2/3 vs. /4 Data Mining 2-4 WS 28/9

41 Übung MapReduce: Eingaben: (D, (5,2,,,..)), (D 2, (3,4,,5,..)), Map: Anwendung der Hash-Funktionen h, h 2,, h b auf Bänder Ausgaben der Mapper: ([, h (5, 2, )], D ), ([2, h 2 (, )], D ),,([b, h b ( )], D ) ([, h (3, 4, )], D 2 ), ([2, h 2 (5, )], D 2 ),,([b, h b ( )], D 2 ) Reduce: Schlüssel [i, b j ] von Hashfunktion h i und deren Bucket b j Sammeln aller Dokumente, die diesem Schlüssel zugeordnet wurden Ausgabe der Reducer: Buckets {D, D 5, }, {D 2, D 3, }, 2. MapReduce: Map: Ausgabe aller Kombination (D i, D j ) mit i < j Reduce: Schlüssel D i mit allen zu vergleichenden Dokumenten D j als Werte; Duplikateleminierung Data Mining 2-43 WS 28/9

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.

Mehr

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 8: Recommendation Systems Johannes Zschache Wintersemester 08/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 8- 8- Data Mining Übersicht Hochdimension.

Mehr

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 3: Mining Data Streams Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 3-1 3-2 Data Mining Übersicht Hochdimension.

Mehr

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.

Mehr

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 4-1 4-2 Data Mining Übersicht Hochdimension.

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Informatik II, SS 2016

Informatik II, SS 2016 Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 8 (13.5.2016) Hashtabellen I Algorithmen und Komplexität Dictionary mit sortiertem Array Laufzeiten: create: O(1) insert: O(n) find: O(log

Mehr

Hashfunktionen und MACs

Hashfunktionen und MACs 3. Mai 2006 Message Authentication Code MAC: Message Authentication Code Was ist ein MAC? Der CBC-MAC Der XOR-MAC Kryptographische Hashfunktionen Iterierte Hashfunktionen Message Authentication Code Nachrichten

Mehr

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2013 / Vorlesung 5, Donnerstag, 21.

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2013 / Vorlesung 5, Donnerstag, 21. Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2013 / 2014 Vorlesung 5, Donnerstag, 21. November 2013 (Wie baut man eine Hash Map, Universelles Hashing)

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS

INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS Julian Arz, Timo Bingmann, Sebastian Schlag INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS 1 KIT Julian Universität Arz, des Timo LandesBingmann, Baden-Württemberg Sebastian und Schlag nationales

Mehr

Hashing für Webanwendungen

Hashing für Webanwendungen Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das File Sharing. 1 / 40 Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das

Mehr

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene

Übersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:

Mehr

3. Übung Algorithmen I

3. Übung Algorithmen I INSTITUT FÜR THEORETISCHE INFORMATIK 1 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft Institut für Theoretische www.kit.edu Informatik Hashtabellen:

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Indexstrukturen Indexstrukturen insbesondere Mehrdimensionale Indexstrukturen, Ausgedehnte

Mehr

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.

4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln. 4.4 Perfektes Hashing Das Ziel des perfekten Hashings ist es, für eine Schlüsselmenge eine Hashfunktion zu finden, so dass keine Kollisionen auftreten. Die Größe der Hashtabelle soll dabei natürlich möglichst

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

10.5 Maximum-Likelihood Klassifikation (I)

10.5 Maximum-Likelihood Klassifikation (I) Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem

Mehr

Erich Schubert, Arthur Zimek KDD Übung

Erich Schubert, Arthur Zimek KDD Übung Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil Hash-Verfahren Version vom: 18. November 2016 1 / 28 Vorlesung 9 18. November 2016

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Min-Hashing ˆ Gegeben zwei Mengen A und B von Objekten. ˆ Ein oft benutztes

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 2 Effizienz

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung

Hashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group https://moves.rwth-aachen.de/teaching/ss-18/dsal/ 2 Effizienz

Mehr

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer. Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche

Mehr

Learning to Rank Sven Münnich

Learning to Rank Sven Münnich Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Programmierung. Rückblick. VWA - Programmierung Winter Algorithmus. Programmiersprache. Variable. Zuweisung. Bedingung.

Programmierung. Rückblick. VWA - Programmierung Winter Algorithmus. Programmiersprache. Variable. Zuweisung. Bedingung. Programmierung 1 Rückblick Algorithmus Programmiersprache Variable Zuweisung Bedingung Schleife (c) Peter Sturm, University of Trier 1 3 Aufgabe: Viele, viele bunte Smarties Rechengeschwindigkeit CPU 5

Mehr

Datenbanken. Teil 2: Informationen. Kapitel 2: Einführung. Zusammenfassung der Grundbegriffe. Übersicht über wichtige Grundbegriffe:

Datenbanken. Teil 2: Informationen. Kapitel 2: Einführung. Zusammenfassung der Grundbegriffe. Übersicht über wichtige Grundbegriffe: Datenbanken Einführung Seite 1 von 17 Datenbanken Teil 2: Informationen Kapitel 2: Einführung Zusammenfassung der Übersicht über wichtige : 1. Merkmal,, 2., 3., 4., nname 5. Beziehungstabelle, zusammengesetzter

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Algorithmen und Datenstrukturen Hashverfahren

Algorithmen und Datenstrukturen Hashverfahren Algorithmen und Datenstrukturen Hashverfahren Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Prinzip Details Anwendungen Motivation Hashverfahren

Mehr

F2S2. Schnelle Ähnlichkeitssuche von Fuzzy Hashes. Christian Winter. Anwendertag IT-Forensik 2012

F2S2. Schnelle Ähnlichkeitssuche von Fuzzy Hashes. Christian Winter. Anwendertag IT-Forensik 2012 F2S2 Schnelle Ähnlichkeitssuche von Fuzzy Hashes Christian Winter Fraunhofer-Institut für Sichere Informationstechnologie (SIT) Center for Advanced Security Research Darmstadt (CASED) Anwendertag IT-Forensik

Mehr

12. Hashing. Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete.

12. Hashing. Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete. Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete. Worst-case Zeit für Search: Θ(n). In der Praxis jedoch sehr gut. Unter gewissen

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Grundlagen: Algorithmen und Datenstrukturen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2010

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine

Mehr

FAKULTÄT FÜR INFORMATIK

FAKULTÄT FÜR INFORMATIK TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen WS 2008/09 Einführung in die Informatik 2 Übungsblatt 10 Prof. Dr. Helmut Seidl, T. M. Gawlitza,

Mehr

Informatik II Übung, Woche 10

Informatik II Übung, Woche 10 Giuseppe Accaputo 10. März, 2016 Plan für heute 1. Typumwandlung (Typecasts) 2. Ordnerstruktur für Übungen 3. Vorbesprechung Übung 3 4. Nachbesprechung Übung 2 (inkl. Live Programmierung) Informatik II

Mehr

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-

Mehr

Aufgabe 1: Min-Hashing

Aufgabe 1: Min-Hashing Aufgabe 1: Min-Hashing In dieser Aufgabe geht es darum, Kunden auf Grund ihrer bestellten Teile zu vergleichen. Kunden werden im TPC-H-Schema etwa durch die Spalte c_custkey in der Tablle customer identifiziert,

Mehr

Verteilte Kyroptographie

Verteilte Kyroptographie Verteilte Kyroptographie Klassische kryptographische Verfahren Kryptographische Hash-Funktionen Public-Key-Signaturen Verteilte Mechanismen Schwellwert-Signaturen Verteilt generierte Zufallszahlen Verteilte

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Hashing für Webanwendungen

Hashing für Webanwendungen Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das File Sharing. - Min-Hashing. Stelle Ähnlichkeit von Dokumenten schnell fest. - Bloom Filter. Platz-effizientes

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Vorlesung Sicherheit

Vorlesung Sicherheit Vorlesung Sicherheit Dennis Hofheinz ITI, KIT 12.05.2014 1 / 26 Überblick 1 Hashfunktionen Erinnerung Angriffe auf Hashfunktionen Zusammenfassung Hashfunktionen 2 Asymmetrische Verschlüsselung Idee Beispiel:

Mehr

Vorlesung Informatik 2 Algorithmen und Datenstrukturen

Vorlesung Informatik 2 Algorithmen und Datenstrukturen Vorlesung Informatik 2 Algorithmen und Datenstrukturen (13 Offenes Hashing) Prof. Dr. Susanne Albers Hashing: Allgemeiner Rahmen Schlüsselmenge S Universum U aller möglichen Schlüssel Hashfunktion h 0,,m-1

Mehr

Das Generalized Birthday Problem

Das Generalized Birthday Problem Das Generalized Birthday Problem Problem Birthday Gegeben: L 1, L 2 Listen mit Elementen aus {0, 1} n Gesucht: x 1 L 1 und x 2 L 2 mit x 1 x 2 = 0. Anwendungen: Meet-in-the-Middle Angriffe (z.b. für RSA,

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Algorithmen I. Prof. Jörn Müller-Quade Institut für Theoretische Informatik Web: https://crypto.iti.kit.edu/index.php?

Algorithmen I. Prof. Jörn Müller-Quade Institut für Theoretische Informatik Web: https://crypto.iti.kit.edu/index.php? Algorithmen I Prof. Jörn Müller-Quade 17.05.2017 Institut für Theoretische Informatik Web: https://crypto.iti.kit.edu/index.php?id=799 (Folien von Peter Sanders) KIT Institut für Theoretische Informatik

Mehr

{0,1} rekursive Aufteilung des Datenraums in die Quadranten NW, NE, SW und SE feste Auflösung des Datenraums in 2 p 2 p Gitterzellen

{0,1} rekursive Aufteilung des Datenraums in die Quadranten NW, NE, SW und SE feste Auflösung des Datenraums in 2 p 2 p Gitterzellen 4.4 MX-Quadtrees (I) MatriX Quadtree Verwaltung 2-dimensionaler Punkte Punkte als 1-Elemente in einer quadratischen Matrix mit Wertebereich {0,1} rekursive Aufteilung des Datenraums in die Quadranten NW,

Mehr

Duplikatfilterung und Sampling von Webseiten

Duplikatfilterung und Sampling von Webseiten Duplikatfilterung und Sampling von Webseiten Seminar Suchmaschinen, Wintersemester 2007/2008 Martin Sauerhoff Lehrstuhl 2, Universität Dortmund Übersicht 1. Duplikatfilterung: 1.1 Gleichheitstest mit Fingerabdrücken

Mehr

Textmining Matthias Stöckl

Textmining Matthias Stöckl Textmining 30.01.04 Matthias Stöckl 1. Einführung und Grundlagen 1. Einführung und Grundlagen Definition : Informationen, die sprachlich gegeben sind explizit zu machen um sie maschinell zu erschließen.

Mehr

k-nächste-nachbarn-schätzung

k-nächste-nachbarn-schätzung k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Pseudozufallsfunktionen (PRF) Kapitel 3

Pseudozufallsfunktionen (PRF) Kapitel 3 Pseudozufallsfunktionen (PRF) Kapitel 3 Motivation Verschlüsselung eines Dateisystems durch PRG: PRG G(x) Entschlüsselung: berechne aus x entsprechende Generator-Ausgabe Aber: Entschlüsselung der letzten

Mehr

Umsetzung von Locality Sensitive Hashing in Java

Umsetzung von Locality Sensitive Hashing in Java Umsetzung von Locality Sensitive Hashing in Java BACHELORARBEIT (PROJEKTPRAKTIKUM) zur Erlangung des akademischen Grades Bachelor of Science im Bachelorstudium INFORMATIK Eingereicht von: Reinhold Taucher,

Mehr

Teil VII. Hashverfahren

Teil VII. Hashverfahren Teil VII Hashverfahren Überblick 1 Hashverfahren: Prinzip 2 Hashfunktionen 3 Kollisionsstrategien 4 Aufwand 5 Hashen in Java Prof. G. Stumme Algorithmen & Datenstrukturen Sommersemester 2009 7 1 Hashverfahren:

Mehr

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?

5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? 5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Korollar 191 In einem (a, b)-baum mit n gespeicherten Schlüsseln können die Wörterbuchoperationen in Zeit O(log a n) durchgeführt werden.

Korollar 191 In einem (a, b)-baum mit n gespeicherten Schlüsseln können die Wörterbuchoperationen in Zeit O(log a n) durchgeführt werden. Korollar 191 In einem (a, b)-baum mit n gespeicherten Schlüsseln können die Wörterbuchoperationen in Zeit O(log a n) durchgeführt werden. Bemerkung: Die Wahl von a und b hängt wesentlich von der Anwendung

Mehr

Information Retrieval Modelle: Boolesches Modell. Karin Haenelt

Information Retrieval Modelle: Boolesches Modell. Karin Haenelt Information Retrieval Modelle: Boolesches Modell Karin Haenelt 19.10.2009 1 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Boolesches Modell Darstellung der Systemkomponenten am

Mehr

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken

Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt

Mehr

Informatik II, SS 2018

Informatik II, SS 2018 Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 20 (9.7.2018) String Matching (Textsuche) Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei Zeichenketten (Strings)

Mehr

Item-based Collaborative Filtering

Item-based Collaborative Filtering Item-based Collaborative Filtering Initial implementation Martin Krüger, Sebastian Kölle 12.05.2011 Seminar Collaborative Filtering Projektplan Implementierung Ideen Wdh.: Item-based Collaborative Filtering

Mehr

Pareto optimale lineare Klassifikation

Pareto optimale lineare Klassifikation Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

WS 2013/14. Diskrete Strukturen

WS 2013/14. Diskrete Strukturen WS 2013/14 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws1314

Mehr

Projekt-INF Folie 1

Projekt-INF Folie 1 Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Ahnlichkeitsbestimmung von Bildern

Ahnlichkeitsbestimmung von Bildern Seminar: Content Based Image Retrieval Lehrstuhl fur Mustererkennung und Bildverarbeitung 10. Januar 2005 Ubersicht Einfuhrung Problemstellung: Vergleiche Merkmale verschiedener Bilder und bewerte deren

Mehr

Beuth Hochschule Hash-Tabellen WS17/18, S. 1

Beuth Hochschule Hash-Tabellen WS17/18, S. 1 Beuth Hochschule Hash-Tabellen WS17/18, S. 1 Hash-Tabellen Binäres Suchen (in einer sortierten Reihung oder in einem sortierten binären Baum) ist sehr schnell (O(log(n))). Es gibt aber (erstaunlicherweise)

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Unterschiede in Dateien mit diff

Unterschiede in Dateien mit diff Unterschiede in Dateien mit diff diff datei1 datei2 vergleicht die Inhalte der beiden Dateien zeilenweise (bei Verzeichnissen die enthaltenen Dateien) und gibt die sich unterscheidenen Zeilen auf stdout

Mehr

s(x, i) = i h 2 (x), i N 0

s(x, i) = i h 2 (x), i N 0 TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 5 Prof. Dr. Helmut Seidl, S. Pott,

Mehr

Lineare Kongruenzgeneratoren und Quicksort

Lineare Kongruenzgeneratoren und Quicksort Seminar Perlen der theoretischen Informatik Dozenten: Prof. Johannes Köbler und Olaf Beyersdorff Lineare Kongruenzgeneratoren und Quicksort Ausarbeitung zum Vortrag Mia Viktoria Meyer 12. November 2002

Mehr

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke

Anwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse

Mehr

Bernd Borchert. Univ. Tübingen WS 13/14. Vorlesung. Kryptographie. Teil 11. Einwegfunktionen, Geheimnisteilung, Steganographie 7.2.

Bernd Borchert. Univ. Tübingen WS 13/14. Vorlesung. Kryptographie. Teil 11. Einwegfunktionen, Geheimnisteilung, Steganographie 7.2. Bernd Borchert Univ. Tübingen WS 13/14 Vorlesung Kryptographie Teil 11 Einwegfunktionen, Geheimnisteilung, Steganographie 7.2.14 P-Zeit berechenbare Funktionen FP ist die Klasse aller Funktionen f : {0,1}*

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Universität Innsbruck Institut für Informatik Zweite Prüfung 16. Oktober 2008 Algorithmen und Datenstrukturen Name: Matrikelnr: Die Prüfung besteht aus 8 Aufgaben. Die verfügbaren Punkte für jede Aufgabe

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Die (Un-)Sicherheit von DES

Die (Un-)Sicherheit von DES Die (Un-)Sicherheit von DES Sicherheit von DES: Bester praktischer Angriff ist noch immer die Brute-Force Suche. Die folgende Tabelle gibt eine Übersicht über DES Kryptanalysen. Jahr Projekt Zeit 1997

Mehr

Support Vector Machines, Kernels

Support Vector Machines, Kernels Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen

Mehr

Indexstrukturen für Zeichendaten und Texte

Indexstrukturen für Zeichendaten und Texte Indexstrukturen für Zeichendaten und Texte Felix Hain HTWK Leipzig 29.06.15 Gliederung 29.06.15 Felix Hain 2 1 B + -Baum 1.1 Präfix-B + -Baum 1.2 B + -Baum für BLOBs 2 Digitale Bäume 2.1 Trie 2.2 Patricia

Mehr

Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN

Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN 125 Motivation! Wahl der Datenstruktur wichtiger Schritt beim Entwurf und der Implementierung von Algorithmen! Dünn besetzte Graphen und Matrizen bilden keine

Mehr

Kapitel 2. Mathematische Grundlagen. Skript zur Vorlesung Einführung in die Programmierung

Kapitel 2. Mathematische Grundlagen. Skript zur Vorlesung Einführung in die Programmierung LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2 Mathematische Grundlagen Skript zur Vorlesung Einführung in die Programmierung im Wintersemester 2012/13 Ludwig-Maximilians-Universität

Mehr

2 Darstellung von Zahlen und Zeichen

2 Darstellung von Zahlen und Zeichen 2.1 Analoge und digitale Darstellung von Werten 79 2 Darstellung von Zahlen und Zeichen Computer- bzw. Prozessorsysteme führen Transformationen durch, die Eingaben X auf Ausgaben Y abbilden, d.h. Y = f

Mehr

Recommender Systeme mit Collaborative Filtering

Recommender Systeme mit Collaborative Filtering Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem

Mehr

Cool Hashing. Ein Überblick über energieeffiziente Ansätze. Patrick Tempel. Dresden,

Cool Hashing. Ein Überblick über energieeffiziente Ansätze. Patrick Tempel. Dresden, Fakultät Informatik, Institut für Angewandte Informatik, Professur für Technische Informationssysteme Cool Hashing Ein Überblick über energieeffiziente Ansätze Dresden, 28.11.2011 Patrick Tempel Inhalt

Mehr

Masterarbeit. Variantentolerantes Readmapping durch Locality Sensitive Hashing. Jens Quedenfeld November Gutachter: Sven Rahmann Dominik Köppl

Masterarbeit. Variantentolerantes Readmapping durch Locality Sensitive Hashing. Jens Quedenfeld November Gutachter: Sven Rahmann Dominik Köppl Masterarbeit Variantentolerantes Readmapping durch Locality Sensitive Hashing Jens Quedenfeld November 2015 Gutachter: Sven Rahmann Dominik Köppl Technische Universität Dortmund Fakultät für Informatik

Mehr