Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19
|
|
- Lieselotte Fromm
- vor 5 Jahren
- Abrufe
Transkript
1 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig Data Mining 2- WS 28/9
2 2-2 Data Mining WS 28/9 Übersicht Hochdimension. Daten Locality sensitive hashing Clustering Dimension. reduction Graphdaten PageRank, SimRank Network Analysis Spam Detection Unbegrenzte Daten Filtering data streams Web advertising Queries on streams Maschinelles Lernen Support Vector Machines Decision Trees Nearest Neighbors Anwendung Recommen. Systems Association Rules Duplicate document detection
3 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-3 WS 28/9
4 Pinterest Visual Search Finde ähnliche Bilder für einen gegebenen Bildbereich Data Mining 2-4 WS 28/9
5 Funktionsweise Image Q Feature Vector Hamming Distance Similarity (Q, B) Image B Feature Vector Sammle Milliarden von Bildern Bestimme Feature-Vektor für jedes Bild (z.b. 4 Dimensionen) Finde die ähnlichsten Bilder für ein gegebenes Bild Data Mining 2-5 WS 28/9
6 Anwendungen Viele Probleme können als folgendes Suchproblem formuliert werden: Finde die nächsten Nachbarn in einem hochdimensionalen Raum Beispiele: Dokumente mit ähnlichen Wörtern Klassifikation Duplikateleminierung, z.b. in der Webseiten-/Nachrichtensuche Plagiaterkennung Kunden mit ähnlichem Kaufverhalten Empfehlungen: Musik, Filme,... Bilder mit ähnlichen Merkmalen, z.b. Bildkomplettierung Data Mining 2-6 WS 28/9
7 Bildkomplettierung [Hays and Efros, SIGGRAPH 27, Data Mining 2-7 WS 28/9
8 Allgemeine Beschreibung des Problems Gegeben einer Menge von N hochdimensionalen Datenpunkten Beispiel: Pixel eines Bildes 2 2 x, x 2,, x N 2 2 Distanzfunktion d(x, x 2 ) Ziel: Finde alle Paare (x i, x j ) innerhalb einer Ähnlichkeitsgrenze s: d x i, x j s Naive Lösung: Vergleich aller Paare benötigt O N 2 Auch O N möglich! Data Mining 2-8 WS 28/9
9 Beispiel: Ähnliche Dokumente Ziel: Finde ähnliche Paare in einer riesigen Menge von Dokumenten (ähnliche Wörter, nicht unbedingt ähnlicher Inhalt) Probleme: Zu viele Dokumente zum Vergleichen aller Paare Bei N = 6 Dokumenten bedeutet dies N N Data Mining 2-9 WS 28/9 2 5 Vergleiche Mit 6 Vergleichen pro Sekunde, benötigt man dazu etwa 5 Tage Über Jahr bei N = 7 Dokumenten Dokumente sind so groß/zahlreich, dass sie nicht in den Hauptspeicher passen Gleiche Teile der Dokumente werden in unterschiedlichen Reihenfolgen angezeigt
10 3 Schritte zum Finden ähnlicher Dokumente. Shingling: Konvertierung der Dokumente in Mengenrepräsentationen 2. Min-Hashing: Konvertierung großer Mengenrepräsentationen in kurze ähnlichkeitserhaltende Signaturen 3. Locality-Sensitive Hashing (Familie von Techniken) Beschränkung auf Paare mit hoher Wahrscheinlichkeit ähnlich zu sein Sortiere dazu die Elemente mit Hilfe bestimmter Hash-Funktionen in Buckets Nur die Paare von Elementen, die sich einen Bucket teilen, werden untersucht Vorteil: Im Idealfall wird nur ein kleiner Bruchteil von Paaren untersucht Nachteil: Es gibt False Negatives ähnliche Paare, die nie untersucht werden Die Rate der False Negatives gilt es, so klein wie möglich zu halten Data Mining 2- WS 28/9
11 The Big Picture Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2- WS 28/9
12 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-2 WS 28/9
13 Schritt : Dokument zu Menge Menge aller Wörter berücksichtigt nicht die Anordnung der Wörter (zu Sätzen) Ein Dokument ist eine Zeichenkette Ein k-shingle eines Dokuments ist ein Teil dieser Zeichenkette mit der Länge k Dokument Beispiel: k = 2, Dokument D = data mining Menge aller 2-Shingles: S(D ) = { da, at, ta, a, m, mi, in, ni, ng } Alternative: Shingles als Bag/Multiset: S (D ) = { da, at, ta, a, m, mi, in, ni, in, ng } Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Data Mining 2-3 WS 28/9
14 Shingles Vorteile: Dokumente, die intuitiv ähnlich sind, haben viele gemeinsame Shingles Änderungen eines Worts betrifft nur die k-shingles innerhalb einer Entfernung von k- Zeichen Wahl von k: die Wahrscheinlichkeit dass ein Shingle in einem Dokument vorkommt sollte gering sein Praxis: k = 5 für s, k = 9 für längere Dokumente Komprimierung Viele möglichen Shingles kommen nicht in realen Dokumenten vor Komprimierung auf kleinere Wertebereiche sinnvoll z.b. 9-Shingles auf 4 Byte Anwendung einer Hash-Funktion auf Shingles Data Mining 2-4 WS 28/9
15 Distanzmaß für Mengen Je nach Anwendung muss man die Bedeutung der Distanz zwischen zwei Objekten definieren Ähnlichkeit zweier Mengen X und X 2 : Jaccard-Koeffizient SIM X, X 2 = X X 2 X X 2 Jaccard-Metrik (Distanz) d X, X 2 = SIM X, X 2 SIM X, X 2 = 3/8 d X, X 2 = 5/8 Data Mining 2-5 WS 28/9
16 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-6 WS 28/9
17 Schritt 2: Mengen zu Signaturen Min-Hashing: Konvertierung großer Mengen in kurze ähnlichkeitserhaltende Signaturen Dokument Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Data Mining 2-7 WS 28/9
18 Matrixrepräsentation einer Dokumentenmenge Shingles Kodierung eines Dokuments als Bit-Vektor Zeile = Shingle s (Element) Spalte = Dokument D (Menge) Setze Zelle in Zeile s und Spalte D auf genau dann, wenn s in D vorkommt Jaccard-Koeffizient lässt sich über Spaltenprodukt berechnen Matrizen sind typischerweise spärlich besetzt Dokumente D 2 D 3 D 4 s s 2 s 3 s 4 s 5 s 6 s 7 D Data Mining 2-8 WS 28/9
19 Hashing: Spalten zu Signaturen Signaturen sind kleinere Repräsentationen einer Spalte Vergleich über Signaturen anstatt Spalten Essentiell: Überführung von Spalte zu Signatur ist ähnlichkeitserhaltend Idee: Hash jede Spalte C (Dokument) in Buckets, so dass die meisten ähnlichen Paare in dem gleichen Bucket landen Finde eine Hash-Funktion h( ), so dass: Falls sim(c,c 2 ) groß, dann h(c ) = h(c 2 ) mit hoher Wahrscheinlichkeit. Falls sim(c,c 2 ) klein, dann h(c ) h(c 2 ) mit hoher Wahrscheinlichkeit. Hash-Funktion hängt vom Ähnlichkeitsmaß ab Jaccard-Metrik: Min-Hashing Data Mining 2-9 WS 28/9
20 Min-Hashing Anwenden einer Permutation auf die Reihen der Matrixrepräsentation Min-Hash-Funktion h : gegeben sei die Permutation h (C) := min s C (s), d.h. der Index der ersten Reihe der Spalte C mit einer Signatur einer Spalte besteht aus den Min-Hash-Werten h, h 2,, h n mehrerer unabhängiger Permutationen, 2,, n Ergebnis: Matrix von Signaturen Anzahl der Spalten: Anzahl der Dokumente Anzahl der Reihen: n (Anzahl der Permutationen) Data Mining 2-2 WS 28/9
21 2-2 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen h () = 2 (Permutation, Spalte ) 2. Element der Permutation zeigt die erste h 2 (3) = 4 (Permutation 2, Spalte 3) 4. Element der Permutation zeigt die erste Matrix (Shingles x Dokumenten) Permutation
22 Min-Hash: Zentrale Eigenschaft Für jede Permutation gilt: Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Begründung Sei X ein Dokument und z X ein Shingle, dann: Pr π(z) = min π(x) = x X X Sei Z X ein Menge von Shingles, dann: Z Pr z Z: π(z) = min π(x) = x X X Außerdem: min x C π(x) = min x C 2 π(x) z C C 2 : π(z) = Pr min x C π(x) = min x C 2 π(x) = Pr z C C 2 : π(z) = min x C C 2 π(x) = C C 2 C C 2 min π(x) x C C 2 Data Mining 2-22 WS 28/9
23 Ähnlichkeit der Signaturen Für JEDE Permutation gilt Pr h π (C ) = h π (C 2 ) = SIM C, C 2 Bei mehreren unabhängigen Permutationen, 2,, n, kann der Wert für SIM(C, C 2 ) über die relative Häufigkeit von h πi C = h πi C 2 geschätzt werden Je länger die Signatur, desto genauer die Schätzung Data Mining 2-23 WS 28/9
24 2-24 Data Mining WS 28/9 Min-Hashing: Beispiel Signaturen Matrix (Shingles x Dokumente) Permutation Spalte Signatur.67 Ähnlichkeiten
25 Min-Hash: Implementierung Tatsächliche Permutation wäre zu aufwendig Simulation einer Permutation über Zufallshashfunktionen Zufällige Abbildung der Zahlen,, N auf Zahlen,, N z.b. h x = (a x + b mod p) mod N, wobei a, b Zufallszahlen und p eine Primzahl mit p > N Hashfunktionen h, h 2,, h n Initiale Signaturmatrix: SIG i, c = für alle i, c Algorithmus: Für jede Zeile r der Dokumentenmatrix Berechne h r, h 2 r,, h n r Für jede Spalte c mit : SIG i, c min SIG i, c, h i r für alle i =,, n Data Mining 2-25 WS 28/9
26 Implementierung: Beispiel Zeile C C h(x) = x mod 5 g(x) = (2x+) mod 5 SIG(i, C ) SIG(i, C 2 ) Data Mining 2-26 WS 28/9 h() = g() = 3 3 h(2) = 2 2 g(2) = 3 h(3) = 3 2 g(3) = 2 2 h(4) = 4 2 g(4) = 4 2 h(5) = g(5) = 2 Signaturmatrix
27 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-27 WS 28/9
28 Schritt 3: Signaturen zu Kandidaten Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Eine Menge aller Zeichenketten der Länge k die im Dokument vorkommen Signatur: Kurzer Vektor ganzer Zahlen, der die Menge repräsentiert und deren Ähnlichkeit reflektiert Dokument Locality- Sensitive Hashing Kandidaten paare: Paare an Signaturen, die auf Ähnlichkeit geprüft werden Data Mining 2-28 WS 28/9
29 Locality Sensitive Hashing (LSH) Ziel: Dokumentenpaare mit Jaccard-Metrik größer als ein Schwellenwert s (z.b. s =.8) Idee: Verwende Hash-Funktion, die ähnliche Dokumente in gleiche Buckets sortiert und unähnliche Dokumente in unterschiedliche Buckets Effektive Methode (zum Beispiel): Teilung der Signaturmatrix in b Bänder mit jeweils r Reihen Eine Hash-Funktion für jedes Band, welche einen Vektor aus r Zahlen auf eine große Anzahl an Buckets verteilt Kandidaten sind zwei Signaturen, die mind. einmal in den gleichen Bucket sortiert wurden Einstellung von b und r zur Optimierung Signatur-Matrix r Zeilen pro Band Eine Signatur Data Mining 2-29 WS 28/9
30 Hashing der Bänder Buckets Spalten 2 und 6 sind in diesem Band wahrscheinlich gleich Spalten 6 und 7 sind hier garantiert unterschiedlich Annahme: Es gibt genügend Buckets, so dass zwei Spalten mit hoher Wahrscheinlichkeit nur dann in den gleichen Bucket sortiert werden, wenn sie in einem Band identisch sind Data Mining 2-3 WS 28/9
31 Hash-Funktion: Beispiel Man benötigt eine Hash-Funktion pro Band Wie findet man genügend Hash-Funktionen?. MurmurHash mit verschiedenen Seeds Original in C++: Java Implementierung: z.b. in Guava ( 2. Beliebige Hash-Funktion und XOR mit Zufallszahl Liste mit Hash-Funktionen: auch unsichere Hash-Funktionen wie MD5 können verwendet werden Java Implementierung: z.b. in Guava ( XOR in Java: int a = 6; /* 6 = */ int b = 3; /* 3 = */ int c = a ^ b; /* 49 = */ Data Mining 2-3 WS 28/9
32 Beispiel: Finde Paare von Dokumenten mit Jaccard-Metrik von mind. s =.8 Setze b = 2 und r = 5 (Signaturmatrix hat Zeilen) Annahme: SIM(C, C 2 ) =.8 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.8) 5 =.328 Wahrscheinlichkeit, dass C und C 2 nicht identisch in allen Bändern: (-.328) 2 =.35 D.h. einer von 3 Paaren mit 8%-Ähnlichkeit werden nicht entdeckt (False Negative) Annahme: SIM(C, C 2 ) =.3 Wahrscheinlichkeit, dass C und C 2 in einem bestimmten Band identisch: (.3) 5 =.243 Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: - (-.243) 2 =.474 D.h. 4.74% der Paaren mit 3%- Ähnlichkeit werden zu Kandidaten (False Positives) Data Mining 2-32 WS 28/9
33 LSH: Analyse Angenommen t = SIM(C, C 2 ), b Bänder mit jeweils r Zeilen Wahrscheinlichkeit, dass C und C 2 in mind. einem Band identisch: tr b Wähle: Die Anzahl der Min-Hashes (Zeilen der Signatur-Matrix) Die Anzahl der Bänder b Die Anzahl der Reihen pro Band r um die Raten der False Positives und False Negatives anzugleichen Beispiel: Bei b = und r = anstatt b = 2 und r = 5 würde es weniger False Positives aber mehr False Negatives geben Data Mining 2-33 WS 28/9
34 LSH: Analyse Idealfall Wahrscheinlich keit im gleichen Bucket zu landen Null falls t < s Schwellenwert s Eins falls t > s Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-34 WS 28/9
35 LSH: Analyse Zeile und Band: Wahrscheinlich keit im gleichen Bucket zu landen False Positives s False Negatives Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-35 WS 28/9
36 LSH: Analyse r Zeilen und b Bänder: Wahrscheinlich keit im gleichen Bucket zu landen s b r r b t Ähnlichkeit t = SIM(C, C 2 ) zweier Dokumente Data Mining 2-36 WS 28/9
37 Inhaltsverzeichnis Motivation Schritt : Dokument zu Menge Schritt 2: Mengen zu Signaturen Schritt 3: Signaturen zu Kandidaten Zusammenfassung Data Mining 2-37 WS 28/9
38 Zusammenfassung Shingling: Konvertierung der Dokumente zu Mengen von k-shingles Wähle k so, dass ein Shingle mit geringer Wahrsch. in einem Dokument vorkommt Evtl. Komprimierung der Shingles über Hashing Min-Hashing: Konvertierung der Mengen zu kürzeren Signaturen Ähnlichkeitserhaltend mit Pr h π (C ) = h π (C 2 ) = SIM(C, C 2 ) Zufälliges Hashing um Permutation zu simulieren Je länger die Signatur, desto genauer die Schätzung der Ähnlichkeit Locality Sensitive Hashing: Beschränkung auf Paare von Signaturen, die höchst wahrscheinlich ähnlich sind Hashing um Kandidaten mit Ähnlichkeit größer einem Schwellenwert s zu finden Einstellung von b und r, um Zahl der False Negatives/Positives zu minimieren Überprüfe im Hauptspeicher ob Kandidaten tatsächlich ähnlich sind Optional: Überprüfe auch die Dokumente der ähnlichen Signaturen, ob sie tatsächlich eine hohe Ähnlichkeit aufweisen Data Mining 2-38 WS 28/9
39 Referenzen, Beispiele, Übungen Kapitel 3 aus Mining of Massive Datasets : Übungen: Min-Hashing: LSH (MapReduce): Data Mining 2-39 WS 28/9
40 Übung Min-Hashing Element S S 2 S 3 S 4 h h 2 h S S 2 : /3 vs. S S 3 : /3 vs. S S 4 : /3 vs./4 S S 2 S 3 S h x = 2x + mod 6 h 2 x = 3x + 2 mod 6 h 3 x = 5x + 2 mod 6 S 2 S 3 : 2/3 vs. S 2 S 4 : 2/3 vs. /4 Data Mining 2-4 WS 28/9
41 Übung MapReduce: Eingaben: (D, (5,2,,,..)), (D 2, (3,4,,5,..)), Map: Anwendung der Hash-Funktionen h, h 2,, h b auf Bänder Ausgaben der Mapper: ([, h (5, 2, )], D ), ([2, h 2 (, )], D ),,([b, h b ( )], D ) ([, h (3, 4, )], D 2 ), ([2, h 2 (5, )], D 2 ),,([b, h b ( )], D 2 ) Reduce: Schlüssel [i, b j ] von Hashfunktion h i und deren Bucket b j Sammeln aller Dokumente, die diesem Schlüssel zugeordnet wurden Ausgabe der Reducer: Buckets {D, D 5, }, {D 2, D 3, }, 2. MapReduce: Map: Ausgabe aller Kombination (D i, D j ) mit i < j Reduce: Schlüssel D i mit allen zu vergleichenden Dokumenten D j als Werte; Duplikateleminierung Data Mining 2-43 WS 28/9
Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.
MehrData Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.
MehrData Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 8: Recommendation Systems Johannes Zschache Wintersemester 08/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 8- 8- Data Mining Übersicht Hochdimension.
MehrData Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 3: Mining Data Streams Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 3-1 3-2 Data Mining Übersicht Hochdimension.
MehrData Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.
MehrData Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 4-1 4-2 Data Mining Übersicht Hochdimension.
MehrInhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining
6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable
MehrNachteile Boolesches Retrieval
Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 8 (13.5.2016) Hashtabellen I Algorithmen und Komplexität Dictionary mit sortiertem Array Laufzeiten: create: O(1) insert: O(n) find: O(log
MehrHashfunktionen und MACs
3. Mai 2006 Message Authentication Code MAC: Message Authentication Code Was ist ein MAC? Der CBC-MAC Der XOR-MAC Kryptographische Hashfunktionen Iterierte Hashfunktionen Message Authentication Code Nachrichten
MehrAlgorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2013 / Vorlesung 5, Donnerstag, 21.
Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2013 / 2014 Vorlesung 5, Donnerstag, 21. November 2013 (Wie baut man eine Hash Map, Universelles Hashing)
MehrProjektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten
Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich
MehrINSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS
Julian Arz, Timo Bingmann, Sebastian Schlag INSTITUT FÜR THEORETISCHE INFORMATIK, PROF. SANDERS 1 KIT Julian Universität Arz, des Timo LandesBingmann, Baden-Württemberg Sebastian und Schlag nationales
MehrHashing für Webanwendungen
Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das File Sharing. 1 / 40 Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das
MehrÜbersicht. Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene
Übersicht Volltextindex Boolesches Retrieval Termoperationen Indexieren mit Apache Lucene 5.0.07 1 IR-System Peter Kolb 5.0.07 Volltextindex Dokumentenmenge durchsuchbar machen Suche nach Wörtern Volltextindex:
Mehr3. Übung Algorithmen I
INSTITUT FÜR THEORETISCHE INFORMATIK 1 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft Institut für Theoretische www.kit.edu Informatik Hashtabellen:
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Indexstrukturen Indexstrukturen insbesondere Mehrdimensionale Indexstrukturen, Ausgedehnte
MehrDuplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos
Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.
Mehrdie Relevanz von Webseiten bestimmt Alexander Pohl
Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:
MehrDetecting Near Duplicates for Web Crawling
Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen
Mehr4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.
4.4 Perfektes Hashing Das Ziel des perfekten Hashings ist es, für eine Schlüsselmenge eine Hashfunktion zu finden, so dass keine Kollisionen auftreten. Die Größe der Hashtabelle soll dabei natürlich möglichst
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
Mehr10.5 Maximum-Likelihood Klassifikation (I)
Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem
MehrErich Schubert, Arthur Zimek KDD Übung
Hausaufgabe Distanzfunktionen Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-04-25 KDD Übung Distanzfunktionen Reflexiv: Distanz zu sich selbst ist 0 x = y d(x, y) = 0 Symmetrisch:
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Prof. Martin Lercher Institut für Informatik Heinrich-Heine-Universität Düsseldorf Teil Hash-Verfahren Version vom: 18. November 2016 1 / 28 Vorlesung 9 18. November 2016
MehrDatenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.
Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de Wiederholung: Min-Hashing ˆ Gegeben zwei Mengen A und B von Objekten. ˆ Ein oft benutztes
MehrHashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung
Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 2 Effizienz
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrHashing II. Übersicht. 1 Hashing und Verkettung. 2 Offene Adressierung
Übersicht Datenstrukturen und Algorithmen Vorlesung 13: 1 Joost-Pieter Katoen Lehrstuhl für Informatik 2 Software Modeling and Verification Group https://moves.rwth-aachen.de/teaching/ss-18/dsal/ 2 Effizienz
MehrEinleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.
Anwendung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Kapitel 8: Ähnlichkeitsanfragen und ihre effiziente Evaluierung Wie zu finden? Corbis, NASA: EOS Bilddatenbank Folie Folie 2 Ähnlichkeitssuche
MehrLearning to Rank Sven Münnich
Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar
MehrUsing Sets of Feature Vectors for Similarity Search on Voxelized CAD Data
Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias
MehrProgrammierung. Rückblick. VWA - Programmierung Winter Algorithmus. Programmiersprache. Variable. Zuweisung. Bedingung.
Programmierung 1 Rückblick Algorithmus Programmiersprache Variable Zuweisung Bedingung Schleife (c) Peter Sturm, University of Trier 1 3 Aufgabe: Viele, viele bunte Smarties Rechengeschwindigkeit CPU 5
MehrDatenbanken. Teil 2: Informationen. Kapitel 2: Einführung. Zusammenfassung der Grundbegriffe. Übersicht über wichtige Grundbegriffe:
Datenbanken Einführung Seite 1 von 17 Datenbanken Teil 2: Informationen Kapitel 2: Einführung Zusammenfassung der Übersicht über wichtige : 1. Merkmal,, 2., 3., 4., nname 5. Beziehungstabelle, zusammengesetzter
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrAlgorithmen und Datenstrukturen Hashverfahren
Algorithmen und Datenstrukturen Hashverfahren Matthias Teschner Graphische Datenverarbeitung Institut für Informatik Universität Freiburg SS 12 Überblick Prinzip Details Anwendungen Motivation Hashverfahren
MehrF2S2. Schnelle Ähnlichkeitssuche von Fuzzy Hashes. Christian Winter. Anwendertag IT-Forensik 2012
F2S2 Schnelle Ähnlichkeitssuche von Fuzzy Hashes Christian Winter Fraunhofer-Institut für Sichere Informationstechnologie (SIT) Center for Advanced Security Research Darmstadt (CASED) Anwendertag IT-Forensik
Mehr12. Hashing. Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete.
Hashing einfache Methode um Wörtebücher zu implementieren, d.h. Hashing unterstützt die Operationen Search, Insert, Delete. Worst-case Zeit für Search: Θ(n). In der Praxis jedoch sehr gut. Unter gewissen
MehrT = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.
Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird
MehrGrundlagen: Algorithmen und Datenstrukturen
Grundlagen: Algorithmen und Datenstrukturen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2010
MehrInformatik II, SS 2014
Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine
MehrFAKULTÄT FÜR INFORMATIK
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen WS 2008/09 Einführung in die Informatik 2 Übungsblatt 10 Prof. Dr. Helmut Seidl, T. M. Gawlitza,
MehrInformatik II Übung, Woche 10
Giuseppe Accaputo 10. März, 2016 Plan für heute 1. Typumwandlung (Typecasts) 2. Ordnerstruktur für Übungen 3. Vorbesprechung Übung 3 4. Nachbesprechung Übung 2 (inkl. Live Programmierung) Informatik II
MehrIdeen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn
Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-
MehrAufgabe 1: Min-Hashing
Aufgabe 1: Min-Hashing In dieser Aufgabe geht es darum, Kunden auf Grund ihrer bestellten Teile zu vergleichen. Kunden werden im TPC-H-Schema etwa durch die Spalte c_custkey in der Tablle customer identifiziert,
MehrVerteilte Kyroptographie
Verteilte Kyroptographie Klassische kryptographische Verfahren Kryptographische Hash-Funktionen Public-Key-Signaturen Verteilte Mechanismen Schwellwert-Signaturen Verteilt generierte Zufallszahlen Verteilte
MehrWie Google Webseiten bewertet. François Bry
Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google
MehrHashing für Webanwendungen
Hashing für Webanwendungen - Konsistentes Hashing. CHORD: Ein Peer-to-Peer System für das File Sharing. - Min-Hashing. Stelle Ähnlichkeit von Dokumenten schnell fest. - Bloom Filter. Platz-effizientes
MehrKlassifikation und Ähnlichkeitssuche
Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell
MehrVorlesung Sicherheit
Vorlesung Sicherheit Dennis Hofheinz ITI, KIT 12.05.2014 1 / 26 Überblick 1 Hashfunktionen Erinnerung Angriffe auf Hashfunktionen Zusammenfassung Hashfunktionen 2 Asymmetrische Verschlüsselung Idee Beispiel:
MehrVorlesung Informatik 2 Algorithmen und Datenstrukturen
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (13 Offenes Hashing) Prof. Dr. Susanne Albers Hashing: Allgemeiner Rahmen Schlüsselmenge S Universum U aller möglichen Schlüssel Hashfunktion h 0,,m-1
MehrDas Generalized Birthday Problem
Das Generalized Birthday Problem Problem Birthday Gegeben: L 1, L 2 Listen mit Elementen aus {0, 1} n Gesucht: x 1 L 1 und x 2 L 2 mit x 1 x 2 = 0. Anwendungen: Meet-in-the-Middle Angriffe (z.b. für RSA,
MehrData Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt
Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook
MehrAlgorithmen I. Prof. Jörn Müller-Quade Institut für Theoretische Informatik Web: https://crypto.iti.kit.edu/index.php?
Algorithmen I Prof. Jörn Müller-Quade 17.05.2017 Institut für Theoretische Informatik Web: https://crypto.iti.kit.edu/index.php?id=799 (Folien von Peter Sanders) KIT Institut für Theoretische Informatik
Mehr{0,1} rekursive Aufteilung des Datenraums in die Quadranten NW, NE, SW und SE feste Auflösung des Datenraums in 2 p 2 p Gitterzellen
4.4 MX-Quadtrees (I) MatriX Quadtree Verwaltung 2-dimensionaler Punkte Punkte als 1-Elemente in einer quadratischen Matrix mit Wertebereich {0,1} rekursive Aufteilung des Datenraums in die Quadranten NW,
MehrDuplikatfilterung und Sampling von Webseiten
Duplikatfilterung und Sampling von Webseiten Seminar Suchmaschinen, Wintersemester 2007/2008 Martin Sauerhoff Lehrstuhl 2, Universität Dortmund Übersicht 1. Duplikatfilterung: 1.1 Gleichheitstest mit Fingerabdrücken
MehrTextmining Matthias Stöckl
Textmining 30.01.04 Matthias Stöckl 1. Einführung und Grundlagen 1. Einführung und Grundlagen Definition : Informationen, die sprachlich gegeben sind explizit zu machen um sie maschinell zu erschließen.
Mehrk-nächste-nachbarn-schätzung
k-nächste-nachbarn-schätzung Mustererkennung und Klassifikation, Vorlesung No. 7 1 M. O. Franz 29.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrPseudozufallsfunktionen (PRF) Kapitel 3
Pseudozufallsfunktionen (PRF) Kapitel 3 Motivation Verschlüsselung eines Dateisystems durch PRG: PRG G(x) Entschlüsselung: berechne aus x entsprechende Generator-Ausgabe Aber: Entschlüsselung der letzten
MehrUmsetzung von Locality Sensitive Hashing in Java
Umsetzung von Locality Sensitive Hashing in Java BACHELORARBEIT (PROJEKTPRAKTIKUM) zur Erlangung des akademischen Grades Bachelor of Science im Bachelorstudium INFORMATIK Eingereicht von: Reinhold Taucher,
MehrTeil VII. Hashverfahren
Teil VII Hashverfahren Überblick 1 Hashverfahren: Prinzip 2 Hashfunktionen 3 Kollisionsstrategien 4 Aufwand 5 Hashen in Java Prof. G. Stumme Algorithmen & Datenstrukturen Sommersemester 2009 7 1 Hashverfahren:
Mehr5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)?
5.8.2 Erweiterungen Dynamische Hash-Funktionen (mit variabler Tabellengröße)? Ladefaktor: α, n aktuelle Anzahl gespeicherter Werte m Tabellengröße. Einfacher Ansatz: rehash() a z c h s r b s h a z Wenn
MehrModerne Methoden der KI: Maschinelles Lernen
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:
MehrAlgorithmen und Datenstrukturen 2
Algorithmen und Datenstrukturen 2 Sommersemester 2006 9. Vorlesung Peter Stadler Universität Leipzig Institut für Informatik studla@bioinf.uni-leipzig.de Invertierte Listen Nutzung vor allem zur Textsuche
MehrInformation Retrieval, Vektorraummodell
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion
MehrKorollar 191 In einem (a, b)-baum mit n gespeicherten Schlüsseln können die Wörterbuchoperationen in Zeit O(log a n) durchgeführt werden.
Korollar 191 In einem (a, b)-baum mit n gespeicherten Schlüsseln können die Wörterbuchoperationen in Zeit O(log a n) durchgeführt werden. Bemerkung: Die Wahl von a und b hängt wesentlich von der Anwendung
MehrInformation Retrieval Modelle: Boolesches Modell. Karin Haenelt
Information Retrieval Modelle: Boolesches Modell Karin Haenelt 19.10.2009 1 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Boolesches Modell Darstellung der Systemkomponenten am
MehrDatenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken
Datenbanken Unit 10: Ranking und Data Mining Erstellen und Ändern von Datenbanken 7. VI. 2016 Organisatorisches nächste Woche am 14. Juni Abschlusstest (Gruppe 1: 10:00 11:15, Gruppe 2: 11:30 12:45 ) Übungsblatt
MehrInformatik II, SS 2018
Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 20 (9.7.2018) String Matching (Textsuche) Algorithmen und Komplexität Textsuche / String Matching Gegeben: Zwei Zeichenketten (Strings)
MehrItem-based Collaborative Filtering
Item-based Collaborative Filtering Initial implementation Martin Krüger, Sebastian Kölle 12.05.2011 Seminar Collaborative Filtering Projektplan Implementierung Ideen Wdh.: Item-based Collaborative Filtering
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
Mehr1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3
Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................
MehrWS 2013/14. Diskrete Strukturen
WS 2013/14 Diskrete Strukturen Prof. Dr. J. Esparza Lehrstuhl für Grundlagen der Softwarezuverlässigkeit und theoretische Informatik Fakultät für Informatik Technische Universität München http://www7.in.tum.de/um/courses/ds/ws1314
MehrProjekt-INF Folie 1
Folie 1 Projekt-INF Entwicklung eines Testbed für den empirischen Vergleich verschiedener Methoden des maschinellen Lernens im Bezug auf die Erlernung von Produktentwicklungswissen Folie 2 Inhalt Ziel
MehrClustering 2010/06/11 Sebastian Koch 1
Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst
MehrAhnlichkeitsbestimmung von Bildern
Seminar: Content Based Image Retrieval Lehrstuhl fur Mustererkennung und Bildverarbeitung 10. Januar 2005 Ubersicht Einfuhrung Problemstellung: Vergleiche Merkmale verschiedener Bilder und bewerte deren
MehrBeuth Hochschule Hash-Tabellen WS17/18, S. 1
Beuth Hochschule Hash-Tabellen WS17/18, S. 1 Hash-Tabellen Binäres Suchen (in einer sortierten Reihung oder in einem sortierten binären Baum) ist sehr schnell (O(log(n))). Es gibt aber (erstaunlicherweise)
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin:
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2006 Termin: 26. 7. 2006 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrUnterschiede in Dateien mit diff
Unterschiede in Dateien mit diff diff datei1 datei2 vergleicht die Inhalte der beiden Dateien zeilenweise (bei Verzeichnissen die enthaltenen Dateien) und gibt die sich unterscheidenen Zeilen auf stdout
Mehrs(x, i) = i h 2 (x), i N 0
TECHNISCHE UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR INFORMATIK Lehrstuhl für Sprachen und Beschreibungsstrukturen SS 2009 Grundlagen: Algorithmen und Datenstrukturen Übungsblatt 5 Prof. Dr. Helmut Seidl, S. Pott,
MehrLineare Kongruenzgeneratoren und Quicksort
Seminar Perlen der theoretischen Informatik Dozenten: Prof. Johannes Köbler und Olaf Beyersdorff Lineare Kongruenzgeneratoren und Quicksort Ausarbeitung zum Vortrag Mia Viktoria Meyer 12. November 2002
MehrAnwendungen der Hauptkomponentenanalyse. Volker Tresp vertreten durch Florian Steinke
Anwendungen der Hauptkomponentenanalyse Volker Tresp vertreten durch Florian Steinke 1 Dimensionsreduktion für Supervised Learning 2 Beispiel: Kaufentscheidung 3 Verbesserte Abstandsmaße durch Hauptkomponentenanalyse
MehrBernd Borchert. Univ. Tübingen WS 13/14. Vorlesung. Kryptographie. Teil 11. Einwegfunktionen, Geheimnisteilung, Steganographie 7.2.
Bernd Borchert Univ. Tübingen WS 13/14 Vorlesung Kryptographie Teil 11 Einwegfunktionen, Geheimnisteilung, Steganographie 7.2.14 P-Zeit berechenbare Funktionen FP ist die Klasse aller Funktionen f : {0,1}*
MehrAlgorithmen und Datenstrukturen
Universität Innsbruck Institut für Informatik Zweite Prüfung 16. Oktober 2008 Algorithmen und Datenstrukturen Name: Matrikelnr: Die Prüfung besteht aus 8 Aufgaben. Die verfügbaren Punkte für jede Aufgabe
MehrBücher und Artikel zum Thema
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrMaterialsammlung zur Implementierung von Information Retrieval Systemen
Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,
MehrDie (Un-)Sicherheit von DES
Die (Un-)Sicherheit von DES Sicherheit von DES: Bester praktischer Angriff ist noch immer die Brute-Force Suche. Die folgende Tabelle gibt eine Übersicht über DES Kryptanalysen. Jahr Projekt Zeit 1997
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrIndexstrukturen für Zeichendaten und Texte
Indexstrukturen für Zeichendaten und Texte Felix Hain HTWK Leipzig 29.06.15 Gliederung 29.06.15 Felix Hain 2 1 B + -Baum 1.1 Präfix-B + -Baum 1.2 B + -Baum für BLOBs 2 Digitale Bäume 2.1 Trie 2.2 Patricia
MehrVorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN
Vorlesung 5: DATENSTRUKTUREN UND ALGORITHMEN 125 Motivation! Wahl der Datenstruktur wichtiger Schritt beim Entwurf und der Implementierung von Algorithmen! Dünn besetzte Graphen und Matrizen bilden keine
MehrKapitel 2. Mathematische Grundlagen. Skript zur Vorlesung Einführung in die Programmierung
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS DATABASE Kapitel 2 Mathematische Grundlagen Skript zur Vorlesung Einführung in die Programmierung im Wintersemester 2012/13 Ludwig-Maximilians-Universität
Mehr2 Darstellung von Zahlen und Zeichen
2.1 Analoge und digitale Darstellung von Werten 79 2 Darstellung von Zahlen und Zeichen Computer- bzw. Prozessorsysteme führen Transformationen durch, die Eingaben X auf Ausgaben Y abbilden, d.h. Y = f
MehrRecommender Systeme mit Collaborative Filtering
Fakultät für Informatik Technische Universität München Email: rene.romen@tum.de 6. Juni 2017 Recommender Systeme Definition Ziel eines Recommender Systems ist es Benutzern Items vorzuschlagen die diesem
MehrCool Hashing. Ein Überblick über energieeffiziente Ansätze. Patrick Tempel. Dresden,
Fakultät Informatik, Institut für Angewandte Informatik, Professur für Technische Informationssysteme Cool Hashing Ein Überblick über energieeffiziente Ansätze Dresden, 28.11.2011 Patrick Tempel Inhalt
MehrMasterarbeit. Variantentolerantes Readmapping durch Locality Sensitive Hashing. Jens Quedenfeld November Gutachter: Sven Rahmann Dominik Köppl
Masterarbeit Variantentolerantes Readmapping durch Locality Sensitive Hashing Jens Quedenfeld November 2015 Gutachter: Sven Rahmann Dominik Köppl Technische Universität Dortmund Fakultät für Informatik
Mehr