Duplikaterkennung & Datenfusion

Größe: px
Ab Seite anzeigen:

Download "Duplikaterkennung & Datenfusion"

Transkript

1 & Datenfusion Fabian Panse Fabian Panse II Duplikaterkennung & Datenfusion / 70

2 Einleitung Duplikaterkennung - Motivation Daten sind häufig von Qualitätsmängeln betroffen: Unvollständigkeit Fehlerhaft Quelle: Felix Naumann, Melanie Herschel [?] Fabian Panse II Duplikaterkennung & Datenfusion / 70

3 Einleitung Duplikaterkennung - Motivation Reinigung einer Datenbank: Duplikate als Qualiätsproblem Schwerwiegende Folgen möglich tid Name Alter Wohnort t 1 Max Mustermann 27 Hamburg t 2 Maximilian Musterman 28 Hamburg - Eimsbüttel t 3 Max Muster 30 Hamburg t 4 Johannes Frisch 45 Berlin t 5 Anne Gruber 41 Harburg t 6 Kieser Klaus 53 Harburg t 7 Gruber Annemarie 41 Hamburg t 8 Christian Fabian 21 Berlin Fabian Panse II Duplikaterkennung & Datenfusion / 70

4 Einleitung Duplikaterkennung - Motivation Semantisch korrekte Verknüpfung verschieder Quellen: Quelle 1 tid Name Wohnort t 11 Maximilian Musterman Eimsbüttel t 12 Max Muster Hamburg t 13 Johannes Frisch Berlin t 14 Gruber Annemarie Hamburg t 15 Christian Fabian Berlin Quelle 2 tid Name Studiengang t 21 Max Mustermann Mathematik t 22 Max Muster Informatik t 23 Hannes Frisch Biologie t 24 Anne Gruber Biologie t 25 Kieser Klaus Chemie Fabian Panse II Duplikaterkennung & Datenfusion / 70

5 Einleitung Duplikaterkennung - Synonyme Auch bekannt als: Duplicate Elimination Merge-Purge Problem Entity Matching Entity Resolution Record Linkage Data Matching Deduplication Data Linkage Object Matching Object Reconciliation Object Identification Reference Reconciliation Fabian Panse II Duplikaterkennung & Datenfusion / 70

6 Einleitung Duplikaterkennung - Definition Basierend auf paarweisen Tupelvergleichen Zwischenergebnisse: Klasse der Matches (M), Klasse der Unmatches (U) Endergebnis: Partitionierung (Clustering) der Tupelmenge Eingabe (Tupelmenge) Duplikatenerkennung Ergebnis (Clustering) Fabian Panse II Duplikaterkennung & Datenfusion / 70

7 Einleitung Duplikaterkennung - Ziele Hohe Effektivität: Möglichst viele echte Duplikate finden Möglichst wenig falsche Duplikate als solche deklarieren Hohe Effizienz: Ressourcenschonende Berechnung (Speicher,CPU) Skalierbarkeit Fabian Panse II Duplikaterkennung & Datenfusion / 70

8 Einleitung Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwertmatching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse II Duplikaterkennung & Datenfusion / 70

9 Verifikation Verifikation Input: Gold standard (korrektes Clustering C gold ) Duplikat Clustering C, Suchraum, Paarweise Entscheidungen Output: Qualitätswert q [0, 1] Unterscheidung in: Paarbasierte Verfahren Clusterbasierte Verfahren Fabian Panse II Duplikaterkennung & Datenfusion / 70

10 Verifikation Paarbasierte Verifikation Grundidee: Zerlegung des Clusterings in paarweise Duplikatsentscheidungen Klassifikation in Matches (M) und Unmatches (U) Qualität als die Güte einer binären Klassifikation True Positives (TP): zu Recht deklarierten Matches True Negatives (TN): zu Recht deklarierten Unmatches False Positives (FP): zu Unrecht deklarierten Matches False Negatives (FN): zu Unrecht deklarierten Unmatches Fabian Panse II Duplikaterkennung & Datenfusion / 70

11 Verifikation Paarbasierte Verifikation - Qualitätsmaße Recall: Anteil an gefundenen Duplikaten Recall = TP TP + FN Precision: Anteil an zu Recht deklarierten Matches Precision = TP TP + FP F 1 -score: Harmonisches Mittel von Recall und Precision F 1 -score = 2 Recall Precision Recall + Precision Fabian Panse II Duplikaterkennung & Datenfusion / 70

12 Verifikation Trade-Off: Recall vs. Precision Hoher Schwellwert hohe Precision, kleiner Recall Kleiner Schwellwert kleine Precision, hoher Recall UNMATCHES False Negatives POSSIBLE MATCHES Clerical Reviews MATCHES True Positives True Negatives False Positives θ U/P θ P/M 0 1 Fabian Panse II Duplikaterkennung & Datenfusion / 70

13 Verifikation Clusterbasierte Verifikation Grundidee: Gold standard und Duplikaterkennungsergebnis sind Clusterings Qualität als Ähnlichkeit zwischen zwei Clusterings Qualitätsmaße: Closest Cluster Recall: ccrec(c, C gold ) = C q C gold max Cp Csim(C p, C q ) C gold Closest Cluster Precision: C ccprec(c, C gold ) = max p C C q C gold sim(c p, C q ) C Fabian Panse II Duplikaterkennung & Datenfusion / 70

14 Suchraumreduzierung Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwertmatching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse II Duplikaterkennung & Datenfusion / 70

15 Suchraumreduzierung Suchraumreduzierung - Motivation Iterative Verfahren haben quadratische Komplexität Gegeben: n Tupel n (n 1) 2 paarweise Vergleiche Paarweiser Vergleich aller Tupel zu ineffizient Herausfiltern klarer Unmatches mit wenig Aufwand Teure Vergleiche nur für potentielle Duplikatpaare False Negatives (geminderte Effektivität) schlimmer als False Positives (geminderte Effizienz) Fabian Panse II Duplikaterkennung & Datenfusion / 70

16 Suchraumreduzierung Suchraumreduzierung - Motivation Fabian Panse II Duplikaterkennung & Datenfusion / 70

17 Suchraumreduzierung Schlüsselbasierte Suchraumreduzierung Meisten Reduzierungsverfahren basieren auf der Nutzung von Schlüsseln Eine Schlüsseldefinition ist eine Funktion die angibt wie ein Stringwert aus einem Tupel extrahiert wird Beispiel: Konkateniere die ersten drei Buchstaben des Vornamens mit den ersten zwei Buchstaben des Nachnames Mit Hilfe der Schlüsseldefinition wird von jedem Tupel ein Schlüssel extrahiert Die Schlüssel werden dann verwendet um zu bestimmen welche Tupelpaare im Suchraum verbleiben Fabian Panse II Duplikaterkennung & Datenfusion / 70

18 Suchraumreduzierung Standard Blocking Eingabe: Schlüsseldefinition [Optional] Codierungsfunktion Vorgehensweise: Bildung eines Schlüssels für jedes Tupel [Optional] Codierung des Schlüssels (z.b. Soundex Code) Blockbildung: Ein Block pro Schlüssel (Hashing) Zwei Tupel im selben Block bilden ein Kandidatenpaar Fabian Panse II Duplikaterkennung & Datenfusion / 70

19 Suchraumreduzierung Standard Blocking (Beispiel) Fabian Panse II Duplikaterkennung & Datenfusion / 70

20 Suchraumreduzierung Standard Blocking Stärken: Einfach zu Implementieren Schnell ( billig ) auszuführen Schwächen: Größte Block bestimmt Größe des Suchraumes Verfahren ineffektiv sobald ein Block groß ist Paarvergleich nur bei Schlüsselgleichheit Langer Schlüssel: Kleine Blöcke aber viele False Negatives Kurzer Schlüssel: Wenige False Negatives aber große Blöcke Fabian Panse II Duplikaterkennung & Datenfusion / 70

21 Suchraumreduzierung Sorted Neighborhood Method Eingabe: Schlüsseldefinition Fenstergröße w Vorgehensweise: Bildung eines Schlüssels für jedes Tupel Sortieren aller Tupel nach Schlüssel Ein Fenster der Größe w läuft über die sortierte Tupel-Liste Zwei Tupel im selben Fenster bilden ein Kandidatenpaar Fabian Panse II Duplikaterkennung & Datenfusion / 70

22 Suchraumreduzierung Sorted Neighborhood Method (Beispiel) Fabian Panse II Duplikaterkennung & Datenfusion / 70

23 Suchraumreduzierung Sorted Neighborhood Method Stärken: Überlappende Blöcke (Schlüssel müssen nicht mehr gleich sein) Genaue Vorhersage über resultierende Suchraumgröße möglich Schwächen: Fenstergröße vs. Häufigkeit von Schlüsselwerten Tupel mit sehr ähnlichen Schlüsseln werden evtl. nicht verglichen (Lsg.: variable Fenstergröße) Fabian Panse II Duplikaterkennung & Datenfusion / 70

24 Suchraumreduzierung Suffix-Array Based Blocking Eingabe: Schlüsseldefinition Minimale Suffixlänge l s Minimale Blockgröße l b Vorgehensweise: Bildung eines Schlüssels für jedes Tupel Bildung der Suffixe der Länge l l s von allen Schlüsseln Blockbildung: Ein Block pro Suffix ( mehrere Schlüssel pro Tupel) Entfernung aller Blöcke mit mehr als l b Einträgen Zwei Tupel im selben Block bilden ein Kandidatenpaar Fabian Panse II Duplikaterkennung & Datenfusion / 70

25 Suchraumreduzierung Id BKV Suffixe l mbs = 3 gesetzt. R1 Die Catherine Minimumcatherine, Suffix Length atherine, wirdtherine, auf l ms herine, = 4 gesetzt. erine, Folgende rine Tabelle zeigt für jedes R2 Tupel Katherina die resultierenden katherina, Suffixe. atherina, therina, herina, erina, rina R3 Catherina catherina, atherina, therina, herina, erina, rina Id R4 BKV Catrina Suffixe catrina, trina, rina R1 R5 Catherine Katrina catherine, katrina, trina, atherine, rina therine, herine, erine, rine R2 Katherina katherina, atherina, therina, herina, erina, rina Nun werden R3 die Catherina Suffixe mit catherina, den Referenzen atherina, auf therina, ihr Quelltupel herina, erina, den rinasortierten invertierten Index R4 eingefügt. Catrina Das catrina, Suffix trina, rina rina ist zu allgemeingültig und wird, da es die R5 Katrina katrina, trina, rina Maximum Block Size überschreitet, gelöscht. Suffix-Array Based Blocking (Beispiel) Nun werden die Suffix Suffixe mit Identifier ReferenzenSuffix auf ihr Quelltupel Identifierin den sortierten invertierten Index eingefügt. atherina Das R2,R3 Suffix rina ist herine zu allgemeingültig R1 und wird, da es die Maximum Block Size atherine überschreitet, R1 gelöscht. katherina R2 atrina R4,R5 katrina R5 Suffix catherina Identifier R3 Suffix rina Identifier R2,R3,R4,R5 atherina catherine R2,R3 R1 herine R1 atherine catrina R1 R4 katherina R2,R3 atrina erina R4,R5 R2,R3 katrina therine R5 R1 catherina erine R3 R1 trina R2,R3,R4,R5 R4,R5 catherine herina R1 R2,R3 rine R1 catrina R4 therina R2,R3 Die resultierenden erinablöcke sind R2,R3alle Tupelmengen therinemit mehr R1 als einem Eintrag. Damit Fabian Panse II Duplikaterkennung & Datenfusion / 70

26 Suchraumreduzierung Suffix-Array Based Blocking Stärken: Wie Standard Blocking, aber löst das Problem der Schlüssellänge benutzt pro Tupel den kürzesten Schlüssel der nicht zu einem großen Block führt Schwächen: Fehler am Ende der Schlüssel werden nicht kompensiert Verfahren einmal für Suffix und einmal für Präfix (der Präfix eines Strings entspricht dem Suffix des gespiegelten Strings) Mergen von Blöcken ähnlicher Suffixe Fabian Panse II Duplikaterkennung & Datenfusion / 70

27 Suchraumreduzierung Schlüsselbasierte Suchraumreduzierung Stärken: Effiziente Berechnung Leicht an unterschiedliche Domänen anpassbar Schwächen: Große Abhängigkeit von der Wahl des Schlüssels Multi-pass Verfahren Ein Durchlauf pro Schlüsseldefinition Vereinigung der produzierten Suchräume (Bsp. Füge dem Suchraum alle Paare hinzu die in mindestens 2 Durchläufen als Kandidat deklariert wurden) Fabian Panse II Duplikaterkennung & Datenfusion / 70

28 Suchraumreduzierung weitere Suchraumreduzierungsverfahren Q-gram Indexing Canopy Clustering K-way Sorting Similarity-Aware Inverted Indexing String-Map basiertes Blocking LSH basiertes Blocking Sorted Blocks Priority Queue TI-similarity basiertes Blocking Spectral Neighborhood Blocking Blocking mit MFIBlocks Iteratives Blocking Fuzzy Blocking Paralleles Blocking mit Map-Reduce Fabian Panse II Duplikaterkennung & Datenfusion / 70

29 Attributwert Matching Attributwert Matching Für jedes Kandidatenpaar wird ein Vergleichsvektor berechnet c = c 1,..., c n, c i [0, 1] Der Vektor enthält normierte Ähnlichkeiten zwischen Attributwerten Ähnlichkeitsberechnung durch String Matching (z.b. Levenshtein, Monge-Elkan, Kosinus, etc.) Üblich: Nur Vergleiche von Werten gleicher Attribute Eine Vektorposition pro Attribut Attributübergreifende Vergleiche können nützlich sein, wenn: Attributwerte vertauscht sein können (z.b. Vor- und Nachname) der erste Wert in dem zweiten codiert sein kann (z.b. Name in ) Fabian Panse II Duplikaterkennung & Datenfusion / 70

30 Entscheidungsmodell Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwertmatching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse II Duplikaterkennung & Datenfusion / 70

31 Entscheidungsmodell Entscheidungsmodell Input: Ein Tupelpaar {t i, t j }, Vergleichsvektor c(t i, t j ) Ausgabe: Entscheidung ob t i und t j Duplikate sind (samt Ähnlichkeit) Grundidee: Berechnung einer Ähnlichkeit/Distanz zwischen beiden Tupeln Nutzen eines Thresholds um Tupelpaar als Match oder Unmatch zu klassifizieren Häufig Verwendung einer dritten Klasse: Possible Matches Possible Matches müssen später von einem Domänexperten manuell begutachtet werden Fabian Panse II Duplikaterkennung & Datenfusion / 70

32 Entscheidungsmodell Entscheidungsmodell θ U/P θ P/M candidate pair UNMATCHES POSSIBLE MATCHES MATCHES 0 sim 1 1 dst 0 Fabian Panse II Duplikaterkennung & Datenfusion / 70

33 Entscheidungsmodell Distanzbasierte Ansätze Ähnlichkeitsberechnung: Jedes Tupel als langen String betrachten und Stringähnlichkeitsmaß (z.b. Levenshtein, Monge-Elkan, Kosinus, etc.) verwenden (in diesem Fall wird der Vergleichsvektor nicht genutzt) Gewichteter Durchschnitt aller Attributähnlichkeiten Maximales 1:1 Matching zwischen den Attributwerten beider Tupel (wenn Attributübergreifende Ähnlichkeiten existieren) Distanz im Vektorraum Fabian Panse II Duplikaterkennung & Datenfusion / 70

34 Entscheidungsmodell Distanz im Vektorraum Vergleichsvektor c(t i, t j ) = c 1,..., c n wird als Punkt P in einem n dimensionalen Vektorraum betrachtet Der Punkt 0 = (0, 0,..., 0) steht für sichere Nichtduplikate Der Punkt 1 = (1, 1,..., 1) steht für sichere Duplikate Berechnung der Ähnlichkeit zwischen t i und t j mit Hilfe eines Distanzmaßes dst Wahl des Distanzmaß dst: euklidische Distanz Manhattan Distanz etc. sim = 1 dst(0, P) dst(0, 1) Fabian Panse II Duplikaterkennung & Datenfusion / 70

35 Entscheidungsmodell Regelbasierte Ansätze Grundidee: Domänenexperte definiert Regeln die bestimmen wann zwei Tupel Duplikate oder Nichtduplikate sind Formale Beschreibung: Prämisse Schlussfolgerung Die Prämisse ist gewöhnlich ein Prädikat in konjunktiver Normalform: Prämisse = (term 1,1 term 1,2...)... (term n,1 term n,2...) Die Schlussfolgerung ist Match oder Unmatch Fabian Panse II Duplikaterkennung & Datenfusion / 70

36 Entscheidungsmodell Regelbasierte Ansätze Einfacher Ansatz: Menge an positiven Regeln (Schlussfolgerung ist Match) Wenn eine Regel feuert wird das Tupelpaar als Match klassifiziert Wenn keine Regel feuert wird das Tupelpaar als Unmatch klassifiziert Reihenfolge in der die Regeln geprüft werden ist irrelevant Profilbasierte Ansatz: Positive Regeln (Schlussfolgerung ist Match) und negative Regeln (Schlussfolgerung ist Unmatch) Regel werden der Reihe nach geprüft bis eine feuert Reihenfolge in der die Regeln geprüft werden ist relevant Fabian Panse II Duplikaterkennung & Datenfusion / 70

37 Entscheidungsmodell Regelbasierte Ansätze (Beispiel) R 1 : ( c(fname, fname) > 0.6) ( c(lname, lname) > 0.8) ( c(dob, DoB) = 1.0) Match R 2 : ( c(fname, lname) > 0.6) ( c(lname, fname) > 0.8) ( c(dob, DoB) = 1.0) Match R 3 : ( c(lname, fname) > 0.6) ( c(fname, lname) > 0.8) ( c(dob, DoB) = 1.0) Match R 4 : ( c(lname, lname) 0.5) ( c(country, country) 1.0) Unmatch R 5 : ( c(lname, ) > 0.5) ( c(fname, ) > 0.5) Match R default : True Unmatch Fabian Panse II Duplikaterkennung & Datenfusion / 70

38 Entscheidungsmodell Clusterbasierte Ansätze Grundidee: Verwendung von hierarchischen Clusteringverfahren (gegeben Threshold θ) Initialisiere alle Tupel als einelementige Cluster Bis die größte gefundene Ähnlichkeit kleiner als θ ist, tue Berechne die Ähnlichkeit zwischen allen Clustern Ist die größte gefundene Ähnlichkeit größer als θ vereine die beiden betreffenden Cluster Fabian Panse II Duplikaterkennung & Datenfusion / 70

39 Entscheidungsmodell Clusterbasierte Ansätze similarity 1 Θ Iteration 3 Iteration 2 Iteration 1 0 t 1 t 2 t 3 t 4 t 5 Fabian Panse II Duplikaterkennung & Datenfusion / 70

40 Entscheidungsmodell Clusterbasierte Ansätze Wie definiert man die Ähnlichkeit zwischen zwei Clustern? Average Link: durchschnittliche Ähnlichkeit der Cluster-Tupel Complete Link: maximale Ähnlichkeit der Cluster-Tupel Single Link: minimale Ähnlichkeit der Cluster-Tupel Canonical Entity: bilde ein kanonisches Tupel per Cluster und nehme die Ähnlichkeit der kanonischen Tupel as Clusterähnlichkeit Fabian Panse II Duplikaterkennung & Datenfusion / 70

41 Entscheidungsmodell Statistische Ansätze Grundidee: Berechne die Wahrscheinlichkeiten, dass der Vergleichsvektor typisch für ein Match (kurz M) bzw. Unmatch (kurz U) ist Klassifiziere das Tupelpaar als Match wenn die Wahrscheinlichkeit dafür größer ist als für ein Unmatch { M, if Pr(M c) Pr(U c) classify(t i, t j ) = U, otherwise. Da es unendliche viele Vergleichsvektoren gibt, lassen sich die Wahrscheinlichkeiten nicht statistisch bestimmen Benutzung eines Matching Pattern Fabian Panse II Duplikaterkennung & Datenfusion / 70

42 Entscheidungsmodell Statistische Ansätze Vorgehensweise: Transformiere den Vergleichsvektor in ein Matching Pattern Ein Matching Pattern ist ein n-dimensionaler Vektor p auf einem endlichen Wertebereich p = p 1,..., p n, p i {1, 2,..., k} Berechne die Wahrscheinlichkeiten, dass p typisch für einen Match bzw. Unmatch ist Pr( p M) = p i=1 Pr( p U) = p i=1 Pr( p[i] M) Pr( p[i] U) Fabian Panse II Duplikaterkennung & Datenfusion / 70

43 Entscheidungsmodell Statistische Ansätze Vorgehensweise: Klassifiziere {t i, t j } basierend auf diesen Wahrscheinlichkeiten ( ) ( ) Pr( p M) Pr(U) M, if log classify(t i, t j ) = 2 log Pr( p U) 2, Pr(M) U, otherwise. Vorraussetzungen: Schätzungen oder statistische Erhebungen für die einzelnen Wahrscheinlichkeiten Pr( p[i] M) Fabian Panse II Duplikaterkennung & Datenfusion / 70

44 Entscheidungsmodell Statistische Ansätze (Beispiel) Binäres Pattern: probability patterns Fabian Panse II Duplikaterkennung & Datenfusion / 70

45 Entscheidungsmodell Statistische Ansätze (Beispiel) Binäres Pattern: increasing false positives θ P/M θ U/P increasing false negatives probability MATCH POSSIBLE MATCH UNMATCH patterns Fabian Panse II Duplikaterkennung & Datenfusion / 70

46 Entscheidungsmodell Statistische Ansätze (Beispiel) Ternäres Pattern: probability patterns Fabian Panse II Duplikaterkennung & Datenfusion / 70

47 Entscheidungsmodell Statistische Ansätze (Beispiel) Ternäres Pattern: probability increasing false positives θ P/M θ U/P increasing false negatives MATCH POSSIBLE MATCH UNMATCH patterns Fabian Panse II Duplikaterkennung & Datenfusion / 70

48 Entscheidungsmodell Lernbasierte Ansätze Unüberwachte Lernverfahren: keine Trainingsdaten erforderlich Überwachte Lernverfahren: Trainingsdaten erforderlich Trainingsdaten sind Tupelpaare bei denen wir wissen, ob sie Duplikate sind oder nicht labeled training vectors 2. learn classifier learned classifier 1. select & label training vectors 4. classify all unlabeled vectors 3. select all unlabeled vectors comparison vectors matching classes Fabian Panse II Duplikaterkennung & Datenfusion / 70

49 Entscheidungsmodell Unüberwachte Lernverfahren Constrained Clustering: Clustern der Vergleichsvektoren in zwei Cluster (z.b. 2-Means) Markiere das Cluster das sich näher am Punkt 1 = (1, 1,..., 1) befindet als Menge der Matches Vorteil: voll automatisch Nachteil: oft keine klare Grenze zwischen den Clustern Unconstrained Clustering: Verwendung eines Verfahren das keine Clusterzahl vorgibt Domänexperte klassifiziert pro Cluster ein Tupelpaar per Hand und adoptiert das Ergebnis für alle Paare des Clusters Vorteil: klare Clustergrenzen Nachteil: semi-automatisch Fabian Panse II Duplikaterkennung & Datenfusion / 70

50 Entscheidungsmodell Überwachte Lernverfahren Entscheidungsbäume: Startet mit der Menge aller Trainingsvektoren Splittet diese Menge Schritt für Schritt in zwei Untermengen bis alle Vektoren einer Menge gleich gelabelt sind In jeder Runde wird versucht die Vektoreneigenschaft für den besten Split zu finden Als Splitkriterium wird häufig der Information Gain oder der Giny Index verwendet Das Ergebnis kann als eine Menge an Regeln betrachtet werden Fabian Panse II Duplikaterkennung & Datenfusion / 70

51 Entscheidungsmodell Einleitung Distanzbasiert Regelbasiert Maschinelles Lernen (ML) Referenzen Entscheidungsbäume (Beispiel) Überwachtes ML Entscheidungsbäume V Beispiel: IF D Titel >= 0.55 AND D Studio >= 0.5 THEN MATCHED. Neuere Methoden zur Entscheidungsfindung in der Duplikatenerkennung Steffen Friedrich Fabian Panse II Duplikaterkennung & Datenfusion / 70

52 Entscheidungsmodell Überwachte Lernverfahren Support-Vector Machines: Betrachtet Vergleichsvektoren als Punkte in mehrdimensionalen Vektorraum Erzeugt eine Hyperebene welche die Trainingspunkte in zwei Klassen teilt Dabei gilt: Alle gleichgelabelten Vektoren befinden sich in der selben Klasse Die Distanz zwischen dem nächsten Vektor und der Hyperebene ist maximiert Problem: Lineare Separierung der Vektoren oft nicht möglich Kernel trick: Transformation in einen höher dimensionalen Raum und Rücktransformation der Hyperebene in eine nicht lineare Funktion Fabian Panse II Duplikaterkennung & Datenfusion / 70

53 Entscheidungsmodell Einleitung Distanzbasiert Regelbasiert Maschinelles Lernen (ML) Referenzen Support-Vector Machines (Beispiel) Überwachtes ML Support Vector Machines (SVM) II Neuere Methoden zur Entscheidungsfindung in der Duplikatenerkennung Steffen Friedrich Fabian Panse II Duplikaterkennung & Datenfusion / 70

54 Duplikat Clustering Duplikaterkennung - Prozessablauf Datenreinigung (Standardisierung, Entfernung einfacher Fehler) Suchraumreduzierung (Effizienzerhöhung) Attributwertmatching (Messen von Attributwertähnlichkeiten) Entscheidungsmodell (ähnlichkeitsbasierte Entscheidungsfindung) Duplikat Clustering (Clustern der paarweisen Entscheidungen) Verifikation (Abschätzung der Ergebnisqualität) Unbereinigte Tupelmenge Tupel Partitionierung Entscheidungsmodell Datenreinigung Attributwert Matching Suchraumreduzierung Duplikat Clustering Verifikation Fabian Panse II Duplikaterkennung & Datenfusion / 70

55 Duplikat Clustering Duplikat Clustering - Motivation Input: Eine Menge an paarweisen Duplikatsentscheidungen Diese Entscheidungen sind unabhängig voneinander getroffen wurden und können in Konflikt stehen Beispiel: {A, B} und {A, C} sind Matches aber {B, C} ist ein Unmatch. Da Identität aber transitiv ist, kann das nicht sein Ziel: Finden eines Duplikatclusterings das möglichst wenige der paarweise Entscheidungen revidiert Fabian Panse II Duplikaterkennung & Datenfusion / 70

56 Duplikat Clustering Duplicate-Pair Graph Viele Verfahren basieren auf dem Duplicate-Pair Graph Graph besitzt Tuple als Knoten Zwei Knoten sind mit einer Kante verbunden, wenn die zugehörigen Knoten als Match klassifiziert wurden Die Ähnlichkeit beider Tupel wird als Kantengewicht genutzt Fabian Panse II Duplikaterkennung & Datenfusion / 70

57 Duplikat Clustering Partitioning based on Connected Components Berechnet die Komponenten des Duplicate-Pair Graphs Entspricht der transitive Hülle aller gefundenen Matches Problem: Produziert große Cluster Produziert häufig eine große Zahl an False Positives Fabian Panse II Duplikaterkennung & Datenfusion / 70

58 Duplikat Clustering Partitioning based on Centers Grundidee: Wählt einige Knoten des Duplicate-Pair Graphs als Center Weist jeden Knoten seinem nächsten Center zu Problem: Produziert kleine Cluster Produziert häufig eine große Zahl an False Negatives Fabian Panse II Duplikaterkennung & Datenfusion / 70

59 Duplikat Clustering Partitioning based on Centers Vorgehensweise: Sortiere alle Kanten absteigend nach Gewicht Itertiere über die sortierte Liste und wählt eine Kante 1. Beide Knoten gehören schon einem Cluster an Es passiert nichts 2. Nur ein Knoten gehört einem Cluster an, aber ist kein Center Der clusterlose Knoten wird als neues Center gewählt 3. Nur ein Knoten gehört einem Cluster an und ist ein Center Der clusterlose Knoten wird dem anderen Cluster hinzugefügt 4. Keiner der Knoten gehört bereits zu einem Cluster Einer der beiden Knoten wird als neues Center gewählt und der andere Knoten wird dessem Cluster hinzugefügt Fabian Panse II Duplikaterkennung & Datenfusion / 70

60 Duplikat Clustering Edge Removal Grundidee: Entfernt solange die Kante mit dem kleinsten Gewicht vom Duplicate-Pair Graph bis ein Stopp Kriterium erfüllt ist Verwendet die Komponenten des modifizierten Graphen als Cluster Typisches Stopp Kriterium: Der kürzeste Pfad zwischen jedem Knotenpaar ist kleiner als n Kann für jede Komponente separat ausgeführt werden (entfernt weniger Kanten) Problem: Kann berechnungsintensiv sein Entfernte Kanten können neue längste kürzeste Pfade erzeugen Eine große Zahl von Kanten wird entfernt werden Fabian Panse II Duplikaterkennung & Datenfusion / 70

61 Duplikat Clustering Edge Removal Fabian Panse II Duplikaterkennung & Datenfusion / 70

62 Datenfusion Agenda 1 Duplikaterkennung Einleitung Verifikation Suchraumreduzierung Attributwert Matching Entscheidungsmodell Duplikat Clustering 2 Datenfusion Fabian Panse II Duplikaterkennung & Datenfusion / 70

63 Datenfusion Überblick Datenfusion [NL06] Nach Duplikaterkennung: Kombination von Duplikaten, so dass im Ergebnis keine Entität der Realwelt mehr als einmal repräsentiert ist Ergebnisdatensätze angereichert mit Datenwerten aus unterschiedlichen Quellen (intensionale Komplementierung) Datenwerte aus unterschiedlichen Quellen können sich widersprechen (Datenkonflikte) Fabian Panse II Duplikaterkennung & Datenfusion / 70

64 Datenfusion Datenkonflikte amazon.de Konflikt kann auch mit NULL-Wert herrschen H. Melville $3.98 ID Herman Melville Moby Dick $5.99 bol.de Fabian Panse II Duplikaterkennung & Datenfusion / 70

65 Datenfusion Konfliktbeziehungen [NL06] 1 Gleichheit: Die Tupel sind in allen Attributwerten. 2 Subsumption: Ein Tupel subsumiert ein anderes, wenn es weniger Nullwerte hat und in jedem Attribut mit einem Nicht-Nullwert den gleichen Wert wie das andere Tupel besitzt. 3 Komplementierung: ein Tupel komplementiert ein anderes, wenn keines der beiden das andere subsumiert und wenn es für jedes Attribut mit einem Nicht-Nullwert entweder den gleichen Wert wie das andere Tupel hat oder das andere Tupel an dieser Stelle einen Nullwert besitzt. 4 Konflikt: Bei Konflikten gibt es mindestens ein Attribut, in dem beide Tupel unterschiedliche Werte haben, die nicht null sind. Fabian Panse II Duplikaterkennung & Datenfusion / 70

66 Datenfusion Konfliktbeziehungen Beispiele [NL06] Film ID titel regisseur jahr studio t 1 1 Alien Scott 1980 Fox t 2 1 Alien Scott 1980 Fox t 3 1 Alien Scott 1980 null t 4 1 Alien null 1980 null t 5 1 Alien Scott 1982 MGM t 6 1 Alien null 1980 MGM Fabian Panse II Duplikaterkennung & Datenfusion / 70

67 Datenfusion Konfliktlösungsfunktion f (x, y) := null wenn x = null y = null x wenn y = null x null y wenn x = null y null g(x, y) }{{} interne Konfliktlösungsfkt. sonst Fabian Panse II Duplikaterkennung & Datenfusion / 70

68 Datenfusion Interne Konfliktlösungsfunktionen Numerisch: sum, avg, max, min,... Nicht-numerisch: maxlength, concat,... Spezialisiert: random, count, choose, favor, maxiq,... Domänen-spezifisch Fabian Panse II Duplikaterkennung & Datenfusion / 70

69 Datenfusion Literatur [NL06] Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, In German. Fabian Panse II Duplikaterkennung & Datenfusion / 70

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme Komplexe Informationssysteme Fabian Panse panse@informatik.uni-hamburg.de Universität Hamburg Duplikaterkennung Fabian Panse Duplikaterkennung 2 Duplikaterkennung - Motivation Daten sind häufig von Qualitätsmängeln

Mehr

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme Komplexe Informationssysteme Fabian Panse panse@informatik.uni-hamburg.de Universität Hamburg Duplikaterkennung Fabian Panse Duplikaterkennung 2 Duplikaterkennung - Motivation Daten sind häufig von Qualitätsmängeln

Mehr

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme

Duplikaterkennung. Fabian Panse. Universität Hamburg. Komplexe Informationssysteme Komplexe Informationssysteme Fabian Panse panse@informatik.uni-hamburg.de Universität Hamburg Duplikaterkennung Fabian Panse Duplikaterkennung 2 Duplikaterkennung - Motivation Daten sind häufig von Qualitätsmängeln

Mehr

Data Lineage / Data Fusion

Data Lineage / Data Fusion Data Lineage / Data Fusion Dr. Armin Roth arminroth.de 27.04.2013 Dr. Armin Roth (arminroth.de) II Data Lineage / Data Fusion 27.04.2013 1 / 38 Agenda 1 Data Lineage Herkunft existierender Daten Herkunft

Mehr

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17 Dr. Armin Roth arminroth.de 27.04.2013 Dr. Armin Roth (arminroth.de) II Duplikaterkennung 27.04.2013 1 / 17 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de)

Mehr

Seminar Duplikaterkennung

Seminar Duplikaterkennung Seminar Duplikaterkennung Themenvorstellung Sascha Szott (FG Informationssysteme, HPI) 16. April 2008 Themenvorstellung 1 Yan et al.: Adaptive Sorted Neighborhood Methods for Efficient Record Linkage (dazu:

Mehr

Workshop Datenreinigung Duplikaterkennung Felix Naumann

Workshop Datenreinigung Duplikaterkennung Felix Naumann Workshop Datenreinigung Duplikaterkennung 11.10.2011 Felix Naumann Überblick 2 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode

Mehr

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume 4. Klassifikation Inhalt 4.1 Motivation 4.2 Evaluation 4.3 Logistische Regression 4.4 k-nächste Nachbarn 4.5 Naïve Bayes 4.6 Entscheidungsbäume 4.7 Support Vector Machines 4.8 Neuronale Netze 4.9 Ensemble-Methoden

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Clustern: Voraussetzungen

Clustern: Voraussetzungen Clustering Gruppen (Cluster) ähnlicher Elemente bilden Elemente in einem Cluster sollen sich möglichst ähnlich sein, u. den Elementen in anderen Clustern möglichst unähnlich im Gegensatz zu Kategorisierung

Mehr

Klassifikation und Ähnlichkeitssuche

Klassifikation und Ähnlichkeitssuche Klassifikation und Ähnlichkeitssuche Vorlesung XIII Allgemeines Ziel Rationale Zusammenfassung von Molekülen in Gruppen auf der Basis bestimmter Eigenschaften Auswahl von repräsentativen Molekülen Strukturell

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine

Mehr

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten Projektgruppe Jennifer Post Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten 2. Juni 2010 Motivation Immer mehr Internet-Seiten Immer mehr digitale Texte Viele Inhalte ähnlich oder gleich

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Seminar Duplikaterkennung Organisatorisches und Themen. Sascha Szott, Felix Naumann

Seminar Duplikaterkennung Organisatorisches und Themen. Sascha Szott, Felix Naumann Seminar Duplikaterkennung Organisatorisches und Themen Sascha Szott, Felix Naumann Ziele des Seminars 2 Duplikaterkennung Verstehen in allen Facetten Konsolidierung von Algorithmen Benchmarking / Testing

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

Informationsqualität Antrittsvorlesung am

Informationsqualität Antrittsvorlesung am Informationsqualität Antrittsvorlesung am 26.4.2007 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Informationsqualität Informationsintegration Duplikaterkennung Ähnlichkeit

Mehr

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern Chahine Abid Bachelor Arbeit Betreuer: Prof. Johannes Fürnkranz Frederik Janssen 28. November 2013 Fachbereich Informatik Fachgebiet Knowledge

Mehr

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten Albert-Ludwigs-Universität zu Freiburg 13.09.2016 Maximilian Dippel max.dippel@tf.uni-freiburg.de Überblick I Einführung Problemstellung

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume

INTELLIGENTE DATENANALYSE IN MATLAB. Überwachtes Lernen: Entscheidungsbäume INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Entscheidungsbäume aus großen Datenbanken: SLIQ

Entscheidungsbäume aus großen Datenbanken: SLIQ Entscheidungsbäume aus großen Datenbanken: SLIQ C4.5 iteriert häufig über die Trainingsmenge Wie häufig? Wenn die Trainingsmenge nicht in den Hauptspeicher passt, wird das Swapping unpraktikabel! SLIQ:

Mehr

Datenqualität und Datenreinigung

Datenqualität und Datenreinigung Datenqualität und Datenreinigung FGBS Herbsttreffen 10. November 2011 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen 2 Lerneinheit 3: Greedy Algorithmen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2016 10.5.2016 Einleitung Einleitung Diese Lerneinheit

Mehr

2. Klausur Datenstrukturen und Algorithmen SS 2014

2. Klausur Datenstrukturen und Algorithmen SS 2014 Prof. aa Dr. E. Ábrahám F. Corzilius, S. Schupp, T. Ströder 2. Klausur Datenstrukturen und Algorithmen SS 2014 Vorname: Nachname: Studiengang (bitte genau einen markieren): Informatik Bachelor Informatik

Mehr

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus

Motivation. Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus 3. Klassifikation Motivation Klassifikationsverfahren sagen ein abhängiges nominales Merkmal anhand einem oder mehrerer unabhängiger metrischer Merkmale voraus Beispiel: Bestimme die Herkunft eines Autos

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Musterlösung für das 7. Übungsblatt Aufgabe 1 Gegeben sei folgende Beispielmenge: Day Outlook Temperature Humidity Wind PlayTennis D1? Hot High Weak No D2 Sunny

Mehr

Informatik II, SS 2016

Informatik II, SS 2016 Informatik II - SS 208 (Algorithmen & Datenstrukturen) Vorlesung 4 (..208) Graphenalgorithmen III Algorithmen und Komplexität Bäume Gegeben: Zusammenhängender, ungerichteter Graph G = V, E Baum: Zusammenhängender,

Mehr

Decision Tree Learning

Decision Tree Learning Decision Tree Learning Computational Linguistics Universität des Saarlandes Sommersemester 2011 28.04.2011 Entscheidungsbäume Repräsentation von Regeln als Entscheidungsbaum (1) Wann spielt Max Tennis?

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 17 (8.7.2014) Minimale Spannbäume II Union Find, Prioritätswarteschlangen Algorithmen und Komplexität Minimaler Spannbaum Gegeben: Zus. hängender,

Mehr

Clustering 2010/06/11 Sebastian Koch 1

Clustering 2010/06/11 Sebastian Koch 1 Clustering 2010/06/11 1 Motivation Quelle: http://www.ha-w.de/media/schulung01.jpg 2010/06/11 2 Was ist Clustering Idee: Gruppierung von Objekten so, dass: Innerhalb einer Gruppe sollen die Objekte möglichst

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Semestralklausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2005/06 Termin: 23. 2. 2006 Name: Vorname: Matrikelnummer:

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 017 Marc Bux, Humboldt-Universität zu Berlin Agenda 1. Vorrechnen von Aufgabenblatt 1. Wohlgeformte Klammerausdrücke 3. Teile und Herrsche Agenda 1.

Mehr

Data Mining auf Datenströmen Andreas M. Weiner

Data Mining auf Datenströmen Andreas M. Weiner Technische Universität Kaiserslautern Fachbereich Informatik Lehrgebiet Datenverwaltungssysteme Integriertes Seminar Datenbanken und Informationssysteme Sommersemester 2005 Thema: Data Streams Andreas

Mehr

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,

Mehr

Arrays. Arrays werden verwendet, wenn viele Variablen benötigt werden. Der Vorteil in Arrays liegt darin, dass man nur eine Variable deklarieren muss

Arrays. Arrays werden verwendet, wenn viele Variablen benötigt werden. Der Vorteil in Arrays liegt darin, dass man nur eine Variable deklarieren muss Arrays FTI 41 2005-09-09 Arrays werden verwendet, wenn viele Variablen benötigt werden. Der Vorteil in Arrays liegt darin, dass man nur eine Variable deklarieren muss z.b. Dim Werte(x) As Single. Wobei

Mehr

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3 Inhaltsverzeichnis 1 Einleitung 1 1.1 Definitionen, Begriffe........................... 1 1.2 Grundsätzliche Vorgehensweise.................... 3 2 Intuitive Klassifikation 6 2.1 Abstandsmessung zur Klassifikation..................

Mehr

A linear-regression analysis resulted in the following coefficients for the available training data

A linear-regression analysis resulted in the following coefficients for the available training data Machine Learning Name: Vorname: Prof. Dr.-Ing. Klaus Berberich Matrikel: Aufgabe 1 2 3 4 Punkte % % (Bonus) % (Gesamt) Problem 1 (5 Points) A linear-regression analysis resulted in the following coefficients

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 6 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 16. Mai 2018 [Letzte Aktualisierung: 18/05/2018,

Mehr

9 Minimum Spanning Trees

9 Minimum Spanning Trees Im Folgenden wollen wir uns genauer mit dem Minimum Spanning Tree -Problem auseinandersetzen. 9.1 MST-Problem Gegeben ein ungerichteter Graph G = (V,E) und eine Gewichtsfunktion w w : E R Man berechne

Mehr

Informationsintegration Große Datenräume in Web-basierten Umgebungen

Informationsintegration Große Datenräume in Web-basierten Umgebungen Informationsintegration Große Datenräume in Web-basierten Umgebungen Felix Naumann Humboldt-Universität zu Berlin naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt Fusion Datenintegration

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 4 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 24. April 2019 [Letzte Aktualisierung: 24/04/2019,

Mehr

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items

Häufige Mengen ohne Kandidatengenerierung. FP-Tree: Transaktionen. Konstruktion eines FP-Trees. FP-Tree: Items Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.)! Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree)! Stark komprimiert, vollständig

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Häufige Mengen ohne Kandidatengenerierung

Häufige Mengen ohne Kandidatengenerierung Häufige Mengen ohne Kandidatengenerierung Jiawei Han, Micheline Kamber 2006 (2nd ed.) Ziel 1: Kompression der Datenbank in eine Frequent-Pattern Tree Struktur (FP-Tree) Stark komprimiert, vollständig bzgl.

Mehr

Datenstrukturen und Algorithmen. Vorlesung 5

Datenstrukturen und Algorithmen. Vorlesung 5 Datenstrukturen und Algorithmen Vorlesung 5 Inhaltsverzeichnis Vorige Woche: Sortierte Listen Zyrkuläre Listen Verkettete Listen auf Arrays Heute betrachten wir: Skip Listen ADT Set ADT Map Iterator ADT

Mehr

Humboldt-Universität zu Berlin Berlin, den Institut für Informatik

Humboldt-Universität zu Berlin Berlin, den Institut für Informatik Humboldt-Universität zu Berlin Berlin, den 15.06.2015 Institut für Informatik Prof. Dr. Ulf Leser Übungen zur Vorlesung M. Bux, B. Grußien, J. Sürmeli, S. Wandelt Algorithmen und Datenstrukturen Übungsblatt

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Klausur zur Vorlesung Maschinelles Lernen: Symbolische Ansätze Prof. J. Fürnkranz Technische Universität Darmstadt Wintersemester 2014/15 Termin: 17. 2. 2015 Name: Vorname: Matrikelnummer: Fachrichtung:

Mehr

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse

Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Lösungen zu den Aufgaben zur Multivariaten Statistik Teil 4: Aufgaben zur Clusteranalyse 1. Erläutern Sie, wie das Konstrukt

Mehr

4.2 Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition 4.2.1

4.2 Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition 4.2.1 Allgemeines. Minimale Spannbäume: Der Algorithmus von Jarník/Prim Definition.. (a) Ein Graph G =(V, E) heißt kreisfrei, wenn er keinen Kreis besitzt. Beispiel: Ein kreisfreier Graph: FG KTuEA, TU Ilmenau

Mehr

Suchbäume. Suchbäume. Einfügen in Binären Suchbäumen. Suchen in Binären Suchbäumen. Prinzip Suchbaum. Algorithmen und Datenstrukturen

Suchbäume. Suchbäume. Einfügen in Binären Suchbäumen. Suchen in Binären Suchbäumen. Prinzip Suchbaum. Algorithmen und Datenstrukturen Suchbäume Suchbäume Prinzip Suchbaum Der Wert eines Knotens wird als Schlüssel verstanden Knoten kann auch weitere Daten enthalten, die aber hier nicht weiter betrachtet werden Werte der Schlüssel müssen

Mehr

II Heterogenität und Architekturen

II Heterogenität und Architekturen II Heterogenität und Dr. Armin Roth arminroth.de 24.04.2013 Dr. Armin Roth (arminroth.de) II Heterogenität und 24.04.2013 1 / 24 Agenda 1 Semantische Heterogenität 2 Architekturparadigmen PDMS Dr. Armin

Mehr

Lösungsvorschläge zur Hauptklausur Datenstrukturen

Lösungsvorschläge zur Hauptklausur Datenstrukturen Lösungsvorschläge zur Hauptklausur 9 9 166211663 Datenstrukturen 9. August 2003 Seite 2 Lösungsvorschlage zur Klausur vom 9.08.2003 Kurs 166211663,,Datenstrukturen" Aufgabe 1 Bei jedem rekursiven Aufruf

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Algorithmen und Datenstrukturen II

Algorithmen und Datenstrukturen II Algorithmen und Datenstrukturen II Algorithmen zur Textverarbeitung III: D. Rösner Institut für Wissens- und Sprachverarbeitung Fakultät für Informatik Otto-von-Guericke Universität Magdeburg Sommer 2009,

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Klausur Wichtige Hinweise: 2.7.07, Beginn 9 Uhr Bitte spätestens 8:4 Uhr vor Ort sein Sporthalle + Audimax Informationen

Mehr

Duplikaterkennung und Datenfusion

Duplikaterkennung und Datenfusion Duplikaterkennung und Datenfusion Kolloquium Stuttgart, 6.7.2004 Felix Naumann Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin 22.04.2004 Felix Naumann, Humboldt-Universität zu Berlin 2 Humboldt-Universität

Mehr

Vorlesung 2 KÜRZESTE WEGE

Vorlesung 2 KÜRZESTE WEGE Vorlesung 2 KÜRZESTE WEGE 34 Kürzeste Wege im Graphen Motivation! Heute:! Kürzeste Wege von einem Knoten (SSSP)! Kürzeste Wege zwischen allen Knotenpaaren (APSP)! Viele Anwendungen:! Navigationssysteme!

Mehr

Learning to Rank Sven Münnich

Learning to Rank Sven Münnich Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar

Mehr

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data

Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Diplomarbeit Using Sets of Feature Vectors for Similarity Search on Voxelized CAD Data Stefan Brecheisen Aufgabensteller: Betreuer: Dank an: Prof. Dr. Hans-Peter Kriegel Martin Pfeifle Peer Kröger, Matthias

Mehr

Support Vector Machines, Kernels

Support Vector Machines, Kernels Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt

Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt Data Mining und Maschinelles Lernen Wintersemester 2015/2016 Lösungsvorschlag für das 12. Übungsblatt 9. Februar 2016 1 Aufgabe 1: RelieF (1) Gegeben sind folgende 12 Beispiele der Wetter-Daten: ID outlook

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2009/2010 Musterlösung für das 9. Übungsblatt Aufgabe 1: Decision Trees Gegeben sei folgende Beispielmenge: Age Education Married Income Credit?

Mehr

VII Unüberwachte Data-Mining-Verfahren

VII Unüberwachte Data-Mining-Verfahren VII Unüberwachte Data-Mining-Verfahren Clusteranalyse Assoziationsregeln Generalisierte Assoziationsregeln mit Taxonomien Formale Begriffsanalyse Self Organizing Maps Institut AIFB, 00. Alle Rechte vorbehalten.

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 2017 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda: Kürzeste Wege, Heaps, Hashing Heute: Kürzeste Wege: Dijkstra Heaps: Binäre Min-Heaps Hashing:

Mehr

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut Duplikaterkennung - Motivation Masterseminar 16.4.2008 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung i Duplikaterkennung

Mehr

Viertes Übungsblatt - Musterlösung

Viertes Übungsblatt - Musterlösung Universität Karlsruhe Algorithmen für Routenplanung Fakultät für Informatik Sommersemester 2009 ITI Wagner Daniel Delling, Thomas Pajor Viertes Übungsblatt - Musterlösung Aufgabe 1: SHARC-Routing Gegeben

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen

INTELLIGENTE DATENANALYSE IN MATLAB. Evaluation & Exploitation von Modellen INTELLIGENTE DATENANALYSE IN MATLAB Evaluation & Exploitation von Modellen Überblick Schritte der Datenanalyse: Datenvorverarbeitung Problemanalyse Problemlösung Anwendung der Lösung Aggregation und Selektion

Mehr

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation Daniel Reinhold Shenja Leiser 6. Februar 2006 2/28 Gliederung Einführung Transitive Hülle Definition Iterative Algorithmen 1. Naive

Mehr

Tutoraufgabe 1 (Starke Zusammenhangskomponenten):

Tutoraufgabe 1 (Starke Zusammenhangskomponenten): für Informatik Prof. aa Dr. Ir. Joost-Pieter Katoen Allgemeine Hinweise: Datenstrukturen und Algorithmen SS1 Übungsblatt (Abgabe 4.0.01) Christian Dehnert, Friedrich Gretz, Benjamin Kaminski, Thomas Ströder

Mehr

Einführung in Support Vector Machines (SVMs)

Einführung in Support Vector Machines (SVMs) Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation

Mehr

9. Rekursion. 1 falls n 1 n (n 1)!, andernfalls. Experiment: Die Türme von Hanoi. Links Mitte Rechts. Mathematische Rekursion

9. Rekursion. 1 falls n 1 n (n 1)!, andernfalls. Experiment: Die Türme von Hanoi. Links Mitte Rechts. Mathematische Rekursion Experiment: Die Türme von Hanoi. Rekursion Mathematische Rekursion, Terminierung, der Aufrufstapel, Beispiele, Rekursion vs. Iteration Links Mitte Rechts Mathematische Rekursion Viele mathematische Funktionen

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen Lerneinheit : Kürzeste Pfade in Graphen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 016.6.01 Einleitung Diese Lerneinheit beschäftigt

Mehr

Übersicht. Datenstrukturen und Algorithmen. Das Rechenproblem: kürzeste Pfade. Übersicht. Vorlesung 17: Kürzeste Pfade (K24) Bellman-Ford Dijkstra

Übersicht. Datenstrukturen und Algorithmen. Das Rechenproblem: kürzeste Pfade. Übersicht. Vorlesung 17: Kürzeste Pfade (K24) Bellman-Ford Dijkstra Datenstrukturen und Algorithmen Vorlesung 17: (K) Joost-Pieter Katoen Lehrstuhl für Informat Software Modeling and Verification Group http://moves.rwth-aachen.de/teaching/ss-15/dsal/ 1. Juni 15 1 Joost-Pieter

Mehr

Modellierung mit künstlicher Intelligenz

Modellierung mit künstlicher Intelligenz Samuel Kost kosts@mailbox.tu-freiberg.de Institut für Numerische Mathematik und Optimierung Modellierung mit künstlicher Intelligenz Ein Überblick über existierende Methoden des maschinellen Lernens 13.

Mehr

Maschinelles Lernen und Data Mining

Maschinelles Lernen und Data Mining Semestralklausur zur Vorlesung Maschinelles Lernen und Data Mining Prof. J. Fürnkranz / Dr. G. Grieser Technische Universität Darmstadt Wintersemester 2004/05 Termin: 14. 2. 2005 Name: Vorname: Matrikelnummer:

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 122 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 123 Das Suchproblem Gegeben Menge von Datensätzen.

Mehr

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 2- WS 28/9 2-2 Data Mining WS 28/9 Übersicht

Mehr

Inductive Logic Programming Relational Data Mining

Inductive Logic Programming Relational Data Mining Hauptseminar Machine Learning Inductive Logic Programming Relational Data Mining Christoph Petzinger WS 2003/2004 Inhaltsverzeichnis 1 Relational Data Mining 3 2 Inductive Logic Programming 4 2.1 Prädikatenlogik.................................

Mehr

Einführung in die STL

Einführung in die STL Einführung in die STL Fimberger Lucia lfimberg@cosy.sbg.ac.at Nidetzky Marion mnidetzk@cosy.sbg.ac.at Was ist die STL? Abkürzung für Standard Template Library Eine generische Bibliothek Ist kaum objektorientiert,

Mehr

Matthias Treydte Fakultät für Informatik TU Chemnitz

Matthias Treydte Fakultät für Informatik TU Chemnitz Einführung MRM / LOD Matthias Treydte Fakultät für Informatik TU Chemnitz Übersicht 1. 2. 3. 4. 5. 6. 7. Wozu das Ganze? Wie kann man Polygonzüge vereinfachen? Wie sind Vereinfachungen zu bewerten? Welche

Mehr

6. Algorithmen auf Zeichenketten

6. Algorithmen auf Zeichenketten 6. Algorithmen auf Zeichenketten Motivation Wir lernen nun Algorithmen zur Lösung verschiedener elementarer Probleme auf Zeichenketten zu lösen Zeichenketten spielen eine wichtige Rolle in diversen Gebieten

Mehr

Einführung in das Maschinelle Lernen I

Einführung in das Maschinelle Lernen I Einführung in das Maschinelle Lernen I Vorlesung Computerlinguistische Techniken Alexander Koller 26. Januar 2015 Maschinelles Lernen Maschinelles Lernen (Machine Learning): äußerst aktiver und für CL

Mehr

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle

Das Suchproblem. Gegeben Menge von Datensätzen. Beispiele Telefonverzeichnis, Wörterbuch, Symboltabelle 119 4. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.1-3,2.2-3,2.3-5] 120 Das Suchproblem Gegeben

Mehr

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array

Das Suchproblem 4. Suchen Das Auswahlproblem Suche in Array Das Suchproblem Gegeben. Suchen Lineare Suche, Binäre Suche, Interpolationssuche, Exponentielle Suche, Untere Schranken [Ottman/Widmayer, Kap. 3.2, Cormen et al, Kap. 2: Problems 2.-3,2.2-3,2.3-] Menge

Mehr

Begriffsklärung: Dominanz

Begriffsklärung: Dominanz Einführung Begriffsklärung: Dominanz Gegeben: d-dimensionaler Raum, jeder Punkt p im Raum hat d Attribute: (p 1,,p d ) Definition Dominanz: 1 i d : p i p i und 1 i d : p i < p i Begriffsklärung: Dominanz

Mehr

INSERTION-SORT: Ja, Es wird immer das erste, kleinste Element an die neue Liste angehängt.

INSERTION-SORT: Ja, Es wird immer das erste, kleinste Element an die neue Liste angehängt. Aufgabe 1 INSERTION-SORT: Ja, Es wird immer das erste, kleinste Element an die neue Liste angehängt. QUICK-SORT: Hängt davon ab ob PARTITION stabil ist. MERGE-SORT: Ja, Splitten, sowie Mergen ist stabil.

Mehr

Kapitel ML: X (Fortsetzung)

Kapitel ML: X (Fortsetzung) Kapitel ML: X (Fortsetzung) X. Clusteranalyse Einordnung Data Mining Einführung in die Clusteranalyse Hierarchische Verfahren Iterative Verfahren Dichtebasierte Verfahren Cluster-Evaluierung ML: X-31 Cluster

Mehr

Counting - Sort [ [ ] [ [ ] 1. SS 2008 Datenstrukturen und Algorithmen Sortieren in linearer Zeit

Counting - Sort [ [ ] [ [ ] 1. SS 2008 Datenstrukturen und Algorithmen Sortieren in linearer Zeit Counting-Sort Counting - Sort ( A,B,k ). for i to k. do C[ i]. for j to length[ A]. do C[ A[ j ] C[ A[ j ] +. > C[ i] enthält Anzahl der Elemente in 6. for i to k. do C[ i] C[ i] + C[ i ]. > C[ i] enthält

Mehr

Semiüberwachte Paarweise Klassifikation

Semiüberwachte Paarweise Klassifikation Semiüberwachte Paarweise Klassifikation Andriy Nadolskyy Bachelor-Thesis Betreuer: Prof. Dr. Johannes Fürnkranz Dr. Eneldo Loza Mencía 1 Überblick Motivation Grundbegriffe Einleitung Übersicht der Verfahren

Mehr