Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Größe: px
Ab Seite anzeigen:

Download "Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17"

Transkript

1 Dr. Armin Roth arminroth.de Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

2 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

3 Wiederholung: Datenwertintegration Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler (z.b. Datumsformate), Inkonsistenzen (z.b. PLZ und Ortsname) Duplikate: Dasselbe Realweltobjekt mehrmals repräsentiert (in mehreren Quellen), Ziel: homogene, konsolidierte Sicht Qualität: weitere Kriterien wie z.b. Glaubwürdigkeit, Relevanz, Aktualität Vollständigkeit: Alle relevanten Realweltobjekte? Alle Attribute mit Werten befüllt? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

4 Wiederholung: Datenwertintegration Datenfehler [NL06, RD00] Datenfehler Einzelne Datenquelle Integrierte Datenquellen Schemaebene Datenebene Schemaebene Datenebene Unzulässiger Wert Attributabhängigkeit verletzt Eindeutigkeit verletzt Referenzielle Integrität verletzt Fehlende Werte Schreibfehler Falsche Werte Falsche Referenz Kryptische Werte Eingebettete Werte Falsche Zuordnung Widersprüchliche Werte Transpositionen Duplikate Strukturelle Heterogenität Semantische Heterogenität Schematische Heterogenität Widersprüchliche Werte Unterschiedliche Repräsentationen Unterschiedliche Einheiten Unterschiedliche Genauigkeit Unterschiedliche Aggregationsebenen Duplikate Datenkonflikte Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

5 Agenda Duplikaterkennung 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Quelle: Dr. Melanie Herschel, Université Paris-Sud [WN05] Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

6 Duplikaterkennung (Semi-)Automatische Erkennung verschiedener Repräsentationen eines gleichen realen Objekts Synonmye Bezeichnungen: Object identification, Record linkage, Reference reconciliation, Entity resolution, Duplicate detection, Entity matching Problemkomlexität: quadratisch (jeden Record mit jedem anderen vergleichen) Title Genre Year Director Troy Action 2004 Petersen Typo Widerspruch Fehlende Daten Troj History Petersen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

7 Verfahren zur Duplikaterkennung Duplikaterkennung Art der Daten Optimierungsfokus Methodik Einzelne relationale Tabelle Hierarchische Daten (z.b. XML) Graphen Effektivität Effizienz Skalierbarkeit Paarweise Vergleiche Clustering Learning Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

8 Iterative Algorithmen zur Duplikaterkennung Gegeben zwei Tupelmengen A und B Kernidee: Bilde Kreuzprodukt aller Tupel Für jedes Paar berechne Ähnlichkeit z.b. bzgl. Attributwerte z.b. bzgl. Fremdschlüssel Wähle Duplikatpaare aus Ähnlichste Paare bis Schwellwert Nebenbedingungen Bilde Duplikatcluster (Transitive Hülle) Probleme Anzahl Vergleiche (Effizienz) Ähnlichkeitsmaß (Effektivität) Große Datenmengen (Skalierbarkeit) Edit Distance Containment metric Sorted Neighborhood Methode Duplikaterkennung in Graphen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

9 Edit Distance [Kuk92] Maß zur Ermittlung der Ähnlichkeit zweier Zeichenketten Abstand := Anzahl an Operationen zur Überführung einer Zeichenkette S 1 in eine Zeichenkette S 2 durch Einfügung (Insert) Löschung (Delete) Ersetzung (Replace) Übereinstimmung (Match) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

10 Edit Distance Beispiel Beispiel HASE RASEN H R durch Ersetzung (R) A A durch Match (M) S S durch Match (M) E E durch Match (M) N durch Einfügung (I) Transkript: RMMMI EditDistance(HASE, RASEN) = 2 Minimal! Aber: Woher weiß man das? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

11 Sorted Neighborhood-Methode [HS98] Input Tabelle mit N Tupeln Ähnlichkeitsmaß (z.b. basierend auf Edit Distance) Output: Klassen (clusters) der äquivalenten Tupel (= Duplikate) Problem: Viele Tupel Vergleich eines jeden Tupelpaares zu aufwendig (Effizienz) Tabelle passt nicht in den Speicher (Skalierbarkeit) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

12 Sorted Neighborhood Idee Daten geschickt partitionieren nur innerhalb dieser Partitionen Duplikate suchen Algorithmus nach [HS98]: 1 Create Key: Schlüssel mittels relevanter Feldern erzeugen 2 Sort: Daten nach dem Schlüssel sortieren 3 Merge: Fenster (der Größe w) über sortierte Tupel schieben Nur Tupel innerhalb des Fensters miteinander vergleichen Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

13 Sorted Neighborhood Beispiel ID Key 17 MSKAD98 ID Title Year Genre 17 Mask of Zorro 1998 Adventure 18 Addams Family 1991 Comedy 25 Rush Hour 1998 Comedy 31 Matrix 1999 Sci-Fi 52 Return of Dschafar 1994 Children Create key DDMCO91 RSHCO98 MTRSC99 RTRCH94 DMSCO91 RTRCH Adams Family 1991 Comedie 207 Return of Djaffar 1995 Children 2. Sort classify(18,113) duplicates classify(52,207) duplicates ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Merge 3. ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

14 Sorted Neighborhood Schlüsselerzeugung Schlüssel: eine Sequenz einer Teilmenge von Attributen oder der Teilketten innerhalb der Attribute Effektivität des Algorithmus ist von Schlüsselauswahl abhängig Schlüssel ist nur virtuell und nicht eindeutig: Wird nur für Sortierung benutzt. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

15 Sorted Neighborhood Sortierung Sortierung lexikographisch nach Schlüssel Ziel: Äquivalente Tupel versammeln sich in unmittelbarer Nähe Verschiedene Methoden der Sortierung (Quicksort, AlphaSort, usw.) Insbesondere: Effiziente Sortiermethoden auf sekundärem Speicher Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

16 Sorted Neighborhood Merge Ein Fenster festgelegter Größe w wird zeilenweise durch die Liste geschoben. 2 w N Nur Tupel innerhalb eines Fensters werden verglichen. Aktuelles Fenster von Tupel w w Nächstes Fenster von Tupel Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

17 Literatur Duplikaterkennung [HS98] M. Hernandez and S. Stolfo. Real-world data is dirty: Data cleansing and the merge/purge problem. Knowledge Discovery, 2(1), 98. [Kuk92] Karen Kukich. Technique for automatically correcting words in text. ACM Computing Surveys, 24(4), [NL06] [RD00] [WN05] Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, In German. Erhard Rahm and Hong-Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), M. Weis and F. Naumann. DogmatiX tracks down duplicates in XML. In Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17

Workshop Datenreinigung Duplikaterkennung Felix Naumann

Workshop Datenreinigung Duplikaterkennung Felix Naumann Workshop Datenreinigung Duplikaterkennung 11.10.2011 Felix Naumann Überblick 2 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode

Mehr

Datenqualität und Datenreinigung

Datenqualität und Datenreinigung Datenqualität und Datenreinigung FGBS Herbsttreffen 10. November 2011 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung

Mehr

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut

Duplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut Duplikaterkennung - Motivation Masterseminar 16.4.2008 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung i Duplikaterkennung

Mehr

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23 Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus

Mehr

Informationsintegration II Data Cleansing 2 Duplikaterkennung

Informationsintegration II Data Cleansing 2 Duplikaterkennung Informationsintegration II Data Cleansing Duplikaterkennung 7.05.004 Felix Naumann Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode

Mehr

Datenwertintegration / Informationsqualität

Datenwertintegration / Informationsqualität / Dr. Armin Roth arminroth.de 26.04.2013 Dr. Armin Roth (arminroth.de) II Datenintegration 26.04.2013 1 / 18 Agenda 1 Datenwertintegration Datenreinigung Dr. Armin Roth (arminroth.de) II Datenintegration

Mehr

Duplikaterkennung. 3.7.2012 Felix Naumann

Duplikaterkennung. 3.7.2012 Felix Naumann Duplikaterkennung 3.7.2012 Felix Naumann Quality 2 Even though quality cannot be defined, you know what it is. Robert Pirsig Zoom in die Informationsqualität 3 1 Fitness for use 15 Accuracy, Objectivity,

Mehr

Informationsqualität Antrittsvorlesung am

Informationsqualität Antrittsvorlesung am Informationsqualität Antrittsvorlesung am 26.4.2007 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Informationsqualität Informationsintegration Duplikaterkennung Ähnlichkeit

Mehr

Schema Matching und Integration

Schema Matching und Integration und Integration Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Matching und Integr. 25.04.2013 1 / 26 Agenda 1 Schema Matching 2 Schema Integration Dr. Armin Roth (arminroth.de)

Mehr

Datenreinigung (Seminar)

Datenreinigung (Seminar) Datenreinigung (Seminar) Prof. Felix Naumann, Alexander Albrecht, Jana Bauckmann, Jens Bleiholder, Frank Kaufer, Melanie Weis Hasso-Plattner-Institut für Softwaresystemtechnik GmbH FB Informationssysteme

Mehr

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0

Mehr

Informationsintegration Große Datenräume in Web-basierten Umgebungen

Informationsintegration Große Datenräume in Web-basierten Umgebungen Informationsintegration Große Datenräume in Web-basierten Umgebungen Felix Naumann Humboldt-Universität zu Berlin naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt Fusion Datenintegration

Mehr

Duplikaterkennung und Datenfusion

Duplikaterkennung und Datenfusion Duplikaterkennung und Datenfusion Kolloquium Stuttgart, 6.7.2004 Felix Naumann Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin 22.04.2004 Felix Naumann, Humboldt-Universität zu Berlin 2 Humboldt-Universität

Mehr

Schema Mapping. Armin Roth 25.04.2013. arminroth.de. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23

Schema Mapping. Armin Roth 25.04.2013. arminroth.de. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Schema Mapping Armin Roth arminroth.de 25.04.2013 Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Mapping 2 Logische Mappings 3 Erzeugung der Anfragen Armin

Mehr

Vollständige Attributliste der Testdatensätze

Vollständige Attributliste der Testdatensätze Anhang U. Draisbach, Partitionierung zur effi zienten Duplikaterkennung in relationalen Daten, DOI 10.1007/978-3-8348-8289-9, Vieweg+Teubner Verlag Springer Fachmedien Wiesbaden 2012 Vollständige Attributliste

Mehr

Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST

Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Felix Naumann naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt/Data Fusion Data Amalgamation Data Consolidation

Mehr

Datenintegration. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester 2016

Datenintegration. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester 2016 Datenintegration Datenintegration Kapitel 0: Organisatorisches Dr. Anika Groß Sommersemester 2016 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Organisatorisches Termin: donnerstags,

Mehr

Konzeptueller Entwurf

Konzeptueller Entwurf Konzeptueller Entwurf UML Klassendiagrame UML Assoziationen Entspricht Beziehungen Optional: Assoziationsnamen Leserichtung ( oder ), sonst bidirektional Rollennamen Kardinalitätsrestriktionen UML Kardinalitätsrestriktionen

Mehr

Datenwertintegration / Informationsqualität

Datenwertintegration / Informationsqualität / Fabian Panse 09.09.2014 Fabian Panse II Datenintegration 09.09.2014 1 / 18 Datenreinigung Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler

Mehr

Das relationale Datenmodell

Das relationale Datenmodell Das relationale Datenmodell Konzepte Attribute, Relationenschemata, Datenbank-Schemata Konsistenzbedingungen Beispiel-Datenbank Seite 1 Einführung Zweck datenmäßige Darstellung von Objekten und Beziehungen

Mehr

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen

Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Exposé für eine Diplomarbeit Jan Hegewald Betreut von Jana Bauckmann 7. März 2007 1

Mehr

Foreign Keys. MySQL 4, 5. Kapitel 16: Fremdschlüssel. Marcel Noe

Foreign Keys. MySQL 4, 5. Kapitel 16: Fremdschlüssel. Marcel Noe MySQL 4, 5 Kapitel 16: Fremdschlüssel Gliederung 1 Gliederung 1 Fremdschlüssel sichern die Referenzielle Integrität voneinander abhängiger Tabellen. Um Fremdschlüssel definieren zu können, müssen Sie die

Mehr

Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen

Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien

Mehr

Entfernung von Duplikaten in Data Warehouses

Entfernung von Duplikaten in Data Warehouses Entfernung von Duplikaten in Data Warehouses Daniel Martens 11.09.2015, Informationsintegration, Seminar 1/41 Gliederung Problem & Motivation Domänen-unabhängige Verfahren Domänen-abhängige Verfahren DELPHI

Mehr

d.h. zu Definitions-Stelle eindeutiger Funktionswert x X! y Y : (x,y) f umgekehrt: (x 1,y), (x 2,y) f ist o.k. X Y f(x) = y

d.h. zu Definitions-Stelle eindeutiger Funktionswert x X! y Y : (x,y) f umgekehrt: (x 1,y), (x 2,y) f ist o.k. X Y f(x) = y Kapitel 7 Normalformen und DB-Entwurf Kap. 7.1 Normalformen Theorie Funktionale Abhängigkeit: f X Y f als Relation, d.h. Menge von Paaren {(x,y)} x: Definitions-Stelle, y: Funktionswert f ist Funktion

Mehr

Kapitel 2: Das Relationale Modell

Kapitel 2: Das Relationale Modell Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Datenbanksysteme I Wintersemester 2012/2013 Kapitel 2: Das Relationale

Mehr

Aufgabe 1: Integrität

Aufgabe 1: Integrität Aufgabe 1: Integrität Gegeben sei das folgende Schema: Personal: (PNR, Name, Gehalt, Abt, Vorges) a) Geben Sie das CREATE TABLE Statement an, um die Tabelle Personal zu erzeugen. Folgende Integritätsbedingungen

Mehr

Kapitel 2: Das Relationale Modell

Kapitel 2: Das Relationale Modell Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Wintersemester 2006/2007 Kapitel 2: Das Relationale Modell Vorlesung:

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Universität Innsbruck Institut für Informatik Zweite Prüfung 16. Oktober 2008 Algorithmen und Datenstrukturen Name: Matrikelnr: Die Prüfung besteht aus 8 Aufgaben. Die verfügbaren Punkte für jede Aufgabe

Mehr

Kapitel DB:IV (Fortsetzung)

Kapitel DB:IV (Fortsetzung) Kapitel DB:IV (Fortsetzung) IV. Logischer Datenbankentwurf mit dem relationalen Modell Das relationale Modell Integritätsbedingungen Umsetzung ER-Schema in relationales Schema DB:IV-46 Relational Design

Mehr

Relationales Datenbanksystem Oracle

Relationales Datenbanksystem Oracle Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information

Mehr

Seminar Data Cleansing

Seminar Data Cleansing Seminar Data Cleansing Felix Naumann Forschungsgruppe Informationsintegration Juniorprofessor: Felix Naumann Mitarbeiter Jens Bleiholder Melanie Weis (ab 1.11.) Themen Objektidentifikation Informationsintegration

Mehr

Datenstrukturen und Algorithmen 2. Klausur SS 2001

Datenstrukturen und Algorithmen 2. Klausur SS 2001 UNIVERSITÄT PADERBORN FACHBEREICH 7 (MATHEMATIK INFORMATIK) Datenstrukturen und Algorithmen 2. Klausur SS 200 Lösungsansätze Dienstag, 8. September 200 Name, Vorname:...................................................

Mehr

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets

Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren

Mehr

Verfeinerung des relationalen Schemas

Verfeinerung des relationalen Schemas Verfeinerung des relationalen Schemas Ein schlechtes Schema Filmliste Titel Regisseur Kino Telefonnummer Zeit The Hobbit Jackson Cinema City 441111 11:30 The Lord of the Rings3 Jackson Cinema City 441111

Mehr

Einführung in die Informatik II

Einführung in die Informatik II Einführung in die Informatik II Relationale Datenbanken und SQL Theorie und Anwendung Prof. Dr. Nikolaus Wulff Gründe für eine Datenbank Meist werden Daten nicht in XML-Dokumenten, sondern innerhalb einer

Mehr

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 9. Sortieren

UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 9. Sortieren UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 9 Sortieren Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69, A-4040 Linz Sortieren :: Problemstellung

Mehr

Kapitel 3: Datenbanksysteme

Kapitel 3: Datenbanksysteme LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2014 Kapitel 3: Datenbanksysteme Vorlesung:

Mehr

Daten Bank. 6. Vorlesung

Daten Bank. 6. Vorlesung Daten Bank 6. Vorlesung Prinzipien des digitalen Speicherns I Ein Datensatz sollte offensichtlich/eindeutig und schnell mit dem Objekt, welches es repräsentiert, in Verbindung gebracht werden können. ISBN

Mehr

Inhaltsverzeichnis Vorwort zur vierten Auflage Vorwort zur dritten Auflage Vorwort zur zweiten Auflage Vorwort zur ersten Auflage Hinweise zur CD

Inhaltsverzeichnis Vorwort zur vierten Auflage Vorwort zur dritten Auflage Vorwort zur zweiten Auflage Vorwort zur ersten Auflage Hinweise zur CD Vorwort zur vierten Auflage 11 Vorwort zur dritten Auflage 13 Vorwort zur zweiten Auflage 15 Vorwort zur ersten Auflage 17 Hinweise zur CD 19 1 Datenbanken und Datenbanksysteme 21 1.1 Zentralisierung der

Mehr

Programmiertechnik II

Programmiertechnik II Sortieren: Einfache Algorithmen Sortieren Abstrakte Operation geg: Menge von items (Elemente) jedes Element besitzt Sortierschlüssel Schlüssel unterliegen einer Ordnung eventuell sind doppelte Schlüssel

Mehr

Techniken des Data Merging in Integrationssystemen

Techniken des Data Merging in Integrationssystemen Techniken des Data Merging in Integrationssystemen Jens Bleiholder Humboldt-Universität zu Berlin, Institut für Informatik bleiho@informatik.hu-berlin.de Zusammenfassung Die Integration von Daten aus heterogenen

Mehr

Datenstrukturen & Algorithmen

Datenstrukturen & Algorithmen Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Sortieralgorithmen Einleitung Heapsort Quicksort 2 Motivation Sortieren ist Voraussetzung für viele Anwendungen Nach

Mehr

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer

Mehr

Datenqualität AKTUELLES SCHLAGWORT* / DATENQUALITÄT } Felix Naumann

Datenqualität AKTUELLES SCHLAGWORT* / DATENQUALITÄT } Felix Naumann AKTUELLES SCHLAGWORT* / DATENQUALITÄT } Datenqualität Felix Naumann Daten von niedriger Qualität sind in kommerziellen und wissenschaftlichen Datenbanken allgegenwärtig. Produktcodes werden falsch verwendet,

Mehr

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:

Mehr

Anwendung von Vektormodell und boolschem Modell in Kombination

Anwendung von Vektormodell und boolschem Modell in Kombination Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind

Mehr

Informationsintegration

Informationsintegration Informationsintegration Schema Matching Ulf Leser Inhalt dieser Vorlesung Schema Matching Labelbasiert Instanzbasiert Strukturbasiert Erweiterungen Globales Matching Ulf Leser: Informationsintegration

Mehr

3. Grundlagen relationaler Datenbanksysteme

3. Grundlagen relationaler Datenbanksysteme 3. Grundlagen relationaler Datenbanksysteme Hier nur kurze Rekapitulation, bei Bedarf nachlesen 3.1 Basiskonzepte des Relationenmodells 1 Darstellung der Miniwelt in Tabellenform (DB = Menge von Relationen

Mehr

FUSE BY: Syntax und Semantik zur Informationsfusion in SQL

FUSE BY: Syntax und Semantik zur Informationsfusion in SQL FUSE BY: Syntax und Semantik zur Informationsfusion in SQL Jens Bleiholder, Felix Naumann Humboldt-Universität zu Berlin {bleiho,naumann}@informatik.hu-berlin.de Abstract: Daten und Informationen heterogener

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt

Mehr

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04. CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation

Mehr

Erkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen

Erkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen Heiko Müller, Melanie Weis, Jens Bleiholder, Ulf Leser Erkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen Daten Naturwissenschaftliche Daten sind aufgrund ihres Entstehungsprozesses oft

Mehr

Algorithms & Data Structures 2

Algorithms & Data Structures 2 Algorithms & Data Structures Digital Sorting WS B. Anzengruber-Tanase (Institute for Pervasive Computing, JKU Linz) (Institute for Pervasive Computing, JKU Linz) WIEDERHOLUNG :: UNTERE SCHRANKE FÜR SORTIEREN

Mehr

Algorithmen und Datenstrukturen

Algorithmen und Datenstrukturen Algorithmen und Datenstrukturen A3. Sortieren: Selection- und Insertionsort Marcel Lüthi and Gabriele Röger Universität Basel 1. März 2018 Sortieralgorithmen Inhalt dieser Veranstaltung A&D Sortieren Komplexitätsanalyse

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 2016 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda 1. Vorstellen des vierten Übungsblatts 2. Vorbereitende Aufgaben für das vierte Übungsblatt

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 2017 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda: Kürzeste Wege, Heaps, Hashing Heute: Kürzeste Wege: Dijkstra Heaps: Binäre Min-Heaps Hashing:

Mehr

Mathematische Grundlagen III

Mathematische Grundlagen III Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten

Mehr

Datenbanksysteme SS 2013

Datenbanksysteme SS 2013 Datenbanksysteme SS 2013 Kapitel 4: Physikalische Datenorganisation Vorlesung vom 16.04.2013 Oliver Vornberger Institut für Informatik Universität Osnabrück Speicherhierarchie GB 10 GHertz TB 100 10 ms

Mehr

Informationsintegration

Informationsintegration Informationsintegration Schemaintegration Ulf Leser Wissensmanagement in der Bioinformatik Richtung Schemaintegration versus Anfragebearbeitung FDBS Schema integration Data source Data source Data source

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 7 (21.5.2014) Binäre Suche, Hashtabellen I Algorithmen und Komplexität Abstrakte Datentypen : Dictionary Dictionary: (auch: Maps, assoziative

Mehr

Objektrelationale Datenbanken

Objektrelationale Datenbanken Vorlesung Datenbanksysteme vom 26.11.2008 Objektrelationale Datenbanken Konzepte objektrelationaler DBs SQL:1999 OO vs. OR Konzepte objektrelationaler Datenbanken Große Objekte (LOBs: Large Objects) Mengenwertige

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises

Mehr

Datenbanken: Datenintegrität. www.informatikzentrale.de

Datenbanken: Datenintegrität. www.informatikzentrale.de Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten

Mehr

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Grundlagen von SQL Informatik 2, FS18 Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Markus Dahinden 13.05.18 1 Grundlagen von SQL (Structured Query Language)

Mehr

Begriffsklärung: Dominanz

Begriffsklärung: Dominanz Einführung Begriffsklärung: Dominanz Gegeben: d-dimensionaler Raum, jeder Punkt p im Raum hat d Attribute: (p 1,,p d ) Definition Dominanz: 1 i d : p i p i und 1 i d : p i < p i Begriffsklärung: Dominanz

Mehr

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth

HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere

Mehr

Entfernung von Duplikaten in Data Warehouses

Entfernung von Duplikaten in Data Warehouses Entfernung von Duplikaten in Data Warehouses Seminar: Informationsintegration, SoSe 2015 Daniel Martens University of Hamburg Hamburg, Germany 3martens@informatik.uni-hamburg.de!1 INHALTSVERZEICHNIS Einleitung.

Mehr

7.1.2 Membership-Test - fortgesetzt

7.1.2 Membership-Test - fortgesetzt 7. Formaler Datenbankentwurf 7.1. Funktionale Abhängigkeiten Seite 1 7.1.2 Membership-Test - fortgesetzt Membership-Test: X Y F +? (Attribut-)Hülle X + von X (bzgl. F) X + = {A A V und X A F + }. Membership-Test

Mehr

Definition Ein Heap (priority queue) ist eine abstrakte Datenstruktur mit folgenden Kennzeichen:

Definition Ein Heap (priority queue) ist eine abstrakte Datenstruktur mit folgenden Kennzeichen: HeapSort Allgemeines Sortieralgorithmen gehören zu den am häufigsten angewendeten Algorithmen in der Datenverarbeitung. Man hatte daher bereits früh ein großes Interesse an der Entwicklung möglichst effizienter

Mehr

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad

Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter

Mehr

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften

5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene

Mehr

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.

Seminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle. Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu

Mehr

Informationsintegration

Informationsintegration Informationsintegration Heterogenität Transparenz Ulf Leser Wissensmanagement in der Bioinformatik Klassifikationsdimensionen Verteilung Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester

Mehr

Folien zum Textbuch. Kapitel 2: Planung, Entwicklung und Betrieb von IS. Teil 3: Modellierung von betrieblichen Informationssystemen

Folien zum Textbuch. Kapitel 2: Planung, Entwicklung und Betrieb von IS. Teil 3: Modellierung von betrieblichen Informationssystemen Folien zum Textbuch Kapitel 2: Planung, Entwicklung und Betrieb von IS Teil 3: Modellierung von betrieblichen Informationssystemen Textbuch-Seiten 185-208 WI Planung, Entwicklung und Betrieb von IS IS-Modellierung

Mehr

EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS

EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS Universität Leipzig Fakultät für Mathematik und Informatik Institut für Informatik EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS Dissertation zur Erlangung des akademischen Grades

Mehr

Aufgabe 1: Verschachtelte Anfragen

Aufgabe 1: Verschachtelte Anfragen Aufgabe 1: Verschachtelte Anfragen (1 P.) (a) Betrachten Sie folgenden Ausschnitt des TPC-H Schemas: CREATE TABLE partsupp ( ps_ availqty INT, ps_ partkey INT ); CREATE TABLE lineitem ( l_ partkey INT,

Mehr

Finalklausur zur Vorlesung Datenbanksysteme I Wintersemester 2003/2004 Prüfer: Prof. R. Bayer, Ph.D. Datum: Zeit: 16.

Finalklausur zur Vorlesung Datenbanksysteme I Wintersemester 2003/2004 Prüfer: Prof. R. Bayer, Ph.D. Datum: Zeit: 16. Finalklausur zur Vorlesung Datenbanksysteme I Wintersemester 2003/2004 Prüfer: Prof. R. Bayer, Ph.D. Datum: 13.02.2004 Zeit: 16. Uhr Hinweis: Die Bearbeitungszeit beträgt 90 Minuten. Bitte benutzen Sie

Mehr

Datenbanken Entity-Relationship-Modell und Datenbankentwurf 1. Andreas Heß Hochschule Furtwangen

Datenbanken Entity-Relationship-Modell und Datenbankentwurf 1. Andreas Heß Hochschule Furtwangen Datenbanken Entity-Relationship-Modell und Datenbankentwurf 1 Andreas Heß Hochschule Furtwangen Inhalte heute Einführung ins Entity-Relationship-Modell Einführung ins relationale Modell Umsetzung vom E/R-

Mehr

Datenbanken. Zusammenfassung. Datenbanksysteme

Datenbanken. Zusammenfassung. Datenbanksysteme Zusammenfassung Datenbanksysteme Christian Moser Seite 1 vom 7 12.09.2002 Wichtige Begriffe Attribut Assoziation API Atomares Attribut Datenbasis DBMS Datenunabhängigkeit Datenbankmodell DDL DML DCL ER-Diagramm

Mehr

Entwurf von Relationalen Datenbanken (1) (mit dem Entity-Relationship-Modell)

Entwurf von Relationalen Datenbanken (1) (mit dem Entity-Relationship-Modell) In der Regel werden Diskursbereiche durch mehrere Relationen (Tabellen) abgebildet. Ziele: Entwurf von Relationalen Datenbanken (1) (mit dem Entity-Relationship-Modell) Vermeiden von Redundanz in Relationen

Mehr

Informationsintegration

Informationsintegration Informationsintegration Duplikaterkennung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Data Cleansing Duplikaterkennung Ähnlichkeitsmaße Sorted-Neighborhood Algorithmus Duplikaterkennung

Mehr

(Digital) Sorting. October 25, Algorithms & Datastructures 2 Exercises WS 2016

(Digital) Sorting. October 25, Algorithms & Datastructures 2 Exercises WS 2016 (Digital) Sorting October 2, 2016 Algorithms & Datastructures 2 Exercises WS 2016 Dipl.-Ing. University Linz, Institute for Pervasive Computing Altenberger Straße 69, A-4040 Linz kurz@pervasive.jku.at

Mehr

5.3 Datenänderung/-zugriff mit SQL (DML)

5.3 Datenänderung/-zugriff mit SQL (DML) 5.3 Datenänderung/-zugriff mit SQL (DML) Hinweis: - DML-Anweisungen sind mengenorientiert - Mit einer Anweisungen kann mehr als ein Tupel eingefügt, geändert, gelöscht oder gelesen werden Benutzungs- und

Mehr

Die Anweisung create table

Die Anweisung create table SQL-Datendefinition Die Anweisung create table create table basisrelationenname ( spaltenname 1 wertebereich 1 [not null],... spaltenname k wertebereich k [not null]) Wirkung dieses Kommandos ist sowohl

Mehr

Ausgezeichnete Arbeiten zur Informationsqualität

Ausgezeichnete Arbeiten zur Informationsqualität Ausgezeichnete Arbeiten zur Informationsqualität Herausgegeben von M. Gebauer, Hannover R. Giebichenstein, Köln Bewertungskommission des Information Quality Best Master Degree Award 2010: H. Hinrichs,

Mehr

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009

Datenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009 Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der

Mehr

Introduction to Data and Knowledge Engineering. 6. Übung SQL

Introduction to Data and Knowledge Engineering. 6. Übung SQL Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB

Mehr

Probeklausur mit Musterlösung

Probeklausur mit Musterlösung Carl-Schurz-Schule 07.03.2012 Informatik, Q2 Victor Hahn Probeklausur mit Musterlösung Ihr Name: Maximal erreichbare Anzahl Verrechnungspunkte (VP): 64 Einziges zugelassenes Hilfsmittel: Ein Blatt DIN

Mehr

Privacy-Maße k-anonymity, l-diversity, t-closeness

Privacy-Maße k-anonymity, l-diversity, t-closeness Fakultät Informatik Proseminar Datenschutz in der Anwendungsentwicklung Privacy-Maße k-anonymity, l-diversity, t-closeness Dresden, 02.05.2013 D 01 Einführung: Beispiel Geburtstag Geschlecht PLZ Krankheit

Mehr

Bioinformatik Für Biophysiker

Bioinformatik Für Biophysiker Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management

Mehr

Übung Algorithmen und Datenstrukturen

Übung Algorithmen und Datenstrukturen Übung Algorithmen und Datenstrukturen Sommersemester 2017 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda: Sortierverfahren 1. Schreibtischtest 2. Stabilität 3. Sortierung spezieller Arrays 4. Untere

Mehr

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007

Assoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007 Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden.

Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden. Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden. Die nachfolgende Tabellenform, eine sogenannte Nullform muss in eine

Mehr

Einführung in das Data Mining Clustering / Clusteranalyse

Einführung in das Data Mining Clustering / Clusteranalyse Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten

Mehr

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die

Mehr