Duplikaterkennung. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
|
|
- Linda Goldschmidt
- vor 6 Jahren
- Abrufe
Transkript
1 Dr. Armin Roth arminroth.de Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
2 Agenda 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
3 Wiederholung: Datenwertintegration Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler (z.b. Datumsformate), Inkonsistenzen (z.b. PLZ und Ortsname) Duplikate: Dasselbe Realweltobjekt mehrmals repräsentiert (in mehreren Quellen), Ziel: homogene, konsolidierte Sicht Qualität: weitere Kriterien wie z.b. Glaubwürdigkeit, Relevanz, Aktualität Vollständigkeit: Alle relevanten Realweltobjekte? Alle Attribute mit Werten befüllt? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
4 Wiederholung: Datenwertintegration Datenfehler [NL06, RD00] Datenfehler Einzelne Datenquelle Integrierte Datenquellen Schemaebene Datenebene Schemaebene Datenebene Unzulässiger Wert Attributabhängigkeit verletzt Eindeutigkeit verletzt Referenzielle Integrität verletzt Fehlende Werte Schreibfehler Falsche Werte Falsche Referenz Kryptische Werte Eingebettete Werte Falsche Zuordnung Widersprüchliche Werte Transpositionen Duplikate Strukturelle Heterogenität Semantische Heterogenität Schematische Heterogenität Widersprüchliche Werte Unterschiedliche Repräsentationen Unterschiedliche Einheiten Unterschiedliche Genauigkeit Unterschiedliche Aggregationsebenen Duplikate Datenkonflikte Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
5 Agenda Duplikaterkennung 1 Wiederholung: Datenwertintegration 2 Duplikaterkennung Quelle: Dr. Melanie Herschel, Université Paris-Sud [WN05] Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
6 Duplikaterkennung (Semi-)Automatische Erkennung verschiedener Repräsentationen eines gleichen realen Objekts Synonmye Bezeichnungen: Object identification, Record linkage, Reference reconciliation, Entity resolution, Duplicate detection, Entity matching Problemkomlexität: quadratisch (jeden Record mit jedem anderen vergleichen) Title Genre Year Director Troy Action 2004 Petersen Typo Widerspruch Fehlende Daten Troj History Petersen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
7 Verfahren zur Duplikaterkennung Duplikaterkennung Art der Daten Optimierungsfokus Methodik Einzelne relationale Tabelle Hierarchische Daten (z.b. XML) Graphen Effektivität Effizienz Skalierbarkeit Paarweise Vergleiche Clustering Learning Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
8 Iterative Algorithmen zur Duplikaterkennung Gegeben zwei Tupelmengen A und B Kernidee: Bilde Kreuzprodukt aller Tupel Für jedes Paar berechne Ähnlichkeit z.b. bzgl. Attributwerte z.b. bzgl. Fremdschlüssel Wähle Duplikatpaare aus Ähnlichste Paare bis Schwellwert Nebenbedingungen Bilde Duplikatcluster (Transitive Hülle) Probleme Anzahl Vergleiche (Effizienz) Ähnlichkeitsmaß (Effektivität) Große Datenmengen (Skalierbarkeit) Edit Distance Containment metric Sorted Neighborhood Methode Duplikaterkennung in Graphen Quelle: Dr. Melanie Herschel, Université Paris-Sud Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
9 Edit Distance [Kuk92] Maß zur Ermittlung der Ähnlichkeit zweier Zeichenketten Abstand := Anzahl an Operationen zur Überführung einer Zeichenkette S 1 in eine Zeichenkette S 2 durch Einfügung (Insert) Löschung (Delete) Ersetzung (Replace) Übereinstimmung (Match) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
10 Edit Distance Beispiel Beispiel HASE RASEN H R durch Ersetzung (R) A A durch Match (M) S S durch Match (M) E E durch Match (M) N durch Einfügung (I) Transkript: RMMMI EditDistance(HASE, RASEN) = 2 Minimal! Aber: Woher weiß man das? Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
11 Sorted Neighborhood-Methode [HS98] Input Tabelle mit N Tupeln Ähnlichkeitsmaß (z.b. basierend auf Edit Distance) Output: Klassen (clusters) der äquivalenten Tupel (= Duplikate) Problem: Viele Tupel Vergleich eines jeden Tupelpaares zu aufwendig (Effizienz) Tabelle passt nicht in den Speicher (Skalierbarkeit) Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
12 Sorted Neighborhood Idee Daten geschickt partitionieren nur innerhalb dieser Partitionen Duplikate suchen Algorithmus nach [HS98]: 1 Create Key: Schlüssel mittels relevanter Feldern erzeugen 2 Sort: Daten nach dem Schlüssel sortieren 3 Merge: Fenster (der Größe w) über sortierte Tupel schieben Nur Tupel innerhalb des Fensters miteinander vergleichen Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
13 Sorted Neighborhood Beispiel ID Key 17 MSKAD98 ID Title Year Genre 17 Mask of Zorro 1998 Adventure 18 Addams Family 1991 Comedy 25 Rush Hour 1998 Comedy 31 Matrix 1999 Sci-Fi 52 Return of Dschafar 1994 Children Create key DDMCO91 RSHCO98 MTRSC99 RTRCH94 DMSCO91 RTRCH Adams Family 1991 Comedie 207 Return of Djaffar 1995 Children 2. Sort classify(18,113) duplicates classify(52,207) duplicates ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Merge 3. ID Key DDMCO91 DMSCO91 MSKAD98 MTRSC99 RSHCO98 RTRCH94 RTRCH95 Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
14 Sorted Neighborhood Schlüsselerzeugung Schlüssel: eine Sequenz einer Teilmenge von Attributen oder der Teilketten innerhalb der Attribute Effektivität des Algorithmus ist von Schlüsselauswahl abhängig Schlüssel ist nur virtuell und nicht eindeutig: Wird nur für Sortierung benutzt. Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
15 Sorted Neighborhood Sortierung Sortierung lexikographisch nach Schlüssel Ziel: Äquivalente Tupel versammeln sich in unmittelbarer Nähe Verschiedene Methoden der Sortierung (Quicksort, AlphaSort, usw.) Insbesondere: Effiziente Sortiermethoden auf sekundärem Speicher Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
16 Sorted Neighborhood Merge Ein Fenster festgelegter Größe w wird zeilenweise durch die Liste geschoben. 2 w N Nur Tupel innerhalb eines Fensters werden verglichen. Aktuelles Fenster von Tupel w w Nächstes Fenster von Tupel Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
17 Literatur Duplikaterkennung [HS98] M. Hernandez and S. Stolfo. Real-world data is dirty: Data cleansing and the merge/purge problem. Knowledge Discovery, 2(1), 98. [Kuk92] Karen Kukich. Technique for automatically correcting words in text. ACM Computing Surveys, 24(4), [NL06] [RD00] [WN05] Felix Naumann and Ulf Leser. Informationsintegration. dpunkt.verlag, In German. Erhard Rahm and Hong-Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23(4), M. Weis and F. Naumann. DogmatiX tracks down duplicates in XML. In Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), Dr. Armin Roth (arminroth.de) II Duplikaterkennung / 17
Workshop Datenreinigung Duplikaterkennung Felix Naumann
Workshop Datenreinigung Duplikaterkennung 11.10.2011 Felix Naumann Überblick 2 Das Problem der Duplikaterkennung Ähnlichkeitsmaße Edit Distance et al. Algorithmen Naiv Blocking Sorted-Neighborhood Methode
MehrDatenqualität und Datenreinigung
Datenqualität und Datenreinigung FGBS Herbsttreffen 10. November 2011 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung
MehrDuplikaterkennung - Motivation Masterseminar. Felix Naumann Hasso-Plattner-Institut
Duplikaterkennung - Motivation Masterseminar 16.4.2008 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Datenqualität Datenfehler und ihre Ursachen Datenreinigung i Duplikaterkennung
MehrSchema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23
Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus
MehrInformationsintegration II Data Cleansing 2 Duplikaterkennung
Informationsintegration II Data Cleansing Duplikaterkennung 7.05.004 Felix Naumann Überblick Motivation und Data Cleansing Prozess Datenfehler Edit Distance als Ähnlichkeitsmaß Sorted-Neighborhood Methode
MehrDatenwertintegration / Informationsqualität
/ Dr. Armin Roth arminroth.de 26.04.2013 Dr. Armin Roth (arminroth.de) II Datenintegration 26.04.2013 1 / 18 Agenda 1 Datenwertintegration Datenreinigung Dr. Armin Roth (arminroth.de) II Datenintegration
MehrDuplikaterkennung. 3.7.2012 Felix Naumann
Duplikaterkennung 3.7.2012 Felix Naumann Quality 2 Even though quality cannot be defined, you know what it is. Robert Pirsig Zoom in die Informationsqualität 3 1 Fitness for use 15 Accuracy, Objectivity,
MehrInformationsqualität Antrittsvorlesung am
Informationsqualität Antrittsvorlesung am 26.4.2007 Felix Naumann Hasso-Plattner-Institut Fachgebiet Informationssysteme Überblick 2 Informationsqualität Informationsintegration Duplikaterkennung Ähnlichkeit
MehrSchema Matching und Integration
und Integration Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Matching und Integr. 25.04.2013 1 / 26 Agenda 1 Schema Matching 2 Schema Integration Dr. Armin Roth (arminroth.de)
MehrDatenreinigung (Seminar)
Datenreinigung (Seminar) Prof. Felix Naumann, Alexander Albrecht, Jana Bauckmann, Jens Bleiholder, Frank Kaufer, Melanie Weis Hasso-Plattner-Institut für Softwaresystemtechnik GmbH FB Informationssysteme
MehrDomain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing
SE Data Cleansing Domain-independent independent Duplicate Detection Vortrag von Marko Pilop & Jens Kleine http://www.informatik.hu-berlin.de/~pilop/didd.pdf {pilop jkleine}@informatik.hu-berlin.de 1.0
MehrInformationsintegration Große Datenräume in Web-basierten Umgebungen
Informationsintegration Große Datenräume in Web-basierten Umgebungen Felix Naumann Humboldt-Universität zu Berlin naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt Fusion Datenintegration
MehrDuplikaterkennung und Datenfusion
Duplikaterkennung und Datenfusion Kolloquium Stuttgart, 6.7.2004 Felix Naumann Humboldt-Universität zu Berlin Humboldt-Universität zu Berlin 22.04.2004 Felix Naumann, Humboldt-Universität zu Berlin 2 Humboldt-Universität
MehrSchema Mapping. Armin Roth 25.04.2013. arminroth.de. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23
Schema Mapping Armin Roth arminroth.de 25.04.2013 Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Mapping 2 Logische Mappings 3 Erzeugung der Anfragen Armin
MehrVollständige Attributliste der Testdatensätze
Anhang U. Draisbach, Partitionierung zur effi zienten Duplikaterkennung in relationalen Daten, DOI 10.1007/978-3-8348-8289-9, Vieweg+Teubner Verlag Springer Fachmedien Wiesbaden 2012 Vollständige Attributliste
MehrBeyond Information Integration: Content Merging Forschungskolloquium CIS/ISST
Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Felix Naumann naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt/Data Fusion Data Amalgamation Data Consolidation
MehrDatenintegration. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester 2016
Datenintegration Datenintegration Kapitel 0: Organisatorisches Dr. Anika Groß Sommersemester 2016 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Organisatorisches Termin: donnerstags,
MehrKonzeptueller Entwurf
Konzeptueller Entwurf UML Klassendiagrame UML Assoziationen Entspricht Beziehungen Optional: Assoziationsnamen Leserichtung ( oder ), sonst bidirektional Rollennamen Kardinalitätsrestriktionen UML Kardinalitätsrestriktionen
MehrDatenwertintegration / Informationsqualität
/ Fabian Panse 09.09.2014 Fabian Panse II Datenintegration 09.09.2014 1 / 18 Datenreinigung Datenintegration [NL06] Wenn Daten in gemeinsamem Schema vorliegen: weitere Probleme Datenfehler: Formatfehler
MehrDas relationale Datenmodell
Das relationale Datenmodell Konzepte Attribute, Relationenschemata, Datenbank-Schemata Konsistenzbedingungen Beispiel-Datenbank Seite 1 Einführung Zweck datenmäßige Darstellung von Objekten und Beziehungen
MehrAutomatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen
Automatisiertes Auffinden von Präfix- und Suffix-Inklusionsabhängigkeiten in relationalen Datenbankmanagementsystemen Exposé für eine Diplomarbeit Jan Hegewald Betreut von Jana Bauckmann 7. März 2007 1
MehrForeign Keys. MySQL 4, 5. Kapitel 16: Fremdschlüssel. Marcel Noe
MySQL 4, 5 Kapitel 16: Fremdschlüssel Gliederung 1 Gliederung 1 Fremdschlüssel sichern die Referenzielle Integrität voneinander abhängiger Tabellen. Um Fremdschlüssel definieren zu können, müssen Sie die
MehrUniversität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen
Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien
MehrEntfernung von Duplikaten in Data Warehouses
Entfernung von Duplikaten in Data Warehouses Daniel Martens 11.09.2015, Informationsintegration, Seminar 1/41 Gliederung Problem & Motivation Domänen-unabhängige Verfahren Domänen-abhängige Verfahren DELPHI
Mehrd.h. zu Definitions-Stelle eindeutiger Funktionswert x X! y Y : (x,y) f umgekehrt: (x 1,y), (x 2,y) f ist o.k. X Y f(x) = y
Kapitel 7 Normalformen und DB-Entwurf Kap. 7.1 Normalformen Theorie Funktionale Abhängigkeit: f X Y f als Relation, d.h. Menge von Paaren {(x,y)} x: Definitions-Stelle, y: Funktionswert f ist Funktion
MehrKapitel 2: Das Relationale Modell
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Datenbanksysteme I Wintersemester 2012/2013 Kapitel 2: Das Relationale
MehrAufgabe 1: Integrität
Aufgabe 1: Integrität Gegeben sei das folgende Schema: Personal: (PNR, Name, Gehalt, Abt, Vorges) a) Geben Sie das CREATE TABLE Statement an, um die Tabelle Personal zu erzeugen. Folgende Integritätsbedingungen
MehrKapitel 2: Das Relationale Modell
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Wintersemester 2006/2007 Kapitel 2: Das Relationale Modell Vorlesung:
MehrAlgorithmen und Datenstrukturen
Universität Innsbruck Institut für Informatik Zweite Prüfung 16. Oktober 2008 Algorithmen und Datenstrukturen Name: Matrikelnr: Die Prüfung besteht aus 8 Aufgaben. Die verfügbaren Punkte für jede Aufgabe
MehrKapitel DB:IV (Fortsetzung)
Kapitel DB:IV (Fortsetzung) IV. Logischer Datenbankentwurf mit dem relationalen Modell Das relationale Modell Integritätsbedingungen Umsetzung ER-Schema in relationales Schema DB:IV-46 Relational Design
MehrRelationales Datenbanksystem Oracle
Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information
MehrSeminar Data Cleansing
Seminar Data Cleansing Felix Naumann Forschungsgruppe Informationsintegration Juniorprofessor: Felix Naumann Mitarbeiter Jens Bleiholder Melanie Weis (ab 1.11.) Themen Objektidentifikation Informationsintegration
MehrDatenstrukturen und Algorithmen 2. Klausur SS 2001
UNIVERSITÄT PADERBORN FACHBEREICH 7 (MATHEMATIK INFORMATIK) Datenstrukturen und Algorithmen 2. Klausur SS 200 Lösungsansätze Dienstag, 8. September 200 Name, Vorname:...................................................
MehrKapitel 12: Schnelles Bestimmen der Frequent Itemsets
Einleitung In welchen Situationen ist Apriori teuer, und warum? Kapitel 12: Schnelles Bestimmen der Frequent Itemsets Data Warehousing und Mining 1 Data Warehousing und Mining 2 Schnelles Identifizieren
MehrVerfeinerung des relationalen Schemas
Verfeinerung des relationalen Schemas Ein schlechtes Schema Filmliste Titel Regisseur Kino Telefonnummer Zeit The Hobbit Jackson Cinema City 441111 11:30 The Lord of the Rings3 Jackson Cinema City 441111
MehrEinführung in die Informatik II
Einführung in die Informatik II Relationale Datenbanken und SQL Theorie und Anwendung Prof. Dr. Nikolaus Wulff Gründe für eine Datenbank Meist werden Daten nicht in XML-Dokumenten, sondern innerhalb einer
MehrUE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1. Übung 9. Sortieren
UE Algorithmen und Datenstrukturen 1 UE Praktische Informatik 1 Übung 9 Sortieren Institut für Pervasive Computing Johannes Kepler Universität Linz Altenberger Straße 69, A-4040 Linz Sortieren :: Problemstellung
MehrKapitel 3: Datenbanksysteme
LUDWIG- MAXIMILIANS- UNIVERSITY MUNICH DEPARTMENT INSTITUTE FOR INFORMATICS Skript zur Vorlesung: Einführung in die Informatik: Systeme und Anwendungen Sommersemester 2014 Kapitel 3: Datenbanksysteme Vorlesung:
MehrDaten Bank. 6. Vorlesung
Daten Bank 6. Vorlesung Prinzipien des digitalen Speicherns I Ein Datensatz sollte offensichtlich/eindeutig und schnell mit dem Objekt, welches es repräsentiert, in Verbindung gebracht werden können. ISBN
MehrInhaltsverzeichnis Vorwort zur vierten Auflage Vorwort zur dritten Auflage Vorwort zur zweiten Auflage Vorwort zur ersten Auflage Hinweise zur CD
Vorwort zur vierten Auflage 11 Vorwort zur dritten Auflage 13 Vorwort zur zweiten Auflage 15 Vorwort zur ersten Auflage 17 Hinweise zur CD 19 1 Datenbanken und Datenbanksysteme 21 1.1 Zentralisierung der
MehrProgrammiertechnik II
Sortieren: Einfache Algorithmen Sortieren Abstrakte Operation geg: Menge von items (Elemente) jedes Element besitzt Sortierschlüssel Schlüssel unterliegen einer Ordnung eventuell sind doppelte Schlüssel
MehrTechniken des Data Merging in Integrationssystemen
Techniken des Data Merging in Integrationssystemen Jens Bleiholder Humboldt-Universität zu Berlin, Institut für Informatik bleiho@informatik.hu-berlin.de Zusammenfassung Die Integration von Daten aus heterogenen
MehrDatenstrukturen & Algorithmen
Datenstrukturen & Algorithmen Matthias Zwicker Universität Bern Frühling 2010 Übersicht Sortieralgorithmen Einleitung Heapsort Quicksort 2 Motivation Sortieren ist Voraussetzung für viele Anwendungen Nach
Mehr5. Clusteranalyse Vorbemerkungen. 5. Clusteranalyse. Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Vorbemerkungen 5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer
MehrDatenqualität AKTUELLES SCHLAGWORT* / DATENQUALITÄT } Felix Naumann
AKTUELLES SCHLAGWORT* / DATENQUALITÄT } Datenqualität Felix Naumann Daten von niedriger Qualität sind in kommerziellen und wissenschaftlichen Datenbanken allgegenwärtig. Produktcodes werden falsch verwendet,
MehrSQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99
SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:
MehrAnwendung von Vektormodell und boolschem Modell in Kombination
Anwendung von Vektormodell und boolschem Modell in Kombination Julia Kreutzer Seminar Information Retrieval Institut für Computerlinguistik Universität Heidelberg 12.01.2015 Motivation Welche Filme sind
MehrInformationsintegration
Informationsintegration Schema Matching Ulf Leser Inhalt dieser Vorlesung Schema Matching Labelbasiert Instanzbasiert Strukturbasiert Erweiterungen Globales Matching Ulf Leser: Informationsintegration
Mehr3. Grundlagen relationaler Datenbanksysteme
3. Grundlagen relationaler Datenbanksysteme Hier nur kurze Rekapitulation, bei Bedarf nachlesen 3.1 Basiskonzepte des Relationenmodells 1 Darstellung der Miniwelt in Tabellenform (DB = Menge von Relationen
MehrFUSE BY: Syntax und Semantik zur Informationsfusion in SQL
FUSE BY: Syntax und Semantik zur Informationsfusion in SQL Jens Bleiholder, Felix Naumann Humboldt-Universität zu Berlin {bleiho,naumann}@informatik.hu-berlin.de Abstract: Daten und Informationen heterogener
MehrInnovationslabor Semantische Integration von Webdaten
Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt
MehrCBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.
CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation
MehrErkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen
Heiko Müller, Melanie Weis, Jens Bleiholder, Ulf Leser Erkennen und Bereinigen von Datenfehlern in naturwissenschaftlichen Daten Naturwissenschaftliche Daten sind aufgrund ihres Entstehungsprozesses oft
MehrAlgorithms & Data Structures 2
Algorithms & Data Structures Digital Sorting WS B. Anzengruber-Tanase (Institute for Pervasive Computing, JKU Linz) (Institute for Pervasive Computing, JKU Linz) WIEDERHOLUNG :: UNTERE SCHRANKE FÜR SORTIEREN
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen A3. Sortieren: Selection- und Insertionsort Marcel Lüthi and Gabriele Röger Universität Basel 1. März 2018 Sortieralgorithmen Inhalt dieser Veranstaltung A&D Sortieren Komplexitätsanalyse
MehrÜbung Algorithmen und Datenstrukturen
Übung Algorithmen und Datenstrukturen Sommersemester 2016 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda 1. Vorstellen des vierten Übungsblatts 2. Vorbereitende Aufgaben für das vierte Übungsblatt
MehrÜbung Algorithmen und Datenstrukturen
Übung Algorithmen und Datenstrukturen Sommersemester 2017 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda: Kürzeste Wege, Heaps, Hashing Heute: Kürzeste Wege: Dijkstra Heaps: Binäre Min-Heaps Hashing:
MehrMathematische Grundlagen III
Mathematische Grundlagen III Maschinelles Lernen III: Clustering Vera Demberg Universität des Saarlandes 7. Juli 202 Vera Demberg (UdS) Mathe III 7. Juli 202 / 35 Clustering vs. Klassifikation In den letzten
MehrDatenbanksysteme SS 2013
Datenbanksysteme SS 2013 Kapitel 4: Physikalische Datenorganisation Vorlesung vom 16.04.2013 Oliver Vornberger Institut für Informatik Universität Osnabrück Speicherhierarchie GB 10 GHertz TB 100 10 ms
MehrInformationsintegration
Informationsintegration Schemaintegration Ulf Leser Wissensmanagement in der Bioinformatik Richtung Schemaintegration versus Anfragebearbeitung FDBS Schema integration Data source Data source Data source
MehrInformatik II, SS 2014
Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 7 (21.5.2014) Binäre Suche, Hashtabellen I Algorithmen und Komplexität Abstrakte Datentypen : Dictionary Dictionary: (auch: Maps, assoziative
MehrObjektrelationale Datenbanken
Vorlesung Datenbanksysteme vom 26.11.2008 Objektrelationale Datenbanken Konzepte objektrelationaler DBs SQL:1999 OO vs. OR Konzepte objektrelationaler Datenbanken Große Objekte (LOBs: Large Objects) Mengenwertige
MehrAlgorithmische Bioinformatik 1
Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Paarweises
MehrDatenbanken: Datenintegrität. www.informatikzentrale.de
Datenbanken: Datenintegrität Definition "Datenkonsistenz" "in der Datenbankorganisation (...) die Korrektheit der gespeicherten Daten im Sinn einer widerspruchsfreien und vollständigen Abbildung der relevanten
MehrGrundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich
Grundlagen von SQL Informatik 2, FS18 Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Markus Dahinden 13.05.18 1 Grundlagen von SQL (Structured Query Language)
MehrBegriffsklärung: Dominanz
Einführung Begriffsklärung: Dominanz Gegeben: d-dimensionaler Raum, jeder Punkt p im Raum hat d Attribute: (p 1,,p d ) Definition Dominanz: 1 i d : p i p i und 1 i d : p i < p i Begriffsklärung: Dominanz
MehrHS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln. Edit distance. Referentinnen: Alena Geduldig, Kim Opgenoorth
HS: Angewandte Linguistische Datenverarbeitung Prof. Dr. Rolshoven Universität zu Köln Edit distance Referentinnen: Alena Geduldig, Kim Opgenoorth inexact matching Problem Erkenne, finde und toleriere
MehrEntfernung von Duplikaten in Data Warehouses
Entfernung von Duplikaten in Data Warehouses Seminar: Informationsintegration, SoSe 2015 Daniel Martens University of Hamburg Hamburg, Germany 3martens@informatik.uni-hamburg.de!1 INHALTSVERZEICHNIS Einleitung.
Mehr7.1.2 Membership-Test - fortgesetzt
7. Formaler Datenbankentwurf 7.1. Funktionale Abhängigkeiten Seite 1 7.1.2 Membership-Test - fortgesetzt Membership-Test: X Y F +? (Attribut-)Hülle X + von X (bzgl. F) X + = {A A V und X A F + }. Membership-Test
MehrDefinition Ein Heap (priority queue) ist eine abstrakte Datenstruktur mit folgenden Kennzeichen:
HeapSort Allgemeines Sortieralgorithmen gehören zu den am häufigsten angewendeten Algorithmen in der Datenverarbeitung. Man hatte daher bereits früh ein großes Interesse an der Entwicklung möglichst effizienter
MehrMotivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter. Chinesische Botschaft in Belgrad
Datenqualität mit dem DataFlux dfpower Studio 8.1 Tobias Jansen Zaferna-Hütte, 4. Januar 2009 Motivation: Datenqualitätsprobleme in der Praxis (1/2) Mars Climate Orbiter Nasa Marssonde Mars Climate Orbiter
Mehr5. Clusteranalyse. Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften
5. Clusteranalyse Lernziele: Grundlegende Algorithmen der Clusteranalyse kennen, ihre Eigenschaften benennen und anwenden können, einen Test auf das Vorhandensein einer Clusterstruktur kennen, verschiedene
MehrSeminar 2. SQL - DML(Data Manipulation Language) und. DDL(Data Definition Language) Befehle.
Seminar 2 SQL - DML(Data Manipulation Language) und DDL(Data Definition Language) Befehle. DML Befehle Aggregatfunktionen - werden auf eine Menge von Tupeln angewendet - Verdichtung einzelner Tupeln yu
MehrInformationsintegration
Informationsintegration Heterogenität Transparenz Ulf Leser Wissensmanagement in der Bioinformatik Klassifikationsdimensionen Verteilung Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester
MehrFolien zum Textbuch. Kapitel 2: Planung, Entwicklung und Betrieb von IS. Teil 3: Modellierung von betrieblichen Informationssystemen
Folien zum Textbuch Kapitel 2: Planung, Entwicklung und Betrieb von IS Teil 3: Modellierung von betrieblichen Informationssystemen Textbuch-Seiten 185-208 WI Planung, Entwicklung und Betrieb von IS IS-Modellierung
MehrEFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS
Universität Leipzig Fakultät für Mathematik und Informatik Institut für Informatik EFFIZIENTE MAPREDUCE- PARALLELISIERUNG VON ENTITY RESOLUTION-WORKFLOWS Dissertation zur Erlangung des akademischen Grades
MehrAufgabe 1: Verschachtelte Anfragen
Aufgabe 1: Verschachtelte Anfragen (1 P.) (a) Betrachten Sie folgenden Ausschnitt des TPC-H Schemas: CREATE TABLE partsupp ( ps_ availqty INT, ps_ partkey INT ); CREATE TABLE lineitem ( l_ partkey INT,
MehrFinalklausur zur Vorlesung Datenbanksysteme I Wintersemester 2003/2004 Prüfer: Prof. R. Bayer, Ph.D. Datum: Zeit: 16.
Finalklausur zur Vorlesung Datenbanksysteme I Wintersemester 2003/2004 Prüfer: Prof. R. Bayer, Ph.D. Datum: 13.02.2004 Zeit: 16. Uhr Hinweis: Die Bearbeitungszeit beträgt 90 Minuten. Bitte benutzen Sie
MehrDatenbanken Entity-Relationship-Modell und Datenbankentwurf 1. Andreas Heß Hochschule Furtwangen
Datenbanken Entity-Relationship-Modell und Datenbankentwurf 1 Andreas Heß Hochschule Furtwangen Inhalte heute Einführung ins Entity-Relationship-Modell Einführung ins relationale Modell Umsetzung vom E/R-
MehrDatenbanken. Zusammenfassung. Datenbanksysteme
Zusammenfassung Datenbanksysteme Christian Moser Seite 1 vom 7 12.09.2002 Wichtige Begriffe Attribut Assoziation API Atomares Attribut Datenbasis DBMS Datenunabhängigkeit Datenbankmodell DDL DML DCL ER-Diagramm
MehrEntwurf von Relationalen Datenbanken (1) (mit dem Entity-Relationship-Modell)
In der Regel werden Diskursbereiche durch mehrere Relationen (Tabellen) abgebildet. Ziele: Entwurf von Relationalen Datenbanken (1) (mit dem Entity-Relationship-Modell) Vermeiden von Redundanz in Relationen
MehrInformationsintegration
Informationsintegration Duplikaterkennung Ulf Leser Wissensmanagement in der Bioinformatik Inhalt dieser Vorlesung Data Cleansing Duplikaterkennung Ähnlichkeitsmaße Sorted-Neighborhood Algorithmus Duplikaterkennung
Mehr(Digital) Sorting. October 25, Algorithms & Datastructures 2 Exercises WS 2016
(Digital) Sorting October 2, 2016 Algorithms & Datastructures 2 Exercises WS 2016 Dipl.-Ing. University Linz, Institute for Pervasive Computing Altenberger Straße 69, A-4040 Linz kurz@pervasive.jku.at
Mehr5.3 Datenänderung/-zugriff mit SQL (DML)
5.3 Datenänderung/-zugriff mit SQL (DML) Hinweis: - DML-Anweisungen sind mengenorientiert - Mit einer Anweisungen kann mehr als ein Tupel eingefügt, geändert, gelöscht oder gelesen werden Benutzungs- und
MehrDie Anweisung create table
SQL-Datendefinition Die Anweisung create table create table basisrelationenname ( spaltenname 1 wertebereich 1 [not null],... spaltenname k wertebereich k [not null]) Wirkung dieses Kommandos ist sowohl
MehrAusgezeichnete Arbeiten zur Informationsqualität
Ausgezeichnete Arbeiten zur Informationsqualität Herausgegeben von M. Gebauer, Hannover R. Giebichenstein, Köln Bewertungskommission des Information Quality Best Master Degree Award 2010: H. Hinrichs,
MehrDatenqualität: allgemeiner Überblick Waldemar Braun. Seminar Datenqualität OvGU Magdeburg 03.12.2009
Datenqualität: allgemeiner Überblick Waldemar Braun Seminar Datenqualität OvGU Magdeburg Gliederung 1. Einleitung 2. Motivation 3. Definition 4. DQ-Probleme 5. DQ-Dimensionen 6. DQ-Modelle 7. Messen der
MehrIntroduction to Data and Knowledge Engineering. 6. Übung SQL
Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB
MehrProbeklausur mit Musterlösung
Carl-Schurz-Schule 07.03.2012 Informatik, Q2 Victor Hahn Probeklausur mit Musterlösung Ihr Name: Maximal erreichbare Anzahl Verrechnungspunkte (VP): 64 Einziges zugelassenes Hilfsmittel: Ein Blatt DIN
MehrPrivacy-Maße k-anonymity, l-diversity, t-closeness
Fakultät Informatik Proseminar Datenschutz in der Anwendungsentwicklung Privacy-Maße k-anonymity, l-diversity, t-closeness Dresden, 02.05.2013 D 01 Einführung: Beispiel Geburtstag Geschlecht PLZ Krankheit
MehrBioinformatik Für Biophysiker
Bioinformatik Für Biophysiker Sommersemester 2009 Silke Trißl / Ulf Leser Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik Schwerpunkte Algorithmen der Bioinformatik Management
MehrÜbung Algorithmen und Datenstrukturen
Übung Algorithmen und Datenstrukturen Sommersemester 2017 Patrick Schäfer, Humboldt-Universität zu Berlin Agenda: Sortierverfahren 1. Schreibtischtest 2. Stabilität 3. Sortierung spezieller Arrays 4. Untere
MehrAssoziationsregeln & Sequenzielle Muster. A. Hinneburg, Web Data Mining MLU Halle-Wittenberg, SS 2007
Assoziationsregeln & Sequenzielle Muster 0 Übersicht Grundlagen für Assoziationsregeln Apriori Algorithmus Verschiedene Datenformate Finden von Assoziationsregeln mit mehren unteren Schranken für Unterstützung
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrDie Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden.
Die Bestellungen eines Schreibwarengeschäftes sollen auf eine aktuelle Form mit Hilfe einer zeitgemäßen Datenbank umgestellt werden. Die nachfolgende Tabellenform, eine sogenannte Nullform muss in eine
MehrEinführung in das Data Mining Clustering / Clusteranalyse
Einführung in das Data Mining Clustering / Clusteranalyse Sascha Szott Fachgebiet Informationssysteme HPI Potsdam 21. Mai 2008 Teil I Einführung Clustering / Clusteranalyse Ausgangspunkt: Menge O von Objekten
MehrNoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE
NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die
Mehr