Foundations of uncertain data integration

Ähnliche Dokumente
Null-Werte in Relationalen Datenbanken

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Titel BOAKdurch Klicken hinzufügen

Allgemeines zu Datenbanken

e-books aus der EBL-Datenbank

Anleitung Outlook 2002 & 2003

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Data/Information Quality Management

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Softwaretechnologie -Wintersemester 2013/ Dr. Günter Kniesel

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Konsistenzproblematik bei der Cloud-Datenspeicherung

Weiterbildung zum Prozessmanagement Fachmann

Also kann nur A ist roter Südler und B ist grüner Nordler gelten.

Rhetorik und Argumentationstheorie.

Oracle APEX Installer

D i e n s t e D r i t t e r a u f We b s i t e s

11. Rent-Seeking 117

TEMPLATE SERVICEKATALOG

Erfassung von Umgebungskontext und Kontextmanagement

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Projekt- Management. Landesverband der Mütterzentren NRW. oder warum Horst bei uns Helga heißt

Ihren Kundendienst effektiver machen

Datenidentifikation und -synchronisation: Grundlage zur Erfüllung der Qualitätsanforderungen beim Datenaustausch zwischen Systemen

Was meinen die Leute eigentlich mit: Grexit?

Wärmebildkamera. Arbeitszeit: 15 Minuten

Software-Validierung im Testsystem

Tool: SDQC. Stammdaten-Qualitätscheck im Artikelstamm. Lars Klimbingat

Step by Step Webserver unter Windows Server von Christian Bartl

SEMINAR Modifikation für die Nutzung des Community Builders

StarMoney Umstellungsassistent

7. Das Spannungsfeld von Wissenschaft und Praxis

Requirements Engineering WS 11/12

Private oder public welche Cloud ist die richtige für mein Business? / Klaus Nowitzky, Thorsten Göbel

Häufig wiederkehrende Fragen zur mündlichen Ergänzungsprüfung im Einzelnen:

Benutzerhandbuch - Elterliche Kontrolle

Informatik-Sommercamp Mastermind mit dem Android SDK

REACH-CLP-Helpdesk. Zulassung in der Lieferkette. Matti Sander, Bundesanstalt für Arbeitsschutz und Arbeitsmedizin

Neuer Releasestand Finanzbuchhaltung DAM-EDV E Inhaltsverzeichnis. 1. Neuerungen Schnittstelle Telebanking mit IBAN und BIC...

ZAPP-Installation unter Windows-7

Benutzerhandbuch MedHQ-App

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Über dieses Buch. Nutzungsrichtlinien

Zeit lässt sich nicht wie Geld für schlechte Zeiten zur Seite legen. Die Zeit vergeht egal, ob genutzt oder ungenutzt.

Archiv - Berechtigungen

schooltas offline Modus mit der Google Chrome App

Wir machen neue Politik für Baden-Württemberg

Installation EPLAN Electric P8 Version Bit Stand: 07/2014

1. Bearbeite Host Netzgruppen

Variabilität in Produktlinien und das orthogonale Variabilitätsmodell

Softwaretechnologie -Wintersemester 2011/ Dr. Günter Kniesel

Erfahrungen mit Hartz IV- Empfängern

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

Über dieses Buch. Nutzungsrichtlinien

Arbeiten mit dem Outlook Add-In

Datenaufbereitung in SPSS. Daten zusammenfügen

Leitfaden zur Einrichtung za-mail mit IMAP auf dem iphone

Erläuterungen zur Untervergabe von Instandhaltungsfunktionen

Daniel Warneke Ein Vortrag im Rahmen des Proseminars Software Pioneers

Risikomanagement in der Praxis Alles Compliance oder was?! 1. IT-Grundschutz-Tag

Dieses Dokument soll dem Administrator helfen, die ENiQ-Software als Client auf dem Zielrechner zu installieren und zu konfigurieren.

DB2 Kurzeinführung (Windows)

Seminar C16 - Datenmodellierung für SAP BW

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Selbsttest Prozessmanagement

Anforderungen an die HIS

Informationssystemanalyse Problemstellung 2 1. Trotz aller Methoden, Techniken usw. zeigen Untersuchungen sehr negative Ergebnisse:

Proofreading Was solltest Du beim Korrekturlesen beachten?

Ihr müsst drei Caches finden. Ihr beginnt mit Cache 1. In jedem Cache findet Ihr eine Internet-Adresse und einen Hinweis auf das nächste Cache.

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Internes Web-Portal der AK-Leiter

2015 conject all rights reserved

TÜV NORD CERT GmbH. Wie sichere ich die Qualität der praktischen Zerifizierung. Ausbildung? QM-Grundlagen, Methoden und Werkzeuge

Soziale Netze (Web 2.0)

das usa team Ziegenberger Weg Ober-Mörlen Tel Fax: mail: lohoff@dasusateam.de web:

Dieses Dokument beschreibt, wie mit FreeFileSync eine einfache Daten-Synchronisation auf gemanagten Geräten eingerichtet wird.

Anleitung zur Excel-Anwendung Basisprämienberechnung

D a s P r i n z i p V o r s p r u n g. Anleitung. - & SMS-Versand mit SSL (ab CHARLY 8.11 Windows)

Neue Arbeitswelten Bürokultur der Zukunft

GIS 1 Kapitel 5: Bedeutung von Metadaten und Qualität t von Daten

Data Quality Management: Abgleich großer, redundanter Datenmengen

Die Industrie- und Handelskammer arbeitet dafür, dass Menschen überall mit machen können

Durchführung der Datenübernahme nach Reisekosten 2011

Methodische Fragen zur frühen Nutzenbewertung nach 35a SGB V

Manuel Schmalz. Abteilungsleiter Vertragsmanagement. Düsseldorf,

Verifizierung neuer bzw. geänderter -adressen in den Anwender- und/oder Benutzerstammdaten

SEND-IT Bedienungsanleitung

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Prinzip der Zylinderdruckmessung mittels des piezoelektrischen Effektes

OutLook 2003 Konfiguration

Interkulturelles Change Management eine neue Dimension und Herausforderung. Dr. Harald Unterwalcher, MBA

Online-Bestellung Tageskarten für Mitglieder des FC St. Pauli, die nicht im Besitz einer Dauer- oder Saisonkarte sind.

Einreichung zum Call for Papers

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

Die Verordnung über die Prüfung zum Erwerb der Mittleren Reife an Gymnasien

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

2. Einrichtung der ODBC-Schnittstelle aus orgamax (für 32-bit-Anwendungen)

Transkript:

Foundations of uncertain data integration Seminar Informationsintegration Stephan Barnert IT Management & Consulting 11.09.2015

Agenda Problemstellung Einleitung Beispiel zur Integration Wiederholung LAV Datenbanken: Materialisiert & Virtuell Possible Worlds Klassifikation imperfekter Informationen Containment Information Anforderungen an Containment Consistency Beispiel zu Containment & Consistency 2

Problemstellung Alice, 20.08.1998 Alice, 21.08.1999 20.08.1998, Middleton 20.08.1998, Middleton Quelle U1 Cooper, Alice Cooper, Alice Quelle U3 Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Quelle U2 Quelle U4???? Cooper, Alice, 20.08.1998, Middleton, Ford Taurus,. Integrierte DB 3

Einleitung (1) Quelle imperfekter Daten Ungenauigkeiten (Messungen) Aktualität / Zeitpunkt der Datenaufnahme Fehler & Unvollständigkeit Informationsextraktion, Deduplikation, Datenbereinigung Ähnlich: Integration der Daten (Mapping, ) 4

Einleitung (2) Grundlagen der Integration imperfekter Daten Aufbau einer LAV-Datenbank aus imperfekten Quellen Vorteile: - Einheitliche Abfrageschnittstelle - Einfache Abfrage auf mehrere Datenquellen möglich - Abfrage führt optimaler weise zu aggregierten Daten - Integration verschiedener Quellen kann zu besseren Ergebnissen führen und evtl. bereits falsche Daten identifizieren 5

Beispiel zur Integration (1) Sensor1: {(B3), (B4)} Sensor2: {(B2), (B3)} Sensor3: {(B3), (C3)} Sensor4: {(A3), (B3)}? 6

Beispiel zur Integration (2) Sensor1: {(B3), (B4)} Sensor2: {(B2), (B3)} Sensor3: {(B3), (C3)} Sensor4: {(A3), (B3)} Möglichkeit 1: Alle Ergebnisse sind korrekt Möglichkeit 2: Die Überschneidung ist korrekt bzw. certain 7

Wiederholung LAV (1) Globales Schema bleibt beim Ändern, Hinzufügen und Entfernen von Quellen konstant 8

Wiederholung LAV (2) 9

Datenbanken: Materialisiert & Virtuell 10

PWs (1) Possible Worlds Imperfekte Datenbanken bestehen üblicherweise aus einer Menge möglicher Welten (PW) Eine dieser Welten ist üblicherweise korrekt BSP: PW1={(BK,K)} PW3={(BK,-)} Frage: Was bedeutet {(BK), (-)}? 11

PWs (2) Jede PW zeigt eine mögliche Konstellation der Daten im Zusammenhang, mit einer Chance auf Korrektheit Aber: Bei der Integration imperfekter Daten ist es häufig nicht zweckmäßig alle möglichen PWs der Quellen zu integrieren Ziel: Zusammenführen von sich ergänzenden PWs und ignorieren konfliktbehafteter PWs zur Reduktion der PWs in der Zieldatenbank 12

Klassifikation imperfekter Informationen Data-Information Viele Tupel -> viele Informationen (Anton, 11.08.93), (Anton, 11.08.39, München), (Antonie, 11.08.93) Specificity-Information Wenige PWs -> Höherer Informationswert der Daten 8 PWs -> 8 Möglichkeiten 2 PWs -> nur 2 Möglichkeiten eine von beiden ist vmtl. korrekt 13

Containment Information Eine Datenbank U mit Tupeln A, B kann Informationen über mögliche Konstellationen enthalten P1 = {-}, P2 = {A}, P3 = {B}, P4 = {A,B} Annahme: U1 keine Infos über zulässige Konstellationen - P1 P4 enthalten U2 Wenn A enthalten ist darf B nicht enthalten sein - P1, P2, P3 enthalten Höherer Informationsgehalt 14

Anforderungen an Containment (1) Equality-Containment - Rekonstruktion einer Datenquelle aus Teilinformationen - Prüfen der Rekonstruierbarkeit (Sicherheit) 15

Anforderungen an Containment (2) Bsp. Equality-Containment Anwendung: Quelle Rekonstruierbar? Verschiedene Datenhäppchen Rekonstruierte Daten sicher (certain)? Cooper, Alice, 20.08.1998, Middleton, Ford Taurus,. Zugriffsbeschränkte Quelle Alice, 20.08.1998 Alice, 21.08.1998 20.08.1998, Middleton 20.08.1998, Middleton Geheimdienst A Cooper, Alice Cooper, Alice Geheimdienst C Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Geheimdienst B Geheimdienst D 16

Anforderungen an Containment (3) Superset-Containment - Konstruieren einer Wahrheit in der realen Welt - Überschneidungen in allen PWs ergeben Wahrheitswert 17

Anforderungen an Containment (4) Bsp. Superset-Containment Anwendung: Konstruieren einer aggregierten Quelle aus den vorhandenen Informationen Alice, 20.08.1998 Alice, 20.08.1998 08.1998, Middleton 08.1998, Middleton Geheimdienst A Cooper, 20.08.1998 Cooper, 20.08.1999 Geheimdienst C Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Geheimdienst B Geheimdienst D Cooper, Alice, 20.08.1998, Middleton, Ford Taurus Superset konstruierte wahrscheinlichste Quelle 18

Consistency Consistency (Daten-Konsistenz) Quellen sind konsistent, wenn es eine zusammengeführte DB aus allen Quellen gibt Inkonsistenz Sensor 1 {(A), (B)}; Sensor 2 {(C), (D)} Sensor 1 {(A), (B)}; Sensor 2 {(B, C)} Konsistenz Sensor 1 {(A), (B)}; Sensor 2 {(B), (C)} 19

Beispiel zu Containment & Consistency (1) Globales Schema: Suspects(name, age, crime, ) Lokale Schemata: SCPD(name, age, crime, ) WCPD(name, age, crime, ) PWs: PW(SCPD)={(Henry, )},{(George, )} PW(WCPD)={(George, ), (Kenny, )}, - PW(Suspects)={(Henry, )},{(George, ), (Kenny, )} Equality Containment??? Consistency??? Neu: SFPD(name, age, crime, ) PW(SFPD)={(Kenny, )} Equality Containment??? Consistency????? 20

Beispiel zu Containment & Consistency (2) Globales Schema: Keines Superset wird gebildet Lokale Schemata: SCPD(name, age, crime, ) WCPD(name, age, crime, ) SFPD(name, age, crime, ) PWs: PW(SCPD)={(Henry, )},{(George, )} PW(WCPD)={(George, ), (Kenny, )}, - PW(SFPD)={(Kenny, )} Superset Containment??? Consistency??? Superset DB U PW(U)={(George, ),(Kenny, )} Was aber wenn PW(SFPD) falsch ist??? 21

Vielen Dank =) Fragen? 23