Foundations of uncertain data integration Seminar Informationsintegration Stephan Barnert IT Management & Consulting 11.09.2015
Agenda Problemstellung Einleitung Beispiel zur Integration Wiederholung LAV Datenbanken: Materialisiert & Virtuell Possible Worlds Klassifikation imperfekter Informationen Containment Information Anforderungen an Containment Consistency Beispiel zu Containment & Consistency 2
Problemstellung Alice, 20.08.1998 Alice, 21.08.1999 20.08.1998, Middleton 20.08.1998, Middleton Quelle U1 Cooper, Alice Cooper, Alice Quelle U3 Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Quelle U2 Quelle U4???? Cooper, Alice, 20.08.1998, Middleton, Ford Taurus,. Integrierte DB 3
Einleitung (1) Quelle imperfekter Daten Ungenauigkeiten (Messungen) Aktualität / Zeitpunkt der Datenaufnahme Fehler & Unvollständigkeit Informationsextraktion, Deduplikation, Datenbereinigung Ähnlich: Integration der Daten (Mapping, ) 4
Einleitung (2) Grundlagen der Integration imperfekter Daten Aufbau einer LAV-Datenbank aus imperfekten Quellen Vorteile: - Einheitliche Abfrageschnittstelle - Einfache Abfrage auf mehrere Datenquellen möglich - Abfrage führt optimaler weise zu aggregierten Daten - Integration verschiedener Quellen kann zu besseren Ergebnissen führen und evtl. bereits falsche Daten identifizieren 5
Beispiel zur Integration (1) Sensor1: {(B3), (B4)} Sensor2: {(B2), (B3)} Sensor3: {(B3), (C3)} Sensor4: {(A3), (B3)}? 6
Beispiel zur Integration (2) Sensor1: {(B3), (B4)} Sensor2: {(B2), (B3)} Sensor3: {(B3), (C3)} Sensor4: {(A3), (B3)} Möglichkeit 1: Alle Ergebnisse sind korrekt Möglichkeit 2: Die Überschneidung ist korrekt bzw. certain 7
Wiederholung LAV (1) Globales Schema bleibt beim Ändern, Hinzufügen und Entfernen von Quellen konstant 8
Wiederholung LAV (2) 9
Datenbanken: Materialisiert & Virtuell 10
PWs (1) Possible Worlds Imperfekte Datenbanken bestehen üblicherweise aus einer Menge möglicher Welten (PW) Eine dieser Welten ist üblicherweise korrekt BSP: PW1={(BK,K)} PW3={(BK,-)} Frage: Was bedeutet {(BK), (-)}? 11
PWs (2) Jede PW zeigt eine mögliche Konstellation der Daten im Zusammenhang, mit einer Chance auf Korrektheit Aber: Bei der Integration imperfekter Daten ist es häufig nicht zweckmäßig alle möglichen PWs der Quellen zu integrieren Ziel: Zusammenführen von sich ergänzenden PWs und ignorieren konfliktbehafteter PWs zur Reduktion der PWs in der Zieldatenbank 12
Klassifikation imperfekter Informationen Data-Information Viele Tupel -> viele Informationen (Anton, 11.08.93), (Anton, 11.08.39, München), (Antonie, 11.08.93) Specificity-Information Wenige PWs -> Höherer Informationswert der Daten 8 PWs -> 8 Möglichkeiten 2 PWs -> nur 2 Möglichkeiten eine von beiden ist vmtl. korrekt 13
Containment Information Eine Datenbank U mit Tupeln A, B kann Informationen über mögliche Konstellationen enthalten P1 = {-}, P2 = {A}, P3 = {B}, P4 = {A,B} Annahme: U1 keine Infos über zulässige Konstellationen - P1 P4 enthalten U2 Wenn A enthalten ist darf B nicht enthalten sein - P1, P2, P3 enthalten Höherer Informationsgehalt 14
Anforderungen an Containment (1) Equality-Containment - Rekonstruktion einer Datenquelle aus Teilinformationen - Prüfen der Rekonstruierbarkeit (Sicherheit) 15
Anforderungen an Containment (2) Bsp. Equality-Containment Anwendung: Quelle Rekonstruierbar? Verschiedene Datenhäppchen Rekonstruierte Daten sicher (certain)? Cooper, Alice, 20.08.1998, Middleton, Ford Taurus,. Zugriffsbeschränkte Quelle Alice, 20.08.1998 Alice, 21.08.1998 20.08.1998, Middleton 20.08.1998, Middleton Geheimdienst A Cooper, Alice Cooper, Alice Geheimdienst C Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Geheimdienst B Geheimdienst D 16
Anforderungen an Containment (3) Superset-Containment - Konstruieren einer Wahrheit in der realen Welt - Überschneidungen in allen PWs ergeben Wahrheitswert 17
Anforderungen an Containment (4) Bsp. Superset-Containment Anwendung: Konstruieren einer aggregierten Quelle aus den vorhandenen Informationen Alice, 20.08.1998 Alice, 20.08.1998 08.1998, Middleton 08.1998, Middleton Geheimdienst A Cooper, 20.08.1998 Cooper, 20.08.1999 Geheimdienst C Cooper, 1998, Ford Taurus Cooper, 1998, Ford Capri Geheimdienst B Geheimdienst D Cooper, Alice, 20.08.1998, Middleton, Ford Taurus Superset konstruierte wahrscheinlichste Quelle 18
Consistency Consistency (Daten-Konsistenz) Quellen sind konsistent, wenn es eine zusammengeführte DB aus allen Quellen gibt Inkonsistenz Sensor 1 {(A), (B)}; Sensor 2 {(C), (D)} Sensor 1 {(A), (B)}; Sensor 2 {(B, C)} Konsistenz Sensor 1 {(A), (B)}; Sensor 2 {(B), (C)} 19
Beispiel zu Containment & Consistency (1) Globales Schema: Suspects(name, age, crime, ) Lokale Schemata: SCPD(name, age, crime, ) WCPD(name, age, crime, ) PWs: PW(SCPD)={(Henry, )},{(George, )} PW(WCPD)={(George, ), (Kenny, )}, - PW(Suspects)={(Henry, )},{(George, ), (Kenny, )} Equality Containment??? Consistency??? Neu: SFPD(name, age, crime, ) PW(SFPD)={(Kenny, )} Equality Containment??? Consistency????? 20
Beispiel zu Containment & Consistency (2) Globales Schema: Keines Superset wird gebildet Lokale Schemata: SCPD(name, age, crime, ) WCPD(name, age, crime, ) SFPD(name, age, crime, ) PWs: PW(SCPD)={(Henry, )},{(George, )} PW(WCPD)={(George, ), (Kenny, )}, - PW(SFPD)={(Kenny, )} Superset Containment??? Consistency??? Superset DB U PW(U)={(George, ),(Kenny, )} Was aber wenn PW(SFPD) falsch ist??? 21
Vielen Dank =) Fragen? 23