Informationsintegration

Transkript

1 Informationsintegration Heterogenität Transparenz Ulf Leser Wissensmanagement in der Bioinformatik

2 Klassifikationsdimensionen Verteilung Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/2007 2

3 Verteilung Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk erreichbar sind Zwei Aspekte Physische Verteilung Logische Verteilung Ulf Leser: Informationsintegration, Wintersemester 2006/2007 3

4 Physische Verteilung Server stehen an unterschiedlichen Orten Anderes Land, Gebäude, Raum, Schrank, Rack, Server sind physikalisch unabhängig (hoffentlich) Shared Nothing Server haben keine gemeinsamen Speicher, Disk, CPU, Aber: Storage Area Networks Motiviert durch Höhere Sicherheit (desaster protection) Lokale Nähe von Servern zu Clients Historisch begründete Orte Physikalische Einschränkungen (Hitze, Gewicht, Energie) Monetäre Gründe (Grid) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 4

5 Logische Verteilung Daten stehen an verschiedenen logischen Orten Können, müssen aber nicht physikalisch unterschiedlich sein Verschiedene Attribute/Tabellen/Schemata Kann auch in einem Schema vorliegen (Tabellen buecher1, buecher2) Zusätzlich: Intensionale Überlappung Immer mit Redundanz verbunden Kontrollierte Redundanz jemand weiß, warum buecher1 oder buecher2 Unkontrollierte Redundanz keiner weiß, Gefahr von (extensionalen) Duplikaten Ursachen Schlechte Integration Redundanz wird nicht entfernt Historisch gewachsen Autonomie von Datenquellen Fehlende Kenntnisse (Unentdeckte Verteilung) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 5

6 Take Home Message Definition von logischer Verteilung ist anwendungsabhängig, die von physischer Verteilung nicht Daten können logisch verteilt sein, obwohl sie in einer Datenbank liegen Schema verdoppeln und Daten verteilen Zwei Filmquellen unverändert in ein Schema kopieren Daten können physisch verteilt sein, obwohl sie logisch unverteilt sind Replikation und Caching Klare Master Slave Beziehung Performanzsteigerung durch Partitionierung Auftrennung nach festen Kriterien Verteile Datenbanken: Strenge Kontrolle des wo von Daten Ulf Leser: Informationsintegration, Wintersemester 2006/2007 6

7 Autonomie Der Grad, zu dem verschiedene DBMS unabhängig voneinander betrieben werden Bezieht sich auf Kontrolle, Weiterentwicklung, Administration Meint nicht Unabhängigkeit im Sinne von Stromversorgung, Verschaltung, Vernetzung Klassen nach [ÖV99] Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie Ulf Leser: Informationsintegration, Wintersemester 2006/2007 7

8 Autonomie Heterogenität Verteilung als Ursache für Autonomie Autonomie als Ursache für Heterogenität Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität Besonders schlimm: Softwareentwickler Das Recht, alles dauernd zu ändern Not invented here Syndrom Wiederverwendung als ewiger Traum Standards grenzen Autonomie ein Im Web ist alles mega-autonom Aber: Marktplätze etc. Ulf Leser: Informationsintegration, Wintersemester 2006/2007 8

9 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/2007 9

10 Heterogenität Zwei Informationssysteme sind heterogen, wenn sie sich irgendwie unterscheiden Verschiedene Ausprägungen von irgendwie => verschiedene Arten von Heterogenität Informationsintegration = Überbrückung von Heterogenität Erstellung eines homogenen Systems Erweckung des Anscheins eines homogenen Systems Ulf Leser: Informationsintegration, Wintersemester 2006/

11 Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung Syntaktische Unterschiede Unterschiede in der Darstellung Gleiche Dinge verschieden repräsentieren Datenmodellheterogenität Strukturelle Heterogenität Strukturelle Unterschiede in der Darstellung Gleiche Dinge verschieden modellieren Semantische Heterogenität Unterschiede in der Bedeutung von Informationen Ulf Leser: Informationsintegration, Wintersemester 2006/

12 Erinnerung Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Heterogenität zwischen Datenquellen Ulf Leser: Informationsintegration, Wintersemester 2006/

13 Erinnerung Anfrage Integriertes Informationssystem Heterogenität zwischen globaler Schicht und Datenquellen Quelle Ulf Leser: Informationsintegration, Wintersemester 2006/

14 Probleme gelöst Technische Heterogenität Das IntInfoSys kann eine Anfrage absetzen und kriegt was zurück Syntaktische Unterschiede In dem was sind gleiche Dinge auch gleich dargestellt Datenmodellheterogenität Die Quelle liefert das was im Datenmodell des IntInfoSys Strukturelle Heterogenität Die Quelle liefert das was im Schema des IntInfoSys Semantische Heterogenität Die Quelle meint mit Begriffen dasselbe wie das IntInfoSys Gilt auf Schema- und Datenebene Ulf Leser: Informationsintegration, Wintersemester 2006/

15 Heterogenitätsklassen Auch andere Klassifikationen möglich [BKLW99] Syntaktische Heterogenität (= technische Heterogenität) Datenmodellheterogenität (= Datenmodellheterogenität) Logische Heterogenität (= semantische & strukturelle Heterogenität) oder nach [Con97] Semantische Konflikte (= semantische Heterogenität) Beschreibungskonflikte (= strukturelle Heterogenität bei geringfügig unterschiedlicher Intension) Heterogenitätskonflikte (= Datenmodellheterogenität) Strukturelle Konflikte (= strukturelle Heterogenität bei gleicher Intension, schematische Konflikte) Aber Man kann (und muss) das nicht immer klar trennen In der Realität treten immer schwer entwirrbare Kombinationen auf Ziel ist es, die Bandbreite der möglichen Probleme kennen zu lernen Ulf Leser: Informationsintegration, Wintersemester 2006/

16 Technische Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/

17 Hardware Heterogenität Bandbreite Hauptspeicher CPU Art Geschwindigkeit Nicht hier Ulf Leser: Informationsintegration, Wintersemester 2006/

18 Einschränkung des Zugriffs macht Sinn Komplexität Negation: teuer Gleichheit / Ungleichheit (Negation) = oder auch >,<,, Konjunktion (UND) oder auch Disjunktion (ODER - teuer) Benutzbarkeit Benutzer wollen einfache Schnittstellen (Volltextsuche) Technische Hindernisse Gebundene und freie Variablen Maximale Länge des Kommandozeilenpuffers Sicherheit Nur bestimmte Funktionen erlauben Teure Queries vermeiden, SQL-Injektion, Ulf Leser: Informationsintegration, Wintersemester 2006/

19 Beispiel Suche Konjunktion/Disjunktion gleich/ungleich Ulf Leser: Informationsintegration, Wintersemester 2006/

20 Beispiel Gebundene Variablen, vorgegebene Disjunktion Feste Auswahl von Werten, vorgegebene Konjunktion Ulf Leser: Informationsintegration, Wintersemester 2006/

21 Typische Probleme Globale Anfragesprache ist mächtiger als lokale Anfragesprache Anfragen nicht ausführbar Globales System muss kompensieren Lokale Anfragesprache ist mächtiger als globale Anfragesprache Verpasste Chance, lokale (effiziente) Ausführung auszunutzen Einschränkungen bzgl. Variablenbindung sind inkompatibel Anfragen eventuell nicht ausführbar Übersetzung von Anfragesprachen notwendig SQL XQuery, SQL HTTP, Web-Service SQL, etc. Oft nicht einfach möglich, da unterschiedliche Konzepte Ulf Leser: Informationsintegration, Wintersemester 2006/

22 Mächtige globale Anfragesprache SQL SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/

23 Kompensation möglich SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe Ulf Leser: Informationsintegration, Wintersemester 2006/

24 Kompensation nicht möglich SQL SELECT * FROM Books WHERE Price < 10 Euro HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/

25 Syntaktische Heterogenität Unterschiedliche Darstellung desselben Sachverhalts Dezimalpunkt oder komma Euro oder Comma-separated oder tab-separated HTML oder ASCII oder Unicode Notenskala 1-6 oder sehr gut, gut, Binärcodierung oder Zeichen Datumsformate (12. September 2006, , 9/12/2006, ) Überwindung in der Regel nicht problematisch Umrechnung, Übersetzungstabellen, Ulf Leser: Informationsintegration, Wintersemester 2006/

26 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

27 Datenmodellheterogenität Typische Datenmodelle CSV Relational (Tupel) XML (XML) Non-Standard (ASN.1) Domänenspezifisch (ACeDB, EXPRESS, OPEN-GIS, ) Proprietär (UniProt, PDB, ) Unterschied: Zum Austausch oder zur Speicherung XML als Speicherformat? Erfordert Konvertierung Spezielle Semantik geht unter Umständen verloren XML-Schachtelung im relationalen Modell? Später mehr (Modellmanagement) Ulf Leser: Informationsintegration, Wintersemester 2006/

28 Beispiel Ulf Leser: Informationsintegration, Wintersemester 2006/

29 Strukturelle Heterogenität Allgemein Gleiche Dinge in unterschiedlichen Schemata ausdrücken Andere Aufteilung von Attributen auf Tabellen Setzt intensionale Überlappung voraus ( gleiche Dinge ) Kann meist durch Anfragesprachen überwunden werden Sichten / Views Meistens mit semantischen Heterogenität verbunden Ausnahme: 1:1 Beziehungen Was bedeutet Äquivalenz zweier Schemata? Spezialfall: Schematische Heterogenität Verwendung anderer Elemente eines Datenmodells Kann meist nicht durch Anfragesprachen überwunden werden Ulf Leser: Informationsintegration, Wintersemester 2006/

30 Beispiel Verursacht durch verschiedene Abbildungen eines objektorientierten Modells Gleichwertig? Nur durch zusätzliche IC 1: Typ darf nur bestimmte Werte annehmen 1: Umsatz darf nicht immer gefüllt sein (abh. von typ) 2: Gleiche film_id darf nicht in verschiedenen Tabellen vorkommen Ulf Leser: Informationsintegration, Wintersemester 2006/

31 Denormalisierung Geschachtelt vs. flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung Redundanz wird in Kauf genommen (höhere Performanz) ARTICLE artpk title pages AUTHOR name PUBLICATION pubid title author ID? Ulf Leser: Informationsintegration, Wintersemester 2006/

32 Kardinalitäten Schema sind ähnlich, aber semantisch nicht gleichwertig m:n Beziehung zwischen Film und Sprache 1:1 Beziehung zwischen Film und Sprache Wenn eine Anwendung aber nur 1:1 Beziehungen enthält? Ulf Leser: Informationsintegration, Wintersemester 2006/

33 Spezialfall: Schematische Heterogenität maenner( Id, vorname, nachname) frauen( Id, vorname, nachname) Relation vs. Attribut Relation vs. Wert person( Id, vorname, nachname, maennlich?, weiblich?) person( Id, vorname, nachname, geschlecht) Attribut vs. Wert Ulf Leser: Informationsintegration, Wintersemester 2006/

34 Schematische Konflikte sind gemein Ulf Leser: Informationsintegration, Wintersemester 2006/

35 Integrierte Sichten Verlangt viele Verrenkungen Sicht muss angepasst werden, wenn neue Filmtypen vorliegen Datenänderungen erzeugen Schemaänderungen Das will man unbedingt vermeiden Ulf Leser: Informationsintegration, Wintersemester 2006/

36 SchemaSQL [LSS96] Lösung (Ausblick) Erweiterung von SQL Daten und Metadaten werden gleich behandelt Iteriert über alle Tupel von q1.film CREATE VIEW q1_q1 SELECT id, title, regisseur, typ FROM q1.film UNION SELECT A.id, A.title, A.regisseur, A FROM q1::film F, q2-> A WHERE A = F.Typ Iteriert über alle Relationennamen von q2 Join über Attributwerte in q1 und Tabellennamen in q2 Ulf Leser: Informationsintegration, Wintersemester 2006/

37 Exotische Probleme? Oh nein Schema zur Speicherung von Filmen des Verleihers XYZ ACTORS als VARCHAR ORIGINAL bedeutet was? TITLE, YEAR, an drei Stellen ID-Räume DEUTSCH und ORIGINAL getrennt? Ulf Leser: Informationsintegration, Wintersemester 2006/

38 Exotische Probleme? Schema von eachmovie (HP) Eine einzige Tabelle für Filme Zusätzliche Informationen über Benutzer des Web- Systems Wenig Infos über Filme, aber Links zu weiteren Quellen GENRE sind boolsche Attribute Ulf Leser: Informationsintegration, Wintersemester 2006/

39 Exotische Probleme? Schema von movielens.umn.edu Praktisch keine Informationen über Filme Eigene Tabelle für GENRE FILM-GENRE ist m:n Mehr Informationen über Benutzer Links sind verschwunden Ulf Leser: Informationsintegration, Wintersemester 2006/

40 FILM-PERSONEN ist m:n Schema des Filmdienst FILM-GENRE ist m:n Personen können mehrere Namen haben (Aliase, Künstlernamen) Eigene Tabelle für Filmtitel und Filmtiteltypen (?) Ulf Leser: Informationsintegration, Wintersemester 2006/

41 Schema der IMDB ACTOR und ACTRESS in verschiedenen Tabellen Beteiligte in eigenen Tabellen (FD hat Tabelle FUNKTIONEN) Ulf Leser: Informationsintegration, Wintersemester 2006/

43 Semantik Fremdwörterduden zu Semantik Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst Bedeutung, Inhalt eines Wortes, Satzes oder Textes Programmiersprachen Syntax: EBNF, Grammatiken Semantik: Wirkungen der Ausführung; operationale Semantik, Fixpunktsemantik, Sprache Syntaktisch falsch: Ich esse Butterbrot ein Semantisch falsch: Ich esse einen Schrank Ulf Leser: Informationsintegration, Wintersemester 2006/

44 Semantik Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung. [ÖV91] Semantik von Schemaelementen (meistens) Daten (siehe Ontologien) Ulf Leser: Informationsintegration, Wintersemester 2006/

45 Semantik von was? Name Extension Intension Realweltliche Objekte repräsentiert Konzept Ulf Leser: Informationsintegration, Wintersemester 2006/

46 Probleme Homonyme: Gleiche Namen, verschiedene Konzepte Synonyme: Verschiedene Namen, gleiche Konzepte Beziehungen zwischen Konzeptextensionen A=B (Äquivalenz): semantische (echte) Synonyme Kreditinstitut, Bank (?) Gibt es echte Synonyme? A B (Inklusion): B ist Hyperonym zu A; B ist Hyponym zu A Tochter Kind A B A B (Überlappung): Schwierigster Fall Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler A B = (Disjunktion): nicht verwandte Begriffe (häufigster Fall) Dose-Lohnsteuerjahresausgleich Ulf Leser: Informationsintegration, Wintersemester 2006/

47 Synonyme Verschiedene Worte für dasselbe Konzept Immer im Kontext der Anwendung DB1: Angestellter( Id, Vorname, Name,männlich,weiblich) DB2: Person( Id, Vorname, Nachname, Geschlecht) Ulf Leser: Informationsintegration, Wintersemester 2006/

48 Homonyme Gleiche Worte verschiedener Bedeutung Treten oft bei Überschreitung von Domänengrenzen auf DB1: Sekr., Sachbearbeiter, Bereichsleiter, etc. Angestellter( Id, Vorname, Name, m, w, Funktion) DB2: Protein( Id, Sequenz, organismus, Funktion, ) Transport, Katalyse, Signal, Ulf Leser: Informationsintegration, Wintersemester 2006/

49 -nym Wörter Synonym Homonym Antonym Verschiedene Wörter, gegenteilige Semantik Hell-dunkel, billig-teuer, Auto-Antonym Gleiche Wörter, gegenteilige Semantik Transparenz, left, clip, Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik It's the referee's job to record the new world record. Pseudonym Ulf Leser: Informationsintegration, Wintersemester 2006/

50 Semantik: Woher nehmen? Schemaelemente sind erst mal nur Namen Was bestimmt die Semantik eines Namens? Für Attributnamen: Datentyp Constraints (Schlüssel, FK, unique, CHECK, ) Zugehörigkeit zu einer Relation Andere Attribute dieser Relation Beziehung der Relation zu anderen Relationen Dokumentation Vorhandene Werte Wissen über den Anwendungsbereich Der Kontext Ulf Leser: Informationsintegration, Wintersemester 2006/

51 Konzepte sind schwierig Wie viele Mitarbeiter hat IBM? Was ist ein Mitarbeiter? Temporäre Mitarbeiter Feste Freie, Leiharbeiter, seit Jahren bei IBM arbeitende externe Berater Studentische Mitarbeiter, Diplomanden Stellen oder Köpfe? Doppelte Zählung bei mehreren Anstellungen? Was ist IBM? Welche Region? Welcher Geschäftsbereich? Informix? PWC? Welcher Zeitpunkt ist gemeint? Fester Zeitpunkt? Im Schnitt über alle Tage im letzten Quartal? Ulf Leser: Informationsintegration, Wintersemester 2006/

52 Konzepte ändern sich Synonyme? Prince, The artist formerly known as prince Ja dieselbe Person Nein dieselbe Person zu verschiedene Zeiten Temporale Abhängigkeit Synonyme? England, Großbritannien Ja für uns Nein für Schotten Anhängig vom kulturellen Hintergrund Ulf Leser: Informationsintegration, Wintersemester 2006/

53 Kontext Semantik kann nur im Kontext ermittelt werden Beispiel Unternehmen A: angestellte( ) Unternehmen B: mitarbeiter( ) Mitarbeiter und Angestellte kann man als Synonyme betrachten Aber: A.angestellte B.mitarbeiter = Wenn Personen nicht in zwei Unternehmen beschäftigt sind Erst bei einem Merger von A und B werden A.angestellte und B.mitarbeiter zu Synonymen Sollten dann zu einer Tabelle integriert werden Ulf Leser: Informationsintegration, Wintersemester 2006/

54 Semantik ist individuell Konzepte existieren nur im Kopf Man kann sie beschreiben, aber meint man auch dasselbe? Individuelle Kenntnisse und Erfahrungen Also: Reden, reden, reden Dann: Standards definieren Wie definiert man die Bedeutung eines Namens? Formale Wissensrepräsentation (Ontologien, OWL später) Dokumentieren Ulf Leser: Informationsintegration, Wintersemester 2006/

55 Quasi-Synoynme Integration = Entfernen von semantischer Redundanz Extensionen im integrierten Schema sollen disjunkt sein Keine Tabellen gute Kunden, neue Kunden oder Kunde1, Kunde2 Schwierig: Quasi-Synonyme Konzepte in verschiedenen Quellen, die sich so ähnlich sind, dass sie zur Integration genau untersucht werden müssen A/R: Integritätsbedingungen? A/R: Beziehungen zu anderen Elementen? R: Fehlende oder zusätzliche Attribute? R: Andere Schlüssel? R: Unterschiedliche Kardinalitäten gleicher Beziehungen? A: Unterschiedliche Einheiten? A: Unterschiedliche Wertebereiche (Controlled Vocs) Ulf Leser: Informationsintegration, Wintersemester 2006/

56 Beispiele mitarbeiter p_id Vorname VARCHAR(35) nachname alter 1 Wolfgang Meyer 33 5 Klaus Schmidt NULL mitarbeiter p_id Vorname VARCHAR(20) name alter 1 Peter Müller 0 5 Petra Weger IC: alter > 18 Synonym Default Werte Datentypkonflikt Ulf Leser: Informationsintegration, Wintersemester 2006/

58 Identität Semantische Konflikte auf Datenebene Konzept = Realweltobjekt Name = Identifikation, Schlüssel Synonyme: Verschiedene IDs für gleiches Objekt Personalausweisnummer und Führerscheinnummer ISBN und Kombination Autor/Titel Homonym: Gleiche IDs für verschiedene Objekte Dann ging was schief (gefälschte Pässe, ) Oder über Unternehmensgrenzen hinweg (Kunden.ID, ) Schwieriges Problem: Lokale IDs Schlüssel gelten in einer Tabelle Häufig verwendet man nur surrogate Keys (sequence) Die bedeuten nichts außerhalb der eigenen Datenbank Integration erfordert Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/

59 Duplikaterkennung Objektidentifikation, Record Linkage, Data Cleansing,... Wichtiger, als man denken man Anwendungsgebiete Personen- und Adressdaten Volkszählungen Werbeaktionen Kundenpflege Artikel und Autoren in Publikationsdatenbanken Anzeigen in einer Immobiliendatenbank Typische Merkmale zur Entstehung Gleiches Objekt mehrfach beobachtet Fehler bei der Datenerfassung (manuelle Eingabe, OCR, ) Objekt ändert Eigenschaften über die Zeit hinweg (Umzug) Keine global konsistente ID vorhanden Ulf Leser: Informationsintegration, Wintersemester 2006/

60 Problem Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt repräsentieren Attributwerte dürfen sich unterscheiden Formales Problem Eine Tabelle mit (zunächst unbekannten) Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate gleiche Identifier erhalten Problemerweiterungen Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten Typisches Vorgehen (später mehr) Ähnlichkeiten der Werte => Ähnlichkeit des Tupels Hinzuziehen weiterer Informationen (Links, ) Ulf Leser: Informationsintegration, Wintersemester 2006/

61 Praktisches, reales Problem Potentiell sehr große Datenmenge Kein Vergleich jedes Tupel mit jedem möglich Komplexität? Kein Hauptspeicher-Algorithmus Als SQL Anfrage Implementierung Sei R die Relation mit Duplikaten SELECT C1.*, genid(c1,c2) FROM R as C1, R as C2 WHERE sim(c1,c2)>t Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit Siehe VL Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/

62 Datenkonflikte Datenkonflikt Zwei Duplikate haben unterschiedliche Attributwerte für ein semantisch gleiches Attribut. Datenkonflikte entstehen Innerhalb eines Informationssystems (intra-source) Bei der Integration mehrerer Informationssysteme (inter-source) Voraussetzung Duplikate (sonst kein Konflikt) Die muss man erst mal finden Ulf Leser: Informationsintegration, Wintersemester 2006/

63 Datenkonflikte - Beispiel amazon.de Konflikt kann auch mit NULL-Wert herrschen H. Melville $3.98 ID Herman Melville Moby Dick $5.99 bol.de Ulf Leser: Informationsintegration, Wintersemester 2006/

64 Datenkonflikte Entstehung Innerhalb eines Informationssystems Mangels Integritätsbedingungen oder Konsistenz-Checks Freitextfelder, Kommentarfelder Redundante Schemata Falsche Einträge Tippfehler, Übertragungsfehler, OCR-Fehler, Obsolete Einträge Divergierende Aktualisierungszeitpunkte Vergessene oder verzögerte Aktualisierung Ulf Leser: Informationsintegration, Wintersemester 2006/

65 Datenkonflikte Entstehung Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen ( 1 versus eins ) Andere lokale Schreibweisen oder Konventionen Skalen, Währungen, Auflösen Konfliktlösungsfunktionen Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten usw. Siehe VL Informationsqualität Ulf Leser: Informationsintegration, Wintersemester 2006/

67 Transparenz Verteilung, Autonomie, Heterogenität kann in unterschiedlichem Maße überwunden werden Ortstransparenz Benutzer müssen den Ort der integrierten Systeme nicht kennen Keine URLs, Datenbankpräfixe, Quellentransparenz, Verteilungstransparenz Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt werden kann (und muss daher nicht auswählen) Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt wurde (Datenherkunft) Setzt ein globales Schema voraus Ulf Leser: Informationsintegration, Wintersemester 2006/

68 Transparenz 2 Schnittstellentransparenz Benutzer kennt verschiedene Quellen, aber kann sie alle gleich ansprechen Keine Kenntnis lokaler Anfragesprachen, Protokolle, Schematransparenz Benutzer kennt die Schemata lokaler Quellen nicht Anfragen richten sich nur an das (homogene) globale Schema Spezialfall der Verteilungstransparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

69 Will man nicht immer! Intuitiv strebt man maximale Transparenz an Tatsächlich ist das oft kontraproduktiv Benutzer kennen und lieben ihre Datenquellen Datenherkunft ist wichtigstes Kriterium für Einschätzung der Qualität der Informationen Zugriff durch globales Schemas nur bei Kenntnis dieses Benutzer muss neues Schema lernen Globale Schemata können sehr kompliziert werden Da sie viele Quellen integrieren Für kleine Zugriffe unnötig schwierig Transparenz bedingt Informationsverlust Ulf Leser: Informationsintegration, Wintersemester 2006/

70 Literatur Wichtigste Literatur für heute [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, [Con97] Föderierte Datenbanksysteme. Konzepte der Datenintegration Stefan Conrad, Springer Verlag, 1997 Ulf Leser: Informationsintegration, Wintersemester 2006/