Informationsintegration

Größe: px
Ab Seite anzeigen:

Download "Informationsintegration"

Transkript

1 Informationsintegration Heterogenität Transparenz Ulf Leser Wissensmanagement in der Bioinformatik

2 Klassifikationsdimensionen Verteilung Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/2007 2

3 Verteilung Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk erreichbar sind Zwei Aspekte Physische Verteilung Logische Verteilung Ulf Leser: Informationsintegration, Wintersemester 2006/2007 3

4 Physische Verteilung Server stehen an unterschiedlichen Orten Anderes Land, Gebäude, Raum, Schrank, Rack, Server sind physikalisch unabhängig (hoffentlich) Shared Nothing Server haben keine gemeinsamen Speicher, Disk, CPU, Aber: Storage Area Networks Motiviert durch Höhere Sicherheit (desaster protection) Lokale Nähe von Servern zu Clients Historisch begründete Orte Physikalische Einschränkungen (Hitze, Gewicht, Energie) Monetäre Gründe (Grid) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 4

5 Logische Verteilung Daten stehen an verschiedenen logischen Orten Können, müssen aber nicht physikalisch unterschiedlich sein Verschiedene Attribute/Tabellen/Schemata Kann auch in einem Schema vorliegen (Tabellen buecher1, buecher2) Zusätzlich: Intensionale Überlappung Immer mit Redundanz verbunden Kontrollierte Redundanz jemand weiß, warum buecher1 oder buecher2 Unkontrollierte Redundanz keiner weiß, Gefahr von (extensionalen) Duplikaten Ursachen Schlechte Integration Redundanz wird nicht entfernt Historisch gewachsen Autonomie von Datenquellen Fehlende Kenntnisse (Unentdeckte Verteilung) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 5

6 Take Home Message Definition von logischer Verteilung ist anwendungsabhängig, die von physischer Verteilung nicht Daten können logisch verteilt sein, obwohl sie in einer Datenbank liegen Schema verdoppeln und Daten verteilen Zwei Filmquellen unverändert in ein Schema kopieren Daten können physisch verteilt sein, obwohl sie logisch unverteilt sind Replikation und Caching Klare Master Slave Beziehung Performanzsteigerung durch Partitionierung Auftrennung nach festen Kriterien Verteile Datenbanken: Strenge Kontrolle des wo von Daten Ulf Leser: Informationsintegration, Wintersemester 2006/2007 6

7 Autonomie Der Grad, zu dem verschiedene DBMS unabhängig voneinander betrieben werden Bezieht sich auf Kontrolle, Weiterentwicklung, Administration Meint nicht Unabhängigkeit im Sinne von Stromversorgung, Verschaltung, Vernetzung Klassen nach [ÖV99] Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie Ulf Leser: Informationsintegration, Wintersemester 2006/2007 7

8 Autonomie Heterogenität Verteilung als Ursache für Autonomie Autonomie als Ursache für Heterogenität Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität Besonders schlimm: Softwareentwickler Das Recht, alles dauernd zu ändern Not invented here Syndrom Wiederverwendung als ewiger Traum Standards grenzen Autonomie ein Im Web ist alles mega-autonom Aber: Marktplätze etc. Ulf Leser: Informationsintegration, Wintersemester 2006/2007 8

9 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/2007 9

10 Heterogenität Zwei Informationssysteme sind heterogen, wenn sie sich irgendwie unterscheiden Verschiedene Ausprägungen von irgendwie => verschiedene Arten von Heterogenität Informationsintegration = Überbrückung von Heterogenität Erstellung eines homogenen Systems Erweckung des Anscheins eines homogenen Systems Ulf Leser: Informationsintegration, Wintersemester 2006/

11 Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung Syntaktische Unterschiede Unterschiede in der Darstellung Gleiche Dinge verschieden repräsentieren Datenmodellheterogenität Strukturelle Heterogenität Strukturelle Unterschiede in der Darstellung Gleiche Dinge verschieden modellieren Semantische Heterogenität Unterschiede in der Bedeutung von Informationen Ulf Leser: Informationsintegration, Wintersemester 2006/

12 Erinnerung Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Heterogenität zwischen Datenquellen Ulf Leser: Informationsintegration, Wintersemester 2006/

13 Erinnerung Anfrage Integriertes Informationssystem Heterogenität zwischen globaler Schicht und Datenquellen Quelle Ulf Leser: Informationsintegration, Wintersemester 2006/

14 Probleme gelöst Technische Heterogenität Das IntInfoSys kann eine Anfrage absetzen und kriegt was zurück Syntaktische Unterschiede In dem was sind gleiche Dinge auch gleich dargestellt Datenmodellheterogenität Die Quelle liefert das was im Datenmodell des IntInfoSys Strukturelle Heterogenität Die Quelle liefert das was im Schema des IntInfoSys Semantische Heterogenität Die Quelle meint mit Begriffen dasselbe wie das IntInfoSys Gilt auf Schema- und Datenebene Ulf Leser: Informationsintegration, Wintersemester 2006/

15 Heterogenitätsklassen Auch andere Klassifikationen möglich [BKLW99] Syntaktische Heterogenität (= technische Heterogenität) Datenmodellheterogenität (= Datenmodellheterogenität) Logische Heterogenität (= semantische & strukturelle Heterogenität) oder nach [Con97] Semantische Konflikte (= semantische Heterogenität) Beschreibungskonflikte (= strukturelle Heterogenität bei geringfügig unterschiedlicher Intension) Heterogenitätskonflikte (= Datenmodellheterogenität) Strukturelle Konflikte (= strukturelle Heterogenität bei gleicher Intension, schematische Konflikte) Aber Man kann (und muss) das nicht immer klar trennen In der Realität treten immer schwer entwirrbare Kombinationen auf Ziel ist es, die Bandbreite der möglichen Probleme kennen zu lernen Ulf Leser: Informationsintegration, Wintersemester 2006/

16 Technische Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/

17 Hardware Heterogenität Bandbreite Hauptspeicher CPU Art Geschwindigkeit Nicht hier Ulf Leser: Informationsintegration, Wintersemester 2006/

18 Einschränkung des Zugriffs macht Sinn Komplexität Negation: teuer Gleichheit / Ungleichheit (Negation) = oder auch >,<,, Konjunktion (UND) oder auch Disjunktion (ODER - teuer) Benutzbarkeit Benutzer wollen einfache Schnittstellen (Volltextsuche) Technische Hindernisse Gebundene und freie Variablen Maximale Länge des Kommandozeilenpuffers Sicherheit Nur bestimmte Funktionen erlauben Teure Queries vermeiden, SQL-Injektion, Ulf Leser: Informationsintegration, Wintersemester 2006/

19 Beispiel Suche Konjunktion/Disjunktion gleich/ungleich Ulf Leser: Informationsintegration, Wintersemester 2006/

20 Beispiel Gebundene Variablen, vorgegebene Disjunktion Feste Auswahl von Werten, vorgegebene Konjunktion Ulf Leser: Informationsintegration, Wintersemester 2006/

21 Typische Probleme Globale Anfragesprache ist mächtiger als lokale Anfragesprache Anfragen nicht ausführbar Globales System muss kompensieren Lokale Anfragesprache ist mächtiger als globale Anfragesprache Verpasste Chance, lokale (effiziente) Ausführung auszunutzen Einschränkungen bzgl. Variablenbindung sind inkompatibel Anfragen eventuell nicht ausführbar Übersetzung von Anfragesprachen notwendig SQL XQuery, SQL HTTP, Web-Service SQL, etc. Oft nicht einfach möglich, da unterschiedliche Konzepte Ulf Leser: Informationsintegration, Wintersemester 2006/

22 Mächtige globale Anfragesprache SQL SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/

23 Kompensation möglich SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe Ulf Leser: Informationsintegration, Wintersemester 2006/

24 Kompensation nicht möglich SQL SELECT * FROM Books WHERE Price < 10 Euro HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/

25 Syntaktische Heterogenität Unterschiedliche Darstellung desselben Sachverhalts Dezimalpunkt oder komma Euro oder Comma-separated oder tab-separated HTML oder ASCII oder Unicode Notenskala 1-6 oder sehr gut, gut, Binärcodierung oder Zeichen Datumsformate (12. September 2006, , 9/12/2006, ) Überwindung in der Regel nicht problematisch Umrechnung, Übersetzungstabellen, Ulf Leser: Informationsintegration, Wintersemester 2006/

26 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

27 Datenmodellheterogenität Typische Datenmodelle CSV Relational (Tupel) XML (XML) Non-Standard (ASN.1) Domänenspezifisch (ACeDB, EXPRESS, OPEN-GIS, ) Proprietär (UniProt, PDB, ) Unterschied: Zum Austausch oder zur Speicherung XML als Speicherformat? Erfordert Konvertierung Spezielle Semantik geht unter Umständen verloren XML-Schachtelung im relationalen Modell? Später mehr (Modellmanagement) Ulf Leser: Informationsintegration, Wintersemester 2006/

28 Beispiel Ulf Leser: Informationsintegration, Wintersemester 2006/

29 Strukturelle Heterogenität Allgemein Gleiche Dinge in unterschiedlichen Schemata ausdrücken Andere Aufteilung von Attributen auf Tabellen Setzt intensionale Überlappung voraus ( gleiche Dinge ) Kann meist durch Anfragesprachen überwunden werden Sichten / Views Meistens mit semantischen Heterogenität verbunden Ausnahme: 1:1 Beziehungen Was bedeutet Äquivalenz zweier Schemata? Spezialfall: Schematische Heterogenität Verwendung anderer Elemente eines Datenmodells Kann meist nicht durch Anfragesprachen überwunden werden Ulf Leser: Informationsintegration, Wintersemester 2006/

30 Beispiel Verursacht durch verschiedene Abbildungen eines objektorientierten Modells Gleichwertig? Nur durch zusätzliche IC 1: Typ darf nur bestimmte Werte annehmen 1: Umsatz darf nicht immer gefüllt sein (abh. von typ) 2: Gleiche film_id darf nicht in verschiedenen Tabellen vorkommen Ulf Leser: Informationsintegration, Wintersemester 2006/

31 Denormalisierung Geschachtelt vs. flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung Redundanz wird in Kauf genommen (höhere Performanz) ARTICLE artpk title pages AUTHOR name PUBLICATION pubid title author ID? Ulf Leser: Informationsintegration, Wintersemester 2006/

32 Kardinalitäten Schema sind ähnlich, aber semantisch nicht gleichwertig m:n Beziehung zwischen Film und Sprache 1:1 Beziehung zwischen Film und Sprache Wenn eine Anwendung aber nur 1:1 Beziehungen enthält? Ulf Leser: Informationsintegration, Wintersemester 2006/

33 Spezialfall: Schematische Heterogenität maenner( Id, vorname, nachname) frauen( Id, vorname, nachname) Relation vs. Attribut Relation vs. Wert person( Id, vorname, nachname, maennlich?, weiblich?) person( Id, vorname, nachname, geschlecht) Attribut vs. Wert Ulf Leser: Informationsintegration, Wintersemester 2006/

34 Schematische Konflikte sind gemein Ulf Leser: Informationsintegration, Wintersemester 2006/

35 Integrierte Sichten Verlangt viele Verrenkungen Sicht muss angepasst werden, wenn neue Filmtypen vorliegen Datenänderungen erzeugen Schemaänderungen Das will man unbedingt vermeiden Ulf Leser: Informationsintegration, Wintersemester 2006/

36 SchemaSQL [LSS96] Lösung (Ausblick) Erweiterung von SQL Daten und Metadaten werden gleich behandelt Iteriert über alle Tupel von q1.film CREATE VIEW q1_q1 SELECT id, title, regisseur, typ FROM q1.film UNION SELECT A.id, A.title, A.regisseur, A FROM q1::film F, q2-> A WHERE A = F.Typ Iteriert über alle Relationennamen von q2 Join über Attributwerte in q1 und Tabellennamen in q2 Ulf Leser: Informationsintegration, Wintersemester 2006/

37 Exotische Probleme? Oh nein Schema zur Speicherung von Filmen des Verleihers XYZ ACTORS als VARCHAR ORIGINAL bedeutet was? TITLE, YEAR, an drei Stellen ID-Räume DEUTSCH und ORIGINAL getrennt? Ulf Leser: Informationsintegration, Wintersemester 2006/

38 Exotische Probleme? Schema von eachmovie (HP) Eine einzige Tabelle für Filme Zusätzliche Informationen über Benutzer des Web- Systems Wenig Infos über Filme, aber Links zu weiteren Quellen GENRE sind boolsche Attribute Ulf Leser: Informationsintegration, Wintersemester 2006/

39 Exotische Probleme? Schema von movielens.umn.edu Praktisch keine Informationen über Filme Eigene Tabelle für GENRE FILM-GENRE ist m:n Mehr Informationen über Benutzer Links sind verschwunden Ulf Leser: Informationsintegration, Wintersemester 2006/

40 FILM-PERSONEN ist m:n Schema des Filmdienst FILM-GENRE ist m:n Personen können mehrere Namen haben (Aliase, Künstlernamen) Eigene Tabelle für Filmtitel und Filmtiteltypen (?) Ulf Leser: Informationsintegration, Wintersemester 2006/

41 Schema der IMDB ACTOR und ACTRESS in verschiedenen Tabellen Beteiligte in eigenen Tabellen (FD hat Tabelle FUNKTIONEN) Ulf Leser: Informationsintegration, Wintersemester 2006/

42 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

43 Semantik Fremdwörterduden zu Semantik Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst Bedeutung, Inhalt eines Wortes, Satzes oder Textes Programmiersprachen Syntax: EBNF, Grammatiken Semantik: Wirkungen der Ausführung; operationale Semantik, Fixpunktsemantik, Sprache Syntaktisch falsch: Ich esse Butterbrot ein Semantisch falsch: Ich esse einen Schrank Ulf Leser: Informationsintegration, Wintersemester 2006/

44 Semantik Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung. [ÖV91] Semantik von Schemaelementen (meistens) Daten (siehe Ontologien) Ulf Leser: Informationsintegration, Wintersemester 2006/

45 Semantik von was? Name Extension Intension Realweltliche Objekte repräsentiert Konzept Ulf Leser: Informationsintegration, Wintersemester 2006/

46 Probleme Homonyme: Gleiche Namen, verschiedene Konzepte Synonyme: Verschiedene Namen, gleiche Konzepte Beziehungen zwischen Konzeptextensionen A=B (Äquivalenz): semantische (echte) Synonyme Kreditinstitut, Bank (?) Gibt es echte Synonyme? A B (Inklusion): B ist Hyperonym zu A; B ist Hyponym zu A Tochter Kind A B A B (Überlappung): Schwierigster Fall Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler A B = (Disjunktion): nicht verwandte Begriffe (häufigster Fall) Dose-Lohnsteuerjahresausgleich Ulf Leser: Informationsintegration, Wintersemester 2006/

47 Synonyme Verschiedene Worte für dasselbe Konzept Immer im Kontext der Anwendung DB1: Angestellter( Id, Vorname, Name,männlich,weiblich) DB2: Person( Id, Vorname, Nachname, Geschlecht) Ulf Leser: Informationsintegration, Wintersemester 2006/

48 Homonyme Gleiche Worte verschiedener Bedeutung Treten oft bei Überschreitung von Domänengrenzen auf DB1: Sekr., Sachbearbeiter, Bereichsleiter, etc. Angestellter( Id, Vorname, Name, m, w, Funktion) DB2: Protein( Id, Sequenz, organismus, Funktion, ) Transport, Katalyse, Signal, Ulf Leser: Informationsintegration, Wintersemester 2006/

49 -nym Wörter Synonym Homonym Antonym Verschiedene Wörter, gegenteilige Semantik Hell-dunkel, billig-teuer, Auto-Antonym Gleiche Wörter, gegenteilige Semantik Transparenz, left, clip, Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik It's the referee's job to record the new world record. Pseudonym Ulf Leser: Informationsintegration, Wintersemester 2006/

50 Semantik: Woher nehmen? Schemaelemente sind erst mal nur Namen Was bestimmt die Semantik eines Namens? Für Attributnamen: Datentyp Constraints (Schlüssel, FK, unique, CHECK, ) Zugehörigkeit zu einer Relation Andere Attribute dieser Relation Beziehung der Relation zu anderen Relationen Dokumentation Vorhandene Werte Wissen über den Anwendungsbereich Der Kontext Ulf Leser: Informationsintegration, Wintersemester 2006/

51 Konzepte sind schwierig Wie viele Mitarbeiter hat IBM? Was ist ein Mitarbeiter? Temporäre Mitarbeiter Feste Freie, Leiharbeiter, seit Jahren bei IBM arbeitende externe Berater Studentische Mitarbeiter, Diplomanden Stellen oder Köpfe? Doppelte Zählung bei mehreren Anstellungen? Was ist IBM? Welche Region? Welcher Geschäftsbereich? Informix? PWC? Welcher Zeitpunkt ist gemeint? Fester Zeitpunkt? Im Schnitt über alle Tage im letzten Quartal? Ulf Leser: Informationsintegration, Wintersemester 2006/

52 Konzepte ändern sich Synonyme? Prince, The artist formerly known as prince Ja dieselbe Person Nein dieselbe Person zu verschiedene Zeiten Temporale Abhängigkeit Synonyme? England, Großbritannien Ja für uns Nein für Schotten Anhängig vom kulturellen Hintergrund Ulf Leser: Informationsintegration, Wintersemester 2006/

53 Kontext Semantik kann nur im Kontext ermittelt werden Beispiel Unternehmen A: angestellte( ) Unternehmen B: mitarbeiter( ) Mitarbeiter und Angestellte kann man als Synonyme betrachten Aber: A.angestellte B.mitarbeiter = Wenn Personen nicht in zwei Unternehmen beschäftigt sind Erst bei einem Merger von A und B werden A.angestellte und B.mitarbeiter zu Synonymen Sollten dann zu einer Tabelle integriert werden Ulf Leser: Informationsintegration, Wintersemester 2006/

54 Semantik ist individuell Konzepte existieren nur im Kopf Man kann sie beschreiben, aber meint man auch dasselbe? Individuelle Kenntnisse und Erfahrungen Also: Reden, reden, reden Dann: Standards definieren Wie definiert man die Bedeutung eines Namens? Formale Wissensrepräsentation (Ontologien, OWL später) Dokumentieren Ulf Leser: Informationsintegration, Wintersemester 2006/

55 Quasi-Synoynme Integration = Entfernen von semantischer Redundanz Extensionen im integrierten Schema sollen disjunkt sein Keine Tabellen gute Kunden, neue Kunden oder Kunde1, Kunde2 Schwierig: Quasi-Synonyme Konzepte in verschiedenen Quellen, die sich so ähnlich sind, dass sie zur Integration genau untersucht werden müssen A/R: Integritätsbedingungen? A/R: Beziehungen zu anderen Elementen? R: Fehlende oder zusätzliche Attribute? R: Andere Schlüssel? R: Unterschiedliche Kardinalitäten gleicher Beziehungen? A: Unterschiedliche Einheiten? A: Unterschiedliche Wertebereiche (Controlled Vocs) Ulf Leser: Informationsintegration, Wintersemester 2006/

56 Beispiele mitarbeiter p_id Vorname VARCHAR(35) nachname alter 1 Wolfgang Meyer 33 5 Klaus Schmidt NULL mitarbeiter p_id Vorname VARCHAR(20) name alter 1 Peter Müller 0 5 Petra Weger IC: alter > 18 Synonym Default Werte Datentypkonflikt Ulf Leser: Informationsintegration, Wintersemester 2006/

57 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

58 Identität Semantische Konflikte auf Datenebene Konzept = Realweltobjekt Name = Identifikation, Schlüssel Synonyme: Verschiedene IDs für gleiches Objekt Personalausweisnummer und Führerscheinnummer ISBN und Kombination Autor/Titel Homonym: Gleiche IDs für verschiedene Objekte Dann ging was schief (gefälschte Pässe, ) Oder über Unternehmensgrenzen hinweg (Kunden.ID, ) Schwieriges Problem: Lokale IDs Schlüssel gelten in einer Tabelle Häufig verwendet man nur surrogate Keys (sequence) Die bedeuten nichts außerhalb der eigenen Datenbank Integration erfordert Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/

59 Duplikaterkennung Objektidentifikation, Record Linkage, Data Cleansing,... Wichtiger, als man denken man Anwendungsgebiete Personen- und Adressdaten Volkszählungen Werbeaktionen Kundenpflege Artikel und Autoren in Publikationsdatenbanken Anzeigen in einer Immobiliendatenbank Typische Merkmale zur Entstehung Gleiches Objekt mehrfach beobachtet Fehler bei der Datenerfassung (manuelle Eingabe, OCR, ) Objekt ändert Eigenschaften über die Zeit hinweg (Umzug) Keine global konsistente ID vorhanden Ulf Leser: Informationsintegration, Wintersemester 2006/

60 Problem Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt repräsentieren Attributwerte dürfen sich unterscheiden Formales Problem Eine Tabelle mit (zunächst unbekannten) Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate gleiche Identifier erhalten Problemerweiterungen Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten Typisches Vorgehen (später mehr) Ähnlichkeiten der Werte => Ähnlichkeit des Tupels Hinzuziehen weiterer Informationen (Links, ) Ulf Leser: Informationsintegration, Wintersemester 2006/

61 Praktisches, reales Problem Potentiell sehr große Datenmenge Kein Vergleich jedes Tupel mit jedem möglich Komplexität? Kein Hauptspeicher-Algorithmus Als SQL Anfrage Implementierung Sei R die Relation mit Duplikaten SELECT C1.*, genid(c1,c2) FROM R as C1, R as C2 WHERE sim(c1,c2)>t Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit Siehe VL Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/

62 Datenkonflikte Datenkonflikt Zwei Duplikate haben unterschiedliche Attributwerte für ein semantisch gleiches Attribut. Datenkonflikte entstehen Innerhalb eines Informationssystems (intra-source) Bei der Integration mehrerer Informationssysteme (inter-source) Voraussetzung Duplikate (sonst kein Konflikt) Die muss man erst mal finden Ulf Leser: Informationsintegration, Wintersemester 2006/

63 Datenkonflikte - Beispiel amazon.de Konflikt kann auch mit NULL-Wert herrschen H. Melville $3.98 ID Herman Melville Moby Dick $5.99 bol.de Ulf Leser: Informationsintegration, Wintersemester 2006/

64 Datenkonflikte Entstehung Innerhalb eines Informationssystems Mangels Integritätsbedingungen oder Konsistenz-Checks Freitextfelder, Kommentarfelder Redundante Schemata Falsche Einträge Tippfehler, Übertragungsfehler, OCR-Fehler, Obsolete Einträge Divergierende Aktualisierungszeitpunkte Vergessene oder verzögerte Aktualisierung Ulf Leser: Informationsintegration, Wintersemester 2006/

65 Datenkonflikte Entstehung Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen ( 1 versus eins ) Andere lokale Schreibweisen oder Konventionen Skalen, Währungen, Auflösen Konfliktlösungsfunktionen Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten usw. Siehe VL Informationsqualität Ulf Leser: Informationsintegration, Wintersemester 2006/

66 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

67 Transparenz Verteilung, Autonomie, Heterogenität kann in unterschiedlichem Maße überwunden werden Ortstransparenz Benutzer müssen den Ort der integrierten Systeme nicht kennen Keine URLs, Datenbankpräfixe, Quellentransparenz, Verteilungstransparenz Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt werden kann (und muss daher nicht auswählen) Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt wurde (Datenherkunft) Setzt ein globales Schema voraus Ulf Leser: Informationsintegration, Wintersemester 2006/

68 Transparenz 2 Schnittstellentransparenz Benutzer kennt verschiedene Quellen, aber kann sie alle gleich ansprechen Keine Kenntnis lokaler Anfragesprachen, Protokolle, Schematransparenz Benutzer kennt die Schemata lokaler Quellen nicht Anfragen richten sich nur an das (homogene) globale Schema Spezialfall der Verteilungstransparenz Ulf Leser: Informationsintegration, Wintersemester 2006/

69 Will man nicht immer! Intuitiv strebt man maximale Transparenz an Tatsächlich ist das oft kontraproduktiv Benutzer kennen und lieben ihre Datenquellen Datenherkunft ist wichtigstes Kriterium für Einschätzung der Qualität der Informationen Zugriff durch globales Schemas nur bei Kenntnis dieses Benutzer muss neues Schema lernen Globale Schemata können sehr kompliziert werden Da sie viele Quellen integrieren Für kleine Zugriffe unnötig schwierig Transparenz bedingt Informationsverlust Ulf Leser: Informationsintegration, Wintersemester 2006/

70 Literatur Wichtigste Literatur für heute [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, [Con97] Föderierte Datenbanksysteme. Konzepte der Datenintegration Stefan Conrad, Springer Verlag, 1997 Ulf Leser: Informationsintegration, Wintersemester 2006/

Informationsintegration

Informationsintegration Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Sebastian Wandelt Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration

Mehr

Informationsintegration

Informationsintegration Informationsintegration Heterogenität Datenkonflikte Transparenz Ulf Leser Wissensmanagement in der Bioinformatik Klassifikationsdimensionen [ÖV99] Klassische Eigenschaften von Informationssystemen Verteilung

Mehr

Informationsintegration

Informationsintegration Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Klassifikationsdimensionen [ÖV99] Eigenschaften von Informationssystemen in Bezug auf deren Integration Verteilung Autonomie

Mehr

Informationsintegration

Informationsintegration Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration 2 Klassifikationsdimensionen

Mehr

Autonomie & Heterogenität

Autonomie & Heterogenität Autonomie & Heterogenität Komplexe Informationssysteme Fabian Panse panse@informatik.uni-hamburg.de Universität Hamburg Probleme Einführung Autonomie Heterogenität Daten sind auf mehrere Quellen verteilt

Mehr

Informationsintegration

Informationsintegration Informationsintegration Architekturen Vergleichskriterien für integrierte Systeme Ulf Leser Wissensmanagement in der Bioinformatik Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs

Mehr

Datenintegration & Datenherkunft Verteilung, Autonomie, und Heterogenität

Datenintegration & Datenherkunft Verteilung, Autonomie, und Heterogenität Datenintegration & Datenherkunft Verteilung, Autonomie, und Wintersemester 2010/11 Melanie Herschel melanie.herschel@uni-tuebingen.de Lehrstuhl für Datenbanksysteme, Universität Tübingen 1 Klassifikation

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014 Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Dr. Anika Groß Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt

Datenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung

Mehr

II Heterogenität und Architekturen

II Heterogenität und Architekturen II Heterogenität und Dr. Armin Roth arminroth.de 24.04.2013 Dr. Armin Roth (arminroth.de) II Heterogenität und 24.04.2013 1 / 24 Agenda 1 Semantische Heterogenität 2 Architekturparadigmen PDMS Dr. Armin

Mehr

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 25.10.2004 Felix

Mehr

Informationsintegration Beispiel

Informationsintegration Beispiel Informationsintegration Beispiel 17.4.2007 Felix Naumann Informationsintegration 2 Web Service A Web Service B Federated Database Systems Amit Sheth

Mehr

Informationsintegration

Informationsintegration Informationsintegration Architekturen Ulf Leser Wissensmanagement in der Bioinformatik Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung

Mehr

Informationsintegration

Informationsintegration Informationsintegration Einleitung Teil 2 Ulf Leser Informationsintegration am Beispiel Quellen Daten versus Schemata Ulf Leser: Informationsintegration 2 Frage eines Biologen Finde alle menschlichen Sequenzen,

Mehr

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung Wiederholung VU Datenmodellierung VL Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester

Mehr

Integration, Migration und Evolution

Integration, Migration und Evolution 14. Mai 2013 Programm für heute 1 2 Quelle Das Material zu diesem Kapitel stammt aus der Vorlesung Datenintegration & Datenherkunft der Universität Tübingen gehalten von Melanie Herschel im WS 2010/11.

Mehr

Relationales Datenbanksystem Oracle

Relationales Datenbanksystem Oracle Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information

Mehr

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung Wiederholung VU Datenmodellierung VU Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester

Mehr

Informationsintegration

Informationsintegration Informationsintegration Grundlegende Architekturen Ulf Leser Inhalt diese Vorlesung Klassifikation verteilter, autonomer, heterogener Systeme Weitere Klassifikationskriterien Schichtenaufbau integrierter

Mehr

SchemaSQL Eine Multidatenbank Sprache. Volodymyr Biryuk

SchemaSQL Eine Multidatenbank Sprache. Volodymyr Biryuk SchemaSQL Eine Multidatenbank Sprache Volodymyr Biryuk Herausforderung Aufbau eines Multi-Datenbank-Systems (MDBS) Problem Autonomie Distribution Heterogenität Integration heterogener Datenquellen Art

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Datenbanken Grundlagen und Design

Datenbanken Grundlagen und Design Frank Geisler Datenbanken Grundlagen und Design 3., aktualisierte und erweiterte Auflage mitp Vorwort 15 Teil I Grundlagen 19 i Einführung in das Thema Datenbanken 21 i.i Warum ist Datenbankdesign wichtig?

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

1. Einführung Seite 1. Kapitel 1: Einführung

1. Einführung Seite 1. Kapitel 1: Einführung 1. Einführung Seite 1 Kapitel 1: Einführung 1. Einführung Seite 2 Willkommen! Studierenden-Datenbank Hans Eifrig hat die Matrikelnummer 1223. Seine Adresse ist Seeweg 20. Er ist im zweiten Semester. Lisa

Mehr

Überblick. VL Informationsintegration Verteilung, Autonomie und Heterogenität Felix Naumann

Überblick. VL Informationsintegration Verteilung, Autonomie und Heterogenität Felix Naumann VL Informationsintegration Verteilung, Autonomie und Heterogenität 19.4.2007 Felix Naumann Überblick 2 Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Semantische Heterogenität

Mehr

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. 1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?

Mehr

Informationsintegration Große Datenräume in Web-basierten Umgebungen

Informationsintegration Große Datenräume in Web-basierten Umgebungen Informationsintegration Große Datenräume in Web-basierten Umgebungen Felix Naumann Humboldt-Universität zu Berlin naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt Fusion Datenintegration

Mehr

Einführung Verteilte DBS Schemaarchitektur Katalogverwaltung Namensverwaltung

Einführung Verteilte DBS Schemaarchitektur Katalogverwaltung Namensverwaltung 3. Verteilte Datenbanksysteme: architektur und Katalogverwaltung Einführung Verteilte DBS architektur Katalogverwaltung Namensverwaltung WS15/16, Prof. Dr. E. Rahm 3-1 Grobaufbau eines Verteilten DBS Rechnerknoten

Mehr

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung

Mehr

Schemamerging und -mapping

Schemamerging und -mapping Schemamerging und -mapping Seminar Informationsqualität und -integration, 30.06.2006 Überblick Schemaintegration / Einleitung Ziele Integrationskonflikte Integrationstechniken Multidatenbankanfragesprachen

Mehr

7. XML-Datenbanksysteme und SQL/XML

7. XML-Datenbanksysteme und SQL/XML 7. XML-Datenbanksysteme und SQL/XML Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherung von XML-Dokumenten Speicherung von XML-Dokumenten als Ganzes Generische Dekomposition von XML-Dokumenten Schemabasierte

Mehr

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Grundlagen von SQL Informatik 2, FS18 Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Markus Dahinden 13.05.18 1 Grundlagen von SQL (Structured Query Language)

Mehr

5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp

5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp 5/14/18 Grundlagen von SQL (Structured Query Language) Datenbanksprache Befehle Datenbanken und Tabellen erstellen/verändern Daten manipulieren (eingeben, ändern, löschen) Datenbank durchsuchen (Queries

Mehr

2. Architektur verteilter Datenbanksysteme

2. Architektur verteilter Datenbanksysteme 2. Architektur verteilter Datenbanksysteme Verteilte Datenbank, kurz DDB (engl. distributed database): eine Sammlung logisch zusammengehöriger Datenbanken, welche über Rechnerknoten ( Sites ) verteilt

Mehr

Informationsintegration I Einführung

Informationsintegration I Einführung Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Mehr

1. Einführung. Datenbanken Grundlagen

1. Einführung. Datenbanken Grundlagen 1. Einführung Datenbanken Grundlagen Wo finden wir Datenbanken? Was sind Datenbanken/ Datenbankensysteme(DBS)? A collection of related data items mit folgenden Eigenschaften: Eine Datebank repräsentiert

Mehr

Datenbanken: Relationales Modell und SQL. Dr. Matthias Uflacker, Stefan Klauck 23. April 2018

Datenbanken: Relationales Modell und SQL. Dr. Matthias Uflacker, Stefan Klauck 23. April 2018 Datenbanken: Relationales Modell und SQL Dr. Matthias Uflacker, Stefan Klauck 23. April 2018 Vorlesungsinhalte/-aufbau Phase 1 Einführung zu Unternehmensanwendungen (2 Vorlesungen) Grundlagen von spaltenorientierten

Mehr

Informationsintegration

Informationsintegration Informationsintegration Local-as-View Anfrageplanung Ulf Leser Inhalt dieser Vorlesung Anfragekorrespondenzen Formale Definition Korrespondenztypen und -arten GaV erklärt Local as View Query Containment

Mehr

Integritätsbedingungen für komplexe Objekte in objektrelationalen Datenbanksystemen

Integritätsbedingungen für komplexe Objekte in objektrelationalen Datenbanksystemen 10. GI-Fachtagung Datenbanksysteme in Büro, Technik und Wissenschaft Integritätsbedingungen für komplexe Objekte in objektrelationalen Datenbanksystemen Friedrich-Schiller-Universität Jena Institut für

Mehr

DBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität

DBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität DBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität Seminarvortrag von D. Zimmermann 26-Februar-2004 Gliederung Datenbanken und Interoperabilität Begriffe Bedarf Ansätze XML als

Mehr

Konzeptueller Entwurf

Konzeptueller Entwurf Konzeptueller Entwurf UML Klassendiagrame UML Assoziationen Entspricht Beziehungen Optional: Assoziationsnamen Leserichtung ( oder ), sonst bidirektional Rollennamen Kardinalitätsrestriktionen UML Kardinalitätsrestriktionen

Mehr

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99

SQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:

Mehr

Inhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5

Inhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5 Inhalt 1 Einleitung 1 1.1 Warum dieses Buch? 1 1.2 Der rote Faden 2 1.3 Danksagung 3 1.4 URL zum Buch 4 TEIL I Einführung 5 2 XML-Grundlagen 7 2.1 Einleitung 7 2.2 WasistXML? 7 2.3 Dokumenttypen und Namensräume

Mehr

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R 1.008. Vorlesung #5. SQL (Teil 3)

WS 2010/11 Datenbanksysteme Fr 15:15 16:45 R 1.008. Vorlesung #5. SQL (Teil 3) Vorlesung #5 SQL (Teil 3) Fahrplan Besprechung der Übungsaufgaben Rekursion Rekursion in SQL-92 Rekursion in DBMS- Dialekten (Oracle und DB2) Views (Sichten) - gespeicherte Abfragen Gewährleistung der

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de 08 Datenbanken Übung SQL Einführung Eckbert Jankowski www.iit.tu-cottbus.de Datenmodell (Wiederholung, Zusammenfassung) Objekte und deren Eigenschaften definieren Beziehungen zwischen den Objekten erkennen/definieren

Mehr

XML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN. 4. Übung SQL/XML

XML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN. 4. Übung SQL/XML XML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN 4. Übung SQL/XML Agenda 2 XML zum Abbilden von DB-Inhalten Motivation Abbildungsvorschriften Vollständige Abbildung mithilfe von XML-Schema Beispiel Laender

Mehr

Einführung in Datenbanken. Kapitel 8: Nullwerte in SQL

Einführung in Datenbanken. Kapitel 8: Nullwerte in SQL Stefan Brass: Einf. in Datenbanken 8. Nullwerte in SQL 1/32 Einführung in Datenbanken Kapitel 8: Nullwerte in SQL Prof. Dr. Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester 2018/19

Mehr

Datenmodelle und Datenbanken 2

Datenmodelle und Datenbanken 2 Datenmodelle und Datenbanken 2 Prof. N. Fuhr Institut für Informatik und Interaktive Systeme Arbeitsgruppe Informationssysteme 24. Februar 2005 Hinweise zur Bearbeitung Die Zeit läuft erst, wenn Sie alle

Mehr

Informationsintegration

Informationsintegration Informationsintegration Anwendungsszenarien Ulf Leser Inhalt dieser Vorlesung Zwei Anwendungsszenarien Data Warehouse Föderierte Datenbanken Abgrenzung Daten versus Schema Ulf Leser: Informationsintegration

Mehr

Kapitel 2: Das Relationale Modell

Kapitel 2: Das Relationale Modell Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Wintersemester 2006/2007 Kapitel 2: Das Relationale Modell Vorlesung:

Mehr

Kapitel 2: Das Relationale Modell

Kapitel 2: Das Relationale Modell Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Datenbanksysteme I Wintersemester 2012/2013 Kapitel 2: Das Relationale

Mehr

Verteilte Datenbanken

Verteilte Datenbanken Verteilte Datenbanken Stand der Technik: Zentrale oder Verteilte Datenbanken Bisher (implizit) diskutiert: Zentraler Ansatz, d. h. keine Netzwerke berücksichtigt: Terminals / Arbeitsplatzrechner DB 1 Zentraler

Mehr

Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung

Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung Sommersemester 2017 Thomas Schneider AG Theorie der künstlichen Intelligenz (TdKI) http://tinyurl.com/ss17-bl Beschreibungslogik SoSe 2017 7

Mehr

Optimierung von Datenbanken

Optimierung von Datenbanken Optimierung von Datenbanken Vortrag in Datenbanken II Bettina Keil 19. Juni 2008 Optimierung von Datenbanken 1/17 Gliederung Motivation Optimierung von Datenbanken 2/17 Motivation Performancesteigerung:

Mehr

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität

Datenbanken Unit 4: Das Relationale Modell & Datenintegrität Datenbanken Unit 4: Das Relationale Modell & Datenintegrität 15. III. 2016 Outline 1 Organisatorisches 2 SQL 3 Relationale Algebra Notation 4 Datenintegrität Organisatorisches Erster Zwischentest: nach

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

Extraktion, Transformation, Laden (ETL)

Extraktion, Transformation, Laden (ETL) Extraktion, Transformation, Laden (ETL) ETL-Prozeß Integrationsschritte Integrationsprobleme fi Konflikte und deren Klassifikation fi Behebung von Konflikten Data Cleaning VL Data Warehouses, WS 2000/2001

Mehr

Datenmanagement in Android-Apps. 16. Mai 2013

Datenmanagement in Android-Apps. 16. Mai 2013 Datenmanagement in Android-Apps 16. Mai 2013 Überblick Strukturierung von datenorientierten Android-Apps Schichtenarchitektur Möglichkeiten der Datenhaltung: in Dateien, die auf der SDCard liegen in einer

Mehr

Informationsintegration. Ulf Leser Sebastian Wandelt

Informationsintegration. Ulf Leser Sebastian Wandelt Informationsintegration Ulf Leser Sebastian Wandelt Informationsintegration Anfrage Integriertes Informations- system Oracle, DB2 Dateisystem Web Service App HTML Form Integriertes Info.-system Ulf Leser:

Mehr

Introduction to Data and Knowledge Engineering. 6. Übung SQL

Introduction to Data and Knowledge Engineering. 6. Übung SQL Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB

Mehr

Grundlagen von Datenbanken

Grundlagen von Datenbanken Grundlagen von Datenbanken Aufgabenzettel 4 SQL-Anfragen Überblick: DB-Entwurf und Modellierung Konzeptioneller Entwurf Anforderungen Informationsmodell PNr. Vorname Nachname Geb.Datum Person n Datum kaufen

Mehr

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.

Dieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird. Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,

Mehr

Informationsintegration

Informationsintegration Informationsintegration Schema Mapping Ulf Leser Wissensmanagement in der Bioinformatik Schema Matching Anfrageplanung beruht auf Korrespondenzen Die müssen irgendwo herkommen Das Finden von Korrespondenzen

Mehr

insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle

insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Einführung in SQL insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Quelle Wikipedia, 3.9.2015 SQL zur Kommunikation mit dem DBMS SQL ist

Mehr

Domänen: Grundtypen, alle vordefiniert, z.b. INTEGER ~ integer NUMERIC (p,s) p: precision, s: scale (nach,) etc.

Domänen: Grundtypen, alle vordefiniert, z.b. INTEGER ~ integer NUMERIC (p,s) p: precision, s: scale (nach,) etc. Kapitel 6 Relationale DB-Sprache SQL SEQUEL: Structured English Query Language, 70er Jahre SQL: System R, SQL/DS, TransBase, Oracle... ANSI Standards 1, 2, 3 6.1 Daten-Definitionssprache DDL Domänen: Grundtypen,

Mehr

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23

Schema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23 Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus

Mehr

Vorlesung Datenbanken I Zwischenklausur

Vorlesung Datenbanken I Zwischenklausur Prof. Dr. Stefan Brass 12. Dezember 2003 Institut für Informatik MLU Halle-Wittenberg Vorlesung Datenbanken I Zwischenklausur Name: Matrikelnummer: Studiengang: Aufgabe Punkte Max. Punkte Zeit 1 (Integritätsbedingungen)

Mehr

Einleitung 19. Teil I Einführung in Datenbanksysteme 25. Kapitel 1 Wozu Datenbanksysteme da sind 27

Einleitung 19. Teil I Einführung in Datenbanksysteme 25. Kapitel 1 Wozu Datenbanksysteme da sind 27 Inhaltsverzeichnis Einleitung 19 Über dieses Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Törichte Annahmen über den Leser 21 Wie dieses Buch aufgebaut ist 22 Teil I: Einführung

Mehr

Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST

Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Felix Naumann naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt/Data Fusion Data Amalgamation Data Consolidation

Mehr

Erzeugung und Veränderung von Tabellen

Erzeugung und Veränderung von Tabellen Datenbanken - Objekte Erzeugung und Veränderung von Tabellen Objekt Tabelle View Sequence Index Synonym Basiseinheit zum Speichern; besteht aus Zeilen und Spalten; Logische Repräsentation; kann Teilmengen

Mehr

7. XML-Datenbanksysteme und SQL/XML

7. XML-Datenbanksysteme und SQL/XML 7. XML-Datenbanksysteme und SQL/XML DB-Speicherung von XML-Dokumenten Arten von XML-Dokumenten Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherungsoptionen: ganzheitliche Speicherung vs. Dekomposition

Mehr

Datenübernahme in ADITO AID 013 DE

Datenübernahme in ADITO AID 013 DE Datenübernahme in ADITO AID 013 DE 2014 ADITO Software GmbH Diese Unterlagen wurden mit größtmöglicher Sorgfalt hergestellt. Dennoch kann für Fehler in den Beschreibungen und Erklärungen keine Haftung

Mehr

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz

Ausgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz Ausgangspunkt Datenintegration Web Informationssysteme Wintersemester 2002/2003 Donald Kossmann Daten liegen in verschiedenen Datenquellen (Extremfall: jede URL eigene Datenquelle) Mietautos bei www.hertz.com

Mehr

Datenbankentwicklung

Datenbankentwicklung Datenbankentwicklung Berechnung und Präsentation von Daten Organisation der Daten in alleinstehende Tabellen Exklusiver Zugriff auf alle Informationen einer Tabelle Beschränkte Anzahl von Daten pro Tabellenblatt

Mehr

ACCESS SQL ACCESS SQL

ACCESS SQL ACCESS SQL ACCESS SQL Datenbankabfragen mit der Query-Language ACCESS SQL Datenbankpraxis mit Access 34 Was ist SQL Structured Query Language Bestehend aus Datendefinitionssprache (DDL) Datenmanipulationssprache

Mehr

Verbunde (Joins) und mengentheoretische Operationen in SQL

Verbunde (Joins) und mengentheoretische Operationen in SQL Verbunde (Joins) und mengentheoretische Operationen in SQL Ein Verbund (Join) verbindet zwei Tabellen Typischerweise wird die Verbindung durch Attribute hergestellt, die in beiden Tabellen existieren Mengentheoretische

Mehr

VL Informationsintegration Verteilung, Autonomie und. 28.4.2008 Felix Naumann

VL Informationsintegration Verteilung, Autonomie und. 28.4.2008 Felix Naumann VL Informationsintegration Verteilung, Autonomie und Heterogenität 28.4.2008 Felix Naumann Überblick 2 Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Semantische Heterogenität

Mehr

BERUFSPRAKTIKUM UND -VORBEREITUNG

BERUFSPRAKTIKUM UND -VORBEREITUNG Department für Geographie Marco Brey BERUFSPRAKTIKUM UND -VORBEREITUNG Crashkurs IT-Methoden ein anwendungsorientierter Einstieg in Datenbanksysteme, Programmierung und fortgeschrittene Excel-Funktionen

Mehr

Einführung SQL Data Definition Language (DDL)

Einführung SQL Data Definition Language (DDL) Innsbruck Information System University of Innsbruck School of Management Universitätsstraße 15 6020 Innsbruck Einführung SQL Data Definition Language (DDL) Universität Innsbruck Institut für Wirtschaftsinformatik,

Mehr

Datenbankbasierte Lösungen

Datenbankbasierte Lösungen Technologische Beiträge für verteilte GIS - Anforderungen an verteilte GIS und Lösungsansätze Datenbankbasierte Lösungen Johannes Kebeck Senior Systemberater ORACLE Deutschland GmbH Agenda TOP Thema 1

Mehr

Methodik zur Optimierung in Datenbanken. Anja Rommel, 14-INM

Methodik zur Optimierung in Datenbanken. Anja Rommel, 14-INM Methodik zur Optimierung in Datenbanken Anja Rommel, 14-INM 03.07.2015 Gliederung 1. Einleitung 2. Motivation und Ziele 3. Phasen der Optimierung 3.1. Phase 1: Optimierung des DB-Schemas und Anwendungsoptimierung

Mehr

Verbunde (Joins) und mengentheoretische Operationen in SQL

Verbunde (Joins) und mengentheoretische Operationen in SQL Verbunde (Joins) und mengentheoretische Operationen in SQL Ein Verbund (Join) verbindet zwei Tabellen Typischerweise wird die Verbindung durch Attribute hergestellt, die in beiden Tabellen existieren Mengentheoretische

Mehr

Objektorientierter Software-Entwurf Ergebnisse der funktionalen Zerlegung 3 1. Die Zerlegungsmethoden sollen in zwei Dimensionen betrachtet werden:

Objektorientierter Software-Entwurf Ergebnisse der funktionalen Zerlegung 3 1. Die Zerlegungsmethoden sollen in zwei Dimensionen betrachtet werden: Objektorientierter Software-Entwurf Ergebnisse der funktionalen Zerlegung 3 1 Vergleich der Zerlegungsmethoden Die Zerlegungsmethoden sollen in zwei Dimensionen betrachtet werden: Vergleich nach Ergebnissen

Mehr

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa

Mehr

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken

Vorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken Vorlesungsplan 1. Übersicht 2. Datenmodelle Textdateien, Entry-Modell Relationale DB XML 3. Genom-DB 4. Genexpressions-DB 5. Protein-DB 6. Pathway-DB 7. Publikations-DB 1. OWL & Ontologien 8. Zugriff und

Mehr

Datenbanken. Zusammenfassung. Datenbanksysteme

Datenbanken. Zusammenfassung. Datenbanksysteme Zusammenfassung Datenbanksysteme Christian Moser Seite 1 vom 7 12.09.2002 Wichtige Begriffe Attribut Assoziation API Atomares Attribut Datenbasis DBMS Datenunabhängigkeit Datenbankmodell DDL DML DCL ER-Diagramm

Mehr

Webbasierte Informationssysteme

Webbasierte Informationssysteme SS 2004 Prof. Dr. Stefan Böttcher Universität Paderborn - SS 2004 - Prof. Dr. Stefan Böttcher Folie 1 Was ist eine relationale Datenbank? Menge von Relationen (=Tabellen) und Constraints (=Integritätsbedingungen)

Mehr

Datenbanken (WS 2015/2016)

Datenbanken (WS 2015/2016) Datenbanken (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was

In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was 1 In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was die wichtigsten Konzepte sind. Den Themenbereich XML

Mehr

Datenmodellierung VU Einführung SS 2015

Datenmodellierung VU Einführung SS 2015 184.685 Datenmodellierung VU, Einführung SS 2015 184.685 Datenmodellierung VU Einführung SS 2015 Dr. Sebastian Skritek Institut für Informationssysteme Technische Universität Wien Dr. Sebastian Skritek

Mehr

Relationales Datenmodell

Relationales Datenmodell Relationales Datenmodell Ein Datenmodell hat zwei Bestandteile: Eine mathematische Notation zur Darstellung von Daten und Beziehungen. Operationen auf den Daten, um Abfragen und andere Manipulationen zu

Mehr