Informationsintegration
|
|
- Claus Diefenbach
- vor 8 Jahren
- Abrufe
Transkript
1 Informationsintegration Heterogenität Transparenz Ulf Leser Wissensmanagement in der Bioinformatik
2 Klassifikationsdimensionen Verteilung Autonomie Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/2007 2
3 Verteilung Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk erreichbar sind Zwei Aspekte Physische Verteilung Logische Verteilung Ulf Leser: Informationsintegration, Wintersemester 2006/2007 3
4 Physische Verteilung Server stehen an unterschiedlichen Orten Anderes Land, Gebäude, Raum, Schrank, Rack, Server sind physikalisch unabhängig (hoffentlich) Shared Nothing Server haben keine gemeinsamen Speicher, Disk, CPU, Aber: Storage Area Networks Motiviert durch Höhere Sicherheit (desaster protection) Lokale Nähe von Servern zu Clients Historisch begründete Orte Physikalische Einschränkungen (Hitze, Gewicht, Energie) Monetäre Gründe (Grid) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 4
5 Logische Verteilung Daten stehen an verschiedenen logischen Orten Können, müssen aber nicht physikalisch unterschiedlich sein Verschiedene Attribute/Tabellen/Schemata Kann auch in einem Schema vorliegen (Tabellen buecher1, buecher2) Zusätzlich: Intensionale Überlappung Immer mit Redundanz verbunden Kontrollierte Redundanz jemand weiß, warum buecher1 oder buecher2 Unkontrollierte Redundanz keiner weiß, Gefahr von (extensionalen) Duplikaten Ursachen Schlechte Integration Redundanz wird nicht entfernt Historisch gewachsen Autonomie von Datenquellen Fehlende Kenntnisse (Unentdeckte Verteilung) Ulf Leser: Informationsintegration, Wintersemester 2006/2007 5
6 Take Home Message Definition von logischer Verteilung ist anwendungsabhängig, die von physischer Verteilung nicht Daten können logisch verteilt sein, obwohl sie in einer Datenbank liegen Schema verdoppeln und Daten verteilen Zwei Filmquellen unverändert in ein Schema kopieren Daten können physisch verteilt sein, obwohl sie logisch unverteilt sind Replikation und Caching Klare Master Slave Beziehung Performanzsteigerung durch Partitionierung Auftrennung nach festen Kriterien Verteile Datenbanken: Strenge Kontrolle des wo von Daten Ulf Leser: Informationsintegration, Wintersemester 2006/2007 6
7 Autonomie Der Grad, zu dem verschiedene DBMS unabhängig voneinander betrieben werden Bezieht sich auf Kontrolle, Weiterentwicklung, Administration Meint nicht Unabhängigkeit im Sinne von Stromversorgung, Verschaltung, Vernetzung Klassen nach [ÖV99] Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie Ulf Leser: Informationsintegration, Wintersemester 2006/2007 7
8 Autonomie Heterogenität Verteilung als Ursache für Autonomie Autonomie als Ursache für Heterogenität Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität Besonders schlimm: Softwareentwickler Das Recht, alles dauernd zu ändern Not invented here Syndrom Wiederverwendung als ewiger Traum Standards grenzen Autonomie ein Im Web ist alles mega-autonom Aber: Marktplätze etc. Ulf Leser: Informationsintegration, Wintersemester 2006/2007 8
9 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/2007 9
10 Heterogenität Zwei Informationssysteme sind heterogen, wenn sie sich irgendwie unterscheiden Verschiedene Ausprägungen von irgendwie => verschiedene Arten von Heterogenität Informationsintegration = Überbrückung von Heterogenität Erstellung eines homogenen Systems Erweckung des Anscheins eines homogenen Systems Ulf Leser: Informationsintegration, Wintersemester 2006/
11 Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung Syntaktische Unterschiede Unterschiede in der Darstellung Gleiche Dinge verschieden repräsentieren Datenmodellheterogenität Strukturelle Heterogenität Strukturelle Unterschiede in der Darstellung Gleiche Dinge verschieden modellieren Semantische Heterogenität Unterschiede in der Bedeutung von Informationen Ulf Leser: Informationsintegration, Wintersemester 2006/
12 Erinnerung Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Heterogenität zwischen Datenquellen Ulf Leser: Informationsintegration, Wintersemester 2006/
13 Erinnerung Anfrage Integriertes Informationssystem Heterogenität zwischen globaler Schicht und Datenquellen Quelle Ulf Leser: Informationsintegration, Wintersemester 2006/
14 Probleme gelöst Technische Heterogenität Das IntInfoSys kann eine Anfrage absetzen und kriegt was zurück Syntaktische Unterschiede In dem was sind gleiche Dinge auch gleich dargestellt Datenmodellheterogenität Die Quelle liefert das was im Datenmodell des IntInfoSys Strukturelle Heterogenität Die Quelle liefert das was im Schema des IntInfoSys Semantische Heterogenität Die Quelle meint mit Begriffen dasselbe wie das IntInfoSys Gilt auf Schema- und Datenebene Ulf Leser: Informationsintegration, Wintersemester 2006/
15 Heterogenitätsklassen Auch andere Klassifikationen möglich [BKLW99] Syntaktische Heterogenität (= technische Heterogenität) Datenmodellheterogenität (= Datenmodellheterogenität) Logische Heterogenität (= semantische & strukturelle Heterogenität) oder nach [Con97] Semantische Konflikte (= semantische Heterogenität) Beschreibungskonflikte (= strukturelle Heterogenität bei geringfügig unterschiedlicher Intension) Heterogenitätskonflikte (= Datenmodellheterogenität) Strukturelle Konflikte (= strukturelle Heterogenität bei gleicher Intension, schematische Konflikte) Aber Man kann (und muss) das nicht immer klar trennen In der Realität treten immer schwer entwirrbare Kombinationen auf Ziel ist es, die Bandbreite der möglichen Probleme kennen zu lernen Ulf Leser: Informationsintegration, Wintersemester 2006/
16 Technische Heterogenität Ulf Leser: Informationsintegration, Wintersemester 2006/
17 Hardware Heterogenität Bandbreite Hauptspeicher CPU Art Geschwindigkeit Nicht hier Ulf Leser: Informationsintegration, Wintersemester 2006/
18 Einschränkung des Zugriffs macht Sinn Komplexität Negation: teuer Gleichheit / Ungleichheit (Negation) = oder auch >,<,, Konjunktion (UND) oder auch Disjunktion (ODER - teuer) Benutzbarkeit Benutzer wollen einfache Schnittstellen (Volltextsuche) Technische Hindernisse Gebundene und freie Variablen Maximale Länge des Kommandozeilenpuffers Sicherheit Nur bestimmte Funktionen erlauben Teure Queries vermeiden, SQL-Injektion, Ulf Leser: Informationsintegration, Wintersemester 2006/
19 Beispiel Suche Konjunktion/Disjunktion gleich/ungleich Ulf Leser: Informationsintegration, Wintersemester 2006/
20 Beispiel Gebundene Variablen, vorgegebene Disjunktion Feste Auswahl von Werten, vorgegebene Konjunktion Ulf Leser: Informationsintegration, Wintersemester 2006/
21 Typische Probleme Globale Anfragesprache ist mächtiger als lokale Anfragesprache Anfragen nicht ausführbar Globales System muss kompensieren Lokale Anfragesprache ist mächtiger als globale Anfragesprache Verpasste Chance, lokale (effiziente) Ausführung auszunutzen Einschränkungen bzgl. Variablenbindung sind inkompatibel Anfragen eventuell nicht ausführbar Übersetzung von Anfragesprachen notwendig SQL XQuery, SQL HTTP, Web-Service SQL, etc. Oft nicht einfach möglich, da unterschiedliche Konzepte Ulf Leser: Informationsintegration, Wintersemester 2006/
22 Mächtige globale Anfragesprache SQL SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/
23 Kompensation möglich SELECT * FROM Books WHERE Author = Defoe AND PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1979 PubYear = 1979 Daniel Defoe, Robinson Crusoe, 1986 Daniel Defoe, Robinson Crusoe, 1979 Daniel Defoe, Moll Flanders, 1933 Defoe Ulf Leser: Informationsintegration, Wintersemester 2006/
24 Kompensation nicht möglich SQL SELECT * FROM Books WHERE Price < 10 Euro HTML Form Ulf Leser: Informationsintegration, Wintersemester 2006/
25 Syntaktische Heterogenität Unterschiedliche Darstellung desselben Sachverhalts Dezimalpunkt oder komma Euro oder Comma-separated oder tab-separated HTML oder ASCII oder Unicode Notenskala 1-6 oder sehr gut, gut, Binärcodierung oder Zeichen Datumsformate (12. September 2006, , 9/12/2006, ) Überwindung in der Regel nicht problematisch Umrechnung, Übersetzungstabellen, Ulf Leser: Informationsintegration, Wintersemester 2006/
26 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/
27 Datenmodellheterogenität Typische Datenmodelle CSV Relational (Tupel) XML (XML) Non-Standard (ASN.1) Domänenspezifisch (ACeDB, EXPRESS, OPEN-GIS, ) Proprietär (UniProt, PDB, ) Unterschied: Zum Austausch oder zur Speicherung XML als Speicherformat? Erfordert Konvertierung Spezielle Semantik geht unter Umständen verloren XML-Schachtelung im relationalen Modell? Später mehr (Modellmanagement) Ulf Leser: Informationsintegration, Wintersemester 2006/
28 Beispiel Ulf Leser: Informationsintegration, Wintersemester 2006/
29 Strukturelle Heterogenität Allgemein Gleiche Dinge in unterschiedlichen Schemata ausdrücken Andere Aufteilung von Attributen auf Tabellen Setzt intensionale Überlappung voraus ( gleiche Dinge ) Kann meist durch Anfragesprachen überwunden werden Sichten / Views Meistens mit semantischen Heterogenität verbunden Ausnahme: 1:1 Beziehungen Was bedeutet Äquivalenz zweier Schemata? Spezialfall: Schematische Heterogenität Verwendung anderer Elemente eines Datenmodells Kann meist nicht durch Anfragesprachen überwunden werden Ulf Leser: Informationsintegration, Wintersemester 2006/
30 Beispiel Verursacht durch verschiedene Abbildungen eines objektorientierten Modells Gleichwertig? Nur durch zusätzliche IC 1: Typ darf nur bestimmte Werte annehmen 1: Umsatz darf nicht immer gefüllt sein (abh. von typ) 2: Gleiche film_id darf nicht in verschiedenen Tabellen vorkommen Ulf Leser: Informationsintegration, Wintersemester 2006/
31 Denormalisierung Geschachtelt vs. flach 1:n Assoziationen werden unterschiedlich dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung Redundanz wird in Kauf genommen (höhere Performanz) ARTICLE artpk title pages AUTHOR name PUBLICATION pubid title author ID? Ulf Leser: Informationsintegration, Wintersemester 2006/
32 Kardinalitäten Schema sind ähnlich, aber semantisch nicht gleichwertig m:n Beziehung zwischen Film und Sprache 1:1 Beziehung zwischen Film und Sprache Wenn eine Anwendung aber nur 1:1 Beziehungen enthält? Ulf Leser: Informationsintegration, Wintersemester 2006/
33 Spezialfall: Schematische Heterogenität maenner( Id, vorname, nachname) frauen( Id, vorname, nachname) Relation vs. Attribut Relation vs. Wert person( Id, vorname, nachname, maennlich?, weiblich?) person( Id, vorname, nachname, geschlecht) Attribut vs. Wert Ulf Leser: Informationsintegration, Wintersemester 2006/
34 Schematische Konflikte sind gemein Ulf Leser: Informationsintegration, Wintersemester 2006/
35 Integrierte Sichten Verlangt viele Verrenkungen Sicht muss angepasst werden, wenn neue Filmtypen vorliegen Datenänderungen erzeugen Schemaänderungen Das will man unbedingt vermeiden Ulf Leser: Informationsintegration, Wintersemester 2006/
36 SchemaSQL [LSS96] Lösung (Ausblick) Erweiterung von SQL Daten und Metadaten werden gleich behandelt Iteriert über alle Tupel von q1.film CREATE VIEW q1_q1 SELECT id, title, regisseur, typ FROM q1.film UNION SELECT A.id, A.title, A.regisseur, A FROM q1::film F, q2-> A WHERE A = F.Typ Iteriert über alle Relationennamen von q2 Join über Attributwerte in q1 und Tabellennamen in q2 Ulf Leser: Informationsintegration, Wintersemester 2006/
37 Exotische Probleme? Oh nein Schema zur Speicherung von Filmen des Verleihers XYZ ACTORS als VARCHAR ORIGINAL bedeutet was? TITLE, YEAR, an drei Stellen ID-Räume DEUTSCH und ORIGINAL getrennt? Ulf Leser: Informationsintegration, Wintersemester 2006/
38 Exotische Probleme? Schema von eachmovie (HP) Eine einzige Tabelle für Filme Zusätzliche Informationen über Benutzer des Web- Systems Wenig Infos über Filme, aber Links zu weiteren Quellen GENRE sind boolsche Attribute Ulf Leser: Informationsintegration, Wintersemester 2006/
39 Exotische Probleme? Schema von movielens.umn.edu Praktisch keine Informationen über Filme Eigene Tabelle für GENRE FILM-GENRE ist m:n Mehr Informationen über Benutzer Links sind verschwunden Ulf Leser: Informationsintegration, Wintersemester 2006/
40 FILM-PERSONEN ist m:n Schema des Filmdienst FILM-GENRE ist m:n Personen können mehrere Namen haben (Aliase, Künstlernamen) Eigene Tabelle für Filmtitel und Filmtiteltypen (?) Ulf Leser: Informationsintegration, Wintersemester 2006/
41 Schema der IMDB ACTOR und ACTRESS in verschiedenen Tabellen Beteiligte in eigenen Tabellen (FD hat Tabelle FUNKTIONEN) Ulf Leser: Informationsintegration, Wintersemester 2006/
42 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/
43 Semantik Fremdwörterduden zu Semantik Teilgebiet der Linguistik, das sich mit den Bedeutungen sprachlicher Zeichen und Zeichenfolgen befasst Bedeutung, Inhalt eines Wortes, Satzes oder Textes Programmiersprachen Syntax: EBNF, Grammatiken Semantik: Wirkungen der Ausführung; operationale Semantik, Fixpunktsemantik, Sprache Syntaktisch falsch: Ich esse Butterbrot ein Semantisch falsch: Ich esse einen Schrank Ulf Leser: Informationsintegration, Wintersemester 2006/
44 Semantik Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung. [ÖV91] Semantik von Schemaelementen (meistens) Daten (siehe Ontologien) Ulf Leser: Informationsintegration, Wintersemester 2006/
45 Semantik von was? Name Extension Intension Realweltliche Objekte repräsentiert Konzept Ulf Leser: Informationsintegration, Wintersemester 2006/
46 Probleme Homonyme: Gleiche Namen, verschiedene Konzepte Synonyme: Verschiedene Namen, gleiche Konzepte Beziehungen zwischen Konzeptextensionen A=B (Äquivalenz): semantische (echte) Synonyme Kreditinstitut, Bank (?) Gibt es echte Synonyme? A B (Inklusion): B ist Hyperonym zu A; B ist Hyponym zu A Tochter Kind A B A B (Überlappung): Schwierigster Fall Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler A B = (Disjunktion): nicht verwandte Begriffe (häufigster Fall) Dose-Lohnsteuerjahresausgleich Ulf Leser: Informationsintegration, Wintersemester 2006/
47 Synonyme Verschiedene Worte für dasselbe Konzept Immer im Kontext der Anwendung DB1: Angestellter( Id, Vorname, Name,männlich,weiblich) DB2: Person( Id, Vorname, Nachname, Geschlecht) Ulf Leser: Informationsintegration, Wintersemester 2006/
48 Homonyme Gleiche Worte verschiedener Bedeutung Treten oft bei Überschreitung von Domänengrenzen auf DB1: Sekr., Sachbearbeiter, Bereichsleiter, etc. Angestellter( Id, Vorname, Name, m, w, Funktion) DB2: Protein( Id, Sequenz, organismus, Funktion, ) Transport, Katalyse, Signal, Ulf Leser: Informationsintegration, Wintersemester 2006/
49 -nym Wörter Synonym Homonym Antonym Verschiedene Wörter, gegenteilige Semantik Hell-dunkel, billig-teuer, Auto-Antonym Gleiche Wörter, gegenteilige Semantik Transparenz, left, clip, Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik It's the referee's job to record the new world record. Pseudonym Ulf Leser: Informationsintegration, Wintersemester 2006/
50 Semantik: Woher nehmen? Schemaelemente sind erst mal nur Namen Was bestimmt die Semantik eines Namens? Für Attributnamen: Datentyp Constraints (Schlüssel, FK, unique, CHECK, ) Zugehörigkeit zu einer Relation Andere Attribute dieser Relation Beziehung der Relation zu anderen Relationen Dokumentation Vorhandene Werte Wissen über den Anwendungsbereich Der Kontext Ulf Leser: Informationsintegration, Wintersemester 2006/
51 Konzepte sind schwierig Wie viele Mitarbeiter hat IBM? Was ist ein Mitarbeiter? Temporäre Mitarbeiter Feste Freie, Leiharbeiter, seit Jahren bei IBM arbeitende externe Berater Studentische Mitarbeiter, Diplomanden Stellen oder Köpfe? Doppelte Zählung bei mehreren Anstellungen? Was ist IBM? Welche Region? Welcher Geschäftsbereich? Informix? PWC? Welcher Zeitpunkt ist gemeint? Fester Zeitpunkt? Im Schnitt über alle Tage im letzten Quartal? Ulf Leser: Informationsintegration, Wintersemester 2006/
52 Konzepte ändern sich Synonyme? Prince, The artist formerly known as prince Ja dieselbe Person Nein dieselbe Person zu verschiedene Zeiten Temporale Abhängigkeit Synonyme? England, Großbritannien Ja für uns Nein für Schotten Anhängig vom kulturellen Hintergrund Ulf Leser: Informationsintegration, Wintersemester 2006/
53 Kontext Semantik kann nur im Kontext ermittelt werden Beispiel Unternehmen A: angestellte( ) Unternehmen B: mitarbeiter( ) Mitarbeiter und Angestellte kann man als Synonyme betrachten Aber: A.angestellte B.mitarbeiter = Wenn Personen nicht in zwei Unternehmen beschäftigt sind Erst bei einem Merger von A und B werden A.angestellte und B.mitarbeiter zu Synonymen Sollten dann zu einer Tabelle integriert werden Ulf Leser: Informationsintegration, Wintersemester 2006/
54 Semantik ist individuell Konzepte existieren nur im Kopf Man kann sie beschreiben, aber meint man auch dasselbe? Individuelle Kenntnisse und Erfahrungen Also: Reden, reden, reden Dann: Standards definieren Wie definiert man die Bedeutung eines Namens? Formale Wissensrepräsentation (Ontologien, OWL später) Dokumentieren Ulf Leser: Informationsintegration, Wintersemester 2006/
55 Quasi-Synoynme Integration = Entfernen von semantischer Redundanz Extensionen im integrierten Schema sollen disjunkt sein Keine Tabellen gute Kunden, neue Kunden oder Kunde1, Kunde2 Schwierig: Quasi-Synonyme Konzepte in verschiedenen Quellen, die sich so ähnlich sind, dass sie zur Integration genau untersucht werden müssen A/R: Integritätsbedingungen? A/R: Beziehungen zu anderen Elementen? R: Fehlende oder zusätzliche Attribute? R: Andere Schlüssel? R: Unterschiedliche Kardinalitäten gleicher Beziehungen? A: Unterschiedliche Einheiten? A: Unterschiedliche Wertebereiche (Controlled Vocs) Ulf Leser: Informationsintegration, Wintersemester 2006/
56 Beispiele mitarbeiter p_id Vorname VARCHAR(35) nachname alter 1 Wolfgang Meyer 33 5 Klaus Schmidt NULL mitarbeiter p_id Vorname VARCHAR(20) name alter 1 Peter Müller 0 5 Petra Weger IC: alter > 18 Synonym Default Werte Datentypkonflikt Ulf Leser: Informationsintegration, Wintersemester 2006/
57 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/
58 Identität Semantische Konflikte auf Datenebene Konzept = Realweltobjekt Name = Identifikation, Schlüssel Synonyme: Verschiedene IDs für gleiches Objekt Personalausweisnummer und Führerscheinnummer ISBN und Kombination Autor/Titel Homonym: Gleiche IDs für verschiedene Objekte Dann ging was schief (gefälschte Pässe, ) Oder über Unternehmensgrenzen hinweg (Kunden.ID, ) Schwieriges Problem: Lokale IDs Schlüssel gelten in einer Tabelle Häufig verwendet man nur surrogate Keys (sequence) Die bedeuten nichts außerhalb der eigenen Datenbank Integration erfordert Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/
59 Duplikaterkennung Objektidentifikation, Record Linkage, Data Cleansing,... Wichtiger, als man denken man Anwendungsgebiete Personen- und Adressdaten Volkszählungen Werbeaktionen Kundenpflege Artikel und Autoren in Publikationsdatenbanken Anzeigen in einer Immobiliendatenbank Typische Merkmale zur Entstehung Gleiches Objekt mehrfach beobachtet Fehler bei der Datenerfassung (manuelle Eingabe, OCR, ) Objekt ändert Eigenschaften über die Zeit hinweg (Umzug) Keine global konsistente ID vorhanden Ulf Leser: Informationsintegration, Wintersemester 2006/
60 Problem Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt repräsentieren Attributwerte dürfen sich unterscheiden Formales Problem Eine Tabelle mit (zunächst unbekannten) Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate gleiche Identifier erhalten Problemerweiterungen Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten Typisches Vorgehen (später mehr) Ähnlichkeiten der Werte => Ähnlichkeit des Tupels Hinzuziehen weiterer Informationen (Links, ) Ulf Leser: Informationsintegration, Wintersemester 2006/
61 Praktisches, reales Problem Potentiell sehr große Datenmenge Kein Vergleich jedes Tupel mit jedem möglich Komplexität? Kein Hauptspeicher-Algorithmus Als SQL Anfrage Implementierung Sei R die Relation mit Duplikaten SELECT C1.*, genid(c1,c2) FROM R as C1, R as C2 WHERE sim(c1,c2)>t Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit Siehe VL Duplikaterkennung Ulf Leser: Informationsintegration, Wintersemester 2006/
62 Datenkonflikte Datenkonflikt Zwei Duplikate haben unterschiedliche Attributwerte für ein semantisch gleiches Attribut. Datenkonflikte entstehen Innerhalb eines Informationssystems (intra-source) Bei der Integration mehrerer Informationssysteme (inter-source) Voraussetzung Duplikate (sonst kein Konflikt) Die muss man erst mal finden Ulf Leser: Informationsintegration, Wintersemester 2006/
63 Datenkonflikte - Beispiel amazon.de Konflikt kann auch mit NULL-Wert herrschen H. Melville $3.98 ID Herman Melville Moby Dick $5.99 bol.de Ulf Leser: Informationsintegration, Wintersemester 2006/
64 Datenkonflikte Entstehung Innerhalb eines Informationssystems Mangels Integritätsbedingungen oder Konsistenz-Checks Freitextfelder, Kommentarfelder Redundante Schemata Falsche Einträge Tippfehler, Übertragungsfehler, OCR-Fehler, Obsolete Einträge Divergierende Aktualisierungszeitpunkte Vergessene oder verzögerte Aktualisierung Ulf Leser: Informationsintegration, Wintersemester 2006/
65 Datenkonflikte Entstehung Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen ( 1 versus eins ) Andere lokale Schreibweisen oder Konventionen Skalen, Währungen, Auflösen Konfliktlösungsfunktionen Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten usw. Siehe VL Informationsqualität Ulf Leser: Informationsintegration, Wintersemester 2006/
66 Inhalt dieser Vorlesung Heterogenität Überblick Technische Heterogenität Syntaktische Heterogenität Datenmodellheterogenität Strukturelle Heterogenität Schematische Heterogenität Semantische Heterogenität Datenkonflikte Transparenz Ulf Leser: Informationsintegration, Wintersemester 2006/
67 Transparenz Verteilung, Autonomie, Heterogenität kann in unterschiedlichem Maße überwunden werden Ortstransparenz Benutzer müssen den Ort der integrierten Systeme nicht kennen Keine URLs, Datenbankpräfixe, Quellentransparenz, Verteilungstransparenz Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt werden kann (und muss daher nicht auswählen) Benutzer weiß nicht, welche Quelle für eine Anfrage benutzt wurde (Datenherkunft) Setzt ein globales Schema voraus Ulf Leser: Informationsintegration, Wintersemester 2006/
68 Transparenz 2 Schnittstellentransparenz Benutzer kennt verschiedene Quellen, aber kann sie alle gleich ansprechen Keine Kenntnis lokaler Anfragesprachen, Protokolle, Schematransparenz Benutzer kennt die Schemata lokaler Quellen nicht Anfragen richten sich nur an das (homogene) globale Schema Spezialfall der Verteilungstransparenz Ulf Leser: Informationsintegration, Wintersemester 2006/
69 Will man nicht immer! Intuitiv strebt man maximale Transparenz an Tatsächlich ist das oft kontraproduktiv Benutzer kennen und lieben ihre Datenquellen Datenherkunft ist wichtigstes Kriterium für Einschätzung der Qualität der Informationen Zugriff durch globales Schemas nur bei Kenntnis dieses Benutzer muss neues Schema lernen Globale Schemata können sehr kompliziert werden Da sie viele Quellen integrieren Für kleine Zugriffe unnötig schwierig Transparenz bedingt Informationsverlust Ulf Leser: Informationsintegration, Wintersemester 2006/
70 Literatur Wichtigste Literatur für heute [BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, [Con97] Föderierte Datenbanksysteme. Konzepte der Datenintegration Stefan Conrad, Springer Verlag, 1997 Ulf Leser: Informationsintegration, Wintersemester 2006/
Informationsintegration
Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Sebastian Wandelt Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration
MehrInformationsintegration
Informationsintegration Heterogenität Datenkonflikte Transparenz Ulf Leser Wissensmanagement in der Bioinformatik Klassifikationsdimensionen [ÖV99] Klassische Eigenschaften von Informationssystemen Verteilung
MehrInformationsintegration
Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Klassifikationsdimensionen [ÖV99] Eigenschaften von Informationssystemen in Bezug auf deren Integration Verteilung Autonomie
MehrInformationsintegration
Informationsintegration Verteilung, Autonomie, Heterogenität, Transparenz Ulf Leser Inhalt dieser Vorlesung Verteilung Autonomie Heterogenität Transparenz Ulf Leser: Informationsintegration 2 Klassifikationsdimensionen
MehrAutonomie & Heterogenität
Autonomie & Heterogenität Komplexe Informationssysteme Fabian Panse panse@informatik.uni-hamburg.de Universität Hamburg Probleme Einführung Autonomie Heterogenität Daten sind auf mehrere Quellen verteilt
MehrInformationsintegration
Informationsintegration Architekturen Vergleichskriterien für integrierte Systeme Ulf Leser Wissensmanagement in der Bioinformatik Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs
MehrDatenintegration & Datenherkunft Verteilung, Autonomie, und Heterogenität
Datenintegration & Datenherkunft Verteilung, Autonomie, und Wintersemester 2010/11 Melanie Herschel melanie.herschel@uni-tuebingen.de Lehrstuhl für Datenbanksysteme, Universität Tübingen 1 Klassifikation
MehrDatenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Dr. Anika Groß Sommersemester 2014
Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Dr. Anika Groß Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung
MehrDatenintegration. Kapitel 2: Verteilung, Autonomie und Heterogenität. Andreas Thor Sommersemester 2008. Inhalt
Datenintegration Datenintegration Kapitel 2: Verteilung, Autonomie und Heterogenität Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Verteilung
MehrII Heterogenität und Architekturen
II Heterogenität und Dr. Armin Roth arminroth.de 24.04.2013 Dr. Armin Roth (arminroth.de) II Heterogenität und 24.04.2013 1 / 24 Agenda 1 Semantische Heterogenität 2 Architekturparadigmen PDMS Dr. Armin
MehrVL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Aufbau eines Data Warehouse
VL Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann Wiederholung: Data Warehouse Aufbau eines Data Warehouse Quelle: Ulf Leser, VL Data Warehouses 25.10.2004 Felix
MehrInformationsintegration Beispiel
Informationsintegration Beispiel 17.4.2007 Felix Naumann Informationsintegration 2 Web Service A Web Service B Federated Database Systems Amit Sheth
MehrInformationsintegration
Informationsintegration Architekturen Ulf Leser Wissensmanagement in der Bioinformatik Übersicht Technische Heterogenität Technische Realisierung des Datenzugriffs Technische Unterschiede in der Darstellung
MehrInformationsintegration
Informationsintegration Einleitung Teil 2 Ulf Leser Informationsintegration am Beispiel Quellen Daten versus Schemata Ulf Leser: Informationsintegration 2 Frage eines Biologen Finde alle menschlichen Sequenzen,
MehrWiederholung VU Datenmodellierung
Wiederholung VU Datenmodellierung VL Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester
MehrIntegration, Migration und Evolution
14. Mai 2013 Programm für heute 1 2 Quelle Das Material zu diesem Kapitel stammt aus der Vorlesung Datenintegration & Datenherkunft der Universität Tübingen gehalten von Melanie Herschel im WS 2010/11.
MehrRelationales Datenbanksystem Oracle
Relationales Datenbanksystem Oracle 1 Relationales Modell Im relationalen Modell wird ein relationales Datenbankschema wie folgt beschrieben: RS = R 1 X 1 SC 1... R n X n SC n SC a a : i=1...n X i B Information
MehrWiederholung VU Datenmodellierung
Wiederholung VU Datenmodellierung VU Datenbanksysteme Reinhard Pichler Arbeitsbereich Datenbanken und Artificial Intelligence Institut für Informationssysteme Technische Universität Wien Wintersemester
MehrInformationsintegration
Informationsintegration Grundlegende Architekturen Ulf Leser Inhalt diese Vorlesung Klassifikation verteilter, autonomer, heterogener Systeme Weitere Klassifikationskriterien Schichtenaufbau integrierter
MehrSchemaSQL Eine Multidatenbank Sprache. Volodymyr Biryuk
SchemaSQL Eine Multidatenbank Sprache Volodymyr Biryuk Herausforderung Aufbau eines Multi-Datenbank-Systems (MDBS) Problem Autonomie Distribution Heterogenität Integration heterogener Datenquellen Art
Mehr30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling
30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen
MehrDieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.
Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,
MehrDatenbanken Grundlagen und Design
Frank Geisler Datenbanken Grundlagen und Design 3., aktualisierte und erweiterte Auflage mitp Vorwort 15 Teil I Grundlagen 19 i Einführung in das Thema Datenbanken 21 i.i Warum ist Datenbankdesign wichtig?
MehrDieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.
Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,
Mehr1. Einführung Seite 1. Kapitel 1: Einführung
1. Einführung Seite 1 Kapitel 1: Einführung 1. Einführung Seite 2 Willkommen! Studierenden-Datenbank Hans Eifrig hat die Matrikelnummer 1223. Seine Adresse ist Seeweg 20. Er ist im zweiten Semester. Lisa
MehrÜberblick. VL Informationsintegration Verteilung, Autonomie und Heterogenität Felix Naumann
VL Informationsintegration Verteilung, Autonomie und Heterogenität 19.4.2007 Felix Naumann Überblick 2 Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Semantische Heterogenität
MehrIn diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.
1 In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen. Zunächst stellt sich die Frage: Warum soll ich mich mit der Architektur eines DBMS beschäftigen?
MehrInformationsintegration Große Datenräume in Web-basierten Umgebungen
Informationsintegration Große Datenräume in Web-basierten Umgebungen Felix Naumann Humboldt-Universität zu Berlin naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt Fusion Datenintegration
MehrEinführung Verteilte DBS Schemaarchitektur Katalogverwaltung Namensverwaltung
3. Verteilte Datenbanksysteme: architektur und Katalogverwaltung Einführung Verteilte DBS architektur Katalogverwaltung Namensverwaltung WS15/16, Prof. Dr. E. Rahm 3-1 Grobaufbau eines Verteilten DBS Rechnerknoten
MehrKapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen
Datenintegration Datenintegration Kapitel 3: Eigenschaften von Integrationssystemen Andreas Thor Sommersemester 2008 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhalt Einordnung
MehrSchemamerging und -mapping
Schemamerging und -mapping Seminar Informationsqualität und -integration, 30.06.2006 Überblick Schemaintegration / Einleitung Ziele Integrationskonflikte Integrationstechniken Multidatenbankanfragesprachen
Mehr7. XML-Datenbanksysteme und SQL/XML
7. XML-Datenbanksysteme und SQL/XML Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherung von XML-Dokumenten Speicherung von XML-Dokumenten als Ganzes Generische Dekomposition von XML-Dokumenten Schemabasierte
MehrGrundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich
Grundlagen von SQL Informatik 2, FS18 Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich Markus Dahinden 13.05.18 1 Grundlagen von SQL (Structured Query Language)
Mehr5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp
5/14/18 Grundlagen von SQL (Structured Query Language) Datenbanksprache Befehle Datenbanken und Tabellen erstellen/verändern Daten manipulieren (eingeben, ändern, löschen) Datenbank durchsuchen (Queries
Mehr2. Architektur verteilter Datenbanksysteme
2. Architektur verteilter Datenbanksysteme Verteilte Datenbank, kurz DDB (engl. distributed database): eine Sammlung logisch zusammengehöriger Datenbanken, welche über Rechnerknoten ( Sites ) verteilt
MehrInformationsintegration I Einführung
Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system
Mehr1. Einführung. Datenbanken Grundlagen
1. Einführung Datenbanken Grundlagen Wo finden wir Datenbanken? Was sind Datenbanken/ Datenbankensysteme(DBS)? A collection of related data items mit folgenden Eigenschaften: Eine Datebank repräsentiert
MehrDatenbanken: Relationales Modell und SQL. Dr. Matthias Uflacker, Stefan Klauck 23. April 2018
Datenbanken: Relationales Modell und SQL Dr. Matthias Uflacker, Stefan Klauck 23. April 2018 Vorlesungsinhalte/-aufbau Phase 1 Einführung zu Unternehmensanwendungen (2 Vorlesungen) Grundlagen von spaltenorientierten
MehrInformationsintegration
Informationsintegration Local-as-View Anfrageplanung Ulf Leser Inhalt dieser Vorlesung Anfragekorrespondenzen Formale Definition Korrespondenztypen und -arten GaV erklärt Local as View Query Containment
MehrIntegritätsbedingungen für komplexe Objekte in objektrelationalen Datenbanksystemen
10. GI-Fachtagung Datenbanksysteme in Büro, Technik und Wissenschaft Integritätsbedingungen für komplexe Objekte in objektrelationalen Datenbanksystemen Friedrich-Schiller-Universität Jena Institut für
MehrDBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität
DBMS für spezielle Anwendungen XML als Mittel der Datenbank-Interoperabilität Seminarvortrag von D. Zimmermann 26-Februar-2004 Gliederung Datenbanken und Interoperabilität Begriffe Bedarf Ansätze XML als
MehrKonzeptueller Entwurf
Konzeptueller Entwurf UML Klassendiagrame UML Assoziationen Entspricht Beziehungen Optional: Assoziationsnamen Leserichtung ( oder ), sonst bidirektional Rollennamen Kardinalitätsrestriktionen UML Kardinalitätsrestriktionen
MehrSQL. SQL: Structured Query Language. Früherer Name: SEQUEL. Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99
SQL Früherer Name: SEQUEL SQL: Structured Query Language Standardisierte Anfragesprache für relationale DBMS: SQL-89, SQL-92, SQL-99 SQL ist eine deklarative Anfragesprache Teile von SQL Vier große Teile:
MehrInhalt. 1 Einleitung Warum dieses Buch? Der rote Faden Danksagung URL zum Buch 4. TEIL I Einführung 5
Inhalt 1 Einleitung 1 1.1 Warum dieses Buch? 1 1.2 Der rote Faden 2 1.3 Danksagung 3 1.4 URL zum Buch 4 TEIL I Einführung 5 2 XML-Grundlagen 7 2.1 Einleitung 7 2.2 WasistXML? 7 2.3 Dokumenttypen und Namensräume
MehrWS 2010/11 Datenbanksysteme Fr 15:15 16:45 R 1.008. Vorlesung #5. SQL (Teil 3)
Vorlesung #5 SQL (Teil 3) Fahrplan Besprechung der Übungsaufgaben Rekursion Rekursion in SQL-92 Rekursion in DBMS- Dialekten (Oracle und DB2) Views (Sichten) - gespeicherte Abfragen Gewährleistung der
MehrInformationssysteme für Ingenieure
Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??
MehrISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski. www.iit.tu-cottbus.de
08 Datenbanken Übung SQL Einführung Eckbert Jankowski www.iit.tu-cottbus.de Datenmodell (Wiederholung, Zusammenfassung) Objekte und deren Eigenschaften definieren Beziehungen zwischen den Objekten erkennen/definieren
MehrXML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN. 4. Übung SQL/XML
XML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN 4. Übung SQL/XML Agenda 2 XML zum Abbilden von DB-Inhalten Motivation Abbildungsvorschriften Vollständige Abbildung mithilfe von XML-Schema Beispiel Laender
MehrEinführung in Datenbanken. Kapitel 8: Nullwerte in SQL
Stefan Brass: Einf. in Datenbanken 8. Nullwerte in SQL 1/32 Einführung in Datenbanken Kapitel 8: Nullwerte in SQL Prof. Dr. Stefan Brass Martin-Luther-Universität Halle-Wittenberg Wintersemester 2018/19
MehrDatenmodelle und Datenbanken 2
Datenmodelle und Datenbanken 2 Prof. N. Fuhr Institut für Informatik und Interaktive Systeme Arbeitsgruppe Informationssysteme 24. Februar 2005 Hinweise zur Bearbeitung Die Zeit läuft erst, wenn Sie alle
MehrInformationsintegration
Informationsintegration Anwendungsszenarien Ulf Leser Inhalt dieser Vorlesung Zwei Anwendungsszenarien Data Warehouse Föderierte Datenbanken Abgrenzung Daten versus Schema Ulf Leser: Informationsintegration
MehrKapitel 2: Das Relationale Modell
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Wintersemester 2006/2007 Kapitel 2: Das Relationale Modell Vorlesung:
MehrKapitel 2: Das Relationale Modell
Ludwig Maximilians Universität München Institut für Informatik Lehr- und Forschungseinheit für Datenbanksysteme Skript zur Vorlesung Datenbanksysteme I Wintersemester 2012/2013 Kapitel 2: Das Relationale
MehrVerteilte Datenbanken
Verteilte Datenbanken Stand der Technik: Zentrale oder Verteilte Datenbanken Bisher (implizit) diskutiert: Zentraler Ansatz, d. h. keine Netzwerke berücksichtigt: Terminals / Arbeitsplatzrechner DB 1 Zentraler
MehrBeschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung
Beschreibungslogik Kapitel 7: ABoxen und Anfragebeantwortung Sommersemester 2017 Thomas Schneider AG Theorie der künstlichen Intelligenz (TdKI) http://tinyurl.com/ss17-bl Beschreibungslogik SoSe 2017 7
MehrOptimierung von Datenbanken
Optimierung von Datenbanken Vortrag in Datenbanken II Bettina Keil 19. Juni 2008 Optimierung von Datenbanken 1/17 Gliederung Motivation Optimierung von Datenbanken 2/17 Motivation Performancesteigerung:
MehrDatenbanken Unit 4: Das Relationale Modell & Datenintegrität
Datenbanken Unit 4: Das Relationale Modell & Datenintegrität 15. III. 2016 Outline 1 Organisatorisches 2 SQL 3 Relationale Algebra Notation 4 Datenintegrität Organisatorisches Erster Zwischentest: nach
MehrSeminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006
Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet
MehrExtraktion, Transformation, Laden (ETL)
Extraktion, Transformation, Laden (ETL) ETL-Prozeß Integrationsschritte Integrationsprobleme fi Konflikte und deren Klassifikation fi Behebung von Konflikten Data Cleaning VL Data Warehouses, WS 2000/2001
MehrDatenmanagement in Android-Apps. 16. Mai 2013
Datenmanagement in Android-Apps 16. Mai 2013 Überblick Strukturierung von datenorientierten Android-Apps Schichtenarchitektur Möglichkeiten der Datenhaltung: in Dateien, die auf der SDCard liegen in einer
MehrInformationsintegration. Ulf Leser Sebastian Wandelt
Informationsintegration Ulf Leser Sebastian Wandelt Informationsintegration Anfrage Integriertes Informations- system Oracle, DB2 Dateisystem Web Service App HTML Form Integriertes Info.-system Ulf Leser:
MehrIntroduction to Data and Knowledge Engineering. 6. Übung SQL
Introduction to Data and Knowledge Engineering 6. Übung SQL Aufgabe 6.1 Datenbank-Schema Buch PK FK Autor PK FK ISBN Titel Preis x ID Vorname Nachname x BuchAutor ISBN ID PK x x FK Buch.ISBN Autor.ID FB
MehrGrundlagen von Datenbanken
Grundlagen von Datenbanken Aufgabenzettel 4 SQL-Anfragen Überblick: DB-Entwurf und Modellierung Konzeptioneller Entwurf Anforderungen Informationsmodell PNr. Vorname Nachname Geb.Datum Person n Datum kaufen
MehrDieser Foliensatz darf frei verwendet werden unter der Bedingung, dass diese Titelfolie nicht entfernt wird.
Thomas Studer Relationale Datenbanken: Von den theoretischen Grundlagen zu Anwendungen mit PostgreSQL Springer, 2016 ISBN 978-3-662-46570-7 Dieser Foliensatz darf frei verwendet werden unter der Bedingung,
MehrInformationsintegration
Informationsintegration Schema Mapping Ulf Leser Wissensmanagement in der Bioinformatik Schema Matching Anfrageplanung beruht auf Korrespondenzen Die müssen irgendwo herkommen Das Finden von Korrespondenzen
Mehrinsert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle
Einführung in SQL insert, update, delete Definition des Datenbankschemas select, from, where Rechteverwaltung, Transaktionskontrolle Quelle Wikipedia, 3.9.2015 SQL zur Kommunikation mit dem DBMS SQL ist
MehrDomänen: Grundtypen, alle vordefiniert, z.b. INTEGER ~ integer NUMERIC (p,s) p: precision, s: scale (nach,) etc.
Kapitel 6 Relationale DB-Sprache SQL SEQUEL: Structured English Query Language, 70er Jahre SQL: System R, SQL/DS, TransBase, Oracle... ANSI Standards 1, 2, 3 6.1 Daten-Definitionssprache DDL Domänen: Grundtypen,
MehrSchema Mapping. Dr. Armin Roth arminroth.de. Dr. Armin Roth (arminroth.de) II Schema Mapping / 23
Dr. Armin Roth arminroth.de 25.04.2013 Dr. Armin Roth (arminroth.de) II Schema Mapping 25.04.2013 1 / 23 Agenda 1 Wiederholung: Schema Matching / Integration 2 Schema Mapping Definitionen Beispiel Algorithmus
MehrVorlesung Datenbanken I Zwischenklausur
Prof. Dr. Stefan Brass 12. Dezember 2003 Institut für Informatik MLU Halle-Wittenberg Vorlesung Datenbanken I Zwischenklausur Name: Matrikelnummer: Studiengang: Aufgabe Punkte Max. Punkte Zeit 1 (Integritätsbedingungen)
MehrEinleitung 19. Teil I Einführung in Datenbanksysteme 25. Kapitel 1 Wozu Datenbanksysteme da sind 27
Inhaltsverzeichnis Einleitung 19 Über dieses Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Törichte Annahmen über den Leser 21 Wie dieses Buch aufgebaut ist 22 Teil I: Einführung
MehrBeyond Information Integration: Content Merging Forschungskolloquium CIS/ISST
Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST Felix Naumann naumann@informatik.hu-berlin.de Einige Untertitel Content Merging Objekt/Data Fusion Data Amalgamation Data Consolidation
MehrErzeugung und Veränderung von Tabellen
Datenbanken - Objekte Erzeugung und Veränderung von Tabellen Objekt Tabelle View Sequence Index Synonym Basiseinheit zum Speichern; besteht aus Zeilen und Spalten; Logische Repräsentation; kann Teilmengen
Mehr7. XML-Datenbanksysteme und SQL/XML
7. XML-Datenbanksysteme und SQL/XML DB-Speicherung von XML-Dokumenten Arten von XML-Dokumenten Native XML-DBS vs. XML-Erweiterungen von ORDBS Speicherungsoptionen: ganzheitliche Speicherung vs. Dekomposition
MehrDatenübernahme in ADITO AID 013 DE
Datenübernahme in ADITO AID 013 DE 2014 ADITO Software GmbH Diese Unterlagen wurden mit größtmöglicher Sorgfalt hergestellt. Dennoch kann für Fehler in den Beschreibungen und Erklärungen keine Haftung
MehrAusgangspunkt. Datenintegration. Ziel. Konflikte. Architekturen. Transparenz
Ausgangspunkt Datenintegration Web Informationssysteme Wintersemester 2002/2003 Donald Kossmann Daten liegen in verschiedenen Datenquellen (Extremfall: jede URL eigene Datenquelle) Mietautos bei www.hertz.com
MehrDatenbankentwicklung
Datenbankentwicklung Berechnung und Präsentation von Daten Organisation der Daten in alleinstehende Tabellen Exklusiver Zugriff auf alle Informationen einer Tabelle Beschränkte Anzahl von Daten pro Tabellenblatt
MehrACCESS SQL ACCESS SQL
ACCESS SQL Datenbankabfragen mit der Query-Language ACCESS SQL Datenbankpraxis mit Access 34 Was ist SQL Structured Query Language Bestehend aus Datendefinitionssprache (DDL) Datenmanipulationssprache
MehrVerbunde (Joins) und mengentheoretische Operationen in SQL
Verbunde (Joins) und mengentheoretische Operationen in SQL Ein Verbund (Join) verbindet zwei Tabellen Typischerweise wird die Verbindung durch Attribute hergestellt, die in beiden Tabellen existieren Mengentheoretische
MehrVL Informationsintegration Verteilung, Autonomie und. 28.4.2008 Felix Naumann
VL Informationsintegration Verteilung, Autonomie und Heterogenität 28.4.2008 Felix Naumann Überblick 2 Verteilung Autonomie Syntaktische Heterogenität Strukturelle Heterogenität Semantische Heterogenität
MehrBERUFSPRAKTIKUM UND -VORBEREITUNG
Department für Geographie Marco Brey BERUFSPRAKTIKUM UND -VORBEREITUNG Crashkurs IT-Methoden ein anwendungsorientierter Einstieg in Datenbanksysteme, Programmierung und fortgeschrittene Excel-Funktionen
MehrEinführung SQL Data Definition Language (DDL)
Innsbruck Information System University of Innsbruck School of Management Universitätsstraße 15 6020 Innsbruck Einführung SQL Data Definition Language (DDL) Universität Innsbruck Institut für Wirtschaftsinformatik,
MehrDatenbankbasierte Lösungen
Technologische Beiträge für verteilte GIS - Anforderungen an verteilte GIS und Lösungsansätze Datenbankbasierte Lösungen Johannes Kebeck Senior Systemberater ORACLE Deutschland GmbH Agenda TOP Thema 1
MehrMethodik zur Optimierung in Datenbanken. Anja Rommel, 14-INM
Methodik zur Optimierung in Datenbanken Anja Rommel, 14-INM 03.07.2015 Gliederung 1. Einleitung 2. Motivation und Ziele 3. Phasen der Optimierung 3.1. Phase 1: Optimierung des DB-Schemas und Anwendungsoptimierung
MehrVerbunde (Joins) und mengentheoretische Operationen in SQL
Verbunde (Joins) und mengentheoretische Operationen in SQL Ein Verbund (Join) verbindet zwei Tabellen Typischerweise wird die Verbindung durch Attribute hergestellt, die in beiden Tabellen existieren Mengentheoretische
MehrObjektorientierter Software-Entwurf Ergebnisse der funktionalen Zerlegung 3 1. Die Zerlegungsmethoden sollen in zwei Dimensionen betrachtet werden:
Objektorientierter Software-Entwurf Ergebnisse der funktionalen Zerlegung 3 1 Vergleich der Zerlegungsmethoden Die Zerlegungsmethoden sollen in zwei Dimensionen betrachtet werden: Vergleich nach Ergebnissen
MehrEin Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?
Ein Beispiel Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse? Dipl.-Kfm. Claus Häberle WS 2015 /16 # 42 XML (vereinfacht) visa
MehrVorlesungsplan. Navigation: Beispiel. Navigation. Zugriffsmethoden in Bio- Datenbanken
Vorlesungsplan 1. Übersicht 2. Datenmodelle Textdateien, Entry-Modell Relationale DB XML 3. Genom-DB 4. Genexpressions-DB 5. Protein-DB 6. Pathway-DB 7. Publikations-DB 1. OWL & Ontologien 8. Zugriff und
MehrDatenbanken. Zusammenfassung. Datenbanksysteme
Zusammenfassung Datenbanksysteme Christian Moser Seite 1 vom 7 12.09.2002 Wichtige Begriffe Attribut Assoziation API Atomares Attribut Datenbasis DBMS Datenunabhängigkeit Datenbankmodell DDL DML DCL ER-Diagramm
MehrWebbasierte Informationssysteme
SS 2004 Prof. Dr. Stefan Böttcher Universität Paderborn - SS 2004 - Prof. Dr. Stefan Böttcher Folie 1 Was ist eine relationale Datenbank? Menge von Relationen (=Tabellen) und Constraints (=Integritätsbedingungen)
MehrDatenbanken (WS 2015/2016)
Datenbanken (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde
MehrIn diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was
1 In diesem Abschnitt wollen wir uns mit dem Thema XML Datenbank beschäftigen. Das Ziel ist, herauszufinden, was XML Datenbank überhaupt sind und was die wichtigsten Konzepte sind. Den Themenbereich XML
MehrDatenmodellierung VU Einführung SS 2015
184.685 Datenmodellierung VU, Einführung SS 2015 184.685 Datenmodellierung VU Einführung SS 2015 Dr. Sebastian Skritek Institut für Informationssysteme Technische Universität Wien Dr. Sebastian Skritek
MehrRelationales Datenmodell
Relationales Datenmodell Ein Datenmodell hat zwei Bestandteile: Eine mathematische Notation zur Darstellung von Daten und Beziehungen. Operationen auf den Daten, um Abfragen und andere Manipulationen zu
Mehr