Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11



Ähnliche Dokumente
Datenintegration. Kapitel 1: Einführung. Andreas Thor Sommersemester Inhalt

Informationsintegration I Einführung

Informationsintegration Beispiel

Informationsintegration

Informationsintegration Einführung

Informationsintegration Einführung Felix Naumann

Datenintegration & Datenherkunft Einführung

Informationsintegration

Informationsintegration Einführung Felix Naumann

Informationsintegration. Ulf Leser Sebastian Wandelt

Datenbanken. Prof. Dr. Bernhard Schiefer.

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057)

Allgemeines zu Datenbanken

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Präsentation zum Thema XML Datenaustausch und Integration

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund

SAP NetWeaver Gateway. 2013

Sonstiges Wahlfach Wirtschaftsinformatik

Übungen zur Softwaretechnik

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Internetanbindung von Datenbanken

Integration verteilter Datenquellen in GIS-Datenbanken

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

OPERATIONEN AUF EINER DATENBANK

Java Enterprise Architekturen Willkommen in der Realität

Workflow, Business Process Management, 4.Teil

Business Intelligence Data Warehouse. Jan Weinschenker

Zustandsgebundene Webservices

Integration, Migration und Evolution

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

Verkaufen Sie doch wo Sie wollen. Ihr einfacher Weg zu mehr Umsatz und dauerhaft steigendem Erfolg im E-Business

Einführung. Kapitel 1 2 / 508

Content Management Systeme (CMS)

Enterprise Content Management

UpToNet Workflow Workflow-Designer und WebClient Anwendung

Web Data Management Systeme

BigData Wie wichtig ist die Datenqualität bei der Analyse und Auswertung von großen Daten Praxisbeispiel. Christin Otto

Business Intelligence Praktikum 1

Best Practice: Integration von RedDot mit Livelink DM im Intranet/Extranet

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Klausurteilnehmer. Wichtige Hinweise. Note: Klausur Informatik Programmierung, Seite 1 von 8 HS OWL, FB 7, Malte Wattenberg.

IDV Assessment- und Migration Factory für Banken und Versicherungen

7. Übung - Datenbanken

SDD System Design Document

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Richtige und schnelle Entscheidungen trotz sich änderner Anforderungen mit Microsoft Dynamics AX und Microsoft SQL Server Reporting Services

Foundations of uncertain data integration

Insight aus der Webseite!

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Unternehmensprozesse Optimieren Wissen ist Macht Daten und Informationen Professionell Managen

Anforderungen an die HIS

Datenmanagement in Android-Apps. 16. Mai 2013

Definition Informationssystem

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Dynamische Softwarelösungen. - Workfloworientiert - Prozessorientiert - Flexibel, Dynamisch - Endanwendertauglích. real enterprise transparency

Business Intelligence Praktikum 1

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

IBM Software Demos Tivoli Composite Application Manager for SOA

Im Original veränderbare Word-Dateien

Proseminar: Website-Managment-System. NetObjects Fusion. von Christoph Feller

Acht Gute Gründe für Integration und einen Content Backbone

Content Management Datenbanken, Schnittstellen

Jürgen Schwab, debis Systemhaus

Die technischen Aspekte von Mapping-Lösungen

Business Intelligence. Bereit für bessere Entscheidungen

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

Prof. Dr.-Ing. Rainer Schmidt 1

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

SharePoint Portal für eine effiziente Zusammenarbeit

BSCW als Plattform: EnArgus & Co

SemTalk Services Stand: Februar 2015

Erfolgreich suchen im Internet

SAP SharePoint Integration. e1 Business Solutions GmbH

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

MetaNavigation der effizienteste Weg maximalen Mehrwert aus BI Metadaten zu ziehen

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Information über die WebServices der Parlamentsdienste

Übung: Verwendung von Java-Threads

PHP Kurs Online Kurs Analysten Programmierer Web PHP

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Corporate Smart Process Content. Wissensmanagement mittels Prozesskontext

Closed-loop STADTWERKE MAINZ AG. 17. SAP - Konferenz, 17. November Quelle: CRM für die Versorgungswirtschaft, Die Integration von mysap CRM

Enterprise Portale & Enterprise Application Integration

Die TYPO3-Extension Publikationen

GI-Services erstellen und bereitstellen

Refactoring relationaler Datenbank. Shaoke Wu

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Oracle Database Backup Service - DR mit der Cloud

Grenzen überschreiten Intelligente Suche im Input Management

Wege zur Service Orientierten Organisation. Prof. Dr. Eberhard Schott fh-aschaffenburg.de

Transkript:

Datenintegration Datenintegration Kapitel 1: Einführung Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1

Inhalt Begriffsdefinition Anwendungsgebiete Informationssysteme und integrierte Informationssysteme Integration am Beispiel 2

Integrierte Informationssysteme Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge Beispiele Metasuchmaschinen Data Warehouses Schnäppchenjäger Reiseportale Google News Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system 3

Daten-/Informationsintegration Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen. Begriffe Datenintegration und Informationsintegration werden synonym gebraucht Informationsintegration = Integration der Metadaten und der Instanzdaten Ziel: Mehrwert, der durch Kombination von Daten entsteht Anfragen, die bessere Ergebnisse durch Verwendung mehrerer (anstatt nur einer) Datenquellen liefern Anfragen, die nur durch Verwendung mehrerer Datenquellen beantwortet werden können 4

Vergleich: Enterprise Application Integration Verwandt, aber anders Enterprise Application Integration Middleware (CORBA, J2EE,.Net, ) Systemintegration Business Process Integration Enterprise Application Integration Nachrichtenbasiert, keine Anfragen Informationsverteilung Aktion beim Eintreten eines Ereignisses Information Integration Anfragebasiert ERP E-Commerce Annahme eines (praktisch) statischen Datenbestands Aktion Erst bei Anfrage (virtuelle Integration) In regelmäßigen Zyklen (materialisierte Integration) SCM Message Broker CRM E-Procurement 5

Anwendungsgebiet 1: Business Welche Produktgruppen verkaufen sich in welchen Fillialen am besten? Alon Y. Halevy: Structures, Semantics and Statistics. VLDB 2004 Wie erfolgreich sind unsere Marketingkampagnen? 6

Anwendungsgebiet 2: Wissenschaft Welche Gene spíelen bei bestimmten molekularen Prozessen eine Rolle? Welche biologischen Funktionen gibt es bei Mäusen und bei Ratten? Alon Y. Halevy: Structures, Semantics and Statistics. VLDB 2004 7

Anwendungsgebiet 3: Das Web Wer bietet Buch XY am preiswertesten an? Welche Publikation von Autor Z wird am häufigsten zitiert? Alon Y. Halevy: Structures, Semantics and Statistics. VLDB 2004 8

Informationssystem: Swissprot-Datei 9

Informationssystem: Amazon Suchformular 10

Informationssystem: Web Services 11

Informationssysteme: Übersicht (Auswahl) System Informationseinheit Anfrage Struktur Beispiele Dateisystem Flat file NTFS, FTP Datei Zeile, Token CSV, Annotated Files Markup- Datei Tagged Text XML, HTML Datenbank Tupel, Attribut, Objekt RDBMS, OODBMS, XMLDBMS HTML Formular HTML Seite Such- und Anfrageformulare Web Service XML Einfache Dienste, komplexe Workflows Anwendung Java-Objekt, Text 12 Java, C++

Integriertes Informationssystem Verhält sich in Anfrage, Struktur und Informationseinheit je nach Design: DBMS, HTML Formular, Web Service,... Beispiele Data Warehouses Föderierte Datenbanken Portale, News-Aggregatoren Meta-Suchmaschine... Anfrage Meta-Suchmaschine Intranet Index Thesaurus 14

Integration = Abstraktion Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ Konzeptionelles Schema Internes Schema Informationsintegration abstrahiert vom logischen DB Design vieler Datenbanken Quellenunabhängigkeit Ortsunabhängigkeit Datenmodellunabhängigkeit Formatunabhängigkeit Unabhängigkeit von semantischen Unterschieden Erscheint wie ein einheitliches Informationssystem 15

Warum ist Integration so schwer? System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Quellen ändern sich dauernd Soziale Gründe Finden relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Einhalten von Verabredungen und Standards Logik-bedingte Gründe Heterogenität auf allen Ebenen Semantik von Begriffen ist immer kontextabhängig Semantik ist einfach schwer zu beschreiben 16

Integration = Ein uraltes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Hartkodierte Transformationsregeln Fehleranfällig, teuer, unflexibel Neue Probleme Viele, viele Quellen Neue Arten von Daten (EXCEL, XML, GIS, OO,...) Neue Arten von Anfragen (Ranking, Spatial, Mining...) Neue Arten von Nutzern (Laien, Manager,...) Neue Anforderungen (24x7x365, schnell, Ad-Hoc, Online) Neue Anwendungen Self-Service, ecommerce, eprocurement Integration über Unternehmensgrenzen hinweg; Supply chain management Strategische Unternehmensunterstützung Wissensmanagement 17

Integration am Beispiel Ausgangspunkt: Zwei Web-Services zur Suche nach wissenschaftlichen Publikationen mit unterschiedlichen Formaten und Operationen Ziel: Integrierter Web-Service, der beide Services vereinigt Webservice A Operationen getpubbyauthor (firstname, lastname) getpubbytitle (title) Output-Struktur Titel Result 0..* pub 1 1 Autoren Webservice B Operation mypubs (Autor, Jahr) Output-Struktur Title Result 0..* publication 1 1 1 Auth Year 1..* Autor 18

Vorgehensweise 1. Nutzerschnittstelle 2. Schema Integration / Schema Mapping 3. Anfrageumwandlung 4. Anfrageoptimierung 5. Requests an Services abschicken & Antworten einholen 6. Objektidentifikation 7. Integrationsschritte Konfliktlösung etc. Entscheidung kleinster gemeinsamer Nenner? Durchführung (deklarativ, prozedural) 8. Anzeige beim Nutzer 19

1. Nutzerschnittstelle 20

2. Schema Integration / Schema Mapping Erstellung eines integrierten (globalen) Schemas integrierte Gesamtsicht auf die Daten Zuordnung der Elemente der Quellenschemas zum integrierten Schema Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> 21 <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year> </pub> Schema Mapping Schemaintegration

3. Anfrageumwandlung Integration durch Mediator Nimmt Anfrage entgegen und berechnet Ergebnis unter Zugriff auf Quellen Autor = concat(firstname, lastname) 22

4. Anfrageoptimierung Eine schnelle Antwort oder eine vollständige Antwort? Geschwindigkeit Web Service A in USA Web Service B in Deutschland Welches System ist schneller? Selektivität? Vollständigkeit Web Service A hat weniger Attribute, aber mehr Objekte Web Service B hat mehr Attribute, weniger Objekte, aber ist schneller Eine Suche nach year kann nur durch Web Service B beantwortet werden, eine Suche nach Titel nur von A Web Service A hat alle Autoren, B nur einen 23

5. Antworten einholen Zwei Web-Service-Aufrufe zwei Ergebnisse <Result> <pub> <Titel>MOMA - A Mapping-based Object Matching System</Titel> <Autoren> <Autor>Andreas Thor</Autor> <Autor>Erhard Rahm</Autor> </Autoren> </pub> <pub> <Titel>Data Cleaning: Problems and Current Approaches</Titel> <Autoren> <Autor>Erhard Rahm</Autor> <Autor>Hong-Hai Do</Autor> </Autoren> </pub> </Result> <Result> <publication> <Title>A Mapping-based Object Matching System</Title> <Auth>Thor, A.; Rahm, E.</Auth> <Year>2007</Year> </publication> <publication> <Title>Citation Analysis of Database Publications</Title> <Auth>Rahm, E.; Thor, A.</Auth> <Year>2005</Year> </publication> </Result> 24

6. Objektidentifikation Referenzieren zwei Datensätze die gleiche Publikation? Keine eindeutige Id (generische) String-Vergleiche hinreichend ähnlich? <pub> <Titel>MOMA - A Mapping-based Object Matching System</Titel> <Autoren> <Autor>Andreas Thor</Autor> <Autor>Erhard Rahm</Autor> </Autoren> </pub> <publication> <Title>A Mapping-based Object Matching System</Title> <Auth>Thor, A.; Rahm, E.</Auth> <Year>2007</Year> </publication> Edit-Distance = 7 Ähnlichkeit = 84% Ähnlichkeitsmaß? 25

7. Integrationsschritte <Result> <pub> Während der Integration Konfliktlösung (welche Werte) Informationsfusion Restrukturierung 8. Anzeige beim Nutzer Visualisierung der Datenherkunft Qualität veränderten Daten Operationen 26 <Titel>MOMA - A Mapping-based Object Matching System</Titel> <Autoren> <Autor>Andreas Thor</Autor> <Autor>Erhard Rahm</Autor> </Autoren> <Year>2007</Year> </pub> <pub> <Titel>Data Cleaning: Problems and Current Approaches</Titel> <Autoren> <Autor>Erhard Rahm</Autor> <Autor>Hong-Hai Do</Autor> </Autoren> </pub> <pub> <Titel>Citation Analysis of Database Publications</Titel> <Autoren> <Autor>Rahm, E.</Autor> <Autor>Thor, A.</Autor> </Autoren> <Year>2005</Year> </publication> </Result> Konfliktlösung Informationsfusion Neustrukturierung

Zusammenfassung Begriffsdefinition Anwendungsgebiete zeigt Bedeutung von Integration Gründe, warum Integration nötig und schwierig ist Kap. 2 Unterschiedliche Informationssysteme führen zu unterschiedlichen Anforderungen und Arten integrierter Informationssysteme Anforderungen / Kriterien / Eigenschaften Kap. 3 Architekturen von Integrationssystemen Kap. 4 Integration am Beispiel zeigt Notwendigkeit von Anfrageverarbeitung Kap. 5 Schemamanagement Kap. 6 Datenfusion Kap. 7 27