Informationsintegration



Ähnliche Dokumente
Informationsintegration

Informationsintegration I Einführung

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Informationsintegration Einführung Felix Naumann

Informationsintegration Einführung

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Datenbanken und Informationssysteme II

Allgemeines zu Datenbanken

Einführung in die Informatik II

Semantic Web Technologies I

Datenbanken. Prof. Dr. Bernhard Schiefer.

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Einführung. Kapitel 1 2 / 508

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057)

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

!!!!T!!! Systems!() Multimedia Solutions

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Semantische Infomationsintegration à la carte?

Typisierung des Replikationsplan Wirries, Denis Datenbankspezialist

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Kapitel 3: Eigenschaften von Integrationssystemen. Einordnung von Integrationssystemen bzgl. Kriterien zur Beschreibung von Integrationssystemen

Integration verteilter Datenquellen in GIS-Datenbanken

Vermeiden Sie es sich bei einer deutlich erfahreneren Person "dranzuhängen", Sie sind persönlich verantwortlich für Ihren Lernerfolg.

Apache HBase. A BigTable Column Store on top of Hadoop

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Verkaufen Sie doch wo Sie wollen. Ihr einfacher Weg zu mehr Umsatz und dauerhaft steigendem Erfolg im E-Business

Definition Informationssystem

Präsentation zum Thema XML Datenaustausch und Integration

Mobiles SAP für Entscheider. Permanente Verfügbarkeit der aktuellen Unternehmenskennzahlen durch den mobilen Zugriff auf SAP ERP.

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

Seminar: Moderne Web Technologien (MWT)

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Enterprise Portale & Enterprise Application Integration

Der beste Plan für Office 365 Archivierung.

Web Data Management Systeme

SDD System Design Document

Einführung in die Informatik

5. Programmierschnittstellen für XML

Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen. Wir bringen Qualität. Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen

Business Intelligence Data Warehouse. Jan Weinschenker

» Export von Stud.IP-Daten auf eigene Web-Seiten» Workshop Donnerstag,

Business Intelligence Praktikum 1

OPERATIONEN AUF EINER DATENBANK

Workflow, Business Process Management, 4.Teil

Barrierefreie Webseiten erstellen mit TYPO3

Datenintegration & Datenherkunft Einführung

Datenbanken und Informationssysteme

Produktbeschreibung utilitas Ticketsystem

Wie Google Webseiten bewertet. François Bry

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

Enterprise Application Integration

Seminar C02 - Praxisvergleich OLAP Tools

Multichannel Challenge: Integration von Vertriebsorganisation und Contact Center in der Versicherung

Themen. M. Duffner: Datenbanksysteme

INFORMATION LIFECYCLE AKTUELLE TRENDS IM INPUT MANAGEMENT CENIT EIM IT-TAG 13. JUNI 2013 IN STUTTGART LARS LAMPE

5. Programmierschnittstellen für XML

Übung: Verwendung von Java-Threads

Sonstiges Wahlfach Wirtschaftsinformatik

Java Enterprise Architekturen Willkommen in der Realität

IT-Unternehmensarchitektur Übung 01: IT-Strategie

Grundlagen von Datenbanken

Modulhandbuch für das BA Kombinationsfach Angewandte Informatik Multimedia

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Kurzanweisung für Google Analytics

Refactoring relationaler Datenbank. Shaoke Wu

Business Intelligence Praktikum 1

Guten Tag! CampusSource. Die CSE Integration Platform. CampusSource Engine. Christof Pohl Softwareentwicklung Medienzentrum Universität Dortmund

Datenbanken (WS 2015/2016)

Die Online-Bestandserhebung im LSB Niedersachsen

Prof. Dr.-Ing. Rainer Schmidt 1

OMM Online Maintenance Management

Updatehinweise für die Version forma 5.5.5

SharePoint Demonstration

1. Mentorium Einführung, Organisation und Aufgaben zur Architektur von Informationssystemen

ECM und Zusammenarbeit

Foundations of uncertain data integration

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

OP-LOG

Übungsblatt: Protein interaction networks. Ulf Leser and Samira Jaeger

Unsere vier hilfreichsten Tipps für szenarienbasierte Nachfrageplanung

Data Warehouse ein strategisches Projekt

GI-Services erstellen und bereitstellen

Lizenzierung von Windows Server 2012

Transkript:

Informationsintegration Einführung Ulf Leser Wissensmanagement in der Bioinformatik

Informationsintegration Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 2

Andere Namen Content Merging Objekt Fusion Datenintegration / Informationsintegration Data Amalgamation Intelligent Information Integration: I³ Data Consolidation Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 3

Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 4

Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik - Analyse und Management komplexer biomedizinischer Daten - Skalierbarkeit und Modellierung komplexer Datenbanken Eine Datenbank zum Speichern von 10.000 Microarray-Experimenten, die aus jeweils ca. 50.000 Datenpunkten bestehen, die in verschiedenen Versionen vorkommen können - Algorithmische Bioinformatik Finden aller approximativen Duplikate in 10 Millionen ESTs der Länge 500 - Text Mining in den Lebenswissenschaften Welche Proteine interagieren mit RAS-5? - Management und Analyse biologischer Netzwerke Welche chemischen Prozesse können Glucose in Glycolyse umwandeln? - Integration Eine Datenbank zum einheitlichen Zugriff auf 25 Quellen, die sich mit Proteinstruktur beschäftigen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 5

Termine und Prüfung Vorlesung - Dienstag, 11 13 Uhr, RUD26, Raum 1'303 - Donnerstag, 11 13 Uhr, RUD26, Raum 1'303 Praktikum - Dienstag, 13 15 Uhr, RUD26, Raum 1'303 - ODER - Donnerstag, 13 15 Uhr, RUD26, Raum 1'303 - Erstes Praktikum am 21.10.2006 Voraussetzung für eine erfolgreiche Teilnahme - Anmeldung in GOYA für das Praktikum - Gute Kenntnisse in relationalen Datenbanken Voraussetzung für Prüfung - Je nach Studienordnung: Vordiplom - Bestehen des Praktikums Ulf Leser: Informationsintegration, Wintersemester 2008/2009 6

Gäste Termine noch unklar - N.N. - N.N. Ulf Leser: Informationsintegration, Wintersemester 2008/2009 7

Datenbanken und Wissensmanagement an der HU-Informatik HK Einführung in Datenbanken - Voraussetzung für diesen Halbkurs - Kurze Wiederholung in der nächsten Stunde HK Implementierung von Datenbanken - Systemnahe Aspekte; eine monolithische Datenbank HK Data Warehousing und Data Mining - Spezifische Form einer integrierten Datenbank mit vielen speziellen Aspekten (Modellierung, Optimierung, OLAP ) HK Text Analytics - Suche und Analyse natürlichsprachlicher Texte (Information Retrieval und Text Mining) HK Informationssysteme - Datenmanagement und Middleware HK Informationsintegration Ulf Leser: Informationsintegration, Wintersemester 2008/2009 8

Literatur Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, Oktober 2006 Weitere Hinweise in den Vorlesungen Andere Bücher - Conrad: Föderierte Datenbanken, 1997 Architekturen, Schemaintegration, keine Anfragebearbeitung - Conrad et al.: Enterprise Application Integration, 2006 Fokus auf EAI und Middleware - Yu, Meng: Principles of Database Query Processing, 1998 Optimierung verteilter Anfragen - Özus, Valduriez: Principles of Distributed Database Systems, 1999 Optimierung, verteilte und parallele Datenbanken Ulf Leser: Informationsintegration, Wintersemester 2008/2009 9

Webseite Ulf Leser: Informationsintegration, Wintersemester 2008/2009 10

Praktikum Informationsintegraton Viele Krankheiten haben einen genetischen Hintergrund. Gene liegen auf Chromosomen. Sind bestimmte Krankheiten also auf bestimmten Chromosomen angesiedelt? Integration (Flatfiles, Datenbank, Web-API, HTML Seiten) von fünf verschiedenen Datenbanken - EntrezGene, Gene Ontology, UniProt, OMIM, GenCards In Teams zu 2-4 Studenten Fünf Aufgaben im Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 11

Feedback Schon Evaluation angesehen? - http://www.informatik.hu-berlin.de/~koessler/evalu/fragebogen_auswertung.html Evaluation am Ende des Semesters Fragen bitte jederzeit! - In der Vorlesung - Email: leser@informatik.hu-berlin.de Anregungen zur Verbesserung am besten per Mail - Insb. Fehler in Folien Ulf Leser: Informationsintegration, Wintersemester 2008/2009 12

Fragen? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 13

Fragen meinerseits Diplominformatiker? Semester? Prüfung? Spezielle Erwartungen? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 14

Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 15

Was ist Informationsintegration? Kurz: Informationsintegration bezeichnet die Zusammenführung des Inhalts verschiedener Datenquellen an einer Stelle Lang: Informationsintegration bezeichnet die korrekte, vollständige und effiziente Zusammenführung des Inhalts verschiedener, verteilter, autonomer und heterogener Quellen an einer Stelle zu einer einheitlichen und strukturierten Informationsmenge mit dem Ziel, eine effektiven Nutzung durch Nutzer und Anwendungen zu ermöglichen Aber: Informationsintegration kann auch auf einer einzelnen Datenbank sinnvoll sein, wenn deren Inhalt heterogen ist Ulf Leser: Informationsintegration, Wintersemester 2008/2009 16

Weitere Begriffe Integrierte Informationssysteme - Metasuchmaschinen - Data Warehouses - Mashups Schnäppchenjäger, Reiseportale, Google News - Verwandt, aber anders - Enterprise Application Integration - Middleware (CORBA, EJB,.Net, ) - Systemintegration Ulf Leser: Informationsintegration, Wintersemester 2008/2009 17

EAI versus Informationsintegration SCM ERP Message Broker CRM Anfrage E-Commerce E-Procurement Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 18

Anwendungsgebiet 1: Business [Halevy04] Ulf Leser: Informationsintegration, Wintersemester 2008/2009 19

Anwendungsgebiet 2: Wissenschaft Ulf Leser: Informationsintegration, Wintersemester 2008/2009 20

Anwendungsgebiet 3: Das Web Ulf Leser: Informationsintegration, Wintersemester 2008/2009 21

Integration: Ein uraltes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern - Hartkodierte Transformationsregeln, teuer, unflexibel Seitdem immer schwieriger und wichtiger - Viele, viele Quellen - Neue Arten von Daten (EXCEL, XML, GIS, OO,...) - Neue Arten von Anfragen (Ranking, Spatial, Text, Web, Mining...) - Neue Arten von Nutzern (Laien (Web), Manager,...) - Neue Anforderungen (24x7x365, schnell, Ad-Hoc, Online) - Neue Anwendungen Self-Service, ecommerce, eprocurement Integration über Unternehmensgrenzen hinweg; Supply chain management Strategische Unternehmensunterstützung Wissensmanagement Ulf Leser: Informationsintegration, Wintersemester 2008/2009 22

Integration = Abstraktion Logisches Design abstrahiert von physischem Design - Datenunabhängigkeit, deklarative Anfragesprachen Informationsintegration abstrahiert vom logischen Design verschiedener Datenbanken - Quellenunabhängigkeit - Ortsunabhängigkeit - Datenmodellunabhängigkeit - Formatunabhängigkeit - Unabhängigkeit von semantischen Unterschieden - Erscheint wie ein einheitliches Informationssystem Ulf Leser: Informationsintegration, Wintersemester 2008/2009 23

Warum ist es so schwer? System-bedingte Gründe - Verschiedene Plattformen - Verteilung, Anfragebearbeitung über mehrere Systeme - Quellen ändern sich dauernd und von selbst Semantische Gründe - Heterogenität auf allen Ebenen (Daten, Schema, Sprachen) - Semantik von Begriffen ist kontextabhängig - Semantik ist schwer zu beschreiben Soziale Gründe - Einblick in fremde Datenbanken muss gestattet werden - Menschen zur Zusammenarbeit überreden - Einhalten von Verabredungen und Standards Ulf Leser: Informationsintegration, Wintersemester 2008/2009 24

Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 25

Informationssysteme: Dateien Datei - Informationseinheit: Zeile / Token - Anfrage: Parser - Struktur: Flach Organisation in Dateisystemen kann Bedeutung haben - Hierarchisch (aber: Links in Unix) Beispiele - Komma-delimited files (CSV) - DB/EXCEL Export - JAVA.property Dateien - Tausende proprietäre Formate Einsatzgebiete - Konfigurationsdateien - Einfache Datenbanken - Swiss-Prot Ulf Leser: Informationsintegration, Wintersemester 2008/2009 26

Property-Datei, CARDFILE # PqlPlus properties file db_user = pql db_pwd =? db_host = pfeffer db_port = 1521 db_service_name = lapdb SHAPE_WIDTH = 10 SHAPE_HEIGH = 10 NODE_VARIABLE_IMAGE_FILE = node_variable.gif PATH_VARIABLE_IMAGE_FILE = path_variable.gif PANEL_HEIGH = 105 BUTTON_HEIGH = 20 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 27

Ulf Leser: Informationsintegration, Wintersemester 2008/2009 28

Markup-Dateien Markup Datei - Informationseinheit: Tagged text - Anfrage: Parser, Anfragesprache - Struktur: Hierarchisch, geschachtelt Organisation in Dateisystemen kann Bedeutung haben - Unschön - Schachtelung kann in Datei ausgedrückt werden - Eine große versus viele kleine Dateien Beispiele - XML - HTML - LaTex - SGML Einsatzgebiete - Webseiten - Dokumente - Semantisches oder syntaktisches Tagging - Web Services - Nachrichtenaustausch - Konfigurationsdateien Ulf Leser: Informationsintegration, Wintersemester 2008/2009 29

Datenbanken Datenbank - Informationseinheit: Tupel / Attribut, Objekt - Anfrage: (Komplexe) Anfragesprache, z.b. SQL, OQL - Struktur: Relational, OO, Hierarchisch Keine übergeordnete Struktur - Nur physikalisch: Tablespaces, Segmente, Data-Files, Beispiele - Relationale DBMS - Objektorientierte DBMS - Auch: XML-DBMS Einsatzgebiete - Sichere Datenhaltung - Mehrbenutzerbetrieb - Schneller Zugriff (?) - Anwendungsunabhängige Datenhaltung - Datenschutz - Logging -... Ulf Leser: Informationsintegration, Wintersemester 2008/2009 30

Webformulare HTML Formular - Informationseinheit: HTML Seite, Text - Anfrage: Suchworte, Formulare (Freetext, dropdown-list ) Web Services - Struktur des Ergebnisses: Markup Datei (HTML, XML), JSON, SOAP, Beispiele - Webseiten - Dienste im Web - Allgemein: Funktionsausrufe Einsatzgebiete - Suchmaschinen - ecommerce - Marktplätze - Datenaustausch - RPC/ Middleware - Service Oriented Architecture Ulf Leser: Informationsintegration, Wintersemester 2008/2009 31

Ulf Leser: Informationsintegration, Wintersemester 2008/2009 32

Legacy Anwendungen Anwendungen in veralteten Programmiersprachen Beispiel: COBOL - Für kaufmännische Anwendungen - Operiert auf formatierten Dateien - Mischung aus DBMS und Programmiersprache - Zugriff über spezielle Anwendungen (Reports) Schätzungen: ½ aller Anwendungen in Banken/ Versicherungen/ sind Legacy Anwendungen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 33

Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 34

Beispiel Web Service A Web Service A - Standort: Trier - Operation: getpubbyauthor(firstname, lastname) getpubbytitle(title) - Output-Format: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 35

Beispiel Web Service B Web Service B - Standort: Humboldt-Universität - Operation: mypubs( author, year) - Output-Struktur: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 36

Eine Schnittstelle Integration durch Mediator - Nimmt Anfrage und berechnet Ergebnis unter Zugriff auf Quellen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 37

Ablauf 1 Globale Anfrage Integrationssystem Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 38

Ablauf 2 Globale Anfrage Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 39

Ablauf 3 Globale Anfrage Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Ergebnisintegration Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 40

Ablauf 4 Globale Anfrage Anfrageergebnis Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Ergebnisintegration Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 41

Quellenauswahl Eine schnelle Antwort oder eine vollständige Antwort? Geschwindigkeit - Web Service A in Trier (remote) - Web Service B in Adlershof (local) - Welches System ist schneller (bei gleicher Ergebnisgröße?)? Vollständigkeit - Web Service A hat weniger Attribute, aber mehr Objekte - Web Service B hat mehr Attribute, aber weniger Objekte - Eine Suche nach year kann nur durch Web Service B beantwortet werden, eine Suche nach Titel nur von A - Web Service A hat alle Autoren, B nur einen getpubbyauthor(firstname, lastname) getpubbytitle(title) mypubs( author, year) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 42

Zwei Resultate Web Service A Web Service B Ulf Leser: Informationsintegration, Wintersemester 2008/2009 43

Was ist was? - Schema Matching? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 44

Wer ist wer? - Objektidentifikation Ulf Leser: Informationsintegration, Wintersemester 2008/2009 45

Angestrebtes Integrationsergebnis + Integriertes Schema: = Ulf Leser: Informationsintegration, Wintersemester 2008/2009 46

Angestrebtes Integrationsergebnis Integrierte Daten: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 47

Integrierte Daten was ist passiert? Konfliktlösung Neu- Strukturierung Vorher: Naumann Neu Ulf Leser: Informationsintegration, Wintersemester 2008/2009 48

Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 49

Inhalt 1 Architekturen und Kriterien - Szenarien, Abgrenzung und Einsatzgebiete - Verteilung, Autonomie, Heterogenität, Transparenz - Architekturen, Data Warehouses Techniken zur Anfrageplanung - Multidatenbanksprachen, SchemaSQL - Local-as-View und Global-as-View Korrespondenzen - Anfrageplanung mit LaV - Query Containment und Answering Queries using Views - Umgang mit beschränkten Quellen - Verteilte Anfrageoptimierung Ulf Leser: Informationsintegration, Wintersemester 2008/2009 50

Inhalt 2 Schemamanagement - Schema Matching - Schema Mapping - Eine Algebra für Schemata Datenintegration - Informationsqualität - Duplikaterkennung - Datenfusion Semantische Integration - Ontologien und Beschreibungslogiken - Semantic Web Ulf Leser: Informationsintegration, Wintersemester 2008/2009 51