Informationsintegration Einführung Ulf Leser Wissensmanagement in der Bioinformatik
Informationsintegration Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 2
Andere Namen Content Merging Objekt Fusion Datenintegration / Informationsintegration Data Amalgamation Intelligent Information Integration: I³ Data Consolidation Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 3
Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 4
Wissensmanagement in der Bioinformatik Wissensmanagement in der Bioinformatik - Analyse und Management komplexer biomedizinischer Daten - Skalierbarkeit und Modellierung komplexer Datenbanken Eine Datenbank zum Speichern von 10.000 Microarray-Experimenten, die aus jeweils ca. 50.000 Datenpunkten bestehen, die in verschiedenen Versionen vorkommen können - Algorithmische Bioinformatik Finden aller approximativen Duplikate in 10 Millionen ESTs der Länge 500 - Text Mining in den Lebenswissenschaften Welche Proteine interagieren mit RAS-5? - Management und Analyse biologischer Netzwerke Welche chemischen Prozesse können Glucose in Glycolyse umwandeln? - Integration Eine Datenbank zum einheitlichen Zugriff auf 25 Quellen, die sich mit Proteinstruktur beschäftigen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 5
Termine und Prüfung Vorlesung - Dienstag, 11 13 Uhr, RUD26, Raum 1'303 - Donnerstag, 11 13 Uhr, RUD26, Raum 1'303 Praktikum - Dienstag, 13 15 Uhr, RUD26, Raum 1'303 - ODER - Donnerstag, 13 15 Uhr, RUD26, Raum 1'303 - Erstes Praktikum am 21.10.2006 Voraussetzung für eine erfolgreiche Teilnahme - Anmeldung in GOYA für das Praktikum - Gute Kenntnisse in relationalen Datenbanken Voraussetzung für Prüfung - Je nach Studienordnung: Vordiplom - Bestehen des Praktikums Ulf Leser: Informationsintegration, Wintersemester 2008/2009 6
Gäste Termine noch unklar - N.N. - N.N. Ulf Leser: Informationsintegration, Wintersemester 2008/2009 7
Datenbanken und Wissensmanagement an der HU-Informatik HK Einführung in Datenbanken - Voraussetzung für diesen Halbkurs - Kurze Wiederholung in der nächsten Stunde HK Implementierung von Datenbanken - Systemnahe Aspekte; eine monolithische Datenbank HK Data Warehousing und Data Mining - Spezifische Form einer integrierten Datenbank mit vielen speziellen Aspekten (Modellierung, Optimierung, OLAP ) HK Text Analytics - Suche und Analyse natürlichsprachlicher Texte (Information Retrieval und Text Mining) HK Informationssysteme - Datenmanagement und Middleware HK Informationsintegration Ulf Leser: Informationsintegration, Wintersemester 2008/2009 8
Literatur Ulf Leser, Felix Naumann: Informationsintegration, dpunkt.verlag, Oktober 2006 Weitere Hinweise in den Vorlesungen Andere Bücher - Conrad: Föderierte Datenbanken, 1997 Architekturen, Schemaintegration, keine Anfragebearbeitung - Conrad et al.: Enterprise Application Integration, 2006 Fokus auf EAI und Middleware - Yu, Meng: Principles of Database Query Processing, 1998 Optimierung verteilter Anfragen - Özus, Valduriez: Principles of Distributed Database Systems, 1999 Optimierung, verteilte und parallele Datenbanken Ulf Leser: Informationsintegration, Wintersemester 2008/2009 9
Webseite Ulf Leser: Informationsintegration, Wintersemester 2008/2009 10
Praktikum Informationsintegraton Viele Krankheiten haben einen genetischen Hintergrund. Gene liegen auf Chromosomen. Sind bestimmte Krankheiten also auf bestimmten Chromosomen angesiedelt? Integration (Flatfiles, Datenbank, Web-API, HTML Seiten) von fünf verschiedenen Datenbanken - EntrezGene, Gene Ontology, UniProt, OMIM, GenCards In Teams zu 2-4 Studenten Fünf Aufgaben im Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 11
Feedback Schon Evaluation angesehen? - http://www.informatik.hu-berlin.de/~koessler/evalu/fragebogen_auswertung.html Evaluation am Ende des Semesters Fragen bitte jederzeit! - In der Vorlesung - Email: leser@informatik.hu-berlin.de Anregungen zur Verbesserung am besten per Mail - Insb. Fehler in Folien Ulf Leser: Informationsintegration, Wintersemester 2008/2009 12
Fragen? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 13
Fragen meinerseits Diplominformatiker? Semester? Prüfung? Spezielle Erwartungen? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 14
Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 15
Was ist Informationsintegration? Kurz: Informationsintegration bezeichnet die Zusammenführung des Inhalts verschiedener Datenquellen an einer Stelle Lang: Informationsintegration bezeichnet die korrekte, vollständige und effiziente Zusammenführung des Inhalts verschiedener, verteilter, autonomer und heterogener Quellen an einer Stelle zu einer einheitlichen und strukturierten Informationsmenge mit dem Ziel, eine effektiven Nutzung durch Nutzer und Anwendungen zu ermöglichen Aber: Informationsintegration kann auch auf einer einzelnen Datenbank sinnvoll sein, wenn deren Inhalt heterogen ist Ulf Leser: Informationsintegration, Wintersemester 2008/2009 16
Weitere Begriffe Integrierte Informationssysteme - Metasuchmaschinen - Data Warehouses - Mashups Schnäppchenjäger, Reiseportale, Google News - Verwandt, aber anders - Enterprise Application Integration - Middleware (CORBA, EJB,.Net, ) - Systemintegration Ulf Leser: Informationsintegration, Wintersemester 2008/2009 17
EAI versus Informationsintegration SCM ERP Message Broker CRM Anfrage E-Commerce E-Procurement Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info-system Ulf Leser: Informationsintegration, Wintersemester 2008/2009 18
Anwendungsgebiet 1: Business [Halevy04] Ulf Leser: Informationsintegration, Wintersemester 2008/2009 19
Anwendungsgebiet 2: Wissenschaft Ulf Leser: Informationsintegration, Wintersemester 2008/2009 20
Anwendungsgebiet 3: Das Web Ulf Leser: Informationsintegration, Wintersemester 2008/2009 21
Integration: Ein uraltes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern - Hartkodierte Transformationsregeln, teuer, unflexibel Seitdem immer schwieriger und wichtiger - Viele, viele Quellen - Neue Arten von Daten (EXCEL, XML, GIS, OO,...) - Neue Arten von Anfragen (Ranking, Spatial, Text, Web, Mining...) - Neue Arten von Nutzern (Laien (Web), Manager,...) - Neue Anforderungen (24x7x365, schnell, Ad-Hoc, Online) - Neue Anwendungen Self-Service, ecommerce, eprocurement Integration über Unternehmensgrenzen hinweg; Supply chain management Strategische Unternehmensunterstützung Wissensmanagement Ulf Leser: Informationsintegration, Wintersemester 2008/2009 22
Integration = Abstraktion Logisches Design abstrahiert von physischem Design - Datenunabhängigkeit, deklarative Anfragesprachen Informationsintegration abstrahiert vom logischen Design verschiedener Datenbanken - Quellenunabhängigkeit - Ortsunabhängigkeit - Datenmodellunabhängigkeit - Formatunabhängigkeit - Unabhängigkeit von semantischen Unterschieden - Erscheint wie ein einheitliches Informationssystem Ulf Leser: Informationsintegration, Wintersemester 2008/2009 23
Warum ist es so schwer? System-bedingte Gründe - Verschiedene Plattformen - Verteilung, Anfragebearbeitung über mehrere Systeme - Quellen ändern sich dauernd und von selbst Semantische Gründe - Heterogenität auf allen Ebenen (Daten, Schema, Sprachen) - Semantik von Begriffen ist kontextabhängig - Semantik ist schwer zu beschreiben Soziale Gründe - Einblick in fremde Datenbanken muss gestattet werden - Menschen zur Zusammenarbeit überreden - Einhalten von Verabredungen und Standards Ulf Leser: Informationsintegration, Wintersemester 2008/2009 24
Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 25
Informationssysteme: Dateien Datei - Informationseinheit: Zeile / Token - Anfrage: Parser - Struktur: Flach Organisation in Dateisystemen kann Bedeutung haben - Hierarchisch (aber: Links in Unix) Beispiele - Komma-delimited files (CSV) - DB/EXCEL Export - JAVA.property Dateien - Tausende proprietäre Formate Einsatzgebiete - Konfigurationsdateien - Einfache Datenbanken - Swiss-Prot Ulf Leser: Informationsintegration, Wintersemester 2008/2009 26
Property-Datei, CARDFILE # PqlPlus properties file db_user = pql db_pwd =? db_host = pfeffer db_port = 1521 db_service_name = lapdb SHAPE_WIDTH = 10 SHAPE_HEIGH = 10 NODE_VARIABLE_IMAGE_FILE = node_variable.gif PATH_VARIABLE_IMAGE_FILE = path_variable.gif PANEL_HEIGH = 105 BUTTON_HEIGH = 20 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 27
Ulf Leser: Informationsintegration, Wintersemester 2008/2009 28
Markup-Dateien Markup Datei - Informationseinheit: Tagged text - Anfrage: Parser, Anfragesprache - Struktur: Hierarchisch, geschachtelt Organisation in Dateisystemen kann Bedeutung haben - Unschön - Schachtelung kann in Datei ausgedrückt werden - Eine große versus viele kleine Dateien Beispiele - XML - HTML - LaTex - SGML Einsatzgebiete - Webseiten - Dokumente - Semantisches oder syntaktisches Tagging - Web Services - Nachrichtenaustausch - Konfigurationsdateien Ulf Leser: Informationsintegration, Wintersemester 2008/2009 29
Datenbanken Datenbank - Informationseinheit: Tupel / Attribut, Objekt - Anfrage: (Komplexe) Anfragesprache, z.b. SQL, OQL - Struktur: Relational, OO, Hierarchisch Keine übergeordnete Struktur - Nur physikalisch: Tablespaces, Segmente, Data-Files, Beispiele - Relationale DBMS - Objektorientierte DBMS - Auch: XML-DBMS Einsatzgebiete - Sichere Datenhaltung - Mehrbenutzerbetrieb - Schneller Zugriff (?) - Anwendungsunabhängige Datenhaltung - Datenschutz - Logging -... Ulf Leser: Informationsintegration, Wintersemester 2008/2009 30
Webformulare HTML Formular - Informationseinheit: HTML Seite, Text - Anfrage: Suchworte, Formulare (Freetext, dropdown-list ) Web Services - Struktur des Ergebnisses: Markup Datei (HTML, XML), JSON, SOAP, Beispiele - Webseiten - Dienste im Web - Allgemein: Funktionsausrufe Einsatzgebiete - Suchmaschinen - ecommerce - Marktplätze - Datenaustausch - RPC/ Middleware - Service Oriented Architecture Ulf Leser: Informationsintegration, Wintersemester 2008/2009 31
Ulf Leser: Informationsintegration, Wintersemester 2008/2009 32
Legacy Anwendungen Anwendungen in veralteten Programmiersprachen Beispiel: COBOL - Für kaufmännische Anwendungen - Operiert auf formatierten Dateien - Mischung aus DBMS und Programmiersprache - Zugriff über spezielle Anwendungen (Reports) Schätzungen: ½ aller Anwendungen in Banken/ Versicherungen/ sind Legacy Anwendungen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 33
Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 34
Beispiel Web Service A Web Service A - Standort: Trier - Operation: getpubbyauthor(firstname, lastname) getpubbytitle(title) - Output-Format: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 35
Beispiel Web Service B Web Service B - Standort: Humboldt-Universität - Operation: mypubs( author, year) - Output-Struktur: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 36
Eine Schnittstelle Integration durch Mediator - Nimmt Anfrage und berechnet Ergebnis unter Zugriff auf Quellen Ulf Leser: Informationsintegration, Wintersemester 2008/2009 37
Ablauf 1 Globale Anfrage Integrationssystem Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 38
Ablauf 2 Globale Anfrage Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 39
Ablauf 3 Globale Anfrage Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Ergebnisintegration Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 40
Ablauf 4 Globale Anfrage Anfrageergebnis Anfrageübersetzung, -optimierung und -ausführung Integrationssystem Ergebnisintegration Datenquelle 1 Datenquelle 2 Datenquelle 3 Ulf Leser: Informationsintegration, Wintersemester 2008/2009 41
Quellenauswahl Eine schnelle Antwort oder eine vollständige Antwort? Geschwindigkeit - Web Service A in Trier (remote) - Web Service B in Adlershof (local) - Welches System ist schneller (bei gleicher Ergebnisgröße?)? Vollständigkeit - Web Service A hat weniger Attribute, aber mehr Objekte - Web Service B hat mehr Attribute, aber weniger Objekte - Eine Suche nach year kann nur durch Web Service B beantwortet werden, eine Suche nach Titel nur von A - Web Service A hat alle Autoren, B nur einen getpubbyauthor(firstname, lastname) getpubbytitle(title) mypubs( author, year) Ulf Leser: Informationsintegration, Wintersemester 2008/2009 42
Zwei Resultate Web Service A Web Service B Ulf Leser: Informationsintegration, Wintersemester 2008/2009 43
Was ist was? - Schema Matching? Ulf Leser: Informationsintegration, Wintersemester 2008/2009 44
Wer ist wer? - Objektidentifikation Ulf Leser: Informationsintegration, Wintersemester 2008/2009 45
Angestrebtes Integrationsergebnis + Integriertes Schema: = Ulf Leser: Informationsintegration, Wintersemester 2008/2009 46
Angestrebtes Integrationsergebnis Integrierte Daten: Ulf Leser: Informationsintegration, Wintersemester 2008/2009 47
Integrierte Daten was ist passiert? Konfliktlösung Neu- Strukturierung Vorher: Naumann Neu Ulf Leser: Informationsintegration, Wintersemester 2008/2009 48
Überblick Organisatorisches Informationsintegration Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester Ulf Leser: Informationsintegration, Wintersemester 2008/2009 49
Inhalt 1 Architekturen und Kriterien - Szenarien, Abgrenzung und Einsatzgebiete - Verteilung, Autonomie, Heterogenität, Transparenz - Architekturen, Data Warehouses Techniken zur Anfrageplanung - Multidatenbanksprachen, SchemaSQL - Local-as-View und Global-as-View Korrespondenzen - Anfrageplanung mit LaV - Query Containment und Answering Queries using Views - Umgang mit beschränkten Quellen - Verteilte Anfrageoptimierung Ulf Leser: Informationsintegration, Wintersemester 2008/2009 50
Inhalt 2 Schemamanagement - Schema Matching - Schema Mapping - Eine Algebra für Schemata Datenintegration - Informationsqualität - Duplikaterkennung - Datenfusion Semantische Integration - Ontologien und Beschreibungslogiken - Semantic Web Ulf Leser: Informationsintegration, Wintersemester 2008/2009 51