Informationsintegration Einführung 10.4.2012 Felix Naumann
Integrierte Informationssysteme 2 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system
Überblick 3 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester
Information Systems Team 4 DFG Schufa IBM Christoph Böhm Dr. Saeedeh Momtazi Opinion Mining Katrin Heinrich Data Profiling project GovWILD Matching Service-Oriented Systems Prof. Felix Naumann Data Fusion project DuDe Information Integration Data Scrubbing Information Quality Duplicate Detection project Stratosphere Dependency Detection Web Data Uwe Draisbach Data Cleansing Linked Open Data Arvid Heise Entity Search Data as a Service RDF Data Mining ETL Management project M.ETL Dustin Lange Johannes Lorey Ziawasch Abedjan Tobias Vogel HPI Research School Dr. Gjergji Kasneci Toni Grütze Alexander Albrecht bbf
Other courses in this semester 5 Lectures DBS I Natural Language Processing Data Mining and Probabilistic Reasoning Information Integration Seminars Bachelor: Beauty is our Business Master: Algorithms for Pattern Mining Bachelorprojects A Cloud Platform for On-Demand Access to Open Data CelebDB: Harvesting Celebrity Data
Proseminar 6 Beauty is our Business Wenn wir uns klarmachen, daß der Kampf gegen Chaos, Durcheinander und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: Beauty is our Business. Edsger W. Dijkstra, 1978
SE Algorithms for Pattern Mining 7 2 SWS, implementation, presentation, evaluation report Elaborate algorithms for large scale data analysis Discover co-occurring items and relationships in large transactional data sets TID transaction 1003 beer, diaper, bread 1004 tea, coffee, bread..
VL Data Mining and Probabilistic Reasoning 8 Data Mining every two days we create as much information as we did from the dawn of civilization up until 2003! 5 Exabytes of data Eric Schmidt Analyzing data, finding patterns, detecting outliers Learning predictive models Discovering knowledge Application areas Probabilistic Reasoning Representing and quantifying uncertainty in data Predicting likely outcomes of random variables, occurrence of events Choosing the right model Web mining (e.g. find documents for a given topic) Bioinformatics (e.g. analyze protein-protein interactions) Stock market analysis (e.g. predict value of a given stock asset) Physics (e.g. modeling Brownian motion of particles)
Natural Language Processing 9 What are the main techniques and applications for processing human languages by computers? How search engines can find the most relevant pages for input queries? How a machine translator can translate a text from one language to another? How online shopping sites can summarize opinions about the products? How Watson can answer the Jeopardy questions? In this lecture, we will learn how to make a machine able to understand the human language.
Überblick 10 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester
Termine und Leistungserfassung 11 Vorlesung Dienstags 9:15 10:45 Praktikum begleitend Erste Vorlesung 10.4.2012 Letzte Vorlesung 10.7.2012 Feiertag(e) 1.5. Maifeiertag Prüfung Mündlich, 30 Minuten Erste Woche nach Vorlesungszeitraum Voraussetzungen Zur Teilnahme Datenbankkenntnisse (z.b. DBS I) Zur Prüfung Besuch der Vorlesung Aktive Teilnahme an den Praktikumsterminen Bestehen des Praktikums
Feedback 12 Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Dienstags 15-16 Email: naumann@hpi.uni-potsdam.de Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per Email: naumann@hpi.uni-potsdam.de
Lehrbuch 13 Informationsintegration Ulf Leser und Felix Naumann dpunkt Verlag, 2006 42 Euro n-mal in Bibliothek
Weitere Literatur 14 Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, 1997, ISBN: 3540631763 Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: 0136597076 Jeweils Literaturhinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ ACM Digital Library: www.acm.org/dl/ Homepages der Autoren
Übung: Integrationsprojekt 15
Vorstellung Hörer 16 Welches Semester? HPI oder IfI? Erasmus o.ä.? English? Datenbankkenntnisse? Andere relevante Lehrveranstaltungen? Ihre Motivation? Schon mal integriert? DWH?
Überblick 17 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester
Integrierte Informationssysteme 18 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system
19
20
21
22
23
24
Was ist Informationsintegration? 25 Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.
Wo herrscht Informationsintegration? 26 Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen
27
Amazon Suchformular 28
XMethods 29
StrikeIron 30
Programmable Web 31
Google FusionTables 32
Integrierte Informationssysteme 33 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system
Integrierte Suchmaschinen 34 Anfrage Meta-Suchmaschine Intranet Index Thesaurus
Integration = Abstraktion 35 1. Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ 2. Informationsintegration abstrahiert von logischen DB Design Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!)
Anwendungsgebiet 1: Business [Halevy04] 36
Anwendungsgebiet 2: Wissenschaft [Halevy04] 37
Anwendungsgebiet 3: Das Web [Halevy04] 38
Informationsintegration: Ein altes Problem 39 Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung,...) Neue Arten von Nutzern (Laien, Manager, Admins,...) Alon Halevy: It s plain hard! [Halevy04]
Warum ist es so schwer? [Halevy04] 40 System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Data fiefdoms Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur.
Überblick 41 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester
Informationsintegration 42 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 43 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year> </pub> Schema Mapping Schema Integration Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 44 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Schema Integration Schema Mapping XQuery XQuery <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 45 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 46 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 47 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 48 Web Service A Web Service B 1sec. 5sec. <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung
Informationsintegration 49 Web Service A Web Service B 1sec. 5sec. <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> WS B WS B WS A Integration Identifizierung Fusion Optimierung Visualisierung
Überblick 50 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester
Integrierte Informationssysteme 51 Anfrage Design time Run time Architekturen Anfragesprachen Integriertes Informationssystem Anfrageplanung Optimierung Schemamanagement Anfrageausführung Wrapper Datenfusion / ETL Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system
Zeitplan 52 Introduction (1) Architectures (2) Schema mapping (2) Global-as-view modeling and query processing (1) Lokal-as-view modeling and query processing (3) Duplicate detection (2) Data fusion (1) Data warehouses and ETL (1)
Was fehlt? 53 4 SWS Distribution, autonomy, and heterogeneity Materialized and virtual integration SchemaSQL Data Lineage Information Quality 6 SWS Distributed query processing and optimization Top-N queries Peer data management Hidden Web Semantic Web Data Streams Research projects