Informationsintegration Einführung. 10.4.2012 Felix Naumann



Ähnliche Dokumente
Informationsintegration Einführung Felix Naumann

Informationsintegration Einführung

Informationsintegration I Einführung

Informationsintegration Beispiel

Datenintegration. Kapitel 1: Einführung. Michael Hartung in Vertretung von Dr. Andreas Thor Wintersemester 2010/11

Datenintegration. Kapitel 1: Einführung. Andreas Thor Sommersemester Inhalt

Datenintegration & Datenherkunft Einführung

XML und Datenbanken. Wintersemester 2003/2004. Vorlesung: Dienstag, 13:15-15:00 Uhr IFW A36. Übung: Dienstag, 15:15-16:00 Uhr IFW A36

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Datenbanken und Informationssysteme

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Datenintegration. Kapitel 0: Organisatorisches. Dr. Anika Groß Sommersemester 2016

BigData Wie wichtig ist die Datenqualität bei der Analyse und Auswertung von großen Daten Praxisbeispiel. Christin Otto

Einführung in die Informatik

Datenbanksysteme II Architektur und Implementierung von Datenbanksystemen

Informationsintegration

Semantic Web Technologies I

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Modultabelle. Masterstudiengänge Wirtschaftsinformatik (90 ECTS-Punkte und 120 ECTS-Punkte) Fakultät Wirtschaftsinformatik und Angewandte Informatik

Beauty is our Business Felix Naumann

Studierende, die diese Vorlesung hören, haben sich auch für folgende Lehrveranstaltungen interessiert:

Informatikgrundlagen (WS 2015/2016)

CERTIFIED FINANCIAL ENGINEER (CFE) EDUCATION IS THE KEY

Data Warehousing 0-1. DBS-Module

Semantische Reputationsinteroperabilität

Überblick über das Institut für Telematik

Einführung in die Informatik II

Einführung in die Informatik

Big Data Projekte richtig managen!

Carl-Christian Kanne. Einführung in Datenbanken p.1/513

Satzung des Fachbereichs Elektrotechnik und Informatik der Fachhochschule Lübeck zur Änderung der Prüfungsordnung und der Studienordnung für

Semantische Infomationsintegration à la carte?

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Sonstiges Wahlfach Wirtschaftsinformatik

Das Komplexe einfach machen

Einführung. Kapitel 1 2 / 508

URL: Modulbeschreibung

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Wissenschaftliches Arbeiten ( )

Peer Data Management mit System P

Informationsintegration

Beyond Information Integration: Content Merging Forschungskolloquium CIS/ISST

Web Data Management Systeme

Vorhersagetechniken für zukünftiges Verhalten von Kunden

Business Intelligence. Bereit für bessere Entscheidungen

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

Workflow, Business Process Management, 4.Teil

Beauty is our Business Felix Naumann

Beauty is our Business Felix Naumann

Einführung in die Literaturrecherche

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

Kommunikation, Information und mobile verteilte Systeme (KIS)

Die Naturwissenschaftlich-Technische Fakultät 6 der Universität des Saarlandes Fachrichtung Informatik

EXASOL Anwendertreffen 2012

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

Überblick. Seminar Beauty is our Business Tipps zur Ausarbeitung Felix Naumann

LOG AND SECURITY INTELLIGENCE PLATFORM

arlanis Software AG SOA Architektonische und technische Grundlagen Andreas Holubek

Seminar Wirtschaftsinformatik II B.Sc.

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057)

Institut für Telematik Universität zu Lübeck. Programmieren. Kapitel 0: Organisatorisches. Wintersemester 2008/2009. Prof. Dr.

11 Inhaltsübersicht. c M. Scholl, 2005/06 Informationssysteme: 11. Inhaltsübersicht 11-1

BIG ANALYTICS AUF DEM WEG ZU EINER DATENSTRATEGIE. make connections share ideas be inspired. Wolfgang Schwab SAS D

Vorstellung Studienprojekt. Policy4TOSCA. Umsetzung eines Policy-Frameworks für sicheres und energieeffizientes Cloud Computing

Spezialisierung Business Intelligence

DBS 1 DBS1. Prof. Dr. E. Rahm. Lehrveranstaltungen zu Datenbanken (WS 09/10) Wintersemester 2009/2010. Universität Leipzig Institut für Informatik

Erste Änderungssatzung zur Prüfungsordnung für den Bachelorstudiengang Wirtschaftsinformatik (Business Information Systems) an der Universität Leipzig

Masterstudiengänge am Institut für Informatik

Algorithmische Methoden zur Netzwerkanalyse Vorlesung für den Bereich Master Informatik

Inhalt. Fragestellungen. ...we make the invisible visible... Analysen und deren Anwendung Erfahrungen

Seminar aus Netzwerke und Sicherheit

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

Modulbeschreibung. The course is principally designed to impart: technical skills 50%, method skills 40%, system skills 10%, social skills 0%.

Integration, Migration und Evolution

DiPP Golden Road zum Open Access

Seminar: Software Engineering verteilter Systeme

CRC 940 related courses (key skills and scientific techniques) from 2012 to 2016

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski

Prüfungsplan Master of Science in Wirtschaftsinformatik

Contents. Interaction Flow / Process Flow. Structure Maps. Reference Zone. Wireframes / Mock-Up

Datenbanksysteme. Gerhard Wohlgenannt. 14. September 2015

Daten haben wir reichlich! The unbelievable Machine Company 1

Erfolgreiche Realisierung von grossen Softwareprojekten

Wie der IBM Supercomputer Watson zum besten Freund von Human Resources werden könnte!

Hans-Joachim Lorenz Teamleiter Software Sales GB LE Süd

Definition Informationssystem


Text-Mining: Einführung

OERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt

Unternehmensprozesse Optimieren Wissen ist Macht Daten und Informationen Professionell Managen

Ökonomik der Agrar und Ernährungswirtschaft in ILIAS

Privacy-preserving Ubiquitous Social Mining via Modular and Compositional Virtual Sensors

Studienverlaufsplan Informatik Master

Transkript:

Informationsintegration Einführung 10.4.2012 Felix Naumann

Integrierte Informationssysteme 2 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Überblick 3 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

Information Systems Team 4 DFG Schufa IBM Christoph Böhm Dr. Saeedeh Momtazi Opinion Mining Katrin Heinrich Data Profiling project GovWILD Matching Service-Oriented Systems Prof. Felix Naumann Data Fusion project DuDe Information Integration Data Scrubbing Information Quality Duplicate Detection project Stratosphere Dependency Detection Web Data Uwe Draisbach Data Cleansing Linked Open Data Arvid Heise Entity Search Data as a Service RDF Data Mining ETL Management project M.ETL Dustin Lange Johannes Lorey Ziawasch Abedjan Tobias Vogel HPI Research School Dr. Gjergji Kasneci Toni Grütze Alexander Albrecht bbf

Other courses in this semester 5 Lectures DBS I Natural Language Processing Data Mining and Probabilistic Reasoning Information Integration Seminars Bachelor: Beauty is our Business Master: Algorithms for Pattern Mining Bachelorprojects A Cloud Platform for On-Demand Access to Open Data CelebDB: Harvesting Celebrity Data

Proseminar 6 Beauty is our Business Wenn wir uns klarmachen, daß der Kampf gegen Chaos, Durcheinander und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: Beauty is our Business. Edsger W. Dijkstra, 1978

SE Algorithms for Pattern Mining 7 2 SWS, implementation, presentation, evaluation report Elaborate algorithms for large scale data analysis Discover co-occurring items and relationships in large transactional data sets TID transaction 1003 beer, diaper, bread 1004 tea, coffee, bread..

VL Data Mining and Probabilistic Reasoning 8 Data Mining every two days we create as much information as we did from the dawn of civilization up until 2003! 5 Exabytes of data Eric Schmidt Analyzing data, finding patterns, detecting outliers Learning predictive models Discovering knowledge Application areas Probabilistic Reasoning Representing and quantifying uncertainty in data Predicting likely outcomes of random variables, occurrence of events Choosing the right model Web mining (e.g. find documents for a given topic) Bioinformatics (e.g. analyze protein-protein interactions) Stock market analysis (e.g. predict value of a given stock asset) Physics (e.g. modeling Brownian motion of particles)

Natural Language Processing 9 What are the main techniques and applications for processing human languages by computers? How search engines can find the most relevant pages for input queries? How a machine translator can translate a text from one language to another? How online shopping sites can summarize opinions about the products? How Watson can answer the Jeopardy questions? In this lecture, we will learn how to make a machine able to understand the human language.

Überblick 10 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

Termine und Leistungserfassung 11 Vorlesung Dienstags 9:15 10:45 Praktikum begleitend Erste Vorlesung 10.4.2012 Letzte Vorlesung 10.7.2012 Feiertag(e) 1.5. Maifeiertag Prüfung Mündlich, 30 Minuten Erste Woche nach Vorlesungszeitraum Voraussetzungen Zur Teilnahme Datenbankkenntnisse (z.b. DBS I) Zur Prüfung Besuch der Vorlesung Aktive Teilnahme an den Praktikumsterminen Bestehen des Praktikums

Feedback 12 Evaluation am Ende des Semesters Fragen bitte jederzeit! In der VL Sprechstunde: Dienstags 15-16 Email: naumann@hpi.uni-potsdam.de Anregungen zur Verbesserung: Z.B. zu Gebrauch der Folien Infos im WWW Jeweils nach der VL oder in der Sprechstunde Oder per Email: naumann@hpi.uni-potsdam.de

Lehrbuch 13 Informationsintegration Ulf Leser und Felix Naumann dpunkt Verlag, 2006 42 Euro n-mal in Bibliothek

Weitere Literatur 14 Themen u.a. aus Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, 1997, ISBN: 3540631763 Principles of Distributed Database Systems M. Tamer Özsu, Patrick Valduriez ISBN: 0136597076 Jeweils Literaturhinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ ACM Digital Library: www.acm.org/dl/ Homepages der Autoren

Übung: Integrationsprojekt 15

Vorstellung Hörer 16 Welches Semester? HPI oder IfI? Erasmus o.ä.? English? Datenbankkenntnisse? Andere relevante Lehrveranstaltungen? Ihre Motivation? Schon mal integriert? DWH?

Überblick 17 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

Integrierte Informationssysteme 18 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

19

20

21

22

23

24

Was ist Informationsintegration? 25 Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge. Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.

Wo herrscht Informationsintegration? 26 Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration) Im engeren Sinne Datenbanken und Informationssysteme Verteilt Autonom Heterogen

27

Amazon Suchformular 28

XMethods 29

StrikeIron 30

Programmable Web 31

Google FusionTables 32

Integrierte Informationssysteme 33 Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Integrierte Suchmaschinen 34 Anfrage Meta-Suchmaschine Intranet Index Thesaurus

Integration = Abstraktion 35 1. Logisches DB-Design abstrahiert von physischem DB-Design Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ 2. Informationsintegration abstrahiert von logischen DB Design Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen Unterschieden (hoffentlich!)

Anwendungsgebiet 1: Business [Halevy04] 36

Anwendungsgebiet 2: Wissenschaft [Halevy04] 37

Anwendungsgebiet 3: Das Web [Halevy04] 38

Informationsintegration: Ein altes Problem 39 Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung,...) Neue Arten von Nutzern (Laien, Manager, Admins,...) Alon Halevy: It s plain hard! [Halevy04]

Warum ist es so schwer? [Halevy04] 40 System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden Data fiefdoms Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen Integrationsarchitektur.

Überblick 41 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

Informationsintegration 42 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 43 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year> </pub> Schema Mapping Schema Integration Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 44 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> Schema Integration Schema Mapping XQuery XQuery <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 45 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 46 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year> </publication> <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 47 Web Service A Web Service B <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 48 Web Service A Web Service B 1sec. 5sec. <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> Integration Identifizierung Fusion Optimierung Visualisierung

Informationsintegration 49 Web Service A Web Service B 1sec. 5sec. <pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Scheth & Larson </Autor> </Autoren> <year> 1990 </year> </pub> <pub> <Titel> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren> <year> 1990 </year> </pub> WS B WS B WS A Integration Identifizierung Fusion Optimierung Visualisierung

Überblick 50 Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am Beispiel Ausblick auf das Semester

Integrierte Informationssysteme 51 Anfrage Design time Run time Architekturen Anfragesprachen Integriertes Informationssystem Anfrageplanung Optimierung Schemamanagement Anfrageausführung Wrapper Datenfusion / ETL Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Zeitplan 52 Introduction (1) Architectures (2) Schema mapping (2) Global-as-view modeling and query processing (1) Lokal-as-view modeling and query processing (3) Duplicate detection (2) Data fusion (1) Data warehouses and ETL (1)

Was fehlt? 53 4 SWS Distribution, autonomy, and heterogeneity Materialized and virtual integration SchemaSQL Data Lineage Information Quality 6 SWS Distributed query processing and optimization Top-N queries Peer data management Hidden Web Semantic Web Data Streams Research projects