Innovationslabor Semantische Integration von Webdaten



Ähnliche Dokumente
Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen

Innovationslabor Semantische Integration von Webdaten

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Von ODBC zu OLE DB. Neue Möglichkeiten der Datenintegration. Harald Gladytz, Team Vertrieb ESRI Niederlassung Leipzig

Agenda. Ziel Problematik OS-Installation Softwareverteilung Inventarisierung Stufenplan

Web Data Management Systeme

Corporate Smart Process Content. Wissensmanagement mittels Prozesskontext

Model Driven Architecture (MDA)

Herausforderungen des Enterprise Endpoint Managements

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

TELEMETRIE EINER ANWENDUNG

Microsoft Office SharePoint Server 2007 Überblick. Gernot Kühn Partner Technical Specialist Microsoft Deutschland Gmbh

Verbinden von Workflows und fachlichen Prozessmodellen im Rahmen eines SharePoint Prozessportals Semtation GmbH (Henrik Strauß)

Integration verteilter Datenquellen in GIS-Datenbanken

Weiterentwicklung digitaler Bibliothekssysteme zu OpenArchives-Systemen

Neuerungen im Service Pack 2

Herstellung eines SIP Einsatz Package Handler

Evaluation of Database Design and Reverse Engineering Tools for a Large Software System

Seminar C02 - Praxisvergleich OLAP Tools

Entwurf und Prototypische Implementierung einer Data Mashup Plattform. Abschlussvortrag Projekt-INF

System Center Essentials 2010

IT IS ,- US-$. 50 IT IS

IVS Arbeitsgruppe Softwaretechnik Abschnitt Management komplexer Integrationslösungen

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

30. Juni Technische Universität Kaiserslautern. Paul R. Schilling

MULTICHANNEL IN SOZIALEN NETZWERKEN

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

XML. App. Crossmedia Strategien mit InDesign CSS HTML. E-Books. InDesign. Daten Web. Konvention DPS. Formate

Mobile Analytics mit Oracle BI

ETL in den Zeiten von Big Data

HANDBUCH LSM GRUNDLAGEN LSM

20. DOAG-Konferenz. Flexible Berichtsgestaltung für die Oracle E-Business Suite mit dem Oracle BI Publisher

Predictive Modeling Markup Language. Thomas Morandell

Virtual Roundtable: Business Intelligence - Trends

Bibliothekssysteme / Verbundsysteme / Netze

Von BI zu Analytik. bessere Entscheidungen basiert auf Fakten. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Einladung Customize Kundenevent 2014

Einsatz vom deegree WPS in einer WebService Anwendung - am Beispiel vom Flex-I-Geo-Web Projekt - einem interaktiven Software-Baukasten für Geodaten

Themen. Web Services und SOA. Stefan Szalowski Daten- und Online-Kommunikation Web Services

Automatisierte GUI Tests in fachlichen Teststufen Patrick Möller

Best Practice: Integration von RedDot mit Livelink DM im Intranet/Extranet

SAP NetWeaver Gateway. 2013

Datenbank-basierte Webserver

Enterprise Applikation Integration und Service-orientierte Architekturen. 09 Simple Object Access Protocol (SOAP)

SHARE_Personas Stimulierungsprojekt FFG Programm Benefit 5. Aussschreibung. Bernhard Wöckl Mai 2010

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Semantische Modellintegration

Anforderungen an die HIS

JEAF Cloud Plattform Der Workspace aus der Cloud

Better Backlinking Semantische Kategorisierung von Websites

5. Programmierschnittstellen für XML

Eine Referenzarchitektur für semantische Interoperabilität und ihre praktische Anwendung

SemTalk Services Stand: Februar 2015

Migration von Subversion nach Mercurial und Einsatz dezentraler Versionskontrolle in Unternehmen

HMS. Statistiken mit SAS ins Internet. HMS Analytical Software GmbH - Johannes Lang

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

BI Publisher Beleggestaltung ganz einfach. Matthias Bergmann Senior Development Berater

ONET: FT-NIR-Netzwerke mit zentraler Administration & Datenspeicherung. ONET Server

Java Enterprise Architekturen Willkommen in der Realität

Digitale Analyse: Erfolgsmessung in digitalen Medien

Microsoft Office Sharepoint 2010

Die technischen Aspekte von Mapping-Lösungen

Prozessunterstützung durch BPR-, BPM- und Workflow-Systeme

SAP SharePoint Integration. e1 Business Solutions GmbH

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

MATLAB-Automatisierung von Dymola- Simulationen und Ergebnisauswertung Holger Dittus. Modelica User Group BaWü, Stuttgart,

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Kollaborative Pflege eines Software-Handbuches mit Hilfe eines Enterprise-Wikis. empulse GmbH

OpenSource bei PostFinance Einsatz in der Software Entwicklung. informativ

Integration lokaler Daten in ifuice

5. Programmierschnittstellen für XML

Die ProntoWeb Assistenten

Workflow Systeme mit der Windows Workflow Foundation

1Ralph Schock RM NEO REPORTING

3 Gründe, warum sie müssen!

Web-basierte Benutzerschnittstellen für Embedded Systeme: Eine Benutzerschnittstelle drei Sichtweisen

Seminar Datenbanksysteme

Windows Terminalserver im PC-Saal

GLASFASERNETZ DATACENTER RHEIN-NECKAR RHEIN-NECKAR-CLOUD MULTIMEDIA. Fixed Line BESCHREIBUNG. carrier ethernet TBFL_PFK_MA_

CIRRUSCELLS. Probleme zu vermeiden?

Mobiles Lernen und Arbeiten mit

Eine semantische Suchmaschine in der Biomedizin

Die perfekte Online-Hilfe auf Basis von HTML5 und Open-Source- Komponenten. Jochen Marczinzik , tekom Führjahrstagung

ArcGIS - Die Geoplattform für die Kommunalverwaltung

PCC Outlook Integration Installationsleitfaden

Was ist Windows Azure? (Stand Juni 2012)

Transkript:

Innovationslabor Semantische Integration von Webdaten Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de/format

Programmablauf Überblicksvortrag Prof. Rahm Feedback / Diskussion Vorstellung der Prototypen Frau Maßmann Dr. Thor Feedback / Diskussion Get-Together (Felix-Klein-Hörsaal)

BMBF: ForMaT Förderprogramm: Forschung für den Markt im Team Im Rahmen von Unternehmen Region (Innovationsinitiative für die Neuen Länder), http://www.unternehmen-region.de Ziel Abstrakt: frühzeitiger Wissens- und Technologietransfer von der öffentlichen Forschung in die Wirtschaft Konkret: Firmenausgründung nach Ende der Förderung Ansätze Analyse der Forschungsuntersuchungen auf Verwertungseignung Förderung der interdisziplinären Zusammenarbeit Förderung in mehreren Runden mit jeweils zwei Phasen Phase 1: Potential-Screening, 6 Monate Phase 2: Weiterentwicklung innerhalb von Innovationslabor, 2 Jahre Stand (Runde 2): Derzeit 27 Initiativen in Phase 1 (ausgewählt aus ca. 100)

Semantische Integration von Webdaten Initiative der Universität Leipzig, Abt. Datenbanken (Prof. Rahm) Aktuell noch in Phase 1, dem Potenzial-Screening Ziel: weitgehende Automatisierung von Datenintegrationsaufgaben mit hoher Datenqualität, insbesondere für Webdaten Schnellere Umsetzung als mit Data-Warehouse-Ansätzen (Offline-Datenaufbereitung ) On-Demand Datengewinnung (fokussierte Suche), Datenabgleich und Analyse Gegenüber einfachen Mashup-Lösungen Anwendbarkeit auf großen Datenmengen und Unterstützung für hohe Datenqualität Basiert auf eigenen Forschungsergebnissen / Prototypen Workflow-basierte Datenintegration mit fokussierter Websuche: ifuice Objekt-Matching, Dublettenbehandlung: MOMA und STEM Schema und Ontologie-Matching: COMA und COMA++

Semantische Integration von Webdaten Datenquellen Anwendungen Steigerung der Datenqualität - Dublettenbehandlung - Anreicherung der eigenen Daten mit Webdaten Spezialisierte Suchmaschinen workflowbasierte Datenintegration Portale Internet Online-Shops Business-Intelligence Analysen - z.b. mit aktuellen Bewertungen der unternehmenseigenen Produkte - mit Daten von Mitbewerbern Webservices Unternehmenseigene Daten

Projektbeteiligte Prof. Dr. E. Rahm Dipl.-Inf. S. Maßmann Dr. A. Thor Prof. Dr. C. Lindemann Dipl.-Inf. C. Hoffmann Prof. Dr. H. Löbler Dipl.-Kfm. R. Müller

Vortragsinhalte Einleitung Derzeitige Ansätze zur Datenintegration Warehousing, EII Mashups Eigene Forschungsarbeiten / Prototypen Schema/Ontologie Matching: COMA++ Objekt-Matching: MOMA, STEM Workflowbasierte Integration: ifuice Feedback / Diskussion

Physische vs. virtuelle Datenintegration Data Warehousing, ETL (physische Datenintegration) Enterprise Information Integration, EII (virtuelle Integration, Query Mediatoren) Analysis Tools Client 1 Client k Data Marts Meta data Data Warehouse Query-Mediator Meta data Import (ETL) Wrapper 1 Wrapper m Wrapper n Source 1 Source m Source n Source 1 Source m Source n

Probleme ETL / EII Hoher Realisierungsaufwand, lange Vorlaufzeiten Einheitliche Sicht auf heterogene und verteilte Datenbestände Aufwändige Erstellung und Wartung - für gemeinsames Schema sowie - für Mappings zu Quell-Schemas Unzureichende Unterstützung für Webdaten Beschränkte Zugänglichkeit über Suchformulare bzw. Suchmaschinen Größere Heterogenität der Daten Geringe Datenqualität

Mashups Datenintegration Mashup = interaktive Web-Applikation zu Kombination von Daten mehrerer Online-Datenquellen im Rahmen eines neuen Dienstes www.goyellow.de

Mashup-Tools Basieren oft auf RSS-Feed Angepasst auf einige konkrete Datenquellen mit meist geringen Datenmengen Schnell zu erstellen Einfache Operationen mit Daten möglich z.b. Filtern, Sortieren, Teilen Z.B. Yahoo-Pipes (pipes.yahoo.com)

Mashups: Merkmale und Probleme Schnelle Entwicklung einfacher Workflows zum Teil Erstellung über GUI; z.b. Yahoo Pipes Nutzung von Web-APIs / Web Services Einfache Datenintegration z.b. über geographische Koordinaten Kombination von Suchergebnissen zu Keyword Einschränkungen Einfache Anfragen (keine Transformation für unterschiedliche Quellen) Einfache Ergebnisnachbearbeitung (Merge statt Match) Unzureichende Vollständigkeit / Genauigkeit Geringe Datenqualität (Dubletten) Unternehmenstauglichkeit

Vortragsinhalte Einleitung Derzeitige Ansätze zur Datenintegration Warehousing, EII Mashups Eigene Forschungsarbeiten / Prototypen Schema/Ontologie Matching: COMA++ Objekt-Matching: MOMA, STEM Workflowbasierte Integration: ifuice Feedback / Diskussion

Schema / Ontologie-Matching Finden semantischer Korrespondenzen zwischen 2 Schemas bzw. Ontologien DB-Schemas, XML-Schemas Inhaltskategorisierungen, Produktkataloge, Suchformulare, Input: 2 Schemas (Ontologien) S 1 and S 2 Evtl. Dateninstanzen zu S 1 und S 2 Hintergrundwissen Output: Mapping zwischen S 1 und S 2 Kritischer Schritt in zahlreichen Applikationen Datenintegration: Mappings zwischen Datenquellen bzw. zwischen Datenquelle und globalem Schema E-Business: XML-Datentransformation Katalogintegration, Finden verwandter Inhalte

Match-Beispiel: Produktkataloge Yahoo.de Shopping Elektronik TV & Video DVD-Player Beamer Foto & Camcorder Digitale Photographie Digitalkameras Amazon.de Elektronik & Foto Heimkino & Video DVD-Player Projektoren Kamera & Foto Digitalkameras

Derzeitige Situation Finden der Mappings ist Flaschenhals Weitgehend manuell Aufwändig und fehleranfällig Zunehmende Dringlichkeit Wachsende Nutzung verteilter Daten Starke Zunahme an XML-Daten und -Schemas Zunahme an Ontologien / semantischen Kategorisierungen Skalierbarkeit erfordert semi-automatische Tools Vollautomatische Lösungen aufgrund semantischer Heterogenität nicht perfekt Namensproblematik (Synonyme, Homonyme) begrenzte Mächtigkeit von Metadaten / Schemasprachen

Generische Match-Plattform Unterstützt relationale und XML-Schemas, OWL-Ontologien Flexible Kombination mehrerer Match-Algorithmen Match-Strategien für große Schemas Wiederverwendung vorhandener Match-Ergebnisse Graphical User Interface Matching Engine (Fragment-based) Resolution Library Matcher Library Combination Library External Schemas, Ontologies Model Pool Mapping Pool Exported Mappings Model Manipulation Mapping Manipulation SOURCE Source Id 1 Name Structure Content 1 1 n n SOURCE_ REL Source Rel Id Source1 Id 1 Source2 Id Type OBJECT Object Id n Source Id Accession Text Number 1 1 n n OBJECT_ REL Object Rel Id n Source Rel Id Object1 Id Object2 Id Evidence Repository

Instanz-basiertes Ontologie-Matching A m a z o n S o f t u n i t y by Brands by Category Software Microsoft Novell Books DVD Software Languages Utilities & Tools Traveling Kids & Home Business & Productivity Operating System Burning Software Operating System Handheld Software Windows Linux Id =158298302X EAN = "662644467122" Title = "SuSE Linux 10.1 (DVD)" Price = 49.99 Ranking = 180 Id = B0002423YK EAN = 0805529832282 Title = "Windows XP Home Edition incl. SP2" Price = 191.91 Ranking = 47 Id = ECD435127K EAN = 0662644467122 ProductName = "SuSE Linux 10.1" DateOfIssue = 02.06.2006 Price = Id 59.95 = ECD851350K EAN = 0805529832282 ProductName = "WindowsXP Home" DateOfIssue = 15.10.2004 Price = 238.90

Objekt-Matching-Problem Identifikation semantisch äquivalenter Objekte - innerhalb einer Datenquelle oder zwischen verschiedenen Quellen - um Objekte zu integrieren/mischen, zu vergleichen, Dubletten zu eliminieren, etc. KID Name Strasse Stadt Frau 11 Kristen Schmid Hanse Pl 2 Berlin 1 24 Christian Schmied Hanse Str 2 Berlin 0 Quelle1: Kontakt Quelle2: Kunde Knr Nachname Vorname Geschl Adresse Telefon 11 Schmid Chris M Hansestr. 2, 18182 Bentwich 493 Schmid Kris L. W Hansa-Platz 2, 10557 Berlin 030-9627621

Objekt-Matching-Problem für Webdaten Viele heterogene Dubletten unterschiedliche Namen nur teilstrukturiert unterschiedliche Formate heterogene Inhalte...

Informationsfusion

Prototypen zum Objekt-Matching Aufgabe: Erkennung äquivalenter Objekte (Dubletten) in Eingabedaten Ergebnis: Mapping mit Korrespondenzen MOMA = Mapping based Object Matching STEM = Self-Tuning Entity Matching Kombinierte Verwendung mehrerer Match-Algorithmen String-Vergleich zwischen Attributwerten Auswertung von Nachbarschaftsbeziehungen LDS A LDS A Sim a 1 a 1 1 a 2 a 1 0.9 a 3 a 3 0.8 STEM: Nutzung von Machine Learning-Verfahren zur automatischen Parameteroptimierung (z.b. Schwellwerte für Attributähnlichkeiten)

STEM Architektur Anwendung S A Blocking Korrespondenzen S B Match-Kandidaten Strategie- Anwendung Blocking-Bibliothek (Sorted Neighborhood, Bigram indexing ) Strategie- Repository Spezifikation Similarity Matrix Trainings auswahl Objektpaare Matcher- Anwendung Strategie- Berechnung Match- Strategie Labeling Training data Selektionsmethoden Matcher -Bibliothek Learner -Bibliothek (SVM, Decision Tree, )

Workflow-artige Datenintegration mit ifuice ifuice-framework: Erweiterung des Mashup- Ansatzes zur schnellen Realisierung von Datenintegrationsaufgaben Weitgehende Nutzung existierender Services, bereits integrierter Datensammlungen bzw. Portale Programmierung von Workflows durch Skript- Programme mit mächtigen mengenorientierten Operatoren (Anfragen, Matching, Mapping- Traversierung, Mengenverarbeitung etc.) Iterative Verbesserung von Suchanfragen zur Ergebnisverbesserung (Vollständigkeit, Genauigkeit)

Beispiel-Workflows Generierung intelligenter Anfragen an Suchmaschinen / Datenanbieter Datenextraktion und -transformation Dublettenerkennung (Objekt-Matching) Business- Intelligence Analyse Liste von Produkten Generierung von Webservice- Aufrufen Repository Anwendungsbeispiele: Suche nach Zusatzinformationen (z.b. Nutzerbewertungen) in verschiedenen Quellen zu bestimmten Produkten Dynamische Preis/Verfügbarkeitsanalyse z.b. im Rahmen einer Metasuchmaschine (Hotels, Autos, etc.) auf Basis einer zuvor erstellten Präferenzliste Kopplung mehrerer Metasuchmaschinen: Flug, Hotel, Leihwagen Interaktive Recherche nach lokalen Anbietern bzw. Lieferanten bestimmter Dienstleistungen / Produkte

ifuice-architektur Mashup Interface Mashup Definition Mashup Execution Query / Match Cache Web GUI Mashup scripts Query Web Service Transformers Fuse, Match, Aggregate,... Union, Intersect,... Reusing mashups within other mashups Wrapper (Screen scraping) Wrapper (Desktop search) Wrapper (ODBC)... Wrapper Website Local file Database Web Service

Vortragsinhalte Einleitung Derzeitige Ansätze zur Datenintegration Warehousing, EII Mashups Eigene Forschungsarbeiten / Prototypen Schema/Ontologie Matching: COMA++ Objekt-Matching: MOMA, STEM Workflowbasierte Integration: ifuice Feedback / Diskussion

Innovationslabor an Univ. Leipzig angesiedelt Erprobung / Weiterentwicklung der Techniken für Praxis/Unternehmenseinsatz Workflow-basierte Datenintegration Objekt-Matching / Dublettenbehandlung Schema/Ontologie-Matching Kopplung mit verfügbaren Werkzeugen, z.b. von Datenbank/BI-Anbietern bzw. Open-Source- Lösungen Vorbereitung eventueller Ausgründungen

Feedback / Diskussion Wie beurteilen Sie die vorgestellten Verfahren (Stärken, Schwachstellen, Erweiterungsbedarf)? Sehen Sie Anwendungsmöglichkeiten für die vorgestellten Verfahren? zur Lösung konkreter Integrationsaufgaben zur Kombination mit eigenen Entwicklungen/Produktangeboten Wie schätzen Sie die Marktrelevanz der Lösungsansätze ein? Welche Kooperationsformen mit dem Innovationslabor können Sie sich vorstellen, z.b. gemeinsam betreute studentische Arbeiten gemeinsame Projekte, z.b. zur Pilotanwendung der Werkzeuge Beratung zu Datenintegrationsthemen