Das Linked Open Data Warehouse Deutsche Oracle Anwendergruppe 2017 CISS TDI GmbH, TU Berlin Nürnberg, Saal Helsinki, 16:00-16:45 Uhr, 21.11.2017 Richard Figura (CISS), Alexander Willner (TUB)
Richard Figura CISS TDI GmbH Richard Figura CISS TDI GmbH (Geo-)datenverarbeitung & -vertrieb Business Development, Leiter Forschung richard.figura@ciss.de Universität Duisburg Essen Networked Embedded Systems (NES) External Senior Researcher richard.figura@uni-due.de linkedin.com/in/richard-figura @figura_richard https://ciss.de /company/ciss-tdi-gmbh xing.to/figura https://nes.uni-due.de /companies/cisstdigmbh @ciss_tdi 2
Dr. Alexander Willner Industrial Internet of Things TU Berlin Dr.-Ing. Alexander Willner Technische Universität Berlin Next Generation Networks (AV) Leiter der Industrial Internet of Things Forschungsgruppe alexander.willner@tu-berlin.de Fraunhofer FOKUS Software-based Networks (NGNI) Leiter des Industrial Internet of Things Zentrums alexander.willner@fokus.fraunhofer.de linkedin.com/in/willner @AlexWillner http://iiot-center.org http://xing.to/willner http://openiotfog.org 3
Motivation
Der direkte und indirekte Nutzen offener Daten wird alleine in Europa auf bis zu 900 Milliarden Euro pro Jahr geschätzt.* *McKinsey: Open data: Unlocking innovation and performance with liquid information (2013) 5
Offene Daten sind die Basis neuer Geschäftsideen, erzeugen wirtschaftliches Wachstum und fördern Innovationen in Wirtschaft, Verwaltung und Zivilgesellschaft.* *http://datenwirken.de 6
Geoinformationen stellen einen Rohstoff für Wertschöpfung in allen Wirtschaftsbereichen dar und stehen am Anfang der Wertschöpfungskette.* *Basierend auf MICUS Management Consulting GmbH 7
Das Geld liegt scheinbar auf der Straße Wie lässt sich das Potential von (Open) Data erreichen? 8
Verwendung (offener) Daten in Unternehmensprozessen?? Daten Unternehmensprozesse 9
1. Open Data Herausforderungen Die Daten werden nicht gefunden 10
2. Open Data Herausforderungen Daten müssen verlässlich sein 11
3. Open Data Herausforderungen Die Daten müssen zur Systemlandschaft passen? Daten Nutzeranforderung 12
4. Open Data Herausforderung Wissen Zusammenhänge von Informationen (Vernetzung) Informationen Bedeutung der Daten Daten Interpretation der Zeichen Zeichen Wissensmanagement im Unternehmen, Rehäuser, Jakob; Krcmar, Helmut, 1996 13
4. Open Data Herausforderung: Metainformationen Daten!= Information Flügel 14
4. Open Data Herausforderung: Silos Information!= Wissen (Relationen/Duplikate/Veraltete Daten/ ) 15
Open Data Herausforderungen Klima & Wetter Infrastruktur Luftfahrt Wasserstraßen/ Gewässer Bahn Straßen Bereitstellung von unterschiedlichen Quellen Nutzer muss sich selbst kümmern, um: Datensuche Datenbeschaffung Konvertierung/Vorverarbeitung Verknüpfung 16
Verwendung (offener) Daten in Unternehmensprozessen Bereitstellung Daten 17
Verwendung (offener) Daten in Unternehmensprozessen Bereitstellung Qualitätssicherung Daten 18
Verwendung (offener) Daten in Unternehmensprozessen Bereitstellung Qualitätssicherung Integration Daten 19
Verwendung (offener) Daten in Unternehmensprozessen Integration Bereitstellung Qualitätssicherung Vor- Verarbeitung Daten 20
Verwendung (offener) Daten in Unternehmensprozessen Integration Bereitstellung Qualitätssicherung Vor- Verarbeitung Daten Unternehmensprozesse 21
Lösungsansätze
Derzeitige Lösungsansätze Data Warehouses Das Semantische Web?? 23
Data Warehouse als Lösung für eine heterogene Daten-/Systemlandschaft Extract Transform Load (ETL) Single point of truth Datenintegration Qualitätssicherung Standardisierter Zugriff z.b. durch das Open Geospatial Consortium (OGC) 24
Data Warehouse als Lösung für eine heterogene Daten-/Systemlandschaft Energieversorgunsunternehmen (EVU): Operativ ETL Warehouse Auswertung Leitungsdaten - Smallworld - ALKIS - NAS - Baumaßnahmen Aufbruchsperren - Shape - Direktzugriff Weitere Geodaten aus dem Netz Wasserschutzgebiete - Shape - CITRA Web- Konverter Abgabe von Daten / Shop Höhendaten - Shape - DXF, Shape, 3-D Daten - CityGML - Rasterdaten INSPIRE PDF-Ausdrucke 25
Derzeitige Lösungsansätze Data Warehouses (OGC-)Standard konform Integriert Daten unterschiedlicher Quellen an zentraler Stelle Erlaubt weitere Verarbeitung (Konvertierung/Qualitätssicherung) Das Semantische Web? 26
Das Semantische Web als Lösung für Föderierte Informationssysteme * Daten sind im Web verfügbar 27
Das Semantische Web als Lösung für Föderierte Informationssysteme * Daten sind im Web verfügbar ** Daten sind Maschinenlesbar 28
Das Semantische Web als Lösung für Föderierte Informationssysteme * Daten sind im Web verfügbar ** Daten sind Maschinenlesbar *** Daten in offenen Formaten 29
Das Semantische Web als Lösung für Föderierte Informationssysteme * Daten sind im Web verfügbar ** Daten sind Maschinenlesbar *** Daten in offenen Formaten **** Daten folgen dem RDF Standard 30
Das Semantische Web als Lösung für Föderierte Informationssysteme * Daten sind im Web verfügbar ** Daten sind Maschinenlesbar *** Daten in offenen Formaten **** Daten folgen dem RDF Standard ***** Daten in offenen Formaten 31
Das Semantische Web als Lösung für Föderierte Informationssysteme 32
Cytoscape Screenshots
Das Semantische Web, ein Netz aus Informationen RDF triple Subjekt: Instanz (URI) Prädikat: Link (URI) Objekt: Attribut/Instanz (URI) Beispiel: Rc:cygri hat den Namen Richard Cyganiak Rc:cygri lebt in dbpedia:berlin Dbpedia:Berlin hat 3.405.259 Einwohner 34
SPARQL (SPARQL Protocol And RDF Query Language) Informations -Domäne SPARQL-Anfrage SPARQL-Antwort Informations -Domäne SPARQLendpoint Informations -Domäne 35
SPARQL (SPARQL Protocol And RDF Query Language) Protocol: Definiert HTTP Operationen (Query und Update) Query: Anfragen an einen SPARQL endpoint Finde alle Städte in Deutschland mit mehr als 100.000 Einwohnern und zeige ihr Wappen Zeige alle Städte in Deutschland, die auf den Namen dorf enden und mehr als 100.000 Einwohner haben Zeige alle POIs zu gegebener Koordinate (Schule/Universität/Kindergarten/ ) Zeige die in Wikipedia beliebtesten Plätze Update: Aktualisieren des RDF Graphen in einem Graph Store 36
Derzeitige Lösungsansätze Data Warehouses (OGC-)Standard konform Integriert Daten unterschiedlicher Quellen an zentraler Stelle Erlaubt weitere Verarbeitung (Konvertierung/Qualitätssicherung) Das Semantische Web W3C-Standard konform Erlaubt den Zugriff auf verteilte Informationen (originäre Quelle) Skalierbar, bietet eigene Werkzeuge zur weiteren Verarbeitung 37
Derzeitige Lösungsansätze Data Warehouses (OGC-)Standard konform Integriert Daten unterschiedlicher Quellen an zentraler Stelle Erlaubt weitere Verarbeitung (Konvertierung/Qualitätssicherung) Das Semantische Web W3C-Standard konform Erlaubt den Zugriff auf verteilte Informationen (originäre Quelle) Skalierbar, bietet eigene Werkzeuge zur weiteren Verarbeitung +? 38
Eigener Ansatz: Das Linked Open Data Warehouse
Graph als Bestandteil von Oracle Spatial and Graph Spatial Geodatenmanagement Vektordaten Rasterdaten Topologien Geodienste Graph RDF Graph Unterstützung SPARQL Unterstützung (Jena Anbindung) Inferencing Graph bezogene Filter und Analysen (über 30 Algorithmen für Graphenanalyse) 40
Das Data Warehouse als OGC-W3C Schnittstelle Lokale Ressourcen/klassische Dienste 41
Das Data Warehouse als OGC-W3C Schnittstelle Offene Quellen 42
2 Zielgruppen: Datenlieferant Der Datenlieferant braucht eine Plattform zur Qualitätsgesicherten Bereitstellung seiner Daten: Qualitätsprüfung Vorverarbeitung (+ Metadaten) Bereitstellungswege Geodienste (WFS/WMS) SPARQL-endpoint Export (z.b. CISS-Shop) Datenkonsument Der Datenkonsument braucht eine Plattform zur einfachen Integration bereitgestellter (offener) Daten: Integration in die eigene Datenlandschaft Bezug Qualitätssicherung Konvertierung Weitere Verarbeitung 43
Datenlieferant Verarbeitung Export Dienste Konvertierung CITRA Qualitätssicherung Bereitstellung Semantisches Web Weitere Quellen 44
Datenkonsument Verarbeitung Export Bereitstellung Dienste Qualitätssicherung Direkt- Zugriff Weitere Quellen 45
Qualitätssicherung 46
Qualitätssicherung Attributfehler Eindeutigkeit Wertebereiche Inkonsistenzen Bezeichner: bf_nr Nettobahnsteiglaenge_m 8263 115 8263 115 2616 115 bf_nr == Bf.Nr. Bf. Nr. Station 8263 Ahnatal-Casselbreite 2616 Ahnatal-Heckershausen Geometriefehler Doppelte Digitalisierungspunkte: Defekte Geometrien Unvollständige Topologien: 47
Anwendungsszenarien Ein Versicherer schätzt die Anzahl betroffener Bürger nach einem Sturm: Ein Pharmaunternehmen erfragt die Nebenwirkung von Teilnehmern einer Studie: Für jede Stadt aus DWD:Sturmwarnung:Gestern Summiere Einwohner aus dbpedia:stadt Für jeden Teilnehmer aus Studie:Teilnehmer Für Set aus Medikamente aus Probant:Teilnehmer Liste Nebenwirkung der pharma:medikamten 48
Limbo & Das Linked Open Data Warehouse
Das Linked Open Data Warehouse als Teil des Projektes LIMBO Linked Open Data Warehouse: Qualitätssicherung Konvertierung und Vorverarbeitung Data Warehouse <-> Semantisches Web Limbo zusätzlich: Crawling Question Answering Erstellung geeigneter Vokabulare Kuratierung der Daten Anpassung an unterschiedliche Anwendungsfälle (Mobilität 4.0/Industrie 4.0) Benutzerschnittstellen 50
Das Linked Open Data Warehouse als Teil eines Gesamtkonzeptes Limbo: Linked Data Services for Mobility Fördertopf: mfund / BMVI 9 Partner aus Industrie und Forschung Laufzeit: 3 Jahre Budget: ~ 3 Millionen Startzeitpunkt: vor. 01.06.2017 Thema: Bereitstellung/Verarbeitung von Mobilitätsdaten (wie BMVI, mcloud) als Linked Data Validierungsszenarien: Mobilität 4.0 Industrie 4.0 51
LIMBO, Linked Data Services for Mobility - Partner 52
Die ➌ wichtigsten Punkte zusammengefasst ➊ ➋ ➌ Offene Daten bieten einen Mehrwert für Wirtschaft und Gesellschaft Die Integration Offener Daten erfordert geeignete Werkzeuge Das Linked Open Data Warehouse auf Basis von Oracle Spatial & Graph liefert eine Optimale Voraussetzung
Fragen? Richard Figura Business Development