Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de
Agenda n Ziele des Living Lab Big Data n Living Lab Big Data Architektur n Living Lab Big Data Anwendungen n Ausblick
Ausgangslage n Viele Anwenderunternehmen sind in der Orientierungsphase n Vorstellungen von Big Data in Unternehmen oft diffus, sowohl zu n Einsatzmöglichkeiten als auch zu n vorhandenen Techniken n Ergebnisse Befragung und Zukunftsworkshops: n Hoher Bedarf an Best Practices, Training, Schulung (95% der Befragten) n Infrastruktur und Datenmanagement sind für sich genommen zu abstrakt, Lösungspotentiale zu bewerten
Im Kontext von Big Data sind bereits viele Open-Source Projekte verfügbar (eine Auswahl)
Big Data Anwendungen setzen auf eine Kombination von Tools aus verschiedenen Technologiekategorien
NoSQL Datenbanken Verteilte nichtrelationale und schemafreie Datenbanken Key/Value Graph BigTable/Columnar Document
Im Kontext von Big Data sind bereits viele Anbieter am Markt (eine Auswahl)
Barrieren n Die Auswahl der richtigen Technologie ist eine Herausforderung n keine Standardisierung n unterschiedlicher Entwicklungsstand n unzureichende Dokumentation n uneinheitliche Terminologie, n Kaum Vergleichsmöglichkeiten, Benchmarks n Kaum Personal mit Erfahrung vorhanden n Anbieter reagieren mit Out of the Box -Lösungen (z.b. Appliance) n Hohe Kosten als Einstiegshürde
Ziele des Living Labs n Lern- und Experimentierumgebung für Unternehmen n Technik anfassbar machen, Einstiegshürden herabsetzen n Teil eines Schulungskonzeptes Data Science n Präsentation von Big-Data-Problemlösungen am Beispiel einer durchgängigen Anwendung des gesamten Technologie-Stacks n Verschiedene öffentlich verfügbare Big-Data-Datenbestände werden eingespielt und stehen zum Testen zur Verfügung. n Analyseverfahren für Big Data, die im Rahmen des THESEUS-Programms zum Thema Smart Semantics (Quote und Eat&Drink) entwickelt wurden n Hardwareinfrastruktur steht nicht im Fokus n Vorwettbewerblich, herstellerneutral, erweiterbar
Agenda n Ziele des Living Lab Big Data n Living Lab Big Data Architektur n Living Lab Big Data Anwendungen n Ausblick
Design Living Lab n Nicht eine einzelne Technologie (z.b. Hadoop, NoSQL), sondern eine Big Data Architektur, die flexibel genug ist, n verschiedenste Einsatzzwecke in verschiedensten Branchen abzudecken n es in den einzelnen Komponenten erlaubt, Technologien gegeneinander auszutauschen und z.b. auch eine individuelle Entscheidung zwischen OpenSource und kommerziellen Angeboten zu treffen n Erst wenn man in Architekturen denkt, erschließen sich Stärken und Schwächen existierender Technologien
«Lambda Architecture» Quelle: Nathan Marz. Big Data: Principles and Best Practices of Scalable Realtime Data Systems. 2013
Living Lab - Architektur Serving Layer
Agenda n Ziele des Living Lab Big Data n Living Lab Big Data Architektur n Living Lab Big Data Anwendungen n Ausblick
Big Data Experimentierplattform Technologie zum Anfassen im Rahmen des Schulungsmoduls Data Scientist Big Data Batch-Anwendung Analyse von Kundenfeedback Realtime-Anwendung Big Data Themenmonitor 6 Milliarden Webseiten (Q1/2012) ~ 20TB nur Text Ausgewählte Technologien Anwendungsfälle Big Data Datensatz
Anwendungsfall: Monitoring von Themen
Batch Layer - Zyklus von Stunden oder Tagen Hadoop HDFS Map Reduce - Cascading Smart Semantic Components mime-type detection mime-type filter text + title extraction hash duplicate detection { "name" : "Leibniz Rechenzentrum", "kind" : "F +E", "language" : "de,en", "url" : "http://www.lrz.de/", "lat" : 39.145271, "lon" : -75.418762, "keywords" : [ { "key" : "Big Data", "count" : 2 }, { "key" : "Hadoop", "count" : 2 } ], "time" : "2012-12-07T11:57+0100" }.. Voldemort language detection lang. filter ('de','en') keyword extraction geo-location
Speed Layer Streaming Storm Bolt Sequence Smart Semantic Components mime-type detection mime-type filter text + title extraction language detection Lang. filter ('de', 'en') keyword extraction geo-location { "name" : "Fraunhofer IAIS", "language" : "de,en", "url" : "http://www.iais.fraunhofer.de/", "lat" : 50.74899, "lon" 7.20575, "keywords" : [ {"key" : "MapReduce", "count" : 7 }, {"key" : "Big Data", "count" : 64}, {"key" : "Hadoop", "count" : 6 } ], "time" : "2012-12-07T11:57+0100", "kind" : "F+E" } ------------------------------------..,{ "url" : "http://www.iais.fraunhofer.de/ sitemap.html", "keywords" : [ "Big Data" ], "institutionurl" : "www.iais.fraunhofer.de", "title" : "Sitemap", "lang" : "de" }, { "url" : "http://www.iais.fraunhofer.de/ 4858.html", "keywords" : [ "MapReduce", "Big Data" ], "institutionurl" : "www.iais.fraunhofer.de", "title" : "Integrated Data Mining", "lang" : "de },
Anwendungsfall: Kundenfeedbackanalyse App Eat&Drink
Living Lab Use Case 2 Workflow
Living Lab Technologiealternativen Oracle Exadata
Living Lab Technologiealternativen ParStream
Living Lab Technologiealternativen Teradata Aster
Living Lab Technologiealternativen DB2 IBM Infosphere Stream
Living Lab Technologiealternativen MapR Filesystem MapR MapReduce
Living Lab Technologiealternativen Cloudera HDFS Cloudera MapReduce
Living Lab Technologiealternativen Apache Drill
Agenda n Ziele des Living Lab Big Data n Living Lab Big Data Architektur n Living Lab Big Data Anwendungen n Ausblick
Wie kann das Living Lab genutzt werden? n Zielgruppe: Data Scientists, Analysten, Entwickler n Teil des Schulungskonzeptes Data Scientist Big Data Management n Schulungsmodul n Individuelle Workshops n Bring your own Data n In-House-Installation möglich
Geplante Data Scientist Schulungen von Fraunhofer IAIS Big Data Management Data Scientist Natural Language Processing (NLP) Data Scientist Big Data Analytics Basics Data Scientist Visual Analytics 2-3 Tage 2 Tage 2 Tage Ab März 2013 Ab Oktober 2012 Ab Februar 2013 2 Tage Ab Februar 2013
Nächste Schritte n Diskussion von Referenzarchitekturen im Arbeitskreis Big Data der BITKOM n Gespräche mit Anbietern n Public-Private-Partnership n Living Lab Big Data@CEBIT 2013
Zusammenfassung n Das Living Lab macht Big Data anfassbar n Ziel: Orientierung, Best Practices, Schulung n Zentrales Architekturkonzept: Lambda Architektur n Basiert auf Open-Source-Komponenten n Durch kommerzielle Komponenten teilweise substituierbar n Erlaubt Exploration von Alternativen n Herstellerunabhängig, vorwettbewerblich