Hadoop Forum OOP München 2016 Realitätscheck Hadoop Timm Grosser, Leiter Beratung BI und Datenmanagement München, 02. Februar 2016
02.02.2016 BARC 2016 2
BARC: Expertise für datengetriebene Unternehmen 02.02.2016 BARC 2016 3
BARC-Survey Hadoop als Wegbereiter für Analytics 02.02.2016 BARC 2016 4
What is Hadoop? Hadoop is an open-source software framework for storing data and running applications on clusters of commodity hardware. It provides massive storage for any kind of data, enormous processing power and the ability to handle virtually limitless concurrent tasks or jobs. Open-source software Open-source software is created and maintained by a network of developers from around the globe. It's free to download, use and contribute to, though more and more commercial versions of Hadoop are becoming available. Framework In this case, it means that everything you need to develop and run software applications is provided programs, connections, etc. Massive storage The Hadoop framework breaks big data into blocks, which are stored on clusters of commodity hardware. Processing power Hadoop concurrently processes large amounts of data using multiple low-cost computers for fast results. 02.02.2016 BARC 2016 5
Zookeeper, Ambari, Avro, Falcon, Knox, Ranger Data- & system management Hbase Accumulo Apache Hadoop-Ökosystem Oozie HIVE/ PIG Mahout HCatal Spark Storm SolR og YARN (MapReduce 2.0) Data processing framework HDFS Data storage framework Sqoop Flume Kafka Many further Hadoop projects in incubation status overview https://incubator.apache.org/ 02.02.2016 BARC 2016 6
Warum ist Hadoop so interessant? Große Datenvolumina einfacher verwalten 68% Semi-/unstrukturierte Datenquellen nutzbar machen 61% Flexibilität in der Datenanalyse vergrößern Analytische Funktionalität erweitern Skalierfähigkeit der analytischen Infrastruktur erhöhen Kosteneffizienz der analytischen Infrastruktur erhöhen Schnellere Bereitstellung von Rohdaten zur Datenanalyse 44% 42% 41% 37% 37% Bessere Unterstützung für Real-Time-Analysen Schnellere/flexiblere Bereitstellung von Umgebungen für explorative Analysen 02.02.2016 BARC 2016 7 22% 32% Welche aktuellen Probleme möchten Sie mit Ihrer Hadoop-Initiative adressieren/können Sie sich vorstellen mit einer Hadoop-Initiative zu adressieren? Quelle: BARC Survey Hadoop 2015, n=171
Top 5 Erkenntnisse aus der Marktumfrage zu Hadoop 1. Der Einsatz von Hadoop wird vorwiegend von der IT für vorwiegend technische Aufgabenstellungen diskutiert 02.02.2016 BARC 2016 8
Der Einsatz von Hadoop wird nach wie vor vorwiegend von der IT, IT-Abteilung 54% BI-Organisation 42% Fachbereich 26% Management 25% Wer sind die wichtigsten Vordenker/Treiber in Ihrem Unternehmen beim Thema Hadoop? Quelle: BARC Survey Hadoop 2015, n=230 02.02.2016 BARC 2016 9
, für vorwiegend technische Aufgabenstellung diskutiert. Große Datenvolumina einfacher verwalten 68% Semi-/unstrukturierte Datenquellen nutzbar machen 61% Flexibilität in der Datenanalyse vergrößern Analytische Funktionalität erweitern Skalierfähigkeit der analytischen Infrastruktur erhöhen Kosteneffizienz der analytischen Infrastruktur erhöhen Schnellere Bereitstellung von Rohdaten zur Datenanalyse Bessere Unterstützung für Real-Time-Analysen Schnellere/flexiblere Bereitstellung von Umgebungen für explorative Analysen 22% 44% 42% 41% 37% 37% 32% Welche aktuellen Probleme möchten Sie mit Ihrer Hadoop-Initiative adressieren/können Sie sich vorstellen mit einer Hadoop-Initiative zu adressieren? Quelle: BARC Survey Hadoop 2015, n=171 02.02.2016 BARC 2016 10
Und die eigene IT rüstet sich weiter für Hadoop. Weiterbildung bestehenden Personals in der IT 61% Personalaufbau/Schaffung neuer Stellen Erhöhung des Budget für IT-Lösungen Kauf von neuen/zusätzlichen Technologien/Werkzeugen Externe technische Beratung Weiterbildung bestehenden Personals im Fachbereich Schaffung einer eigenen Organisationseinheit Externe fachliche Beratung Keine neuen Investitionen 2% 34% 32% 29% 27% 24% 22% 20% Wohin fließen heute/derzeit überwiegend die Hadoop-Investitionen Ihres Unternehmens? Quelle: BARC Survey Hadoop 2015, n=41 02.02.2016 BARC 2016 11
Top 5 Erkenntnisse aus der Marktumfrage zu Hadoop 1. Der Einsatz von Hadoop wird vorwiegend von der IT für vorwiegend technische Aufgabenstellungen diskutiert 2. Die Bedeutung von Hadoop wächst hin zu einem strategischen Baustein. 02.02.2016 BARC 2016 12
Die Bedeutung von Hadoop wächst hin zu einem strategischen Baustein. Das bestätigt erneut die aktuelle Umfrage zu Hadoop 2015. Heute 13% 33% 38% 18% Zukünftig 43% 43% 15% Sehr wichtig Wichtig Weniger wichtig Überhaupt nicht wichtig Wie wichtig ist Hadoopzur Umsetzung der Datenstrategie/analytischen Ziele? Quelle: BARC Survey Hadoop 2015, n=40 02.02.2016 BARC 2016 13
Chancen und Risiken Chancen Open Source Angebot : niedrige Lizenzkosten, Offenheit, Community-Weiterentwicklung Speicherung und Verarbeitung sehr großer Datenmengen Geringe Kosten in puncto Skalierbarkeit, eingebaute Redundanz/Verteilung, Parallelität Performance bei Batch-Verarbeitung Flexibilität zur Aufnahme polystrukturierter Daten Risiken Enterprise-Reife und Stabilität (bspw. Datenschutz/fehlende Verschlüsselung) Geringe Eignung zur Verarbeitung kleiner Datenmengen mit MapReduce DBMS Integration Verfügbarkeit von Experten Nutzbarkeit von Hadoop Umsetzung von late binding Konzepten: Daten mit unbekannten oder veränderlichen Datenmodellen können integriert werden. Unterstützung von Individualentwicklung 02.02.2016 BARC 2016 14
Welchen Nutzen generieren Sie durch Ihre Hadoop-Initiative/können Sie sich vorstellen durch ihre Hadoop Initiative zu generieren? Analyse von Daten aus heterogenen/verschiedenartigen Datenquellen Erhöhung der Wettbewerbsfähigkeit Kundenverhalten vorhersagen/kundenbindung verbessern Steigerung der Flexibilität im Umgang mit Daten/in der Kosteneffiziente Speicherung/Analyse von mehr/zusätzliche Daten Verbesserung der Reaktionsgeschwindigkeit Monitoring von Maschinen/Geräte/ proaktive Wartung Betrug oder finanzielle Risiken vorhersagen Sentiment/Stimmungs- und Trendanalysen Produkt- und Vertriebserfolg vorhersagen Effizienz operativer Prozesse erhöhen Monitoring/Optimierung von IT-Systemen Erhöhung des Umsatzes Fachlich-inhaltlichen Nutzen derzeit nicht bestimmbar Integration neue Analysen Agilität geringere Kosten 02.02.2016 BARC 2016 15 16% 14% 27% 26% 25% 24% 24% 23% 32% 38% 40% 44% 44% Quelle: BARC Survey Hadoop 2015, n=172 53%
Top 5 Erkenntnisse aus der Marktumfrage zu Hadoop 1. Der Einsatz von Hadoop wird vorwiegend von der IT für vorwiegend technische Aufgabenstellungen diskutiert 2. Die Bedeutung von Hadoop wächst hin zu einem strategischen Baustein. 3. Einsatzszenarien für Hadoop nehmen weiter zu 02.02.2016 BARC 2016 16
Die Einsatzszenarien für Hadoop nehmen weiter zu. Ablaufumgebung für fortgeschrittene Analysen/Exploration 24% 25% 40% Exploration Staging/Landing Area für semi-/unstrukturierte Daten Datenaufbereitung/Datenintegration für semi-/unstrukturierte Daten Abfragbarer Speicher/Datenarchiv für semi-/unstrukturierte Daten 20% 20% 19% 37% 32% 30% 35% 35% 42% Integration unstruk. Daten Datenaufbereitung/Datenintegration für strukturierte Daten Staging/Landing Area für strukturierte Daten Abfragbarer Speiche/Datenarchiv für strukturierte DWH- Daten zur Ergänzung des DWH 18% 18% 16% 27% 27% 24% 30% 32% 44% Integration struk. Daten Ablaufumgebung für klassisches BI 15% 12% 32% Unterstützung operationaler Anwendungen 15% 19% 34% Abfragbarer Speicher/Datenarchiv Speiche/Datenarchiv für Content/Dokumente Abfragbarer Speicher/Datenarchiv Speiche/Datenarchiv für strukturierte DWH- Daten als Ersatz für das DWH 02.02.2016 BARC 2016 17 10% 8% 15% Im Einsatz Geplant in 12 Monaten Langfristig geplant Wie nutzen bzw. planen Sie Hadoop zu nutzen? Quelle: BARC Survey Hadoop 2015, n=67 25% 34% 44%
Portal Projektbeispiel Reporting & dashboards CPM Analysis Search & discover Mining & Predictive Data Access Apps on operational systems DWH Mart Mart Mart Sandbox N L S Data Virtualization, Data Integration Services Hadoop Data Virtualization, Data Integration Services app specific storage / engine for exploration Metadata Management Operational BI Classic BI SSBI Explorative BI ERP SCM CRM Business transaction data (structured) External data Sensor data Web log data Machine-generated data (struct.) Social media Documents Human-generated (polystr.) 02.02.2016 BARC 2016 18
Top 5 Erkenntnisse aus der Marktumfrage zu Hadoop 1. Der Einsatz von Hadoop wird vorwiegend von der IT für vorwiegend technische Aufgabenstellungen diskutiert 2. Die Bedeutung von Hadoop wächst hin zu einem strategischen Baustein. 3. Einsatzszenarien für Hadoop nehmen weiter zu 4. Fehlendes Know-How und Unsicherheit verhindern Nutzung von Hadoop Potentialen 02.02.2016 BARC 2016 19
Fehlendes Know-How und Unsicherheit verhindern Nutzung von Hadoop Potentialen, Fehlendes technisches Know-how Fehlendes fachliches Know-how 65% 68% Fehlende überzeugende Einsatzszenarien 43% Fehlende Sponsoren/Unterstützung aus der Führungsebene Kosten für die Implementierung zu hoch Thema zu komplex/schwierig Organisation/Unternehmensprozesse noch nicht reif 34% 32% 31% 30% Kosten für die Schulung/Entwicklung zu hoch 21% Technische Probleme 15% Worin sehen Sie die größten Probleme/Herausforderungen beim Einsatz von Hadoop? Quelle: BARC Survey Hadoop 2015, n=175 02.02.2016 BARC 2016 20
, aber auch das Hadoop Ökosystem zeigt Verbesserungspotential um Hürden zur Nutzung abzubauen. Anwendbarkeit für den Fachbereich Datensicherheit/Datenschutz Wartbarkeit/Verwaltung des Hadoop Frameworks Sicherstellung der Datenqualität Unterstützung von SQL auf Hadoop Notwendigkeit zur Programmierung Softwarewerkzeuge zu unreif Entwicklung hoch-parallel ausführbarer Abläufen zu komplex Performance bei ad-hoc Abfragen Schnittstellen zur Datenbeladung Umsetzung einer fundierten Zugriffssicherheit Investitionsschutz Installation und Releasemanagement Umfang analytischer Funktionen 19% 18% 17% 16% 14% 12% 27% 27% 29% 32% 40% 38% 36% Anwendbarkeit Komplexität Datenschutz 52% Welches sind für Sie die größten Schwächen im Hadoop-Ökosystem bzw. wo sehen Sie das größte Verbesserungspotential? Quelle: BARC Survey Hadoop 2015, n=143 02.02.2016 BARC 2016 21
Zookeeper, Ambari, Avro, Falcon, Knox, Ranger Data- & system management Hbase Accumulo Apache Hadoop-Ökosystem Oozie Nutzerfreundliche PIG Schnittstellen Analytik HIVE/ Maho outof-the-box HCatal Spark Storm ut og Breitere SQL SolR Unterstützung Besseres Dateisystem YARN (MapReduce 2.0) Data processing framework HDFS Bessere Ausnutzung Data storage von Hardware framework Daten- und Systemmanagement Zugriffsbeschleuniger Security Sqoop Flume Zusätzliche Konnektoren Kafka Many further Hadoop projects in incubation status overview https://incubator.apache.org/ 02.02.2016 BARC 2016 22
Welche Angebote gibt es am Markt? ANWENDUNGEN AUF HADOOP DISTRIBUTIONEN lesender/schreibender Apache Hadoop Zugriff auf HDFS Spezialisten (Cloudera, HortonWorks, MapR) Nutzung von Hadoop als Ablaufumgebung Generalisten (IBM, Pivotal) Kapselung von Hadoop in der eigenen Anwendung 02.02.2016 BARC 2016 23
Top 5 Erkenntnisse aus der Marktumfrage zu Hadoop 1. Der Einsatz von Hadoop wird vorwiegend von der IT für vorwiegend technische Aufgabenstellungen diskutiert 2. Die Bedeutung von Hadoop wächst hin zu einem strategischen Baustein. 3. Einsatzszenarien für Hadoop nehmen weiter zu 4. Fehlendes Know-How und Unsicherheit verhindern Nutzung von Hadoop Potentialen 5. Die Voraussetzungen für den Einsatz von Hadoop fehlen vielerorts noch in den Unternehmen. 02.02.2016 BARC 2016 24
Die Voraussetzungen für den Einsatz von Hadoop fehlen vielerorts, Ermittlung eines konkreten Business Case samt ROI 68% Konzeption einer Big-Data-Architektur Integration von Hadoop in die bestehende Systemlandschaft Bewusste Nutzung neuer Datenquellen/-typen Bekenntnis des Managements, sich zu einem datengetriebenen Unternehmen entwickeln zu wollen Bewusste Nutzung fortgeschrittener Analysemöglichkeiten Schaffung einer Unternehmenskultur, die exploratives Arbeit unterstützt 51% 51% 47% 43% 42% 39% Zugriff auf und/oder Ausbildung von Data Scientists Anschaffung ergänzender Softwarewerkzeuge zur Nutzung von Hadoop Zugriff auf und/oder Ausbildung von Programmierern Schaffung organisatorischer Rahmenbedingungen für Projekte explorativer Natur Schaffung von Sandbox-Umgebungen 11% 17% 21% 28% 33% Welche Maßnahmen müssen Ihrer Meinung nach in Ihrem Unternehmen ergriffen werden bzw. was muss sich in Ihrem Unternehmen ändern, um Hadoop nutzenstiftend einsetzen zu können? Quelle: BARC Survey Hadoop 2015, n=171 02.02.2016 BARC 2016 25
oder der Einsatz nicht denkbar. Keine Priorität im Unternehmen/ist nicht relevant 61% Fehlende überzeugende Einsatzszenarien Thema Hadoop im Unternehmen bisher unbekannt Kein Vorteil/Nutzen erkennbar 33% 33% 37% Organisation/Unternehmensprozesse noch nicht reif 24% Fehlendes Budget für Hadoop Fehlende Sponsoren/Unterstützung aus der Zu hohe Kosten im Verhältnis zum Nutzen Sonstige Thema zu komplex/schwierig zu verstehen Technische Probleme 14% 14% 10% 6% 2% 2% Warum ist für Ihr Unternehmen eine Hadoop-Initiative nicht denkbar? Quelle: BARC Survey Hadoop 2015 02.02.2016 BARC 2016 26
Zusammenfassung: Status quo Die Umfrage bestätigt: Hadoop avanciert zum strategischen Baustein in der analytischen Infrastruktur Best-in-class Unternehmen im Bereich Datenmanagement zeichnen sich durch eine erhöhte Nutzung von Hadoop aus (vgl. BARC Marktumfrage Datenmanagement im Wandel 2014) Es ist vermehrt Aufklärung und Wissensvermittlung über Hadoop in DACH- Unternehmen notwendig, um die Potentiale von Hadoop richtig abschätzen zu können. Zudem bedarf es eines Kulturwandels in den Unternehmen für den Umgang mit Daten. 02.02.2016 BARC 2016 27
Handlungsempfehlungen 1. Auf dem Weg zum digitalen Unternehmen sollten Unternehmen frühzeitig anfangen die Potentiale von Hadoop zu erproben. 2. Bauen Sie Know-how Lücken und Unsicherheiten ab und verstehen Sie Hadoop als relevanten Baustein einer modernen analytischen Infrastruktur. 3. Ein Weg, sich relativ risikolos dem Thema Hadoop zu nähern, führt über Cloudbasierte Angebote. 02.02.2016 BARC 2016 28
Gesprächspartner gesucht! BARC plant für 2016 Anwendungsfälle für Hadoop zu identifizieren und zu analysieren, um dem Markt ein reales Bild über Einsatzzweck, Potentiale und Herausforderungen geben zu können. Neben einer geplanten Marktumfrage in 2016, die direkt Erfahrungen von Anwendern abfragt, suchen wir zusätzlich den Austausch mit Hadoop-Anwendern und den relevantesten Softwareanbietern im Raum DACH um über Erfahrungen zu Einsatz, Implementierung und Technologien zu diskutieren. Erst aus der Kombination aus Anwender, Anbieter und Analystensicht resultiert eine belastbare Marktsicht. 02.02.2016 BARC 2016 29
Bleiben Sie in Kontakt! Timm Grosser Leiter Beratung BI und DM CIO Roundtable Analytics & Big Data Tel +49 931-880651-0 tgrosser@barc.de @timmgrosser 02.02.2016 BARC 2016 30