Big Data. Mit DVD. Was ist wichtig im Hadoop-Ökosystem? Hadoop 2 als universelle Data Processing Platform

Transkript

1 Mit DVD Jobs im Wandel: Was Big Data für Informatiker bedeutet 2/2015 Auf der Heft-DVD Über 8 GByte Software für Entwickler Multimedia: 5 Videos zur Hoch leistungsdatenbank EXASolution Hadoop: Cloudera s Distribution Including Hadoop (CDH) IDEs: Eclipse, IntelliJ IDEA, Juno Tools, Datenbanken, Sprachen: Enterprise-Search- Engines, Big-Data- Frameworks, NoSQL-/NewSQL- Datenbanken, Programmiersprachen Literatur: MongoDB Der praktische Einstieg (Auszüge), Visual Business Analytics (Auszüge) Mehr als nur MapReduce: Was ist wichtig im Hadoop-Ökosystem? Hadoop 2 als universelle Data Processing Platform Big Data SQL, NoSQL, NewSQL, In-Memory: Zeitgemäße Datenbanktechniken unter der Lupe Enterprise Search mit Apache Solr und Elasticsearch JavaScript, Python, R und Julia: Die wichtigsten Programmiersprachen zur Datenanalyse und Datenvisualisierung Datengetriebene IT-Projekte: Data Science neue Königsdisziplin der Datenerhebung Big Data und Datenschutz

2

3 EDITORIAL Kein Ende der Fahnenstange Der Begriff Big Data ist in den letzten zehn Jahren sicherlich überstrapaziert worden. Begünstigt durch zunehmend billiger werdenden Hauptspeicher und Mechanismen paralleler Programmierung zur schnellen Datenverarbeitung haben sich Analysten, Marketingabteilungen unterschiedlichster Firmen sowie Konferenz- und Schulungsanbieter schnell auf die mit Big Data verbundenen Techniken und Schlagwörter gestürzt. Die Folge war ein klassischer Hype mit all seinen Sonnen- und Schattenseiten. So ist eine stark vom Big-Data-Framework Apache Hadoop und seinem Ökosystem getriebene technische Basis entstanden, die es allerdings erst mal zu monetarisieren gilt. Viele unserer Leser waren zu Recht erst mal skeptisch, selbst noch 2012, als der Branchenverband BITKOM Big Data zum Trend ausrief, und auch noch 2014, als die CeBIT Big Data zum Leitthema kürte. So attraktiv die immer wieder zitierten Anwendungsszenarien und so erschreckend bis faszinierend die Datensammelwut beispielsweise einer NSA sind, fehlte es vielen Unternehmen lange Zeit an der Idee oder Strategie, wie sich aus ihren großen Datenmengen geschäftsrelevante Informationen mit Gewinn ziehen lassen. Das ändert sich nun so langsam, wie ich in Gesprächen auf unser eigenen Big-Data- Konferenz data2day erfahren durfte, die im November letzten Jahres ihre Premiere hatte. So wie insgesamt für das Thema Big Data, was eine Studie des Jobportals Dice.com insofern bestätigt, dass sich unter den Top 10 der bestbezahlten Skills sieben Schlagwörter aus dem Big-Data-Umfeld befinden: Cassandra, MapReduce, Cloudera, HBase, Pig, Flume und Hadoop. (Unter den Top 20 sind es gar 14: Hier kommen Hive, NoSQL, ZooKeeper, Data Architect, Data Scientist, Solr und Big Data hinzu.) Die Nachfrage treibt ganz eindeutig die Honorare in die Höhe. Mag es auf Wirtschafts-, Job- und Projektseite signifikant vorwärtsgehen, ist selbst bei Hadoop womöglich noch lange nicht das Ende der Fahnenstange erreicht. So vermeldete der bei Cloudera angestellte Hadoop-Schöpfer Doug Cutting Mitte März 2015 immer noch eine jährliche Verdopplung der Hadoop-Anwender. Das bedeutet zugleich, dass über die Hälfte der Nutzer Einsteiger in das Thema sind. Für sie mag das Sonderheft den größten Wert haben, aber auch für alle anderen an Big-Data- und NoSQL-Themen Interessierten haben wir Lesenswertes konfektioniert. Wir wünschen Ihnen viel Spaß bei der Lektüre. ALEXANDER NEUMANN Und auch die Artikel in diesem Sonderheft deuten darauf hin, dass Big Data mittlerweile mehr als nur ein skeptisch zu sehender Hype zu zugegebenermaßen reifen Techniken ist. Beispielsweise hat sich mit den Data Scientists eine eigene Berufsgruppe herausgebildet, für nicht wenige die derzeit spannendste in der IT. Für die damit verbundenen Fähigkeiten Klaas Wilhelm Bollhöfer skizziert sie im Heft als Mischung aus klassischem Ingenieursstudium, programmatischen und mathematischen Grundlagen sowie Business- und Design-Denken aus der Internet-Ära sind Experten natürlich nicht so einfach zu finden. ix Developer 2015 Big Data 3

4 INHALT IX DEVELOPER Big Data Big Data ist mittlerweile mehr als nur ein Hype. Die Techniken und Konzepte dahinter sind branchenübergreifend angekommen, und Unternehmen haben begonnen Big Data in ihre Prozesse und Kultur ein - zubinden. ab Seite 7 Hadoop Big Data ohne Apache Hadoop irgendwie nicht vor - stellbar. Und doch ist Big Data weit mehr als nur Hadoop. Schließlich ist ein ganzer Zoo mit das Framework unterstützenden oder mit ihm konkurrierenden Projekten entstanden. Selbst mit dem guten alten SQL lässt sich hier schon einige Zeit arbeiten. ab Seite 29 Big Data Trends Aus Informationshalden wertvolle Erkenntnisse filtern 8 Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch 14 Datengetriebene IT-Projekte im Wandel 16 Recht Big Data und (Datenschutz-)Recht 18 Security Strategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur 24 Hadoop MapReduce/YARN Hadoop 2 als universelle Data Processing Platform 30 Ökosystem Die wichtigsten Projekte der Hadoop-Community 36 Der Hadoop-Markt unter wirtschaftlichen Aspekten 44 Apache Spark Hadoop-Konkurrent mit In-Memory-Technik 46 Hadoop konkret Mapper- und Reducer-Scheduling in Hadoop 50 Geodaten mit Hadoop und Hive verarbeiten 54 NoSQL Überblick Traditionelle und moderne Datenbanktechnik 58 Dokumentenorientierte Datenbanken NoSQL-Datenbank MongoDB 60 Erste Gehversuche mit MongoDB 64 Hochverfügbare, performante und skalierbare Webanwendungen mit Apache Cassandra 70 Graphendatenbanken Was ist an Neo4J und Konsorten besonders? 76 Abfragesprachen für Graphendatenbanken 83 Moderne Datenbanksysteme Konzepte und Anwendungsfälle von In-Memory Computing 89 4 ix Developer 2015 Big Data

5 NoSQL Relationale Datenbanken haben seit geraumer Zeit eine ernstzunehmende Konkurrenz bekommen. Denn die unterschiedlichen NoSQL-Konzepte erfüllen in vielen Fällen die heutigen Anforderungen an Datenbanken viel besser als die arrivierten relationalen Vertreter. Wären da nicht schon wieder andere Trends wie NewSQL & Konsorten ab Seite 57 Analyse und Programmiersprachen Data Science ist das Hype-Thema im Big-Data-Umfeld schlechthin. Wie gut, dass die Data Scientists bei ihrer Analyse schon auf bewährte Patterns, Werkzeuge und Programmiersprachen zur Visualisierung ihrer Daten zurückgreifen können. ab Seite 115 SQL-Entwicklung für Process Mining auf SAP HANA 94 NewSQL-Datenbanken: SQL liebt NoSQL 98 NoSQL-Vergleich MongoDB, Elasticsearch, Riak dreimal das Gleiche? 102 Enterprise Search Wie Apache Solr und Big Data unter einen Hut passen 106 Elasticsearch erfolgreich skalieren 110 Analyse Data Science Neue Königsdisziplin der Datenerhebung und -analyse 116 Entwurfsmuster Analytics Design Patterns 122 Data Visualization Einführung in die Datenvisualisierung 126 Datenvisualisierung mit der JavaScript-Bibliothek D3.js 132 Karl van den Bergh und Michael O Connell von Tibco im Gespräch 138 Programmiersprachen Sprachen zur Datenanalyse Python für Data Science und Big Data 142 R mit großen Daten: Tipps und Tricks für effiziente R-Programme 146 Julia: Neue dynamische und trotzdem performante Programmiersprache 150 Sonstiges Editorial 3 DVD-Inhalt 6 Inserentenverzeichnis 125 Impressum 125 Artikel mit Verweisen ins Web Alle Links: enthalten am Ende einen Hinweis darauf, dass diese Webadressen auf dem Server der ix abrufbar sind. Dazu gibt man den ix-link in der URL-Zeile des Browsers ein. Dann kann man auch die längsten Links bequem mit einem Klick ansteuern. Alternativ steht oben rechts auf der ix-homepage ein Eingabefeld zur Verfügung. ix Developer 2015 Big Data 5

6 SERVICE DVD-INHALT Auf der Heft-DVD Sponsored Content EXASolution Die Hochleistungsdatenbank EXASolution hält ihre Daten spaltenorientiert verteilt über die Knoten eines Clusters im Hauptspeicher und soll sich dadurch vor allem für schnelle Auswertungen in Data Warehouses eignen. Sie entstand aus Forschungsprojekten der Universitäten Jena und Erlangen und führt mehrere TPC-H- Benchmarks für Data Warehouses unterschiedlicher Datengröße an. Auf der DVD gibt es das technische Whitepaper A Peek under the Hood zu EXASolution sowie die folgenden Videos: Integration von Geodaten ermöglicht räumliche Analysen: ein Beispiel, wie die Analyse von Geodaten über EXASolution aussehen kann. EXASolution versus Natural Language Processing: ein Praxis - beispiel, wie benutzerdefinierte Funktionen (User-Defined Func - tions; UDFs) in EXASolution zu integrieren sind, um Sprachver - arbeitung direkt in der Datenbank zu ermöglichen. Big-Data-Analysen mit Skyline: Skyline ist ein neues Analyse- Werkzeug in EXASolution, das unter Berücksichtigung unterschiedlicher Bewertungskriterien eine Vorauswahl aus großen Datenmengen über mehrere Dimensionen hinweg trifft. Skyline ein praktisches Beispiel: Das multidimensionale Opti - mierungstool Skyline erspart das mühevolle Sortieren, Filtern und die subjektive Bewertung unüberschaubar großer Datenmengen. Performance und Geschwindigkeit statt Schneckentempo und Frustration: allgemeiner Überblick über die Möglichkeiten des In- Memory Computing mit der Hochleistungsdatenbank EXASolution. Hadoop Cloudera s Distribution Including Hadoop (CDH) Die Open-Source-Sammlung umfasst die Kernkomponenten von Hadoop zur verteilten und ausfallsicheren Speicherung und Ver - arbeitung großer Datenmengen. Darüber hinaus sind Werkzeuge für Sicherheit, Hochverfügbarkeit und Integration in bestehende Datenlandschaften enthalten. CDH ist unter der Apache-Lizenz verfügbar und eine der verbreitetsten Hadoop-Distributionen und wird für Tests, Entwicklung und den Betrieb großer Cluster verwendet. Auf der DVD befindet sich ein VMware-Image, das ins - besondere Einsteigern helfen kann, sich schnell einen Überblick zu verschaffen. Freie IDEs Eclipse 4.4.2: das zweite Service Release der Entwicklungsum - gebung in der Luna-Distributionen für Java-Entwickler. IntelliJ IDEA : die Community Edition der polyglotten Java-Entwicklungsumgebung. Juno: eine freie IDE für die Programmiersprache Julia. Tools, Datenbanken, Sprachen Enterprise Search: Apache Solr, Elasticsearch Big-Data-Frameworks: Apache Drill, Apache Giraph, Apache Hadoop, Apache Hive, Apache Spark, Apache Storm NoSQL-Datenbanken: Apache Cassandra, Apache CouchDB, MongoDB, Neo4J, Redis, Riak NewSQL-Datenbanken: Apache Phoenix, Apache Tajo, Kylin, PostgresXC, Presto Programmiersprachen: Julia, Python, R Literatur Auszüge aus den dpunkt-büchern: MongoDB Der praktische Einstieg: Kompakt und anhand zahlreicher Beispiele führt das MongoDB-Buch von Tobias Trelle in die Nutzung von MongoDB ein. Auf der Heft-DVD finden Leser auf 56 Seiten Leseauszüge zur Einführung in dokumentenorientierte NoSQL-Datenbanken und insbesondere MongoDB. Außerdem werden Hilfen zur Installation gegeben und die Konzepte hinter MongoDB erklärt. Visual Business Analytics Effektiver Zugang zu Daten und Informationen: Das Buch von Jörn Kohlhammer, Dirk U. Proff und Andreas Wiener zeigt Wege auf, wie aus Daten mittels Visualisierung entscheidungsrelevante Informationen für den Empfänger werden. Auf rund 70ˇSeiten als Leseauszüge geben die Autoren einen grundsätzlichen Einblicke in die Visuali - sierung von Daten und Informationen sowie des Weiteren in das Zusammenspiel von Big Data und Visual Analytics. Listings und Lizenzen Die Listings zu den Heftartikeln und die Lizenzen zu den Softwarepaketen auf der Heft-DVD. Hinweis für Käufer PDF- und ipad-version: In der ix-app finden Sie einen Button zum Download des DVD-Images. PDF-E-Book: Folgen Sie im Browser der unter Alle Links angegebenen URL. Alle Links: x 6 ix Developer 2015 Big Data

7 Grundlagen Big Data ist mittlerweile mehr als nur ein Hype, den Tool-Hersteller sowie Konferenz- und Schulungsorganisatoren auszuschlachten wünschen. Die hinter Big Data, NoSQL & Co. gesehenen Techniken und Konzepte sind vielmehr branchenübergreifend angekommen bis hin zu der Tatsache, dass Unter - nehmen Big Data in ihre Prozesse und Kultur einbinden. Big Data: Aus Informationshalden wertvolle Erkenntnisse finden 8 Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch 14 Datengetriebene IT-Projekte im Wandel 16 Big Data und (Datenschutz-)Recht 18 Strategien zum Schutz der Big-Data-Datenbestände und -Infrastruktur 24 ix Developer 2015 Big Data 7

8 GRUNDLAGEN BIG DATA Aus Informationshalden wertvolle Erkenntnisse filtern Raffinierte Daten Achim Born Die rasant anwachsenden Informations - mengen gelten als Rohöl des digitalen Zeitalters. Wird der Rohstoff zum Treibstoff Wissen veredelt, sprechen Wirtschafts - analysten gerne von Big Data und verneigen sich in Ehrfurcht. Anbieter von Analyse- und Datenmanagement - werkzeugen jedenfalls wittern lukrative Geschäfte. Ist es noch Politik oder schlichtweg geschicktes datenbasiertes Kampagnenmanagement? US-Präsident Barack Obama genügten jedenfalls nur zwei Prozent der Wählerstimmen, um sich gegen seinen republikanischen Herausforderer Mitt Romney durchzusetzen. Sein Wahlkampfteam schöpfte gezielt die Eigenart des US-Wahlrechts aus, nach der in den Bundesstaaten der jeweilige Kandidat mit relativer Mehrheit sämtliche Stimmen der Wahlmänner erhält. Entscheidend für die Wiederwahl war deshalb der Wahlausgang in den neun sogenannten Swing States. Wer hier die Mehrheit der Wechselwähler auf seine Seite ziehen kann, hat schon so gut wie gewonnen. Selbstverständlich ist diese Erkenntnis nicht neu. Ungewöhnlich ist jedoch, mit welcher Konsequenz Obamas Wahlkampf-Team moderne Analyseverfahren und umfangreiche Datensammlungen einsetzte, um seinen Aktivitäten maximale Treffsicherheit zu verleihen. Beispielsweise führte man Informationen über Konsumenten, Wahlverhalten, Sponsoren, Wahlhelfer et cetera aus allen zugänglichen Datenquellen zusammen und erhielt so statistisch untermauerte Profile der typischen Wechselwähler und deren Wahlverhalten. Mit diesen Modellen spielte das Team Aktionsalternativen mit dem Ziel durch, für unterschiedliche Personen(kreise) stets die richtige Strategie sowie die sinnvollste Ansprache parat zu haben und die Werbemittel passgenau zu verteilen. Kontinuierlich fütterte man das System mit den konkreten Erfahrungen der Wahlhelfer also mit der Reaktion der Wähler auf die Aktionen und konnte es so immer weiter optimieren. Der Kopf hinter den Projekten mit den wohlklingenden Titeln Narwhal (Echtzeit-Zusammenführung der Daten) und Dreamcatcher (Textanalyse) ist der Wissenschaftler Rayid Ghani. Er hatte bereits Analyseprogramme geschrieben, mit deren Hilfe sich die Effizienz von Werbemaßnahmen für Supermärkte verbessern lässt. Seine Kenntnisse ließ Ghani in die Programmierung der Wahlkampf-Algorithmen einfließen, mit deren Hilfe unter anderem die Demokraten-affine Softwareschmiede NGP VAN ein entsprechendes Kampagnenmanagement via Facebook & Co. auf die Beine stellte. US-Wahlkampf zeigt das Potenzial Wie hoch ihr Anteil an der Wiederwahl tatsächlich war, lässt sich trefflich diskutieren. In jedem Fall bestätigt das Beispiel einmal mehr das (Vor-)Urteil, dass Politik in erster Linie Verkaufen heißt. Überspitzt formuliert: Der datengefütterte Politikbetrieb wird in den USA zur neuen Normalität. Mit Stolz wirbt NGP VAN damit, dass ihr auch durch Zukäufe stetig wachsendes Tool-Angebot die Plattform nahezu jeder größeren Kampagne der Demokraten bildet. Das Kampagnenmanagement in der US-Politik ist zugleich ein wunderbarer Beleg für den Nutzen einschließlich aller kritikwürdigen Begleiterscheinungen, der in der intelligenten Kombination und der ausgefeilten Analyse umfangreicher Datenmengen vermutet wird. Wirtschaftsanalysten und Softwarestrategen nutzen in diesem Kontext gerne und häufig Kunstwörter wie Big Data und Smart Data, ziehen vermehrt aber auch eher technisch anmutende Termini wie Predictive Analytics hinzu. Die Begriffe einten die Vorstellung, dass die Auswertung extrem großer Datenvolumina unterschiedlicher Herkunft und Zusammensetzung zu Erkenntnissen führen, die bares Geld bedeuten. Allein für die Behördenlandschaft in der EU ermittelte das McKinsey Global Institute (MGI) in einem vor knapp vier Jahren veröffentlichten 8 ix Developer 2015 Big Data

9 Report das Einsparpotenzial auf 250 Mrd. Dollar jährlich. Den Fertigungsunternehmen stellten die Berater eine siebenprozentige Verbesserung ihrer Liquidität in Aussicht. Fünf Aufgabenkomplexe sollen vom geschickten Umgang mit den Daten profitieren. Dazu zählen das Schaffen von Transparenz etwa in der Betrugserkennung, Simulationen zu den Wirkungen potenzieller Maßnahmen, feingliedrige Markt- und Kundengruppensegmentierung sowie die datengestützte Entscheidungsfindung im operativen Betrieb, indem etwa der Materialeinsatz in der Produktion automatisiert mit der Wetterprognose abgestimmt wird. Selbst gänzlich neue Geschäftsprozesse sind nach Ansicht der Autoren denkbar, wenn etwa Standortdaten und Klickstatistiken zu orts- und zeitabhängigen Preisberechnungen und Aktionsangeboten führen. Die allgemein gehaltenen Vorschläge bergen wenig Überraschendes. Das gilt gleichfalls für die mehr als 40 erprobten Praxis-Beispiele aus Wirtschaft und Verwaltung, die der Branchenverband BITKOM für seinen jüngsten Leitfaden zusammentrugˇ[1]. Denn die angeführten Zielsetzungen haben wenn auch unter anderem Schlagwort interessierte Kreise schon seit längerem diskutiert. Die Logistikbranche bewegt beispielsweise seit Jahren die Vorstellung, durch eine Verknüpfung der Daten zu Verkehrsfluss und Warentransportkette die Verkehrsströme entzerren und die Güterströme optimieren zu können. Ebenso wird in der Fertigung eine feingliederige, automatisierte Steuerung des Materialflusses mit (RFID-)Sensorik diskutiert. Dass sich aus den Kauftransaktionen und dem Kaufverhalten Rückschlüsse für Produktzusammenstellungen oder die Shop-Gestaltung ergeben, ist nicht erst mit dem Auftauchen von Amazon für viele Handelskonzerne lange gelebte Praxis. Die Vermessung der Welt Doch was steckt hinter dem Wandel, der Big Data bedeutet. Daten aus sozialen Medien, Nachrichten- und Video-Feeds, Maschinen- und Sensordaten, geographische Bezüge, Click-Streams, Server-Logs an vielen Stellen fallen heute Datenströme zum Teil in hoher Frequenz an, die alles und jeden vermessen. Allein für 2012 veranschlagte IDC das erzeugte Datenvolumen auf 2,8ˇZettabyte (ein Zettabyte entspricht 10 21ˇByte) soll es 40ˇZettabyte betragen. Kurzum: Daten, einer der wichtigsten Rohstoffe der Wirtschaftswelt stehen nicht nur im Übermaß zur Verfügung, das Rohöl heutiger Tage sprudelt aus diversen Quellen kräftig weiter. Aus diesen Rohdaten gilt es nun, guten Treibstoff für die tägliche Arbeit in Form aussagekräftiger Informationen und Wissensinhalte zu raffinieren. Wenn dieser Rohstoff veredelt werden soll, berührt das die gesamte Prozesskette von der Akquisition und Integration der Daten bis hin zur Auswertung und Präsentation für den Anwender, meint Carsten Bange, Geschäftsführer des Forschungsunternehmens Barc. Bei Big Data dreht es sich folglich nicht nur um große Datenvolumina. Es handelt sich immer auch um Verfahren und Methoden für das skalierbare Sammeln und Analysieren von Informationen, die in verschiedenen, häufig nicht vorhersagbaren Strukturen vorliegen. Aus technischer Warte gilt es, die vielschichtigen Informationen im geeigneten Kontext schnell auszuwerten und nutzbar zu machen. Dazu müssen die zugehörigen Werkzeuge und Techniken die vier wesentlichen Facetten von Big Data bedienen: Volume (Datenmenge), Variety (Quellen- und Formatvielfalt) und Velocity (schnelles Datengenerieren sowie Analytics (Erkennen von Zusammenhängen). Letzteres wird auch gerne durch ein viertes V-Wort Value ersetzt, um den Wertschöpfungsaspekt der Daten zu betonen. Die vier Vs von Big Data Quelle: [1] Datenmenge (Volume) Anzahl von Datensätzen und Files Yottabytes Zettabytes Exabytes Petabytes Terabytes Datenvielfalt (Variety) Fremddaten (Web etc.) Firmendaten unstrukturierte, semistrukturierte, strukturierte Daten Präsentationen Texte Video Bilder Tweets Blogs Kommunikation zwischen Maschinen Big Data Big Data umfasst im Wesentlichen vier Facettenˇ(Abb. 1). Datengenerierung in hoher Geschwindigkeit Übertragung der konstant erzeugten Daten Echtzeit Millisekunden Sekunden Minuten Stunden Geschwindigkeit (Velocity) Erkennen von Zusammenhängen, Bedeutungen, Mustern Vorhersagemodelle Data Mining Text Mining Bildanalytik Visualisierung Realtime Analytics Jedes dieser vier Vs (über-)fordert allein schon die Möglichkeiten der in Unternehmen verfügbaren IT. Vor diesem Hintergrund kann man die Einschätzung von Berater Wolfgang Martin folgen, dass die traditionellen Business-Intelligence-Techniken zum Analysieren von Daten nicht mehr ausreichen und in Teilen sogar obsolet werden. Es sind vornehmlich die in der betrieb - lichen Transaktionsverarbeitung groß gewordenen SQL-Da - tenbanksysteme, die auf die anstehenden Aufgaben denkbar schlecht vorbereitet sind. Ihr Datenmodell ist konsequent auf semantische Integrität und Datenkonsistenz angelegt. Angesichts der strukturierten und gut dokumentierten Daten, die von der gewöhnlichen Unternehmens-IT in überschaubarer Menge angeliefert wird, lässt sich die formale Strenge dieser ACID- Eigenschaften (Atomicity, Consistency, Isolation und Dura - bility) weithin durchhalten. Bei extremen Datenmengen mit un terschiedlichsten Formaten und Strukturen funktioniert das Konzept jedoch nicht mehr. Im Big Data verliert die rela tio - nale Datenmodellierung ihren Alleinstellungsanspruch: Sie wird durch alternative Modellierungsmethoden ergänzt, die auf schnelles und hochperformantes Suchen und Lesen ausgelegt sind, benennt Martin eine der grundlegenden Veränderungen in diesem Zusammenhang. Das Management der Daten in reix Developer 2015 Big Data 9

10 GRUNDLAGEN BIG DATA lationalen Datenbanksystemen (RDBMS) mit der Sprache SQL war und ist für die betriebswirtschaftliche Transaktionsver - arbeitung etwa bei der Verwaltung von Aufträgen fraglos eine gute Sache. Schon für die analytischen Aufgaben musste man jedoch den Umweg über Aggregation und Vorverdichtung ausgewählter Datenperspektiven zu mehrdimensionalen Informationswürfeln gehen, um die konzeptionellen Schranken der RDBMS zu überwinden. Anstoß aus dem Web Es waren die großen Web-2.0-Plattformen, allen voran Amazon, Facebook, Google und Twitter, die nach Alternativen im Datenmanagement suchten beziehungsweise genauer formuliert suchen mussten. Denn beim Betrieb eines Online-Shops, eines sozialen Netzes oder Vergleichbarem sind extrem schnelle Auswertungen und Antwortzeiten entscheidend unabhängig davon, wie viele Nutzer gerade aktiv und wie viele Daten aktuell zu bearbeiten sind. Eine serverfokussierte Infrastruktur mit einem zentralen relationalen Datenbanksystem stellt in diesem Punkt zwangsläufig einen Flaschenhals dar. Aus diesem Grund wurde eine Reihe von Projekten initiiert, neue Datenbank-Techniken zur Überwindung des Engpasses zu entwickeln. Die zum Teil recht unterschiedlichen Ansätze, die unter dem Begriff NoSQL (Not only SQL) subsumiert sind, eint aus technischer Perspek - tive, dass sie die Design-Prinzipien Skalierbarkeit und Flexibilität vor einengende formale Strenge à la SQL/RDMS stellen. Die Idee dahinter heißt in der Regel, dass letztlich der einzige bezahlbare Weg zu mehr Geschwindigkeit und beliebiger Skalierbarkeit nur über das geschickte Verteilen von Arbeit und Daten auf mehrere Server bedeutet. Techniken zum Fragmentieren und Partitionieren (Sharding) sollen den gewünschten Leistungsschub durch parallele Abarbeitung bewirken. Selbst redundante Datenhaltung ein Unding nach dem Normalform-Gebot der relationalen Theorie unterstützen viele NoSQL-Ansätze. Dafür nimmt man sogar für eine gewisse Zeit Inkonsistenzen in Kauf und verzichtet gänzlich auf Sperren. Mit BASE (Basically Avail able, Soft State, Eventually Consistent) wurde auch flugs ein hübsches, wenn auch nicht ganz korrektes Gegenakronym RFID Ereignisse, Sensoren operative Daten Files, XML, Spreadsheets Data Warehouse Big Data Big-Data-Management Die Wertschätzung, die Hadoop erfährt, lässt sich auch an der breiten Unterstützung seitens der Business-Intelligence- Anbieter ablesen. Spezialisten wie Jaspersoft, Tableau, Pentaho, Qlik, aber auch Schwergewichte wie Oracle, Microsoft, SAP und SAS zählen zu den Supportern. Die Aufnahme beziehungsweise Einbindung von Hadoop in die traditionelle Welt der Analysewerkzeuge und Data Warehouses ergibt durchaus Sinn. Denn im Allgemeinen eignen sich Hadoop-Anwendungen mit MapReduce-Analyse aufgrund ihrer Größe und Latenzzeit nur be- Social Media Lokalisierrungsdaten Call Data Records Maschinendaten Quellenidentifikation Quellenextraktion analytische und NoSQL-Datenhaltungssysteme zu ACID erfunden. Die Integrität verantwortet bei NoSQL in erster Linie der Programmablauf und nicht wie bei den RDBMS das Datenmodell. Mitunter greifen Vertreter beziehungsweise Projekte (CouchDB, HBase etc.) zur Koordination konkurrierender Zugriffe auch schon einmal auf das Konzept Multi-Version Concurrency Control (MVCC) zurück, das bei traditionellen relationalen Systemen wie PostgreSQL oder SQL Server Verwendung findet. Meist kommt in den NoSQL-Systemen das vergleichsweise unkomplizierte Key-Value-Modell zum Einsatz, das den flachen Dateisystemen eines Betriebssystems ähnelt. Ein Zeiger (Schlüssel) verweist auf einen Datensatz beliebigen Formats. Komplexe Operationen sind hiermit nicht möglich und werden im Umgang mit den unstrukturierten Daten etwa für Warenkörbe auch nicht benötigt. Die gleichfalls in die NoSQL-Kategorie fallenden Graphen- oder dokumentenorientierten Datenbanken (InfiniteGraph, Neo4j bzw. CouchDB, MongoDB) bieten geeignetere Datenmodelle. Ihr Name lässt den Einsatzschwerpunkt erkennen. Mit Graphen-Techniken bilden beispielsweise Facebook, Google & Co. Beziehungen ab, statt diese aufwendig über komplexe Abfragen mit JOINS oder Ähnlichem zu ermitteln. Stehen komplexere Analysen und Simulationen im Fokus, ziehen NoSQL-Vertreter häufig das Designprinzip einer spaltenorientierten Anordnung (Amazon SimpleDB, Hadoop, SAP HANA) heran. Abhängig vom Marktauftritt und Einsatzschwerpunkt unterscheiden sich die Angebote zum Teil deutlich. Erste, brauchbare Orientierungshilfe liefert hier das CAP-Theorem (Consistency, Availability und Partition Tolerance). Es beruht auf dem simplen Umstand, dass sich in verteilten Systemen immer nur zwei Eigenschaften kombinieren lassen. Entsprechend muss ein Interessent nur prüfen, welche Stärken sein System besitzen muss. Nathan Hurst hat hierzu bereits vor einiger Zeit ein Dreieck mit C, A und P als Eckpunkte vorgeschlagen und eine Zuordnung vorgenommen, die auch heute noch im Groben gelten kann. Das verbreitetste NoSQL-Projekt stellt fraglos Hadoop dar. Das Open-Source-Framework entwickelt sich zu einer Art Lingua franca für das Durchführen von Rechenprozessen mit großen Datenmengen auf Rechner-Clustern beeindruckender Grö - ßenordnungen. Rund um Hadoop ist in der Zwischenzeit ein klangvolles Ökosystem aus Distributionen, Produkten und Mitspielern (siehe Kasten) entstanden, dessen (Markt-)Bedeutung nicht der hohen Präsenz in der öffentlichen Wahrnehmung entspricht. Data Discovery Location Intelligence Textanalytik Data/Text Mining Search Anreicherung Big-Data-Analytik Big Data bedeutet nicht nur Datenflut aus unterschiedlichsten Quellen. Es umfasst auch Daten-Management und Analyse-Konzepteˇ(Abb.ˇ2). Quelle: S.A.R.L. Martin Hadoop alle mischen irgendwie mit 10 ix Developer 2015 Big Data

11 dingt für interaktive Aufgaben, denn sie arbeiten vornehmlich im Batch-Betrieb. In anderen Worten: Für die dritte V-Dimension (Velocity) findet sich im Kern-Hadoop-Projekt (noch) keine befriedigende Antwort. An diversen Stellen hat die Web-2.0- und Hadoop-Gemeinde jedoch eine Reihe interessanter Vorhaben gestartet, die mehr Tempo und Interaktivität versprechen. Cloudera (Impala) und IBM (BigSQL/InfoSphere BigInsights) veröffentlichten beispielsweise SQL-Engines, die direkt das Datenformat für Hadoop lesen konnten und dazu die Batch-orientierte Verarbeitung mit MapReduce umschifften. Die großen Softwarekonzerne Microsoft (Analytics Platform System, vormals Parallel Data Ware - house) oder Oracle (Big Data SQL) unterstützen die Möglichkeit, mit einer Abfrage Daten aus den relationalen Datenbanken und Hadoop zusammenzuführen. In dem mittlerweile als Top- Level-Projekt geführten Apache Drill werkelt zudem die Open- Source-Gemeinde auf Grundlage von Googles Dremel an einer Möglichkeit, per SQL ad hoc auf das Hadoop-Dateisystem und andere Hadoop-Datenquellen zuzugreifen. Kurzum: Die (Zugangs-)Welt zu den in Hadoop verwalteten Daten gewinnt an Facetten. Spätestens mit der initialen Veröffentlichung des Release 2.x vor eineinhalb Jahren zeichnet sich ab, dass die Tage als vornehmliche MapReduce-Ablaufumgebung endgültig gezählt sind. Denn die konsequente Trennung der Datenverarbeitung von der Ressourcenverwaltung durch die YARN-Komponente (Yet Another Resource Negotiator) vereinfacht den Weg erheblich, weitere spezialisierte Programmbibliotheken einzuführen. Insbesondere das gleichfalls von Apache koordinierte Projekt Spark, ein interaktives In-Memory-Framework, entwickelt sich allen Anschein nach als ein eigenes Frame - work-ökosystem innerhalb des Hadoop-Stacks. In der Regel übernehmen die NoSQL-Systeme, vor allem Hadoop, im Rahmen größerer Big-Data-Infrastrukturen grund - legende Auswertearbeiten aus Massendaten im Hintergrund. Die Ergebnisse dienen dann als Input für die Analysesysteme der BI- Spezialisten, um tiefergehende Einblicke zu gewinnen. Für diese Aufgaben haben die einschlägigen Anbieter in jüngerer Zeit vermehrt In-Memory-Techniken in Stellung gebracht. Der Grund ist recht simpel: Wenn Daten von Systemen wie SAP HANA zur Bearbeitung vollständig im Hauptspeicher gehalten und nicht mehr auf Festplatten zwischengelagert werden, führt das zum enormen Geschwindigkeitsschub. Das eröffnet die Chance, beliebige Auswertungen ad hoc und in Echtzeit auszuführen. Die Verbindung zwischen den Analyse- und Big-Data-Systemen funktioniert im Übrigen immer besser bidirektional. SAS erlaubt nicht nur, Daten aus Hadoop parallelisiert im eigenen In-Memory-Server abzulegen, zu bearbeiten und zurückzuschreiben. Der BI-Spezialist unterstützt im Rahmen des In-Data base-processing- Konzepts ebenso die direkte Ausführung seiner Analyse-Bibliotheken auf dem Hadoop-Cluster. Auf welche Weise Big Data à la Hadoop und In-Memory zueinander finden, lässt sich an der xdata-plattform des Re-Targeting-Spezialisten xplosion interactive begutachten. Sie soll Werbetreibenden und E-Commerce-Anbietern helfen, ihre Reklame kosteneffektiver einzusetzen. Kern der Anwendung ist das Hadoop-Framework, das als eine Art zentrales Datenlager (Single Point of Truth) alle angeschlossenen dispositiven Systeme verwaltet und steuert. Zu diesen zählt ein Data Warehouse auf Grundlage der spaltenorientierten Datenbank EXASolution von Exasol, das sämtliche Informationen aus Web-Logdaten speichert und untersucht. Apaches Messaging-System Kafka speichert die Daten im HDFS in ihrer ursprünglichen Form. Via Hive werden die ursprünglich unstrukturierten Daten in Zwischenschritten letztlich in eine strukturierte Form gebracht, die BMWi unterstützt Big-Data-Projekte Unter dem Titel Smart Data Innovationen aus Daten fördert das Bundesministerium für Wirtschaft und Energie (BMWi) insgesamt 13 Projekte mit einer Laufzeit von bis zu drei Jahren ( ), um den Wachstumsmarkt Big Data für die deutsche Wirtschaft besser zu erschließen. Neben den technischen Arbeiten sollen im Programm insbesondere auch rechtliche und gesellschaftliche Herausforderungen wie Fragen des Datenschutzes und der Akzeptanz untersucht werden. Rund 30ˇMio. Euro an Fördermitteln wurden hierzu reserviert, wobei das Programm durch Eigenmittel der Projektpartner insgesamt rund 55ˇMio. Euro umfasst. Folgende Projektvorschläge wurden für die Förderung ausgewählt (Konsortialführer jeweils in Klammern): Industrie: PRO-OPT: Big-Data-Produktionsoptimierung in Smart Ecosystems (DSA Daten- und Systemtechnik) SAKE: Semantische Analyse komplexer Ereignisse (USU Software) SIDAP: Skalierbares Integrationskonzept zur Datenaggregation, -analyse, -aufbereitung großer Datenmengen in der Prozessindustrie (Bayer Technology Services) Smart Data Web: Datenwertschöpfungsketten für industrielle Anwendungen (Deutsches Forschungszentrum für Künstliche Intelligenz (DFKI)) Mobilität: ExCELL: Echtzeitanalyse und Crowdsourcing für eine selbstorganisierte City-Logistik (FELD M) itesa: Intelligent Traveller Early Situation Awareness (travel-ba.sys) sd-kama: Smart-Data-Katastrophenmanagement (geomer) SD4M: Smart Data for Mobility (]init[ AG für digitale Kommunikation) Energie: SmartEnergyHub: Smart-Data-Plattform für das prognose- und marktbasierte Energiemanagement von Infrastrukturbetreibern und Energieverbünden auf Basis von Sensordaten (Fichtner IT Consulting) SmartRegio: SmartRegionalStrategy strategische Analyse heterogener Massendaten im urbanen Umfeld (YellowMap) Gesundheit: InnOPlan: Innovative, datengetriebene Effizienz OP-übergreifender Prozesslandschaften (Karl Storz GmbH & Co. KG) KDI: Klinische Datenintelligenz (Siemens) SAHRA: Smart Analysis Health Research Access (AOK Nordost) Analysen in Echtzeit ermöglicht. Während sich der Besucher in einem Webshop umsieht, ermittelt die Anwendung aus seinem Kauf- und Suchverhalten ein Profil, das sie für personalisierte Produktvorschläge auswertet. Wert schaffen mit Big Data Die Anwendung ist ein weiterer Beleg dafür, dass Big Data erst im Zusammenspiel mit Analyse Nutzen stiftet. Das hat die Politik erkannt (siehe Kasten BMWi unterstützt Big-Data-Pro - jekte ). Darauf pochen in der Zwischenzeit auch einschlägige Marktforschungsfirmen, die zuvor kräftig das Werbefeuer für ix Developer 2015 Big Data 11

12 GRUNDLAGEN BIG DATA Big Data entfachten. Vor dem Hintergrund der rasant wachsenden Datenvolumina aus sozialen Medien, Sensoren und Maschinen (Internet der Dinge) sowie großer Datenpools innerhalb und außerhalb von Firmen forderte Gartner-Mann David Cearley beispielsweise nachdrücklich, die Analyse in den Mittelpunkt zu rücken. Schließlich haben nur die Resultate einer Analyse einen Wert und nicht die Daten. Als marketinggestählter Berater nutzte Cearley hier mit Blick auf den Big-Data-Begriff ein Wortspiel aus Big Questions und Big Answers. Big Data Analytics basiert zum Teil auf härtesten mathematisch-statistischen Methoden und Verfahren. Da fallen in schneller Folge Begriffe wie Assoziationsanalyse, Clustermethode, Machine Learning, Regressionsanalyse, Data Mining etc. Um Methoden und Verfahren dieser Art in Algorithmen zu gießen, steht den Anwendern ein breites Tool-Angebot zur Wahl, das mit und ohne große Datenmengen funktioniert. Textanalytik auf unstrukturierten Daten kombiniert beispielsweise linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining sowie Algorithmen des maschinellen Lernens. Es wird unter anderem zur sogenannten Sentiment-Analyse herangezogen, um automatisiert Stimmungen und Einstellungen zu ermitteln. Wie mayato-geschäftsführer Marcus Dill erklärt, lässt sich das Sentiment gegenüber den eigenen und Konkurrenzprodukten als ein Frühwarnsystem heranziehen, das Umsatzrückgänge oder das Abwandern größerer Kundengruppen ankündigt. Insbesondere im Konsumentengeschäft tätige Firmen können so relativ einfach Hinweise sammeln, wie ihre Marketingmaßnahmen und Produkte draußen ankommen. Textanalytik klingt in Ohren allerdings deutlich einfacher, als es sich mitunter in der Realität entpuppt. Reine Wortmuster - prüfungen sind nicht ausreichend, will man den in sozialen Netzen gepflegten Zynismus und Sarkasmus maschinell korrekt entschlüsseln. Ohne zusätzliche Auswertungen des Kontexts sind Fehlinterpretationen Tür und Tor geöffnet. Aus dem Tweet Ich liebe Salt! folgerte die Analyse-Umgebung der WalmartLabs angesichts des persönlichen social gnome der Nutzerin messerscharf, dass der Actionthriller mit Angelina Jolie und nicht das Speisegewürz gemeint war. Da zudem der Geburtstag der Nutzerin anstand, versorgte das Programm im konkreten Fall die Freunde mit entsprechenden Hinweisen auf die Filmvorliebe. Ein Rat, den Berater allerorten wohlfeil Unternehmen an - bieten, lautet, sich zuvor Gedanken über den Wert der Daten und der Realitätsnähe der Analysemodelle machen sollten. Denn trotz der unstrittigen Potenziale von Big Data führen mehr Daten nicht zwangsläufig zu besseren Informationen und Entscheidungen. Selbst Tom Davenport, der Dozent an der Harvard Business School und im Herzen ein starker Verfechter der Big- Data-Idee, mahnt nachdrücklich, anstelle eine wilden Sammelwut erst einmal die richtigen Fragen zu stellen, beispielsweise wie eine Anforderung definiert ist, welche Daten benötigt werden und woher diese stammen? Insbesondere die Ergebnisse aus Prognoseverfahren verleiten da schnell zu peinlichen Fehlschlüssen, wie Nate Silver im Zuge der letztjährigen Fußballweltmeisterschaft erleben musste. Der US-Amerikaner, dem der Ruf eines Statistikpapstes vorauseilt und dessen Prognosemodell bei den Präsidentschaftswahlen 2012 den Sieger in allen Bundesstaaten korrekt bestimmte, hatte sich im Vorfeld mit einer Wahrscheinlichkeit von 45,1ˇProzent auf Brasilien als Sieger festgelegt vor Argentinien (13ˇProzent) und Deutschland (11ˇProzent). Zur Ehrenrettung von Silver sei der Hinweis erlaubt, dass Prognosen immer auf Wahrscheinlichkeiten beruhen. Seine Berechnungen basierten auf dem Soccer Power Index (SPI), einem Algorithmus, den er gemeinsam mit Sportsender ESPN entwickelt hatte. In diesen fließen mit unterschiedlichen statistischen Gewichten die Ergebnisse aller Länderspiele sowie die Offensivund Defensivstärken der Spieler ein. Zudem hatte Brasilien in den vergangenen Jahren kein Heimspiel verloren und eine WM in Südamerika noch nie eine europäische Mannschaft als Sieger hervorgebracht. Die Vorhersagen nährten sich folglich aus buchhalterischen Werten der Vergangenheit. Da sie aber auf Wahrscheinlichkeiten basieren, ist das Eintreten eher unwahrschein licher, zufälliger Ereignisse immer möglich und widerspricht keinesfalls der Modelllogik. Selbst der kleinste Wert steht für ein real mögliches Ereignis und kann wie im Fall der WM das Ende einer als unumstößlich geltenden Fußballweisheit bedeuten. Wer unter Big Data nur more Data versteht, wird aber noch aus einem anderen Grund scheitern. Die persönliche Ausleuchtung und Ausmessung der eigenen Person ist nicht frei von Nebenwirkungen für Anwender und Unternehmen. Diese Erfahrung machten auch die Kreditauskunftsdatei Schufa und das HPI (Hasso-Plattner-Institut) vor drei Jahren, als sie das Forschungsprojekt Facebook Creditscore vorstellten. Ziel war es, die persönlichen Daten in den sozialen Netzen zur direkten Bonitätsbewertung bei der Kreditvergabe von Banken heranzuziehen. Angesichts des aufbrausenden Shit- oder besser Kritik-Sturms sah sich selbst der BITKOM bemüßigt, Stellung zu beziehen. Nicht alles, was technisch möglich ist, sollte in die Praxis umgesetzt werden, ließ sich Dieter Kempf zitieren. Der Verbandspräsident empfahl, alles zu unterlassen, was das Vertrauen in das Internet beschädigt. Kurz: Die Protagonisten mussten ihr Vorhaben nach nur zwei Tagen beerdigen. Fazit Internationale Firmen (z.ˇb. Walmart) hegen in diesem Punkt jedoch weniger Skrupel. Das geht selbst manchem Star der Werbebranche zu weit. Zu den Kritikern zählt beispielsweise John Hegarty. Der Brite den die Queen wegen seiner Verdienste in den Ritterstand erhob, teilte laut dem Magazin Advertising Age kräftig gegen die Datensammelwut der eigenen Zunft aus. Selbst das unfeine F-Wort soll in diesem Zusammenhang gefallen sein. Sir Johns Credo: Unternehmen sollten sich lieber um das eigene Geschäft kümmern, als immer mehr Informa - tionen zu horten, um andere zu verstehen. Zurecht wies er darauf hin, dass die riesigen Datenmengen, die Supermarktket - ten schon heute in den Händen halten, schließlich nicht den Pferdefleischskandal verhindert hätten. Hegarty mag jedenfalls nicht, dass andere wissen, was er morgens und abends trinke. Er möchte gar nicht von dritten verstanden werden; er verstünde sich ja manchmal selbst nicht. Dem ist eigentlich nichts mehr hinzuzufügen. (ane) Literatur [1]ˇBITKOM: Big Data und Geschäftsmodell Innovationen in der Praxis: 40+ Beispiele (2015) ( files/documents/bitkom-leitfaden_big_data_und_ GM-Innovationen_06Febr2015.pdf) Achim Born ist freier Journalist und Korrespondent der ix im Kölner Raum. Alle Links: x 12 ix Developer 2015 Big Data

13

14 GRUNDLAGEN INTERVIEW Klaas Wilhelm Bollhöfer zum Status quo von Big Data im Gespräch Big Data bleibt. Wie sieht es mit dem Potenzial von Big Data aus? Was sind hier die jüngsten Trends? Antworten gibt der in der Big-Data-Szene umtriebige Klaas Wilhelm Bollhöfer. ix Developer: Herr Bollhöfer, Sie sind schon länger im Big- Data-Umfeld unterwegs. Ist Big Data vor allem ein Hype, auf den sich Tool-Hersteller und Marketing-Experten stürzen, oder sehen Sie eine langfristige Chance? Klaas Wilhelm Bollhöfer: Ich bin jetzt wirklich schon einige Zeit dabei. Als vor gut fünf Jahren auch in Deutschland der Begriff Big Data allmählich auf fruchtbaren Boden fiel, erste innovative Unternehmen begannen, hatte ich meine ersten Berührungspunkte. Ursprünglich aus dem Bereich der digitalen Medien und der Online-Agenturwelt kommend, geerdet im klassischen Ingenieursstudium, hatte ich begonnen, meine programmatischen und mathematischen Grundlagen mit dem Business- und vor allem Design-Denken aus der Internet-Ära zu kombinieren. Dass sich diese Mischung von Skills irgendwann Data Science nennen würde, war mir zumindest zu dem Zeitpunkt nicht klar. Seitdem ist einiges passiert. Nach dem großen Hype, den wir nach meiner Einschätzung in Deutschland vor 12 bis 18 Monaten erlebt haben, und den großen Erwartungen an neue datenbetriebene Geschäftsmodelle, neuartige Datenlösungen und disruptive Marktverschiebungen ist aber erstaunlicherweise keine Ernüchterung eingetreten. Im Gegenteil seit circa einem Jahr kommt nun wirklich Bewegung in den Markt hierzulande. Die Budgets scheinen allokiert, Fördertöpfe von EU und Bund ausgeschüttet, die Use- und/oder Business Cases eruiert, der Blick auf die nächsten ein bis zwei Jahre ist vorausgeworfen, ein guter Teil der doch recht steilen Lernkurve wurde beschritten. Big Data ist da. Und was viel wichtiger ist: Big Data bleibt. ix Developer: Obgleich Big Data also auch hierzulande angekommen ist, erscheint es trotzdem so, dass vor allem USamerikanische Start-ups das Thema allein für sich besetzt hätten Bollhöfer: Aktuell zeichnet sich in Europa ein weiterer, sehr spannender Entwicklungsschritt ab Industrieˇ4.0. Vor kurzem noch müde belächelt, zumindest in der eingefleischten Big-Data- Community, wird Industrieˇ4.0 als das europäische Big-Data- Vehikel genutzt, um nicht zuletzt auch als trojanisches Pferd der Markt- und Technologiemacht der Amerikaner bei Big Data einen Gutteil abzutrotzen. Was jedoch viel entscheidender ist: Die letzten Jahre wurden intensiv genutzt, um das eigene Know-how und einen ersten unternehmensrelevanten und vor allem -spezifischen Erfahrungsschatz aufzubauen. Es ist nicht so, dass die Unternehmen jahrelang untätig waren, sich auf Konferenzen haben berieseln lassen und mehrheitlich das Thema Big Data als Modeerscheinung abgetan hätten. Big Data wurde und wird sehr ernst genommen. ix Developer: Was fehlt der deutschen IT-Szene dann noch? Bollhöfer: Neben all der Planung und Ernsthaftigkeit kommt der Spaß zu kurz. Es ist ungemein notwendig, dass jeder, der sich heute (aber vor allem morgen) mit Daten beschäftigen soll, wird oder muss, mehr über Daten und Big Data in all seinen Facetten lernt. Und das idealerweise selbstmotiviert, spielerisch und ergebnisoffen ohne den etablierten Druck üblicher Ablauf- und Aufbauorganisationen. Big Data ist eine Art infinite game, das uns jeden zu jedem Zeitpunkt auffordert, zu lernen, zu denken, Entscheidungen zu fällen und (egal wie) voranzuschreiten. Deshalb ist für mich Big Data auch letztlich ein organisatorisches, wenn nicht gar ein Design-Thema. ix Developer: Im Zusammenhang mit Big Data fallen häufig die Stichworte NoSQL und Hadoop. Ist damit schon alles gesagt? Bollhöfer: Auf keinen Fall! Big Data ist weit mehr als Technologie, und Big Data ist auch mehr als drei, vier oder siebzehn Vs Klaas Wilhelm Bollhöfer ist Chief Data Scientist bei The unbelievable Machine Company (*um), einem Dienstleister für Cloud Computing und Big Data aus Berlin. 14 ix Developer 2015 Big Data

15 [Gartner hat ursprünglich einmal Big Data mit den 3 Vs definiert: Volume, Velocity, Variety, Red.]. Hadoop oder NoSQL oder was auch immer für latest hot shit technologies : Es geht um Prozesse und Verfahren, Techniken, Menschen und nicht zuletzt Design ohne Gewichtung in der Reihenfolge. Es geht um die ganzheitliche und nachhaltige Wertschöpfungskette rund um Daten in aller Vielfalt. Aus diesem Grund gehe ich stark davon aus, dass der Begriff Big Data in der Form verschwinden wird und wir in Zukunft nur noch von Data sprechen, bitte nicht von Smart Data, Intelligent Data, Ambient Data oder Quokka Data. ix Developer: Was sind für Sie die derzeitigen Trends? Wohin geht also die Reise? Bollhöfer: Neben den neuen großen Themen Industrie 4.0, Smart (Eco-)Systems oder Internet of Things (IoT), die alle ihre Daseinsberechtigung haben und de facto Big Data weiter ausdifferenzieren, sehe ich derzeit drei große Entwicklungen am Markt. Erstens Algorithmen. Nachdem verstanden ist, dass sich mit Big Data grundsätzlich beliebige Daten speichern, verarbeiten und perspektivisch nutzen lassen, geht es nun immer stärker in Richtung Mathematik. Machine Learning, Natural Language Processing, Predictive Analytics, neuronale Netze, Cognitive Computing oder Deep Learning sind nur einige der Begriffe, die zunehmend in den allgemeinen (Business-)Sprachgebrauch diffundieren. Sie erlauben es, Muster, Trends, Relationen oder semantische Entitäten in Daten zu identifizieren und den nächsten Phasen im Data Lifecycle zuzuführen. Verpackt in neuartige Produkte ermöglichen es uns diese Verfahren, mehr und mehr Analysetätigkeiten an Maschinen zu übergeben. Zweitens Data Interfaces. Die Interfaces in Richtung von Big Data werden immer vielfältiger, komfortabler und Businesstauglicher. Als Beispiele seien hier zahlreiche SQL-Interfaces für Hadoop, Visual-Analytics-Produkte wie Tableau, IPython Notebooks oder IBM Watson genannt. Ihnen ist gemein, dass sie die Daten visualisieren, in den Zugriff stellen und dem Anwender das Arbeiten und Spielen mit Daten so einfach wie möglich machen beziehungsweise bekannte und gelernte Interfaces adoptieren. Das ergibt in mehrfacher Hinsicht Sinn. Zum einen ist es für Unternehmen sinnvoll, gar zwingend, dem Business-Anwender in Entscheidungsprozessen direkt den Zugang zu Daten und Analyse- beziehungsweise Visualisierungswerkzeugen in einer für ihn verdaulichen und sinnhaften Art und Weise zur Verfügung zu stellen. Zum anderen ermöglicht es Unternehmen, dem Fachkräftemangel, der massiv im Bereich Big Data Engineering und Data Science spürbar wird, ein Stück weit entgegenzuwirken. Drittens Plattformen. Die oft größte Herausforderung sind derzeit aber häufig weder Algorithmen noch Interfaces zu den Daten. Die erste Hürde liegt auf Seiten des Datenimports, dem Data Ingestion. Reden wir von der Digitalisierung von Fertigungsstraßen, Optimierungsprozessen in der Logistik oder ganzheitlichen Mobilitätskonzepten, liegt die primäre Aufgabe darin, all die Daten im ersten Schritt eins zu eins abzugreifen und zu speichern. Das ist alles andere als trivial. Das ist höchste Ingenieurskunst. Der Trend ist sofern man von Trend sprechen kann, dass Konzerne mehr und mehr auf heterogene Datenlandschaften setzen, eine Vielzahl neuer Technologiebausteine mit etablierten, erprobten Lösungen zusammenstecken, um für die datenbetriebene Unternehmenszukunft gewappnet zu sein. Initial geht es um Import und Speicherung. In naher Zukunft werden mehr und mehr Analytics- und Business-Applikationen auf dieser neuen Plattform entwickelt und integriert werden. Technisch reden wir häufig von sogenannten Lambda-Architekturen mit je nach Anforderung ausgewählten Komponenten für die einzelnen Schichten Ingest Layer, Speed Layer, Batch Layer, Storage Layer und Serving Layer. ix Developer: Was ergeben sich auf dem Job-Markt durch Big Data für Möglichkeiten? Oder anders gefragt: Sind überhaupt genug Fachkräfte da, das Potenzial datengetriebener IT-Projekte auszuschöpfen? Bollhöfer: Big Data verlangt nach neuen Skills, Ressourcen, aber vor allem nach Expertise. Wie man sich vorstellen kann, liegt in letzterem der größte Knackpunkt. Derzeit haben wir deswegen sicherlich einen leichten Ressourcen-Engpass. So riesig wie die Kluft aus Angebot und Nachfrage im Bereich Big Data und Data Science häufig beschrieben sowie wieder und wieder zitiert wird, ist sie aber meines Erachtens momentan noch nicht. Aber sie wird größer. Nach meiner Schätzung von vor circa einem Jahr waren in Deutschland etwa 500ˇData Scientists tätig, die Nachfrage war weitgehend gedeckt. Heute gehe ich von gefühlt gut 1000ˇData Scientists aus bei einer zunehmend wachsenden Nachfrage, die deutlich über dieser Annahme liegen wird. Big Data ist in Deutschland angekommen, und es geht an allen Ecken und Enden los. Diesen Schub kann der Personalmarkt zurzeit sicherlich schwer bedienen. Es ist unwahrscheinlich bis unmöglich, heute in Deutschland jemanden zu finden und für sich zu gewinnen, der schon mehr als fünf Jahre Data- Engineering- oder Data-Science-Expertise besitzt, sich in einer Vielzahl an Techniken und Methoden bestens auskennt und gleichzeitig noch das viel zitierte und wirklich relevante Domänenwissen mitbringt. Davon abgesehen, dass man diesen Jemand höchstwahrscheinlich weder bezahlen will noch kann. Aber natürlich passiert gerade so einiges zahlreiche Weiterbildungsangebote aus Wissenschaft und Wirtschaft, erste Studiengänge, Start-up-Initiativen wie das Data Science Retreat aus Berlin, ein kompaktes 3-Monats-Hands-on mit namhaften internationalen Chief Data Scientists und die hochkarätigen Angebote von Plattformen wie Coursera, Udacity und Co. geben Starthilfe und Zusatzqualifikation. Auf den Punkt gebracht, könnte man sagen: Neben Raum braucht es auch Zeit, um Big Data für sich urbar zu machen. ix Developer: Was kennzeichnet für Sie einen guten Data Scientist aus? Bollhöfer: Das ist nicht so einfach zu beantworten und würde höchstwahrscheinlich jeder Chief Data Scientist oder Teamlead anders beantworten. Ursprünglich, ich meine von Hilary Mason (seinerzeit Chief Data Scientist bei bit.ly) auf den Punkt gebracht, wurden Data Scientists als awesome nerds bezeichnet. Damit meinte sie die Skills-Schnittmenge aus Engineering, Mathematik, Computer Sciences und Hacking. Das trifft es in meinen Augen nicht zu 100ˇProzent. Ich finde die zuletzt von, so meine ich, O'Reilly vorgestellten T-shaped Profiles passend, die beschreiben, dass es den Data Scientist nicht gibt, sondern das Data Science de facto immer Teamsport ist. Ein Team von Data Scientists, das sich mit seinen Schwerpunkten in etwa Statistik oder Programmierung oder Business-Kommunikation (die Ts in T-shaped) gut ergänzt, ist das Erfolg versprechendste. Mir persönlich geht es daher immer mehr um Teamplay und Motivation als um die Zahl der Titel und Papers in Lebensläufen. Sicherlich ein Grund, warum ich mir diese vor Einstellungsgesprächen fast nie durchlese. ix Developer: Vielen Dank für das Gespräch. Die Fragen stellte ix-redakteur Alexander Neumann. (ane) ix Developer 2015 Big Data 15

16 GRUNDLAGEN PROJEKTMANAGEMENT Datengetriebene IT-Projekte im Wandel Seen statt Silos Thomas Franz Der Nutzen von Daten und Informationen hört nicht an Abteilungsgrenzen auf. Im Gegenteil beide entfalten erst dann ihr ganzes Potenzial, wenn es Unternehmen gelingt, genau diese Grenzen zu überwinden. Deswegen muss im Big-Data-Umfeld ein Umdenken einsetzen. Erst der berühmte ganzheitliche Blick auf Prozesse, Kunden, Produkte sowie Services und deren Lebenszyklus, inklusive der Interaktionen zwischen Nutzer und Dienst - leister oder Hersteller, erlaubt es den Verantwortlichen, die bestmögliche Entscheidung zu treffen. Fehlt dieser Einblick, müssen sie ihre Entscheidungen auf Intuition oder abgeleitete Informationen stützen. Wie aber sollen Unternehmen den Überblick behalten, wenn sie Hunderte bei größeren Unternehmen oft auch Tausende Anwendungen nutzen? Wie sollen sie die Informationen, die in Datenbanken, Logfiles, Tabellenkalkulationen, Chats oder Dokumenten gespeichert sind, zusammenbringen? Big Data bedeutet eine methodisch und technisch neue Form der Datenverarbeitung, die Antworten auf solche Fragen gibt. Big Data fordert aber auch ein Umdenken ein. Das betrifft die technische Seite des Themas, aber auch damit einhergehende methodische, organisatorische und fachliche Aspekte. Nur wenn sämtliche dieser Fragestellungen berücksichtigt und ernst genommen werden, kann die Transition zu durch Daten optimierten Geschäfts- und Produktionsprozessen gelingen. Allzu oft aber konzentrieren sich die Experten zu früh auf die Techniken. Technology last statt Technology first Techniken sind die eine Seite der Medaille. Immer noch stellen verteilte Systeme also welche, die für die Ausführung auf physisch getrennter Hardware konzipiert sind oder die Integration von Cloud-Produkten in die IT-Infrastruktur die Experten vor Herausforderungen. Dazu gehören auch die Verfahren und Abläufe, die bei solchen verteilten Systemen zum Zuge kommen: MapReduce beispielsweise, um Datenverarbeitungsprozesse auf verteilten Systemen auszuführen, oder In-Memory-Netzwerke verteilte Systeme, die hauptspeicherresidente Techniken nutzen sind die Konzepte der Stunde. Diese müssen die Fachleute erlernen und beherrschen. Darüber hinaus kommen vor dem Hintergrund heutiger Informationslandschaften etablierte Umgangsformen mit Daten an ihre Grenzen. Bisher galt die Regel: Daten kommen in die Datenbank. Gemeint sind damit häufig relationale Datenbanken. Die Arbeit mit dieser Art von Datenbank folgt typischerweise folgendem Muster: 1. Daten modellieren (in Form von Relationen, Konsistenz- und Integritätsbedingungen); 2. Daten erfassen, beispielsweise eingeben oder importieren beziehungsweise laden; 3. Daten per standardisierter Sprache anfragen, beispielsweise SQL. Ein Ansatz, der gut funktioniert, solange das Datenumfeld, in dem das Unternehmen agiert, stabil ist. Ändern sich aber die Geschäftsprozesse, sollen Datenströme verarbeitet werden oder lässt sich das Datenvolumen nur schwer oder gar nicht prognostizieren, dann wird dieses Muster zu einem Korsett, das die Weiterentwicklung von Datenverarbeitungsprozessen verzögern kann. Einen anderen Ansatz implementieren viele Big-Data-Techniken, die (horizontale) Skalierbarkeit und insbesondere dynamische Schemata anbieten. Sie ermöglichen es, Daten as is zu sammeln, also ohne vorab ein Schema zu modellieren, aber auch im Fall von Änderungen zu speichernder Daten ohne manuelle Schritte geänderte Daten sofort aufnehmen zu können. Diese Flexibilität ermöglicht zum Beispiel die Umsetzung eines Datensees, der als Senke für unterschiedlich strukturierte Informationen fungiert. (Die Idee des Data Lake geht auf James Dixon, Mitgründer und CTO von Pentaho, zurück.) Die Daten im See dürfen sich dabei verändern und lassen sich zunächst wirtschaftlich sammeln. Ein Datensee ist gleichzeitig die Basis für vielfältige Verwertungsansätze. Er setzt, im Vergleich zu beispielsweise Data-Warehouse-Ansätzen, auf eine andere Art der Arbeit mit den Daten. Darüber hinaus unterscheidet sich die verwendete Datenbanktechnik durch ihre größere Flexibilität. Diese beschleunigt den Prozess der Informationssammlung. Das gilt vor 16 ix Developer 2015 Big Data