Strategic Bulletin Juli 2012 BIG DATA. Dr. Wolfgang Martin

Transkript

1 Strategic Bulletin Juli 2012 BIG DATA Dr. Wolfgang Martin

2 Copyright Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen wurden mit größter Sorgfalt und mit wissenschaftlichen Methoden recherchiert und zusammengestellt. Eine Garantie in Bezug auf Vollständigkeit und Richtigkeit wird ausgeschlossen. Alle Rechte am dieses Strategic Bulletin, auch die der Übersetzung, liegen bei dem Autor. Daten und Informationen bleiben intellektuelles Eigentum der S.A.R.L. Martin im Sinne des Datenschutzes. Kein Teil des Werkes darf in irgendeiner Form (Druck, Photokopie, Mikrofilm oder einem anderen Verfahren) ohne schriftliche Genehmigung durch die S.A.R.L. Martin und IT Research reproduziert oder unter Verwendung elektronischer Verfahren verarbeitet, vervielfältigt oder verbreitet werden. Die S.A.R.L. Martin und IT Research übernehmen keinerlei Haftung für eventuelle aus dem Gebrauch resultierende Schäden. Copyright S.A.R.L. Martin, Annecy, und IT Research, Aying Disclaimer Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen etc. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. In diesem Werk gemachte Referenzen zu irgendeinem spezifischen kommerziellen Produkt, Prozess oder Dienst durch Markenname, Handelsmarke, Herstellerbezeichnung etc. bedeutet in keiner Weise eine Empfehlung oder Bevorzugung durch die S.A.R.L. Martin und IT Research. Gastbeiträge in diesem Strategic Bulletin sind freie Meinungsäußerungen der Sponsoren und geben nicht unbedingt die Meinung des Herausgebers wieder. S.A.R.L Martin/IT Research Juli Titel

3 Strategic Bulletin: BIG DATA sverzeichnis 1. Zusammenfassung Big Data Einführung in das Thema Big Data die Definition und die Treiber Nutzenpotenziale von Big Data Entwicklung von Big Data: Marktschätzungen Big Data-Technologien Datenhaltungssysteme Big Data Management Big Data-Analytik Big Data Roadmap Marktspieler Pentaho bei TravelTainment the amadeus leisure group Analyse großer Datenmengen und verbesserte Reporting-Services SAS High-Performance Analytics Gastbeitrag von SAS Institute Interactive Analytics für Big Data Gastbeitrag von TIBCO Spotfire SAP Real-Time Data Platform Für jede Herausforderung die richtige Lösung Gastbeitrag von SAP Die fünf wichtigsten Fragen rund um den Betrieb von SAP HANA Gastbeitrag von RealTech Big Data aus Sicht eines CIO Gastbeitrag von InterSystems Roadmap für Kunden (Nutzer von Big Data) Big Data quo vadis Realität Trends 2013/ Profil: Wolfgang Martin Team und IT Research Profil: Die Sponsoren InterSystems Pentaho REALTECH AG SAP AG SAS Institute TIBCO Software Inc S.A.R.L Martin/IT Research Juli Titel

4 1. Zusammenfassung Big Data Definition, Treiber, Nutzen und Markt Big Data wird über vier Eigenschaften definiert: das Datenvolumen, die Vielzahl von Datenquellen, die Geschwindigkeit der Datenproduktion und die steigende Anzahl von Nutzern, die sich mittels Analysen die Potenziale von Big Data erschließen wollen. Big Data bedeutet also nicht nur ein riesiges, immer grösser werdendes Datenvolumen, sondern aufgrund der Vielzahl von Datenquellen auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander. Heute schätzt man, dass 90% aller Daten im Big Data unstrukturiert sind. Die wahre Flut von Daten wartet aber nicht nur im Web auf uns. Die Menge und Diversität der Quellen ist in der Tat mannigfaltig: Neben den Quellen im Web wie Portalen, Web-Applikationen, Social Media, Videos, Photos, Lokalisierungsdaten, um nur einige zu nennen, finden sich viele Quellen in Branchen-bezogenen Medien, beispielsweise im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf), wo in den letzten Jahren das Datenvolumen geradezu explodiert ist. Die prominentesten Produzenten von Big Data sind soziale Medien (allein fast 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere. Für Unternehmen bietet die Analyse von Big Data die Möglichkeit, Wettbewerbsvorteile zu erzielen, Einsparungen und Umsatzsteigerungen zu realisieren und innovative, neue Geschäftsfelder zu schaffen. Das unterstreichen die folgenden ausgewählten Beispiele: Optimierung und Personalisierung von Werbemaßnahmen und Steigerung von Cross- und Up-Selling aufgrund von besserem Kunden- und Marktwissen, Besseres Risiko-Management in Zahlungs- und Handels-Strömen durch Entdeckung von Abweichungen und Unregelmäßigkeiten, Aufbau flexibler und intelligenter Abrechnungssysteme in der Versorgung (Strom, Wasser, Gas) und Telekommunikation, Erkennen von Interdependenzen und automatisierte Hypothesenbildung in Wissenschaft und Forschung Wenn man sich diese Beispiele genauer anschaut, so lassen sich fünf Nutzenpotenziale erkennen: Transparenz durch Big Data, Testen aller Entscheidungen, Personalisierung in Echtzeit, verbesserte und optimierte Prozess-Steuerung und Automatisierung und innovative Informations-getriebene Geschäftsmodelle. Trotz der Möglichkeiten, die Big Data bietet, muss man heute noch Vorsicht im Umgang mit Big Data walten lassen: Der Markt für Big Data ist noch jung und unreif. Es fehlt an Erfahrung, im Umgang mit Big Data, es fehlen Experten, die in den Unternehmen erfolgreich Big Data-Initiativen und Strategien aufbauen können, und die neuen Technologien zur Beherrschung von Big Data befinden sich auch erst in sehr frühen Entwicklungsphasen. Wer allerdings jetzt nicht mit den Vorbereitungen zum Management von Big Data beginnt, der könnte in ein bis zwei Jahren aber den Anschluss verpasst haben und von seinen Mitbewerbern oder innovativen Neueinsteigern überholt werden, deren Geschäftsmodell durch Big Data-Nutzung effektiver ist und effizienter arbeitet. Man erinnere sich an Amazon, deren Geschäftsmodell anfangs belächelt und kritisiert wurde, die aber heute zu den Marktsiegern zählen. S.A.R.L Martin/IT Research Juli

5 Big Data Technologien In Folge dieser Datenflut ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes und mehr von Daten zu lesen und zu durchsuchen, nutzt man heute analytische oder NoSQL 1 -Datenhaltungssysteme. Hier werden unterschiedliche Software- und Hardware-Technologien teilweise auch miteinander kombiniert: Objekt-Orientierung, Spalten-Orientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle sogenannte Data Appliances, um die gängigsten zu nennen. Ein dritter Ansatz zur Beherrschung von Big Data kommt vom Open Source-System Hadoop, das das Potenzial hat, den Standard der Zukunft zu setzen. Diese zu SQL alternativen Datenhaltungssysteme sind so konzipiert, dass Tuningaufwände, die in konventionellen Systemen notwendig sind und Zeit und Ressourcen kosten, nahezu entfallen. Die Datenhaltungslösung legt in der Regel Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Solche Datenbanken lassen sich natürlich auch as a Service mittels Cloud Computing betreiben. Big Data treibt auch neue Methoden und Technologien im Big Data Management. Beim Data Management geht es zwar immer noch um Integration, Lineage und Qualität, aber im Big Data kommt noch einiges hinzu: So ist eine neue Klasse von Integrationswerkzeugen zur agilen Web- und Cloud-Integration entstanden, um beispielsweise auch auf Datenquellen zuzugreifen, die keine API-Schnittstelle haben. Plattformen zur Datenintegration werden durch Selbstoptimierung beschleunigt und um Hadoop-Verarbeitung ergänzt. Daneben werden die bekannten Verfahren zum Data Management parallelisiert und Cluster-fähig, denn die Anforderungen an den Durchsatz steigen natürlich erheblich mit Big Data. Service-Orientierung der Infrastruktur und Verarbeitung in Echtzeit sind jetzt im Big Data unabdinglich geworden. Die traditionellen BI-Werkzeuge erweisen sich ebenfalls als unzureichend für Big Data-Analytik. Data Discovery steht jetzt ganz vorne in der Bedeutung. Dazu gehören Filtern und Visualisieren von Daten, kollaborative Werkzeuge zur Teamarbeit, intuitive Benutzerschnittstellen und eine neue Generation von Geräten wie die Tablets, damit man in den Fachabteilungen produktiv und erfolgreich arbeiten kann. Im Fokus steht hier jetzt auch Location Intelligence, die Erweiterung von Business Intelligence um die Dimension Raum. Denn im mobilen Internet konvergieren jetzt Information, Zeit und Raum. Die Lokalisierungsdaten aus Smartphones und Navigationsgeräten erlauben eben ganz neue Typen von Analysen. Dazu kommen neue analytische Methoden und Verfahren wie die Textanalytik. Textanalytik ist eine neue Klasse von Analytik insbesondere für unstrukturierte Daten, die linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen. Solche neuen Methoden und Technologien erfordern auch neue Rollen wie die der Data Scientists, die als Mittler zwischen der IT und den Fachabteilungen den weiteren Ausbau der Zusammenarbeit treiben, die Verarbeitung von Big Data fördern und helfen, die Potenziale von Big Data auch zu realisieren. Das erfordert auch neue Skills und eine Neuorientierung der IT: Die IT muss in den Zeiten von Big Data den Hauptfokus auf Data Management legen. Big Data Roadmap Die Analyse von Big Data muss wie jede andere Analyse auch in eine Strategie eingebettet sein. Eine Big Data- Strategie sollte sich dabei an den drei Typen von Big Data-Analysen ausrichten: agiles Big Data, ein auf die Kosten achtender Ansatz, der darauf abzielt, schnell die Nutzenpotenziale von Big Data zu erschließen, 1 NoSQL = not only SQL S.A.R.L Martin/IT Research Juli

6 operatives Big Data, ein Ansatz, eine permanente und robuste Infrastruktur für Big Data-Analysen zu etablieren, High Resolution Management, ein innovatives Modell zur Unternehmenssteuerung, wobei man den Schritt macht vom traditionellen Ansatz einer informationsarmen Welt, in der Entscheidungen im Wesentlichen auf Erfahrungswissen beruhen, zu einem neuen Ansatz einer informationsreichen Welt, in der Entscheidungen daten-getrieben getroffen werden. Die Nutzer von Big Data stehen vor fünf Herausforderungen, die (wie immer) nicht nur im Meistern der Technologie bestehen, sondern vor allem in der Organisationsstruktur (Wie stelle ich mich für Big Data auf?) und in der Vorgehensweise (iterativ Hypothesen finden und testen) bestehen. Vor allen Dingen muss auch der Erfolg von Big Data-Analysen durch kontinuierliches Testen in seinen Auswirkungen auf Kunden- und Marktverhalten gemessen und monetär bewertet werden. Big Data Quo Vadis Natürlich darf man nicht die Kritik an Big Data vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit. Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data überhaupt repräsentativ sein kann. Trotz der Kritik an Big Data: die Big Data-Vorreiter Amazon, ebay, Facebook und Google zeigen, dass Big Data- Potenziale existieren und geldwerten Vorteil bringen können. Bei aller Skepsis zum Hype um Big Data: Die IT-Anbieter investieren große Summen und erwarten viel von diesem schnell wachsenden Markt. Schließlich sollte man auch nicht vergessen, dass all die genannten Datenquellen sprudeln. Die Informationsproduktion der digitalen Welt ist enorm und gleichzeitig stehen mächtige Analyseverfahren aus Mathematik, Statistik, Linguistik und aus der Welt der künstlichen Intelligenz zur Verfügung, mit denen man in der Tat Hypothesen finden kann, die sich kein Mensch je ausgedacht hätte. Das ist der Reiz, genauso wie im traditionellen Data Mining jetzt im Big Data Nuggets zu finden, nur noch grösser und wertvoller. S.A.R.L Martin/IT Research Juli

7 2. Big Data Einführung in das Thema 2.1 Big Data die Definition und die Treiber Von der Datenflut ( data deluge ) haben wir schon Anfang der 90er Jahre gesprochen. Insofern ist das Thema Big Data nicht wirklich neu. Auch die Technologien, mit denen wir heute versuchen, Big Data zu speichern und zu analysieren, stammen zum Teil auch aus den frühen 90er Jahren, beispielsweise die Konzepte zu spalten-orientierten Datenbanken oder massiv paralleler Verarbeitung. Der Handel war eine der Branchen, die sich schon seit langem mit Big Data auseinandersetzen mussten: Die Analyse von Kassenbons kann ein für den Handel entscheidendes Wissen über das Kundenverhalten geben, so dass das kundenbezogene Prozesse personalisiert und optimiert werden können. Dennoch ist Big Data erst seit rund einem Jahr das Thema, das den Markt elektrisiert. Was ist heute anders als vor 10 oder 20 Jahren? Um Antworten zu finden, beginnen wir mit der grundlegenden Definition von Big Data. In vielen Quellen zu Big Data (beispielsweise im O Reilly Radar 2 ) wird Big Data durch drei Eigenschaften charakterisiert: Volume, Velocity und Variety. Diese drei Eigenschaften in Kombination machen die Komplexität von Big Data aus. Ich sehe da noch eine weitere, vierte Eigenschaft, die ebenfalls zur Komplexität beiträgt: den steigenden Bedarf an Analysen durch mehr und mehr Verbraucher von Information im und von Big Data. Das Ganze lässt sich dann recht kompakt zusammenfassen: Die Big Data-Herausforderung : Immer mehr Nutzer wollen in nahezu Echtzeit die Daten aus der immer mehr ausufernden Datenflut und aus immer mehr und unterschiedlichsten Quellen analysieren. Schauen wir uns diese vier Big Data definierenden Eigenschaften jetzt genauer an. Extremes und anhaltendes Wachstum des Datenvolumens ( Volume ). Allein im Jahr 2011 hat die Menschheit 1,8 ZB neue Daten produziert. (1 Zetta Byte = 1 Milliarde Tera Bytes). Die Menge der Daten im Unternehmen und außerhalb des Unternehmens, die zu verarbeiten sind und die verarbeitet werden können, wächst ständig und immer schneller. Dabei handelt es sich sowohl um strukturierte wie um unstrukturierte Daten. Zu den letzteren zählen nicht nur Formulare und Textdokumente, sondern auch Abbildungen, Fotos, Audio und Video-Aufzeichnungen etc. So ist nicht nur im Handel, sondern beispielsweise auch im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf) in den letzten Jahren das Datenvolumen geradezu explodiert. Information hat den größten Wert, wenn sie neu und aktuell ist ( Velocity ). Denn Dinge in der heutigen digitalisierten und vernetzten Welt passieren jetzt und überall. Daher brauchen wir Information, hier und jetzt. Die Verarbeitung und Analyse vieler unterschiedlichen Daten muss dazu in nahezu Echtzeit erfolgen, denn von diesen Daten hängen beispielsweise Steuerungs- und Abrechnungssysteme ab. Oder wollen sie als Fußgänger auf Basis eines Photos, das vor fünf Minuten gemacht wurde, eine Straße überqueren? Die Anzahl der Datenquellen nimmt ebenfalls massiv zu ( Variety ). Die prominentesten Produzenten sind soziale Medien (allein über 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, um nur einige zu nennen, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere. Viele dieser Quellen erzeugen zudem beständig fließende nicht versiegen wollende Datenströme. Die Zahl der Nutzer von Big Data steigt ebenfalls ( Verbraucher ). Die in dieser extremen Menge von Daten verborgene Information und das darin verborgene Wissen wollen sich mehr und mehr Unternehmen und innerhalb 2 Zugriff am auf S.A.R.L Martin/IT Research Juli

8 der Unternehmen mehr und mehr Fachbereiche zu nutzen machen. Es sind dies entweder immer mehr Mitarbeiter in diversen Fachabteilungen, die Information beispielsweise über Kunden, Mitbewerber und Markt benötigen, oder Systeme, die über Information aus dem Big Data gesteuert werden wie die Überwachung und Steuerung von Netzwerken aller Art (Telefonie, Computer, Luft-, Straßen- und Eisenbahn-Verkehr etc.). Jeder dieser vier Trends (Volume, Velocity, Variety, Verbraucher) an sich stellt eine große Herausforderung an die Informationstechnologie dar. Jetzt aber gilt es, diese vier Anforderungen gemeinsam zu meistern. Die fast beliebig vielen Formen, Typen und Mengen von Daten zu einer Fragestellung im Unternehmen gepaart mit der beliebig großen Zahl von Informationsverbrauchern zeigen, dass Big Data eine neue, zusätzliche Dimension von Information darstellt. Das unterscheidet Big Data in der heutigen digitalisierten und vernetzten Welt von der Situation vor 10 oder 20 Jahren. Die traditionellen Business Intelligence (BI)-Technologien zu Datenhaltung, Daten-Management und Analytik stoßen im Big Data an ihre Grenzen, ja, man kann sogar sagen, sind teilweise obsolet geworden. Nicht mehr geeignet sind traditionelle relationale Datenbanken, die am Datenvolumen scheitern. Nicht mehr geeignet sind traditionelle ETL- Prozesse zum Laden von Data Warehouses und Datamarts. Sie sind nicht nur zu langsam, sondern kommen auch mit der Vielfalt und Beschaffenheit der Quellen nicht klar. Nicht mehr geeignet sind traditionelle BI-Werkzeuge, die auch viel zu langsam sind, in der Regel nicht zur Analyse unstrukturierter Daten ausgelegt sind und bis zum Aufkommen von Tablets auch immer noch nicht die Benutzerfreundlichkeit hatten, um wirklich in den Fachabteilungen akzeptiert zu werden. Heutige Speicher-Lösungen wie Virtualisierung, Datendeduplizierung oder Storage Management erweisen sich auch als unzureichend, weil die Datenmengen nicht mehr homogen vorliegen, sondern sich strukturiert und unstrukturiert auf verschiedenen Speichersystemen befinden. Jetzt sind Innovationen auf allen Ebenen gefragt, sonst gibt es keine neuen und wettbewerbsentscheidenden Einsichten in Kunden- und Marktverhalten! Mit anderen Worten, Big Data-Technologien umfassen Software, Hardware und Services. Bei der Software gehören zu den Big Data-Technologien alternative Datenhaltungssysteme, Big Data Management und Big Data-Analytik. Darauf wollen wir in diesem Strategic Bulletin den Fokus legen. 2.2 Nutzenpotenziale von Big Data Im Big Data steckt großes Potenzial, vor allem viel Wissen, das man sich nur erschließen muss. Aber das Potenzial an Wissen ist nicht so einfach zu erschließen, denn ein solcher verwobener Mix aus riesigen, unüberschaubaren und fragmentierten Daten macht es schwierig, die Daten zu identifizieren, zu extrahieren, zu speichern, zu verwalten und zu analysieren. Bevor wir uns aber die dazu notwendigen Innovationen anschauen, wollen wir die Nutzenpotenziale verstehen und erkennen, wie wir vom Big Data profitieren können. Beginnen wir dazu mit zwei Beispielen. Beispiel: Big Data im Handel. Im Handel kämpft man schon lange mit sehr großen Datenmengen, den Kassenbon-Daten beispielsweise. In den Kassenbon-Daten steckt viel Kundenwissen, denn sie eignen sich gut, um die Produktprofitabilität pro Kunden auszurechnen. Das ist eine wichtige Kennzahl zur Steuerung von personalisierten Kampagnen und Echtzeit-Produktempfehlungen, also eine im analytischen CRM typische Kennzahl im Handel für die Outbound- und Inbound-Kundenkommunikation. Nur konnte man mit den traditionellen BI-Werkzeugen diese Kunden/Produkt-Profitabilität-Kennzahl nicht ausrechnen, da das zugrunde liegende Datenvolumen zu groß war und die Analysen einfach zu lange dauerten, um beispielsweise im Rahmen von Kundeninteraktionen Empfehlungen in Echtzeit auszusprechen. Mit Big Data-Technologien lässt sich das Problem lösen. Beispiel: Stimmungsanalysen in den Social Media. Insbesondere die Konsumgüterhersteller interessieren sich für die Meinungen aller Marktteilnehmer zu den eigenen Produkten und Marken ebenso im Vergleich dazu zu den Produkten und Marken der Mitbewerber. Hier bieten die Social Media neue und ergiebige Quel- S.A.R.L Martin/IT Research Juli

9 len. Neben der Chance, Zielgruppen mit chirurgischer Präzision zu bearbeiten, bringen Social Media aber auch Risiken: In Blogs, Foren und Tweets wird schlicht und einfach alles über Produkte und Unternehmen gesagt inklusive echter Lügen: Expertenforen können schnell und nachhaltig Werbesprüche entzaubern. Zur Auswertung all dieser Kommunikation in den Social Media beginnt man mit dem Identifizieren und Extrahieren der relevanten Quellen im Big Data. Dann gilt es, diese Quellen auszuwerten. Das liefert nicht nur statistische Information, wo und wie viele Spuren sich im Web und in den Social Media befinden, sondern mit Hilfe von Stimmungsanalysen (sentiment analysis) lässt sich auch die Tonalität der Beiträge bestimmen. Auf Basis eines Social Media Monitoring kann im nächsten Schritt eine Social Media Interaktion aufgebaut werden. Das Unternehmen kann jetzt auf relevante Beiträge sofort reagieren und intervenieren. Das bringt Vorteile vor allem im Kundenservice oder bei der Einführung neuer Produkte im Markt, da sich sofort eine Kommunikation mit Communities im Web aufbauen und unterhalten lässt. So sind beispielsweise schon in verschiedenen Service-Call Centern die Agenten auch zu Social Media-Agenten geworden, die jetzt eine Multikanal-Kommunikation mit den Kunden über die traditionellen und die Social Media-Kanäle führen können. Das ist der Schritt von Outbound- und Inbound-Kundenkommunikation zur Unbound-Kundenkommunikation. So schafft man eine gesteigerte Time-to-Market und eine höhere Kundenbindung bei einer vergleichsweise überschaubaren Investition. Wenn man sich diese Beispiele genauer anschaut, dann lassen sich fünf Nutzenaspekte von Big Data erkennen. Die fünf Nutzenaspekte von Big Data 1. Transparenz durch Big Data. Ein Hersteller von Konsumgütern will beispielsweise wissen, wie Konsumenten seine Marken und Produkte und/oder die seiner Mitbewerber in den einschlägigen Blogs diskutieren und bewerten. Oder eine Hotelkette interessiert sich für das elektronische Feedback ihrer Gäste und/oder für die Bewertungen der Mitbewerber. Auch eine ganz neue Art der Wettbewerbsbeobachtung ist mittels der öffentlich zugänglichen Satellitenbilder machbar. Man kann so Hinweise über Fabrikkapazitäten erhalten, rechtzeitig Expansionen erkennen oder auch topologische Beschränkungen, die Expansionen des Mitbewerbers behindern können. Alles wird möglich, wenn all diese Daten im Unternehmen zugreifbar und auswertbar werden. In der Verbindung mit den Unternehmenskundendaten erhält man so nicht nur eine 360 -Sicht auf den Kunden, wie immer im CRM gefordert, sondern sogar eine 360 -Sicht auf den gesamten Markt: Mitbewerber, Kunden der Mitbewerber, Presse, Marktmultiplikatoren etc. Denn im Big Data spiegelt sich ja der Markt mit allen Marktteilnehmern wieder. Um von diesem Nutzenaspekt zu profitieren, muss das Silo-Denken in den Unternehmen endlich aufhören. Das Sammeln von Fachabteilungs-bezogenen Daten ist nicht ausreichend, um Kunden- und Marktwissen durch Big Data aufzubauen. Im Finanzwesen ist es immer noch üblich, Daten über die Finanzmärkte, über den Zahlungsverkehr und das Kreditwesen getrennt zu halten und nicht über Abteilungsgrenzen hinweg zu nutzen. Das hindert den Aufbau kohärenter Kundensichten und das Verstehen der Beziehungen und Beeinflussungen zwischen Finanzmärkten. 2. Testen aller Entscheidungen. Big Data bietet die Möglichkeit, das Treffen von Entscheidungen grundlegend zu ändern. Mittels kontrollierter Experimente können Hypothesen getestet werden. Das erlaubt, Entscheidungen und Maßnahmen auf Basis von Fakten zu treffen. So lassen sich auch Ursache-Wirkungsbeziehungen von reinen Korrelationen unterscheiden. Internet-Unternehmen wie Amazon und ebay waren mit bei den ersten, die solche kontrollierten Experimente nutzten, um die Konversionsraten von Besuchern ihrer Webseiten zu steigern. Dazu wurden gezielt bestimmt Funktionen und Verbindungen auf Webseiten geändert und die Wirkung entsprechend gemessen. So konnten die Faktoren ermittelt werden, die die Konversionsraten steigern. Mittels des mobilen Internets kann jetzt die Wirkung von Außenwerbung bezogen auf den Standort gemessen und entsprechend optimiert werden. Das wird durch die Klickraten auf den QR-Codes auf Werbeflächen ermöglicht. So lässt sich im Big Data auch ein cross-mediales Marketing aufbauen. Die Konzepte des kontrollierten Testens von Änderungen von Webseiten werden heute auch in der realen Welt machbar. Das geschieht nicht nur durch die QR-Codes, sondern auch beispielsweise mittels Video-Aufzeichnungen von Kundenbewegungen in Kombination mit Kundeninteraktionen und Bestellmustern, die sich in S.A.R.L Martin/IT Research Juli

10 Transaktionsdaten verbergen. Durch kontrollierte Experimente lassen sich so Produkt-Portfolios und -Platzierungen sowie Preise kontinuierlich und gezielt verbessern. Daraus folgt eine Kosteneinsparung durch mögliche Reduktionen des Produktangebots ohne Risiko des Verlustes von Marktanteilen und sowie eine Steigerung der Marge durch den Verkauf höherwertiger Produkte. 3. Personalisierung in Echtzeit. Kunden- und Marktsegmentierung hat eine lange Tradition. Jetzt mit Big Data gibt es völlig neue Möglichkeiten durch Echtzeit-Personalisierung von Kundeninteraktionen. Im Handel kennen wir solche Strategien bereits von den Big Data-Vorreitern wie Amazon und ebay, aber auch von sozialen Netzen, wo uns Freundschaften vorgeschlagen werden. Natürlich profitiert man auch in anderen Branchen von solchen personalisierten Kundeninteraktionen, beispielsweise im Versicherungswesen. Hier können Versicherungspolicen auf den Kunden individuell zugeschnitten werden. Als Datenbasis dazu dienen kontinuierlich angepasste Profile der Kundenrisiken, Änderungen in der Vermögenslage oder auch Lokalisierungsdaten. Kraftfahrzeuge können mit speziellen Sendern ausgerüstet werden, so dass sie über eine Lokalisierung im Falle eines Diebstahls wiedergefunden werden können. 4. Prozess-Steuerung und Automatisierung. Big Data erweitert den Einsatz von Analytik zur Prozess-Steuerung und Automatisierung. So können Sensor-Daten von Produktionsstraßen zur Autoregulierung von Produktionsprozessen genutzt werden. Damit lassen sich Kosteneinsparungen durch optimalen Materialeinsatz und durch Vermeidung von menschlichen Eingriffen erzielen, wobei gleichzeitig der Durchsatz erhöht werden kann. Proaktive Wartung ist ein anderes Einsatzgebiet. Maschinen können kontinuierlich über Sensoren überwacht werden, so dass auftretende Unregelmäßigkeiten sofort erkannt werden und rechtzeitig beseitigt werden können, bevor Schäden auftreten oder es zum Stillstand kommt. Andere Beispiele stammen aus der Konsumgüter-Branche. Getränke oder auch Speiseeis-Hersteller nutzen die täglichen Wettervorhersagen, um die eigenen Nachfrageplanungsprozesse an das aktuelle Wetter anzupassen. Dabei sind die Messdaten zur Temperatur, zur Niederschlagsmenge und zur täglichen Sonnenscheindauer entscheidend. Dieses Wissen erlaubt eine Prozessoptimierung durch die Verbesserung der Vorhersagewerte um einige Prozent. 5. Innovative Informations-getriebene Geschäftsmodelle. Big Data erlaubt auch neue, innovative Geschäftsmodelle auf der Basis von Information. Preis-Information wurde früher vielfach vertraulich behandelt. Heute in den Zeiten des Internets und Internethandel sind Preise in der Regel öffentlich verfügbar. Das erlaubt den Internet- und anderen Händlern die Preise des Mitbewerb zu überwachen und rechtzeitig auf Preisänderungen zu reagieren. Das erlaubt aber auch den Kunden, sich über die Preise zu informieren und so den besten Preis für ein gewünschtes Produkt zu erzielen. Darauf haben sich einige Anbieter spezialisiert, die über Konsolidierung, Aggregieren und Analyse von Preisinformation ihr eigenes Geschäftsmodell gefunden haben. Das gilt nicht nur im Handel, sondern auch im Gesundheitswesen, wo durch solche Information-Anbieter die Behandlungskosten transparent gemacht werden. 2.3 Entwicklung von Big Data: Marktschätzungen Der Big Data-Markt besteht wie bereits im Kap. 2.1 definiert aus Software, Hardware und Services. Zur Big Data- Software werden Datenhaltungssysteme, Daten-Management und Analytik gezählt, die den Belangen und Herausforderungen von Big Data gerecht werden. Dazu gehören insbesondere: Datenhaltungssysteme wie Hadoop, NoSQL-Datenbanken und analytische Datenbanken, eine neue Generation von Data Warehouse Software- und Hardware-Technologien, Big Data Management, i.e. Daten-Management angewandt auf Big Data, Big Data analytische Plattformen und Applikationen inklusive neuer Konzepte zur Daten-Visualisierung, Data Discovery, Textanalyse etc. mit Fokus auch auf die Analyse unstrukturierter Daten. Diese Technologien diskutieren wir im Kapitel 3 im Einzelnen. S.A.R.L Martin/IT Research Juli

11 Big Data-Services entsprechen den traditionellen Services wie Support, Training sowie Beratungs- und Entwicklungs-Dienstleistungen, jetzt bezogen auf Big Data. Big Data-Hardware umfasst alle Typen von Hardware, jetzt angewandt auf Big Data. Neu sind hier insbesondere Data Appliances, gebündelte und aufeinander abgestimmte Software- und Hardware-Lösungen, meist auch noch kombiniert mit den entsprechenden Dienstleistungen. Am Jahresanfang 2012 ist dieser Big Data-Markt noch ein recht überschaubarer Markt, der laut Wikibon ( einer Professional Community, gerade mal auf $5 Milliarden (Software, Hardware und Services) geschätzt wird. Aber dieser Markt soll in den nächsten 5 Jahren auf $50 Milliarden wachsen (Abb. 1). Das macht ein CAGR von 58% von heute bis Anbieter wie EMC sprechen sogar von $70 Milliarden als Zielgröße. Die Gründe für dieses rasante Wachstum haben wir ja bereits in den beiden vorigen Kapiteln diskutiert: Die Nutzenpotenziale, die Analysen im Big Data versprechen, zielen direkt auf die Bottom Line der Unternehmen in allen Branchen: Umsatzsteigerungen, Kosteneinsparungen, Erhöhung der Wettbewerbsfähigkeit und neue, innovative Geschäftsmodelle. Wer will da zurückstehen? Entwicklung von Big Data Big Data Market Forecast, ( in $ US billions) $60.0 $50.0 $ 48.0 $ 53.4 Markt- und Potenzialschätzungen: Anbieter wie EMC sprechen von $ 70b. Investitionen in Hadoop: $ 350m. $40.0 $30.0 $ 32.1 Big Data ist mehr als ein Hype. $20.0 $10.0 $ $ 5.4 $ 10.2 $ Quelle: Wikibon - S.A.R.L. Martin 2012 Abbildung 1: Wikibon s 5 Jahres-Vorhersage für den Big Data-Markt (Software, Hardware, Services weltweit). Aber trotz aller Euphorie für die Marktentwicklung und die Zukunft: Noch wird im Big Data-Markt nicht das große Geld verdient. Wikibon hat dazu die Umsätze der reinen Big Data-Anbieter 2011/2012 ermittelt. Als reiner Big Data-Anbieter zählt dabei ein Software-, Hardware- oder Service-Anbieter, der mehr als 50% seines Umsatzes mit Big Data macht. Der Gesamtumsatz dieser Anbieter (Februar 2012) macht gerade mal $311 Millionen aus, also gerade mal rund 5% des Gesamtumsatzes im Big Data-Markt (Abb. 2). Aber umgekehrt sind es genau diese Anbieter, auf die nahezu alle Innovationen und alternativen Ansätze zu Data Management und Analytik zurückgeführt werden können. Und diese Anbieter sind deshalb auch das Ziel von Übernahmen durch die großen IT-Anbieter: HP hat Vertica, Teradata Asterdata und EMC Greenplum übernommen. Das zeigt, dass sich die großen IT-Anbieter ihren Anteil an diesem Wachstumsmarkt sichern. Das unterstreicht auch, dass die Markteinschätzungen zum Wachstum nicht unbedingt aus der Luft gegriffen sind, da die großen Anbieter hier investieren. So sind beispielsweise in das Apache OpenSource-Projekt Hadoop bisher $350 Millionen geflossen. S.A.R.L Martin/IT Research Juli

12 Big Data-Anbieter 2011/12 Big Data Pure-Play Vendors, Yearly Big Data Rvenue ( in $ US millions) $90 $84 $80 $70 $60 $52 $50 $40 $30 $20 $10 $0 Total Big Data Pure Play Revenue: $310 million $45 $43 $43 $18 $8 $7 $10 $6 $3 $3 $2 $2 $2 Vertica Aster Data Splink Greenplum 1010data Cloudera Think Big Analytics MapR Digital Reasoning Hortonworks DataStax HPCCSystems Datameer Karmasphere Other Quelle: Wikibon - S.A.R.L. Martin 2012 Abbildung 2: Weltweiter Jahresumsatz der führenden reinen Big Data-Anbieter bezogen auf Februar Die reinen Big Data-Anbieter sind definiert als Anbieter von Software, Hardware oder Services, die mehr als 50% mit Big Data umsetzen. Diese gezeigten Zahlen spiegeln nur diese Umsätze wieder. Big Data-Umsätze großer IT-Anbieter Total 2012 Big Data Revenue by Vendor Vendor Big Data Revenue Total Revenue Big Data (in $ US millions) (in $US millions) Revenue as Percentage of Total Revenue IBM $1,100 $106,000 1% Intel $765 $54,000 1% HP $550 $126,000 0% Oracle $450 $36,000 1% Teradata $220 $2,200 10% Fujitsu $185 $50,700 1% CSC $160 $16,200 1% Accenture $155 $21,900 0% Dell $150 $61,000 0% Seagate $140 $11,600 1% EMC $140 $19,000 1% Capgemini $111 $12,100 1% Hitachi $110 $100,000 0% Quelle: Wikibon - S.A.R.L. Martin 2012 Abbildung 3: TOP-Anbieter, die mehr als $100 Millionen Umsatz im Big Data machen (Software, Hardware, Services weltweit). Mit Ausnahme von Teradata liegt der Big Data-Umsatzanteil bei allen Anbieten bei rund 1% des Gesamtumsatzes oder sogar darunter. S.A.R.L Martin/IT Research Juli

13 Wie sieht nun der $5 Milliarden Big Data-Markt in 2012 aus, wenn die reinen Big Data-Anbieter gerade mal mit 5% zum Markt beitragen? Es dominieren wie immer die großen IT-Anbieter, und die haben sich alle Big Data auf die Fahnen geschrieben. In der Abbildung 3 listen wir der Wikibon- Schätzung folgend alle IT-Anbieter, die mehr als $100 Millionen Umsatz mit Big Data machen. Die SAP ist noch nicht dabei, steht aber mit geschätzten $85 Millionen kurz vor dieser Schwelle. Bei den Zahlen fällt zum einen auf, dass im Augenblick viel Geschäft mit Hardware und auch mit Services (beispielsweise IBM) gemacht wird, und zum anderen, dass mit Ausnahme von Teradata bei allen Anbieter der Big Data-Umsatz vernachlässigbar klein ist. Aber das soll sich ja ändern, wenn auch völlig klar ist, dass wir mit Big Data ganz am Anfang stehen. Auch ist in diesem Markt mit vielen Übernahmen der kleinen innovativen Software-Anbieter durch die großen IT-Anbieter zu rechnen ganz analog zur BI-Übernahmewelle in den Jahren 2007/08. Fazit Kapitel 2: Big Data Definition, Nutzen und Markt: Big Data bedeutet nicht nur ein großes Datenvolumen, sondern ist durch die vier V definiert: Volume, Velocity, Variety und Verbraucher. Die Nutzenpotenziale von Big Data liegen auf der Hand und zielen auf die Bottom Line: Kosteneinsparungen, Umsatzsteigerungen, Erhöhung der Wettbewerbsfähigkeit und innovative Geschäftsprozesse und Modelle. Der Markt ist jung und unreif. Wir stehen ganz am Anfang, aber eine Explosion des Marktes ist zu erwarten: Big Data ist ein großer und schnell wachsender Markt. Unternehmen sollten den Big Data-Markt beobachten, um nicht den Anschluss zu verlieren. Es empfiehlt sich, Nutzenpotenziale für das Unternehmen jetzt zu identifizieren und in Abhängigkeit von einer solchen Analyse erste Piloten zu starten. Anbieter sollten eine glaubwürdige Position aufbauen und eine Roadmap, die klar erkennbare Werte bietet und die notwendige Flexibilität, um im Big Data-Markt zu prosperieren. S.A.R.L Martin/IT Research Juli

14 3. Big Data-Technologien Analytik ist im Zeitalter von Big Data wichtiger denn je, denn nur mit Analytik lassen sich die Big Data-Nutzenpotenziale erschließen. Es ist aber nicht nur das Volumen, das die Herausforderung an Analytik darstellt, sondern auch die Variety, also die Menge und Diversität der Quellen, sowie die Velocity, also die Geschwindigkeit der Datenproduktion. Big Data treibt daher auch neue Integrationswerkzeuge zur agilen Web- und Cloud-Integration und zum Big Data Management sowie den Einsatz innovativer Datenhaltungs-Technologien, um die Petabytes, sogar Exabytes von Daten auswerten zu können: Analytische und NoSQL Datenbanken, die innovative Algorithmen zum Zugriff- und Speicher-Management mit innovativen Ansätzen wie Spalten-Orientierung und innovativer Hardware-Technologie wie In-Memory-und verteilter Verarbeitung miteinander verbinden. Dazu kommen neue analytische Methoden und Verfahren zur Visualisierung und insbesondere zur Analyse unstrukturierter Daten wie die Textanalytik. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen. Big Data als Quelle für Analytik Social Media Lokalisierungsdaten Call Data Records Data Discovery Location Intelligence RFID Ereignisse Sensoren Operative Daten Big Data Quellen- Identifikation Quellen- Extraktion Textanalytik Data/ Text Mining Search Files, XML, Spreadsheets Anreicherung Data Warehouse Maschinendaten Big Data-Management Big Data-Analytik Analytische und Not only SQL (NoSQL)-Datenhaltungssysteme S.A.R.L. Martin 2012 Abbildung 4: Big Data-Architektur. Die Big Data-Datenflut wird durch spezielle Datenhaltungssysteme adressiert. Big Data bedeutet nicht nur die Datenflut, sondern auch eine Vielzahl unterschiedlichster Quellen im Internet, die meist nicht über Schnittstellen verfügen oder die Schnittstellen haben, die nicht den vollen Datenzugriff erlauben. Hier helfen agile Web-Integrations- und Extraktionswerkzeuge, die Daten auch ohne Schnittstellen abgreifen können. Zusätzlich sind auch semantische Suchmaschinen zur Quellenidentifikation entsprechend vordefinierter Relevanzmaße notwendig. Daten-Management muss darüber hinaus die neuen Zugriffsmethoden wie MapReduce und andere unterstützen. Big Data-Analytik adressiert ebenfalls die neuen in der Abbildung gezeigten Themen. 3.1 Datenhaltungssysteme Wenn die zu analysierende Datenmenge in Form von Volumen und Quellenvielzahl schneller steigt als die Leistung von traditionellen Datenbanken, schafft man es einfach nicht mehr, Daten im Detail zu analysieren, da es schlichtweg gesagt zu lange dauert. Gartner sagt in seinem Bericht zum Magic Quadrat for Data Warehouse Database Management Systems 2010: Gartner-Klienten stehen bei der Abfrage von Data Warehouses immer häufiger vor erheblichen Performanceproblemen. Auf Grundlage dieser Informationen dürften rund 70 % aller Data Warehouses mit derartigen Problemen zu kämpfen haben. S.A.R.L Martin/IT Research Juli

15 Klassifikation: Datenhaltungssysteme Teradata Cassandra Intersystems Couch DB analytisch Hadapt Hive HBase NoSQL Hadoop S.A.R.L. Martin 2012 Abbildung 5: Klassifikation der zu den relationalen Datenbanken alternativen Datenhaltungssysteme für Big Data. Die genannten Produkte sind als Beispiel eines Vertreters dieser Klassen zu verstehen. In die Schnittmenge der analytischen und der NoSQL-Datenhaltungssysteme haben wir mit Cassandra ein Open Source spaltenorientiertes Datenhaltungssystem und mit InterSystems eine objektorientierte Datenbank gesetzt, um auch zu zeigen, dass NoSQL-Datenhaltungssysteme sich aus unterschiedlichen Ansätzen zusammensetzen. Eine ausführliche Klassifikation von entsprechenden Produkten befindet sich im Kapitel 4.1. Daher haben sich neue Methoden und Technologien der Datenhaltung entwickelt, um Big Data in den Griff zu bekommen. Neben den traditionellen relationalen Datenbanken gibt es heute analytische Datenbanken, NoSQL-Datenhaltungssysteme und Datenbanken sowie Hadoop, ein Framework für skalierbare, verteilt arbeitende Software mit der Zielsetzung, intensive Rechenprozesse mit großen Datenmengen auf Clustern von Rechnern durchzuführen. Allerdings sind diese drei Ansätze nicht trennscharf. Es gibt zwischen ihnen Überlappungen, so ist beispielsweise Hive, eine Data Warehouse-Umgebung, einerseits auf Hadoop basierend, andererseits als Data Ware auch als analytische Datenbank zu verstehen und von den Konzepten auch als NoSQL-Datenbank zu verstehen. Die Abbildung 5 zeigt diese Klassifikation als Venn-Diagramm. Wir stellen nun die einzelnen Konzepte vor und geben dann in Kapitel 4.1 eine Klassifikation der verschiedenen Anbieter. Analytische Datenbanken. Analytische Datenbanken gibt es bereits seit den frühen 90er Jahren, aber ihr Erfolg im Markt war bisher eher bescheiden. Das ändert sich jetzt im Big Data. Was machen analytische Datenbanken anders als herkömmliche Datenbanken? Da gibt es in der Tat verschiedene Methoden, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung, neuartige Zugriffsverfahren und Algorithmen sowie Bündelungen von Hardware und Software ( Data Appliances ). All diese Methoden und Verfahren dienen der Beschleunigung des Suchens und Lesens in Datenhaltungssystemen. Sie finden Einzelheiten dazu im Einschub. Aber diese Methoden und Verfahren schaffen an anderer Stelle Probleme: Die Transaktionsverarbeitung gemäß dem ACID-Prinzip 3 ist zum Teil nicht mehr möglich. Daher sprechen wir hier auch besser von Datenhaltungssystemen als von Datenbanken, da Datenbanken per Definition Transaktionssicherheit bieten müssen. 3 ACID (atomicity, consistency, isolation, durability) ist eine Menge von Eigenschaften, die garantieren, dass Datenbank-Transaktionen zuverlässig abgewickelt werden. S.A.R.L Martin/IT Research Juli

16 Einschub: Methoden zur Beschleunigung des Lesens großer Datenmengen. Beginnen wir mit der Spaltenorientierung. Herkömmliche relationale Datenbanken sind zeilenorientiert. Das schafft bei großen Datenmengen einige Probleme, die wir jetzt zuerst beleuchten, um danach die Vorteile von spaltenorientierten Datenbanken herauszuarbeiten. Ein Datensatz, der beispielsweise einen Kunden beschreibt, hat vielleicht sagen wir Attribute, aber wir haben so viele Sätze, wie wir Kunden haben, also durchaus Millionen Sätze und unter Umstünden sogar noch mehr. Wenn wir nun in einer herkömmlichen Datenbank nach gewissen Kunden mit bestimmten Merkmalen (definiert über die Attribute) suchen, dann muss man eben alle Datensätze lesen. Beim Lesen stößt man gleich an ein ganz allgemeines Problem von herkömmlichen Datenbanken. Die sind nämlich gar nicht zum Lesen vieler Datensätze gebaut, sondern vom Design her eher transaktions-orientiert. Sprich, eine Datenbank gibt mir über einen Index in Bruchteilen von Sekunden eine bestimmte Datenmenge zum Ändern, Löschen oder Neuanlegen 4. Will man also Adhoc-Abfragen auf herkömmlichen relationalen Datenbanken durchführen, dann braucht man Indizes und Aggregate, um schnelle Antworten zu erzielen. Das bedeutet aber, dass die Abfragen schon vorher bekannt sein müssen und durch Datenbankspezialisten aus der IT vorbereitet werden müssen (Sie bauen die Indizes und Aggregate). Mit anderen Worten, das ist teuer, weil gut bezahlte Spezialisten notwendig sind. Das ist zudem langsam: Denn wenn man mit einer neuen Idee kommt, zu der es noch keine Indizes und Aggregate gibt, dann müssen die erst gebaut werden. Wenn man eine Abfrage ohne eine solche Vorbereitung startet, kann der ganze IT-Betrieb empfindlich gestört werden. Indizes und Aggregate haben noch eine weitere unangenehme Eigenschaft: Sie brauchen Platz und machen die Datenbank um einen meist zweistelligen Faktor grösser als notwendig. Damit wird sie dann immer langsamer. Das führt dazu, dass irgendwann der Augenblick kommt, ab dem man gar keine Abfragen an die Datenbank mehr stellt, weil die Antworten viel zu spät eintreffen. Der Nutzer ist frustriert, das Wissen liegt brach in der Datenbank. Information wird zu einem reinen Kostenfaktor. Wissen über Kunden, Markt, Mitbewerber und Risiken lässt sich nicht mehr anwenden. An dieser Stelle stehen heute viele Unternehmen. Analytische Datenbanken schaffen hier Abhilfe durch ihre Spaltenorientierung. Bei einer spaltenorientierten Datenbank kann jede Spalte in einer eigenen Datei liegen, d.h. auf einen Wert eines Attributs eines Datensatzes folgt in Lese-Reihenfolge nicht das nächste Attribut des selben Datensatzes, sondern das gleiche Attribut des nächsten Datensatzes: Die Zeilen und Spalten der Tabelle werden miteinander vertauscht. Intuitiv funktioniert dies, da in der Analytik meistens wenige Attribute von sehr vielen Datensätzen benötigt werden. Aufgrund der Spaltenorientierung müssen die restlichen Attribute nicht gelesen werden. Mit anderen Worten: das Lesen wird drastisch reduziert, weil man durch das Vertauschen von Zeilen und Spalten nur noch höchstens so viele Datensätze wie Attribute hat. Da die Anzahl der Attribute in der Regel klein ist gegen die Anzahl der Datensätze, bringt das einen hohen Performance-Gewinn. Jedoch wird das Schreiben von Datensätzen dadurch jedoch sehr teuer, was man aber oft durch Differenzdateien zum Teil ausgleichen kann. Aufgrund dieser Basiseigenschaft von spaltenorientierten Datenbanken erhält man einen weiteren Vorteil. Man braucht keine Indizes und Aggregate mehr. Das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt. Zusätzlich lassen sich die Daten dann komprimieren. Dazu werden einfache Verfahren genutzt, die es erlauben, relationale Operationen auf den komprimierten Daten auszuführen. So können beispielsweise mehrfach vorkommende Werte durch Kürzel fixer oder variabler Länge ersetzt werden, die durch ein Wörterbuch bei Bedarf wieder in die ursprünglichen Werte übersetzt werden können. Folgen identische Werte direkt aufeinander, können diese Sequenzen lauflängencodiert abgelegt werden. Sortierte ganzzahlige Daten können durch Differenzbildung zum jeweiligen Vorgänger oder zu einem lokalen Minimum in wenigen Bits untergebracht werden. Ein solches Komprimieren bringt also Kostenvorteile, da die Datenbank klein wird (Relativ zu einer zeilenorientierten Datenbank können die Daten bis zu 80% und mehr komprimiert werden.) Man erhält so weitere Performance-Vorteile. 4 Das ist das sogenannte CRUD-Prinzip: create, read, update, delete. S.A.R.L Martin/IT Research Juli

17 Eine weitere Beschleunigung lässt sich durch Parallelisieren der Verarbeitung auf Clustern und durch In-Memory-Verarbeitung erreichen. Das gilt sowohl für zeilen- wie auch spalten-orientierte Datenbanken. Daten werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware-Ressourcen optimal ausgenutzt werden. Die Software ist so konzipiert, dass jeglicher Tuningaufwand entfällt, wie er in konventionellen Systemen üblich ist. Die Datenbanklösung legt Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Analytische Datenbanken werden in unterschiedlichen Ausprägungsformen angeboten. Es gibt parallelisierte herkömmliche Datenbanken, die in der Regel als Appliance angeboten werden, also eine spezielle Hardware und den parallelen Zugriffsmethoden und Algorithmen. Dabei sind solche Datenbanken dann immer noch zeilenorientiert. Dann gibt es analytische Datenbanken, die spaltenorientiert sind, aber weitgehend Hardware-unabhängig eingesetzt werden können. Und schließlich gibt es spaltenorientierte Datenbanken, die als Appliance teilweise mit spezieller Hardware angeboten werden, aber insbesondere In-Memory einsetzen. Schließlich sind hier auch noch objektorientierte Datenbanken zu nennen, die aufgrund ihrer Objektorientierten Struktur sowohl Transaktionsverarbeitung als auch schnelles Lesen und Suchen unterstützen. Daneben gibt es auch noch besondere Verfahren wie beispielsweise Database Images oder spezielle Data Appliances, die die Kommunikation zwischen Server und Speicher optimieren. Analytische Datenbanken lösen die Probleme, mit denen die Kunden heute in der Analytik kämpfen: Performance, Skalierbarkeit und Kosten. Fassen wir nochmal die Vorteile zusammen: Informationen sind flexibler abrufbar und stehen bis zu 100mal schneller zur Verfügung. Die Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft bessere Entscheidungen. Die IT wird entlastet, da die analytischen Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Zwei Dinge sollten zum Schluss noch klar gesagt werden: Eine analytische Datenbank macht ein physikalisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische, fachliche Design der analytischen Datenbank. In diesem Sinne bleibt weiterhin ein Information Management unabdinglich, auch wenn analytische Datenbanken eingesetzt werden. Denn ein Stammund Metadaten-Management, ein Datenqualitäts-Management, eine Information Governance und die anderen Aufgaben im Information Management bleiben auch mit analytischen Datenbanken kritische Erfolgsfaktoren. Eine analytische Datenbank ersetzt in der Regel nicht die herkömmlichen Datenbanken in der Transaktionsverarbeitung. Analytische Datenbanken sind eine neue Generation von Datenbanken für analytische Aufgaben im Unternehmen. Ein Unternehmen braucht heute immer noch zwei unterschiedliche Datenbanktechnologien, eine für die analytischen Aufgaben, eine für die Transaktionsverarbeitung. Dabei gilt natürlich der bekannte Satz: Keine Regel ohne Ausnahme: Oracle Exadata, Kognitio WX2 und SAP HANA eignen sich sowohl für hoch-performante analytische als auch transaktionsorientierte Aufgaben. Insbesondere SAP HANA bietet hier zukünftig ein großes Potenzial. Dabei ist allerdings der Performance-Gewinn in der Transaktionsverarbeitung deutlich geringer, denn in der Transaktionsverarbeitung braucht man ein Select auf den Einzelsatz. Der Einzelsatzzugriff wird durch In-Memory-Verarbeitung aber kaum beschleunigt. Die In-Memory-Verarbeitung erweist erst beim Select auf Gruppen die bekannten hohen Performance-Gewinne. S.A.R.L Martin/IT Research Juli

18 NoSQL Datenhaltungssysteme. Sie ergänzen das traditionelle relationale Datenbankmodell und zeigen genau wie verschiedene analytische Datenbankenmethoden auch, dass das relationale Modell keinen Alleinstellungsanspruch als einziges Datenhaltungsmodell mehr hat. Genauso wie verschiedene Methoden analytischer Datenbanken nicht neu sind, sind auch verschiedene NoSQL-Ansätze schon seit zum Teil langer Zeit im Einsatz. In den 90er Jahren boten objektorientierte Datenbanken Alternativen zum relationalen Modell. Die hatten einen grundlegenden Ansatz, der in allen heutigen NoSQL-Datenhaltungssystemen zu finden ist. Sie sind schemafrei und setzen auf alternative Techniken, um festzulegen, wie Daten gespeichert werden. Dazu kommt der Einsatz anderer Protokolle als SQL für die Kommunikation zwischen Anwendung und Datenhaltungssysteme. Ähnlich wie bei den analytischen Datenbanken ist die Architektur vieler NoSQL-Datenbanken auf Skalierbarkeit ausgelegt: Die Verarbeitung und Verwaltung großer Datenbestände erfolgt verteilt mittels Cluster aus Standardsystemen. Neben den objektorientierten Datenbanken gibt es weitere Ausprägungen von NoSQL-Datenhaltungssystemen: dokumentenorientierte Datenbanken ( document stores ), Key-Value-Datenbanken, spaltenorientierte Datenbanken und Graphen-Datenbanken. Dokumentenorientierte Datenbanken speichern Texte von beliebiger Länge mit unstrukturierten Informationen und ermöglichen das Suchen auf Basis von Dokumentinhalten. Die gespeicherten Dokumente müssen nicht die gleichen Felder enthalten. XML-Datenbanken sind dokumentorientierte Datenbanken mit semi-strukturierten Daten. Graphen-Datenbanken (oder: Entity-Relationship-Datenbanken). Sie basieren auf der Darstellung von Daten als Knotenpunkte (Entitäten) und Beziehungen (Relationen) zwischen den Knoten. Statt traditioneller Datensätze erstellt man hier Knoten, die durch die Beziehungen, die man zwischen ihnen definiert, miteinander verknüpft werden. Dabei wird Information zu den Knoten und ihren Beziehungen als Eigenschaften (Attribute) gespeichert. Graphen-Datenbanken haben insbesondere Vorteile, wenn wie bei (sozialen) Netzen die Beziehungen zueinander im Mittelpunkt stehen, man also Netze abbilden will. Graphen-Datenbanken gehen auf Entwicklungen im Computer Aided Software Enginering (CASE) der späten 80er Jahre zurück. Key-Value-Datenbanken. Hier weist ein Schlüssel auf einen Wert, der in seiner einfachsten Form eine beliebige Zeichenkette sein kann. Key-Value-Datenbanken sind auch nicht neu. Sie sind als traditionelle Embedded-Datenbanken wie dbm, gdbm und Berkley DB in der Unix-Welt bekannt geworden. Key-Value-Datenbanken arbeiten entweder als In-Memory-System oder als On-Disk-Version. Spaltenorientierte Datenbanken. Sie gehören gemäß der hier benutzten Klassifikation in die Klasse der analytischen Datenbanken, was zeigt, dass analytische und NoSQL-Datenhaltungssysteme sich nicht disjunkt zueinander verhalten (siehe auch Abb. 5). Hadoop ist dabei, einen Standard der Zukunft in Big Data-Datenhaltung und Daten-Management zu setzen. Es ist ein Apache Software Foundation Open Source-Entwicklungsprojekt und besteht aus drei Komponenten: der Speicherschicht HDFS (Hadoop Distributed File System), der von Google vorgeschlagenen Programmierumgebung MapReduce zur parallelen Verarbeitung von Abfragen und einer Funktionsbibliothek. Zu Hadoop gehört auch die HBase, ein skalierbares Datenhaltungssystem zur Verwaltung sehr großer Datenmengen innerhalb eines Hadoop- Clusters. Die HBase ist eine Open Source-Implementierung der Google BigTable. Die Speicherschicht HDFS speichert in der Standardeinstellung Daten in 64MB Blöcken, was paralleles Verarbeiten unterstützt und exzellent zum Lesen großer Datenmengen geeignet ist. Der Nachteil ist, dass eine solche Verarbeitung naturgemäß Batch-orientiert ist und sich deshalb nicht für Transaktionsverarbeitung oder Echtzeitanalysen eignet. HDFS hat schließlich eingebaute Redundanz. Es ist designt, um über hunderte oder tausende von preiswerten Servern zu laufen, von denen man annehmen kann, dass immer wieder einige ausfallen. Daher wird in der Hadoop-Standardeinstellung jeder Datenblock dreimal gespeichert. Neue Daten werden zudem immer angehängt, niemals eingefügt ( no insert ). Dazu kommen noch einige Ergänzungen wie die HLQL (high level query languages) Hive, Pig und JAQL. Hive ist eine Data Warehouse-Umgebung, die auf einer Entwicklung von Facebook beruht. Zu Hive gehört die HLQL QL, S.A.R.L Martin/IT Research Juli

19 die auf SQL beruht. Da es für die Hadoop-Programmierumgebung MapReduce noch nicht sehr viele Ressourcen gibt, die damit umgehen können, sind HLQLs wie QL sehr willkommen, da sie den Entwicklern die Verwendung einer SQL-ähnlichen Syntax erlauben. Eine andere HLQL ist Pig. Mit Hilfe von Pig sind parallele Ausführungen komplexer Analysen einfacher als mit MapReduce nachvollziehbar und durchführbar. Darüber hinaus bietet Pig auch im Gegensatz zu MapReduce eine automatisierte Optimierung komplexer Rechenoperationen. Pig ist auch offen und lässt sich durch eigene Funktionalitäten ergänzen. Zum Managen von Hadoop-Anwendungen dienen Chukwa, das die Echtzeitüberwachung sehr großer verteilter Systeme ermöglicht, und ZooKeeper, das zur Konfiguration von verteilten Systemen dient. Obwohl Hadoop auf Technologien und Konzepten beruht, die von Big Data-Unternehmen wir Facebook und Google stammen, so ist doch heute noch sehr deutlich zu sagen, dass diese Technologien noch sehr jung und auch unausgereift sind. Daraus folgt, dass der Einsatz solcher Technologien ausgewiesene und am Markt nur schwer zu findende Mitarbeiter benötigt. Dazu kommt, dass viel Funktionalität noch in Eigenentwicklung zu leisten ist. Zum Schluss sollte noch betont werden, dass all diese Datenhaltungssysteme auch as a Service als Cloud Computing angeboten werden können. Das gilt für alle Formen des Cloud Computings: private, öffentliche oder hybride Wolke. 3.2 Big Data Management Traditionelles Information Management stößt jetzt ebenfalls an seine Grenzen. Es hat sich zu Big Data Management weiterentwickelt. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information Management entsprechend fort: Datenintegration, Data Lineage auf Basis eines Repository und Datenqualitäts- Management 5. Eine Auflistung der entsprechenden Anbieter finden Sie in Kapitel 4.1. Bei der Big Data-Integration werden zunächst einmal die traditionellen Datenintegrations-Technologien wie ETLund ELT-Prozesse 6 und Echtzeit-Verarbeitung (change data capture, event triggering, Web Services) weiter genutzt. Aber es gibt auch einige Innovationen. Man braucht jetzt das ist neu Unterstützung für Hadoop, also Import, Export und interne Verarbeitung. Das setzt sich mit der Nutzung von Hadoop-Konstrukten zur Beschleunigung von Integrationsprozessen fort: Basierend auf MapReduce gibt es eine schnelle und leistungsfähige Flat-File- Verarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer Funktionen. Beispiel hierzu ist das FileScale-Verfahren von Talend, das auch von Anbietern wie Uniserv genutzt wird. Alternativ kann man hier aber auch auf alte und sehr bewährte Hochleistungs-Extrakt-Technologien wie DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data wiederentdeckt werden und inzwischen auch Schnittstellen zu Hadoop haben. Bei der Extraktion von Big Data-Quellen geht man auch neue Wege. Es gibt inzwischen browser-basierte Web-Extraktionswerkzeuge (Beispiel: Kapow Software), die Web-Daten ohne vordefinierte Schnittstelle und ohne Programmierung visuell erschließen. Das ist ein wichtiger Vorteil, denn Schnittstellen im Big Data sind entweder in vielen Fällen nicht vorhanden, müssten also erst langwierig spezifiziert und programmiert werden, oder sie leisten nicht das, was man gerade braucht. Schnittstellen schränken vielfach den Zugriff auf Daten ein. Daten sind so dem Zugriff entzogen. Ein solches Extraktionswerkzeug dagegen gibt Zugriff auf alle sichtbaren Daten und zwar sofort und auch in Echtzeit. Nicht nur Daten können so extrahiert werden, sondern jede Information aus Web- Applikationen. Die agilen Extraktionswerkzeuge können auf jede Schicht von Web-Applikationen zugreifen und Information extrahieren. Ein weiterer Vorteil dabei: Diese browserbasierte, visuelle Schnittstelle ist für alle Quellen im Big Data immer die gleiche. 5 Im Text genannte Anbieter stellen Beispiele dar: Eine Empfehlung dieser Anbieter ist nicht Zweck dieses Beitrages. 6 ETL = extract, transform, load ; ELT = extract, load, transform. Beide Verfahren unterscheiden sich durch die Reihenfolge der drei Schritte. Bei ETL wird der transform-schritt in der Datenintegrations-Plattform ausgeführt, bei ELT in der Datenbank. S.A.R.L Martin/IT Research Juli

20 So beschafft man sich die notwendigen Web-Daten automatisiert und schnell. Dabei darf man allerdings gesetzliche Aspekte nicht vergessen. Selbst wenn Daten nicht geschützt und öffentlich sind, verstößt man unter Umständen bereits gegen die AGBs der Seiten, wenn man automatisch ausliest. Daten, die auf den Netzgemeinschaften als privat gekennzeichnet sind, darf man so natürlich unter keinen Umständen nutzen. Bei öffentlichen Daten ist ein optin den Kunden mehr als empfehlenswert. Die juristischen Details wollen wir aber hier nicht weiter vertiefen, die muss jeder in seinem Unternehmen beachten. Vor der Extraktion von Datenquellen im Web kommt noch das Identifizieren von relevanten Datenquellen. Dazu setzt man Suchmaschinen ein, die also inzwischen auch zu Werkzeugen im Information Management werden. Der Einsatz von Suchmaschinen zur Quellenidentifikation ist heute zumeist ein manuelles Verfahren. Man definiert ein Relevanzmaß, um Quellen bewerten und miteinander vergleichen zu können. Durch Suchmaschinen gefundene Quellen werden dann gemäß dem Relevanzmaß gefiltert, und die identifizierten Quellen stehen dann zur Extraktion zur Verfügung. Big Data Lineage. Data Lineage basiert auf einem Repository zur Verwaltung von Metamodellen, Modellen und Metadaten sowie der Verwaltung aller Transformationsregeln. Das Vorgehen im Big Data ist analog, aber hier sitzt gleich ein erstes Problem, nämlich das der Gewinnung von Metadaten aus dem Big Data. Hier kann mittels Taxonomien per Textanalytik (siehe Kapitel 3.3) Abhilfe geschaffen werden. Hilfreich ist auch eine Wikifizierung der Daten. Gerade im Big Data kann ein Wiki-Ansatz, der auf der Intelligenz und dem Fleiß von vielen basiert, als Methodik dahin führen, dass Erkenntnisse aus dem Big Data schneller gewonnen werden und mit den anderen geteilt werden. So wie Wikipedia das Wissen der Menschheit in verschiedensten Domänen erschlossen hat, so sollten wiki-ähnliche Ansätze, egal welche Technologien zu Grunde liegen, das Wissen aus dem Unternehmen und aus seinem Ökosystem (Intranet und Internet) erschließen. 7 Big Data-Repository Data Lineage auf Basis eines Repository, Managen des Business-Vokabulars, Big Data Basis-Anforderungen Performance und Skalierbarkeit Echtzeit-Nutzung Search, Find, Use : Knowledge Management & Service Execution Repository Ein Repository sollte aktiv sein. Aktiv heißt: Managen des Life Cycle der Service-Komponenten Komponenten werden getestet, simuliert und aktiviert, Funktionen wie eine CMDB S.A.R.L. Martin 2012 Abbildung 6: Auch im Big Data Management steht ein Repository im Zentrum. 7 Dan Tapscott und Anthony D. Williams: Wikinomics S.A.R.L Martin/IT Research Juli