Analytische Datenbanken

Größe: px
Ab Seite anzeigen:

Download "Analytische Datenbanken"

Transkript

1 Strategic Bulletin März 2013 Analytische Datenbanken Trends in Data Warehousing und Analytik Eine Analyse von &

2 Copyright Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen wurden mit größter Sorgfalt und mit wissenschaftlichen Methoden recherchiert und zusammengestellt. Eine Garantie in Bezug auf Vollständigkeit und Richtigkeit wird ausgeschlossen. Alle Rechte am dieses Strategic Bulletin, auch die der Übersetzung, liegen bei dem Autor. Daten und Informationen bleiben intellektuelles Eigentum der S.A.R.L. Martin im Sinne des Datenschutzes. Kein Teil des Werkes darf in irgendeiner Form (Druck, Photokopie, Mikrofilm oder einem anderen Verfahren) ohne schriftliche Genehmigung durch die S.A.R.L. Martin und IT Research reproduziert oder unter Verwendung elektronischer Verfahren verarbeitet, vervielfältigt oder verbreitet werden. Die S.A.R.L. Martin und IT Research übernehmen keinerlei Haftung für eventuelle aus dem Gebrauch resultierende Schäden. Copyright 2013 S.A.R.L. Martin, Annecy, und IT Research, Aying Disclaimer Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen etc. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. In diesem Werk gemachte Referenzen zu irgendeinem spezifischen kommerziellen Produkt, Prozess oder Dienst durch Markenname, Handelsmarke, Herstellerbezeichnung etc. bedeutet in keiner Weise eine Empfehlung oder Bevorzugung durch die S.A.R.L. Martin und IT Research. Gastbeiträge in diesem Strategic Bulletin sind freie Meinungsäußerungen der Sponsoren und geben nicht unbedingt die Meinung des Herausgebers wieder. Titelbild: Shutterstock.com/agsandrew ISBN S.A.R.L. Martin/IT Research März Titel

3 Strategic Bulletin: Analytische Datenbanken sverzeichnis 1. Zusammenfassung Analytische Datenbanken Einführung in das Thema Analytische Datenbanken die Definition und die Treiber Nutzenpotenziale analytischer Datenbanken Analytische Datenbanken Markttrends Analytischer Datenbanken Technologien, Architekturen und Positionierung Technologien analytischer Datenbanken NoSQL-Technologien Analytik Online versus Offline Big Data: Datenstrukturen und Latenz Information Management im Big Data Analytische Datenbanken: Roadmap Klassifikation der Anbieter von analytischen Datenbanken Klassifikation der Anbieter von Information Management Die Datenvielfalt meistern Gastbeitrag von Datawatch Erst Analytics macht aus Big Data Big Business Gastbeitrag von InterSystems Big Data und die Datenbankstrategie der Zukunft Gastbeitrag von SAP Herausforderungen an Analytik und den Umgang mit analytischen Datenbanken Big Data-Analytik Quo Vadis Realität Trends 2014/ Profil: Wolfgang Martin Team und IT Research Profil: Die Sponsoren Datawatch InterSystems SAP AG S.A.R.L. Martin/IT Research März Titel

4 1. Zusammenfassung In the Age of Analytics, as products and services become lighter (i.e., less physical and more digital), manufacturing and distribution costs while still important will be augmented with new metrics the costs of know, the flow of know, and the costs of not knowing. Thornton May [1], Futurist, Executive Director, and Dean of the IT Leadership Academy Analytische Datenbanken Definition und Treiber Ein Unternehmen verfügt bereits über große Mengen strukturierter (in der Regel rund 20 % aller Unternehmensdaten) und poly-strukturierter Daten (die machen rund 80% aller Unternehmensdaten aus) wie Dokumente, Verträge, Protokolle, , Podcasts, Videos end andere. Eine Flut von Daten wartet bekanntlich im Web auf uns. Und noch mehr Daten liefert und das Internet der Dinge: Hier konvergieren Internet und die reale Welt. Nicht nur mobile Telefone, Smartphones und Tablets gehören hier dazu, sondern Geräte aller Art wie Sensoren, Smart Meter, Home Entertainment bis hin zu selbstfahrenden Autos. Das alles fasst man heute unter dem Begriff Big Data zusammen. Es sind Daten aller Art über Konsum, Verhalten und Vorlieben, Orte und Bewegungen, Gesundheitszustand und viele andere Dinge. Analytik wird deshalb immer wichtiger für Unternehmen in allen Branchen, denn der Einsatz von Analytik schafft Wettbewerbsvorteile und vermeidet Risiken durch ein besseres und tieferes Wissen über Markt und Kunden. Analytik treibt daher auch den Einsatz innovativer Technologien, um diese Petabytes, sogar Exabytes von Daten auswerten zu können, da durch die schiere Menge an Daten die bisher im Markt dominierenden relationalen Datenbanksysteme an ihre Grenzen stoßen: Es etablieren sich so Analytische Datenbanken und NoSQL-Datenhaltungssysteme [2], die innovative Algorithmen zum Zugriff- und Speicher-Management mit innovativen Ansätzen wie Spalten-Orientierung und innovativer Hardware-Technologie wie In-Memory- Verarbeitung miteinander verbinden. Technologien analytischer Datenbanken In Folge dieser Datenflut braucht man für Analytik neue Technologien, die die Grenzen traditioneller relationaler Datenhaltung überwinden. Relationale Datenhaltungssysteme waren auf Transaktionsverarbeitung und -Sicherheit ausgerichtet. Analytische Datenbanken sind konzipiert für ein schnelles Lesen, wobei aber gemäß Brewers CAP- Theorem Kompromisse mit der Sicherheit und Zuverlässigkeit von Transaktionsverarbeitung gemacht werden müssen. Die Methoden und Technologien, mit denen man ein schnelles Lesen erreichen kann sind vielfältig. In der Tat setzt man bei den verschiedenen analytischen Datenbanken auch verschiedene dieser Methoden und Technologien ein, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung sowie Bündelungen von Hardware und Software ( Data Appliances ). Analytische Datenbanken Nutzen Das erlaubt einerseits Analytik in Echtzeit: Große, sogar sehr große Datenmengen können im Sekundenbereich analysiert werden. Früher haben solche Analysen Stunden bis hin zu Tagen benötigt. Andererseits wird so auch Echtzeitanalytik ermöglicht. So werden operative Prozesse im Unternehmen wie Kundeninteraktionen, Produktion, Logistik etc. jetzt in Echtzeit ( online ) steuerbar. Mittels operativer Kennzahlen erreicht man Automation, also schnelleren Durchsatz, weniger Fehler und bessere, individualisierte Prozesse. Hierzu sind insbesondere In-Memory Datenbanken geeignet, die analytische und transaktionale Daten gemeinsam verwalten. So lösen analytische Datenbanken die Probleme, mit denen die Kunden heute in der Analytik mit großen und sehr großen Datenmengen kämpfen: Performance, Skalierbarkeit und Kosten. Die Vorteile sind: Information ist flexibler abrufbar und steht bis zu 100mal schneller oder sogar noch schneller zur Verfügung. Die Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft besse- [1] Thornton May: The New Know, Innovation Powered by Analytics, 2009 [2] NoSQL = not only SQL, SQL = sequential query Language. S.A.R.L. Martin/IT Research März

5 re Entscheidungen. Und schließlich wird die IT entlastet, da analytische Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Analytische Datenbanken Quo Vadis Natürlich darf man nicht die Kritik an Analytik vernachlässigen, denn ein mehr an Information bedeutet nicht unbedingt gleichzeitig bessere Information. Auch macht die Quellenvielfalt Probleme, was die Vergleichbarkeit der Daten angeht, denn unterschiedliche Quellen erzeugen durchaus auch Daten in unterschiedlicher Qualität und Beschaffenheit. Für den Statistiker erhebt sich dann auch noch die Frage, ob und wie Information aus dem Big Data überhaupt repräsentativ sein kann. Es gibt noch ein weiteres Problem: Um Analytik anwenden und verstehen zu können, braucht man analytische geschulte Manager und Mitarbeiter. Tom Davenport [3] geht sogar so weit, dass er im Fehlen von ausreichend analytisch geschulten Mitarbeitern einen der Gründe für die anhaltende Finanz- und Schuldenkrise sieht: Alle Finanzund Handelssysteme sind automatisiert und analytisch auf dem höchsten Stand, aber es fehlten die Mitarbeiter, die in der Lage waren (und sind), all die Metriken und analytischen Ergebnisse und Vorhersagen zu verfolgen, zu interpretieren und dem Management richtig zu erklären. In der Big Data-Analytik fehlt es ebenfalls an ausreichend geschulten Mitarbeitern: Data Scientists sind heute im Markt nur schwer zu finden. Hier ist noch eine große Aufgabe zu lösen, die uns noch einige Zeit beschäftigen wird. [3] Siehe: Henschen, D.: Analytics at Work, Q&A with Tom Davenport (Interview), InformationWeek Software, 04. Januar S.A.R.L. Martin/IT Research März

6 2. Analytische Datenbanken Einführung in das Thema 2.1 Analytische Datenbanken die Definition und die Treiber Analytische Datenbanken sind nicht neu. Es gibt sie schon seit rund 20 Jahren: Datenbanktechnologien, die darauf ausgelegt sind, riesige Bestände strukturierter Daten bei gleichzeitig hoher Anzahl von Abfragen durch viele bis sehr viele Nutzer in Sekundenschnelle zu analysieren. Aber erst heute finden sie wirkliche Beachtung. Der Einsatz solcher analytischen Datenbanken, wie sie jetzt genannt werden, nimmt zu, Tendenz steigend. Denn in den Unternehmen wächst die Nachfrage nach Analytik. Der Bedarf an Analytik ist insbesondere im Marketing hoch, wenn es um die Steigerung der Kundenprofitabilität durch Echtzeit-Kunden-Identifizierung und intelligente Kunden- Interaktionen geht. In der Supply Chain geht es um Prozess-Optimierung durch bessere Planung sowie um Identifizierung und Vermeidung von Risiken. Auf der Ebene der Unternehmenssteuerung geht es um rechtzeitiges Erkennen von Markttrends und von Innovationspotenzialen. Analytik durchdringt alle Unternehmensbereiche. Dazu kommt, dass wir auf dem Weg in die totale Digitalisierung der Welt sind. Reale und virtuelle Welt konvergieren. Das Internet der Dinge wird mehr um mehr zur Realität: Geräte und Rechner verschmelzen miteinander. Das sieht man gerade sehr deutlich in der Branche der Versorger, wo Smart Meter Verbrauchs- und Nutzungsdaten im Sekundentakt liefern können. Das sieht man auch in der Automobilindustrie: In Autos eingebettete Software nimmt nicht nur zu, sondern kontrolliert mehr und mehr das Fahrzeug bis hin zu ersten selbstfahrenden und lenkenden Autos. Das alles bedeutet: mehr und mehr Daten, Big Data (siehe auch Martin, Strategic Bulletin Big Data, 2012) wie man auch sagt. Big Data ist durch riesige Datenvolumen, große Datenvielfalt aus unterschiedlichsten Quellen und hohe Produktionsrate von Daten gekennzeichnet. Beispiel: Der Handel war immer eine der Branchen, in der Analytik Priorität hatte und die produzierten und vorhandenen Datenbestände ein großes bis sehr großes Volumen hatten, beispielsweise die Kassenbon-Daten. Die Analyse von Kassenbons bringt ein für den Handel entscheidendes Wissen über das Kundenverhalten, so dass kundenbezogene Prozesse personalisiert und optimiert werden können. Das steigert nachweislich die Kundenprofitabilität. Hier hatte man es schon lange mit Big Data zu tun, ohne dass man es so genannt hat. Um nämlich die Kundenprofitabilität steigern zu können, braucht man nicht nur die durchschnittliche Profitabilität eines Kunden über alle Produkte, sondern insbesondere die Kundenprofitabilität pro Produkt. Das ist eine wichtige Kennzahl zur Steuerung von personalisierten Kampagnen und Echtzeit-Produktempfehlungen, also eine im analytischen CRM typische Kennzahl im Handel für die Outbound- und Inbound-Kundenkommunikation. Das Ausrechnen dieser Kennzahlen übersteigt aber die Fähigkeit traditioneller relationaler Datenbanksysteme. Erst mit Hilfe analytischer Datenbanken lässt sich die Aufgabe lösen. Sie verkürzen die Rechenzeit, die beim Einsatz traditioneller Datenbanken einen oder mehrere Tage dauern konnte, auf einige Minuten oder liefern sogar Ergebnisse in Sekundengeschwindigkeit. Die Treiber für analytische Datenbanken sind also einerseits der gestiegene Bedarf an Analytik im Unternehmen und zum anderen, ein Datenvolumen das schneller steigt als die Leistung von traditionellen Datenbanken. Man schaffte es einfach nicht mehr, Daten im Detail zu analysieren, da es schlichtweg gesagt mit traditionelle Datenbanktechnologien zu lange dauerte. Gartner sagt bereits 2010 in seinem Bericht zum Magic Quadrat for Data Warehouse Database Management Systems: Gartner-Klienten stehen bei der Abfrage von Data Warehouses immer häufiger vor erheblichen Performanceproblemen. Auf Grundlage dieser Informationen dürften rund 70 % aller Data Warehouses mit derartigen Problemen zu kämpfen haben. Definition: Analytische Datenbanken verbessern die Skalierbarkeit und die Performance von analytischen Datenbank-Abfragen deutlich gegenüber traditionellen Datenbanken. Zusätzlich helfen sie auch, die Betriebskosten zu senken. Das beruht auf der Kombination von bekannten und neuen Technologien wie Spaltenorientierung, Komprimierung, speziellen, intelligenten Zugriffsverfahren, massiv paralleler Verarbeitung sowie In-Memory-Technologien. S.A.R.L. Martin/IT Research März

7 Diese Technologien, die analytische Datenbanken auszeichnen, wollen wir im Folgenden untersuchen. Vorher diskutieren wir aber noch die Nutzenpotenziale und Markttrends. 2.2 Nutzenpotenziale analytischer Datenbanken Analytische Datenbanken verbessern nicht nur die Analytik im Unternehmen durch eine höhere Geschwindigkeit, sondern erlauben auch den Einsatz von Analytik in Fragestellungen, die man aufgrund der notwendigen und teuren Rechenzeiten bisher nicht angehen konnte. Dadurch verbessern sie den bekannten Nutzen von Analytik wie Umsatzsteigerung, Kosteneinsparung, Erhöhung der Wettbewerbsfähigkeit und neue, innovative Geschäftsmodelle. Wenn man sich das etwas genauer anschaut, dann lassen sich fünf Nutzenpotenziale erkennen. 1. Transparenz. Hier bietet der Einsatz von Analytik in Netzwerken ein gutes Beispiel. In der Telekommunikationsbranche möchte man beispielsweise zur Optimierung von Verkehrs-Mustern das Anrufnetzwerk oder das Roaming-Verhalten von Anrufern analysieren. Dazu gilt es unter anderem, mögliche unsichere Pfade zu meiden, die Anzahl der Netzwerkwechsel beim Roaming zu reduzieren sowie Roaming-Muster zu optimieren, um Leistungsverträge einzuhalten. Ähnliche Aufgaben stellen sich auch für andere Anbieter, die Netzwerke in der Transport-, IT-, oder Energie- und Wasser-Versorgungsbranche betreiben. Um von diesem Nutzenaspekt zu profitieren, muss das Silo-Denken in den Unternehmen allerdings endlich aufhören. Das Sammeln von Fachabteilungs-bezogenen Daten ist nicht ausreichend, um Kunden- und Marktwissen durch Analytik aufzubauen. Im Finanzwesen ist es immer noch üblich, Daten über die Finanzmärkte, über den Zahlungsverkehr und das Kreditwesen getrennt zu halten und nicht über Abteilungsgrenzen hinweg zu nutzen. Das hindert den Aufbau kohärenter Kundensichten und das Verstehen der Beziehungen und Beeinflussungen zwischen Finanzmärkten. 2. Erfolgskontrolle von Maßnahmen. Auf der Basis der Analysegeschwindigkeit, die mittels analytischer Datenbanken erreicht werden können, und neuen Datenquellen aus Big Data wie Lokalisierungsdaten im mobilen Internet, bieten sich neue Möglichkeiten, getroffene Maßnahmen auf ihre Wirksamkeit hin zu kontrollieren und mittels kontrollierter Experimente Hypothesen zu testen. Das erlaubt, Entscheidungen und Maßnahmen auf Basis von Fakten zu überprüfen und gegebenenfalls weiter anzupassen. So lassen sich auch Ursache-Wirkungsbeziehungen von reinen Korrelationen unterscheiden. Internet-Unternehmen wie Amazon und ebay waren mit bei den ersten, die solche kontrollierten Experimente nutzten, um die Konversionsraten von Besuchern ihrer Webseiten zu steigern. Dazu wurden gezielt bestimmte Funktionen und Verbindungen auf Webseiten geändert und die Wirkung entsprechend gemessen. So konnten die Faktoren ermittelt werden, die die Konversionsraten steigern. Mittels Lokalisierungsdaten aus dem mobilen Internet kann dieses Konzept aus der Webanalyse in die reale Welt übertragen werden. Jetzt kann beispielsweise die Wirkung von Außenwerbung bezogen auf den Standort gemessen und entsprechend optimiert werden. Das wird durch die Klickraten auf den QR-Codes auf Werbeflächen ermöglicht. So lässt sich durch Big Data-Analytik auch ein cross-mediales Marketing aufbauen. Weiter lassen sich Video-Aufzeichnungen von Kundenbewegungen in Kombination mit Kundeninteraktionen und Bestellmustern, die sich in Transaktionsdaten verbergen, zur Kontrolle von Marketing-Maßnahmen nutzen: So können Änderungen in Produkt-Portfolios und Platzierungen sowie Preisänderungen kontinuierlich und gezielt überprüft und optimiert werden. Daraus folgt eine Kosteneinsparung durch mögliche Reduktionen des Produktangebots ohne Risiko des Verlustes von Marktanteilen und sowie eine Steigerung der Marge durch den Verkauf höherwertiger Produkte. 3. Personalisierung in Echtzeit. Kunden- und Marktsegmentierung hat eine lange Tradition. Jetzt gibt es mit analytischen Datenbanken völlig neue Möglichkeiten durch Echtzeit-Personalisierung von Kundeninteraktionen. Im S.A.R.L. Martin/IT Research März

8 Handel kennen wir solche Strategien bereits von Vorreitern wie Amazon und ebay, wo uns auf unser Profil zugeschnittene Produkte angeboten werden, und inzwischen auch von sozialen Netzen, wo uns Freundschaften vorgeschlagen werden. Natürlich profitiert man auch in anderen Branchen von solchen personalisierten Kundeninteraktionen, beispielsweise im Versicherungswesen. Hier können Versicherungspolicen auf den Kunden individuell zugeschnitten werden. Als Datenbasis dazu dienen kontinuierlich angepasste Profile der Kundenrisiken, Änderungen in der Vermögenslage oder auch Lokalisierungsdaten. Kraftfahrzeuge können mit speziellen Sendern ausgerüstet werden, so dass sie über eine Lokalisierung im Falle eines Diebstahls wiedergefunden werden können. 4. Prozess-Steuerung und Automation. Analytische Datenbanken erweitern den Einsatz von Analytik zur Prozess- Steuerung und Automation. So können Sensor-Daten von Produktionsstraßen zur Autoregulierung von Produktionsprozessen genutzt werden. Damit lassen sich Kosteneinsparungen durch optimalen Materialeinsatz und durch Vermeidung von menschlichen Eingriffen erzielen, wobei gleichzeitig der Durchsatz erhöht werden kann. Proaktive Wartung ist ein anderes Einsatzgebiet. Maschinen können kontinuierlich über Sensoren überwacht werden, so dass auftretende Unregelmäßigkeiten sofort erkannt werden und rechtzeitig beseitigt werden können, bevor Schäden auftreten oder es zum Stillstand kommt. Andere Beispiele stammen aus der Konsumgüter-Branche. Getränke oder auch Speiseeis-Hersteller nutzen die täglichen Wettervorhersagen, um die eigenen Nachfrageplanungsprozesse an das aktuelle Wetter anzupassen. Dabei sind die Messdaten zur Temperatur, zur Niederschlagsmenge und zur täglichen Sonnenscheindauer entscheidend. Dieses Wissen erlaubt eine Prozessoptimierung durch die Verbesserung der Vorhersagewerte zwar nur um einige Prozent, aber das kann viel Geld bedeuten. 5. Innovative Informations-getriebene Geschäftsmodelle. Mit Hilfe analytischer Datenbanken wird Information nutzbar, die man früher nicht auswerten konnte, da der Nutzen möglicher Auswertungen die Kosten einer Auswertung nicht rechtfertigte. Das ist jetzt anders und so werden neue, innovative Geschäftsmodelle auf der Basis von Information möglich. Schauen wir uns als Beispiel die Information über Marktpreise an, die in den Zeiten des Internets und Internethandels in der Regel öffentlich verfügbar ist. Das erlaubt den Internet- und anderen Händlern die Preise des Mitbewerb zu überwachen und rechtzeitig auf Preisänderungen zu reagieren. Das erlaubt aber auch den Kunden, sich über die Preise zu informieren und so den besten Preis für ein gewünschtes Produkt zu erzielen. Darauf haben sich einige Anbieter spezialisiert, die über Konsolidierung, Aggregieren und Analyse von Preisinformation ihr eigenes Geschäftsmodell gefunden haben. Das gilt nicht nur im Handel, sondern auch im Gesundheitswesen, wo durch solche Informations-Anbieter Behandlungskosten transparent gemacht werden. 2.3 Analytische Datenbanken Markttrends Die vier IT-Megatrends 2013 sind zweifellos Mobile, Cloud, Social und Big Data. Interessanterweise sind diese vier Trends miteinander verwoben, und alle vier bewirken eine weiter steigende Nachfrage nach analytischen Datenbanken. Das mobile Internet produziert Daten in großem Volumen und mit großer Geschwindigkeit, Big Data eben. Zum einen werden Lokalisierungs- und Navigations-Daten produziert. Im mobilen Internet konvergieren Zeit, Raum und Information: Man weiß heute exakt und genau, wo und zu welcher Zeit sich ein Kunde, eine Ware oder ein beliebiges Gerät sich befindet. Jedes Smartphone ist so Produzent von Daten. Zum anderen schafft die Konvergenz von Zeit, Raum und Information darüber hinaus eine neue Welt: Das Internet der Dinge. Wesentliche Elemente des IoT, die in einer Vielzahl von mobilen Geräten enthalten sein werden, sind Smart Meter und eingebettete Sensoren, Bilderkennungstechniken und die Bezahlung über NFC (Near-field Communication). Im Endergebnis wird der Begriff mobil sich nicht mehr ausschließlich auf Mobiltelefone oder Tablets beschränken und Mobilfunktechnik nicht mehr ausschließlich auf Mobilfunknetze. Die Kommunikation wird auch über NFC, Bluetooth, LTE und WLAN ablaufen und schon bald in viele neue Geräte integriert werden, beispielsweise in Displays von Armbanduhren, me- S.A.R.L. Martin/IT Research März

9 dizinischen Sensoren, intelligenten Plakaten, Home-Entertainment-Systemen und in Autos. So werden schließlich noch mehr Daten produziert. Mobil treibt auch die Cloud, denn das mobile Internet arbeitet nach dem Prinzip des Cloud Computings. Jede App, die wir nutzen, arbeitet so. Cloud Computing ist auch mit Big Data eng verbunden, denn Cloud Computing ist ein IT-Bereitstellungsmodell, das aufgrund der Elastizität, Flexibilität und von Kostenvorteilen bestens Anforderungen von Big Data und Big Data-Analytik erfüllt. Viele Anbieter von analytischen Datenbanken bieten heute schon ein DWaaS (Data Warehouse as a Service). Wir können davon ausgehen, dass dieser Trend sich weiter verstärken wird. Mobil treibt auch Social, denn Social funktioniert eben dann am besten, wenn jeder immer und überall zu erreichen ist. Social wiederum treibt Big Data, denn jetzt haben wir in den sozialen Medien noch mehr und auch komplett neue Daten, beispielsweise Information über die Beziehungen zwischen Personen. Big Data hat damit seinen Platz unter den unverzichtbaren Kompetenzen eines Unternehmens. Die Masse an digitalen en ist 2012 auf 2,7 Zettabyte (ZB) gestiegen, ein Zuwachs um 48 Prozent im Vergleich zu Über 90 Prozent dieser Information sind unstrukturierte Daten (wie Photos, Videos, Audios und Daten aus den sozialen Netze und dem Internet der Dinge). Diese stecken voller reichhaltiger Information, und die Unternehmen sind mehr und mehr daran interessiert, aus Big Data wertvolle Erkenntnisse zu gewinnen. Damit können wir davon ausgehen, dass sich analytische Technologien wie analytische Datenbanken zum Mainstream entwickeln. Big Data bedeutet ja nicht nur große Datenvolumen, sondern auch Datenproduktion in großer Geschwindigkeit. Das treibt Echtzeitanalytik. Die ist nicht nur erfolgreich in der Kundenkommunikation, sondern geradezu essentiell im Internet der Dinge. Echtzeitanalytik im Internet der Dinge erlaubt die Anwendung von maschinellem Lernen. Algorithmen zum Selbst-Lernen, Selbst-Heilen und Selbst-Adjustieren dienen der Automation von Prozessen, steigern die Produktivität und senken Kosten und Risiken. Ein gutes Beispiel steht recht nahe an der Schwelle zur Wirklichkeit: Das führerlose, selbstfahrende Auto. Eine der wesentlichen technischen Voraussetzungen dazu ist In-Memory Computing, denn auf die Rechnerleistung kommt es hier an. Das stellt ein weiteres, riesiges Feld für analytische Datenbanken dar. Fazit Kapitel 2: Analytische Datenbanken Treiber, Nutzen und Markttrends: Die Treiber des Markts für analytische Datenbanken sind ein gestiegener und weiter steigender Bedarf an Analytik im Unternehmen und eine Datenproduktion, die schneller steigt als die Leistung traditioneller Datenbanken. Die Nutzenpotenziale analytischer Datenbanken zielen auf die Bottom Line: Durch die bisher nie erreichte Geschwindigkeit von Analysen ergeben sich Kosteneinsparungen, Umsatzsteigerungen, Risikovermeidung, Erhöhung der Wettbewerbsfähigkeit und innovative Geschäftsprozesse und Modelle. Die vier IT-Megatrends (Mobile, Cloud, Social, Big Data) bedingen sich untereinander und treiben so den Bedarf an analytischen Technologien wie analytischen Datenbanken. Damit werden analytische Datenbanken Mainstream-Produkte. Unternehmen sollten den Markt für analytische Datenbanken beobachten, um nicht den Anschluss zu verlieren. Es empfiehlt sich, Nutzenpotenziale für das Unternehmen jetzt zu identifizieren und in Abhängigkeit von einer solchen Analyse erste Piloten zu starten. Anbieter sollten eine glaubwürdige Position aufbauen und eine Roadmap, die klar erkennbare Werte bietet und die notwendige Flexibilität, um im Analytik-Markt zu prosperieren. S.A.R.L. Martin/IT Research März

10 3. Analytische Datenbanken Technologien, Architekturen und Positionierung 3.1 Technologien analytischer Datenbanken. Analytische Datenbanken sind auf ein schnelles Lesen von Daten ausgerichtet, während die traditionellen relationalen Datenbanken auf Transaktionsverarbeitung hin ausgerichtet sind. Die Traditionellen Datenbanken sind exzellent, wenn es um den Zugriff auf den einzelnen Datensatz geht, aber bei einer Selektion von Gruppen sind die auf das Lesen optimierten analytischen Datenbanken schneller. Das ist die Basis für die Verabeitungsgeschwindigkeit von Analysen mit analytischen Datenbanken. Die Methoden und Technologien, mit denen man ein schnelles Lesen erreichen kann sind vielfältig. In der Tat setzt man bei den verschiedenen analytischen Datenbanken auch verschiedene dieser Methoden und Technologien ein, die sich auch miteinander kombinieren lassen: Spaltenorientierung, Kompression, Parallelisierung, In-Memory-Verarbeitung sowie Bündelungen von Hardware und Software ( Data Appliances ). Spaltenorientierung. Bei einer spaltenorientierten Datenbank kann jede Spalte einer Tabelle in einer eigenen Datei liegen, d.h. auf einen Wert eines Attributs eines Datensatzes folgt in Lese-Reihenfolge nicht das nächste Attribut des selben Datensatzes, sondern das gleiche Attribut des nächsten Datensatzes: Die Zeilen und Spalten der Tabelle werden miteinander vertauscht. Intuitiv funktioniert dies, da in der Analytik meistens wenige Attribute von sehr vielen Datensätzen benötigt werden. Aufgrund der Spaltenorientierung müssen die restlichen Attribute nicht gelesen werden. Mit anderen Worten: das Lesen wird drastisch reduziert, weil man durch das Vertauschen von Zeilen und Spalten nur noch höchstens so viele Datensätze wie Attribute hat. Da die Anzahl der Attribute in der Regel klein ist gegen die Anzahl der Datensätze, bringt das einen hohen Performance-Gewinn. Jedoch wird das Schreiben von Datensätzen dadurch jedoch teurer, was man aber oft durch Differenzdateien zum Teil ausgleichen kann. Aufgrund dieser Basiseigenschaft von spaltenorientierten Datenbanken erhält man einen weiteren Vorteil. Man braucht keine Indizes und Aggregate mehr. Das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt. Kompression. Zusätzlich lassen sich die Daten in einer spaltenorientierten Datenhaltung sehr gut komprimieren. Dazu werden Verfahren genutzt, die es erlauben, relationale Operationen auf den komprimierten Daten auszuführen. So können beispielsweise mehrfach vorkommende Werte durch Kürzel fixer oder variabler Länge ersetzt werden, die durch ein Wörterbuch bei Bedarf wieder in die ursprünglichen Werte übersetzt werden können. Folgen identische Werte direkt aufeinander, können diese Sequenzen lauflängencodiert abgelegt werden. Sortierte ganzzahlige Daten können durch Differenzbildung zum jeweiligen Vorgänger oder zu einem lokalen Minimum in wenigen Bits untergebracht werden. Ein solches Komprimieren bringt also Kostenvorteile, da die Datenbank klein wird (Relativ zu einer zeilenorientierten Datenbank können die Daten bis zu 80% und mehr komprimiert werden.) Man erhält so weitere Performance-Vorteile. Reines Einfügen von Daten ( insert only ). Neue Daten werden bei dieser Methode ausschließlich hinzugefügt (insert). Ein Überschreiben von bestehenden Datensätzen (update) findet nicht mehr statt. So bekommt man eine persistente Speicherung der kompletten Historien aller Daten, was natürlich einen erhöhten Speicherplatzbedarf bedeutet. Ein Vorteil ist dagegen, dass man so die Möglichkeit der Analyse historischer Daten bekommt, die heute in der Regel nur mittels Data Warehouse machbar ist. Die Konsistenz der Daten wird durch Snapshot Isolation bewahrt. Partitionierung ( partitioning ) lässt sich in spalten-orientierten Datenbanken gut nutzen. Es bedeutet die Verteilung einer Spalte auf mehrere Server und/oder die Verteilung verschiedener Spalten einer Tabelle auf verschiedene Server. Dadurch erreicht man eine weitere Steigerung der Verarbeitungsgeschwindigkeit. Massiv parallele Verarbeitung. Eine weitere Beschleunigung lässt sich durch Parallelisieren der Verarbeitung auf Clustern erreichen. Das gilt sowohl für zeilen- wie auch spalten-orientierte Datenbanken. Daten werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware- S.A.R.L. Martin/IT Research März

11 Ressourcen optimal ausgenutzt werden. Die Software ist so konzipiert, dass jeglicher Tuningaufwand entfällt, wie er in konventionellen Systemen üblich ist. Die Datenbanklösung legt Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. In-Memory-Datenbanken. Eine In-Memory-Datenbank ist ein Datenbank-Managementsystem, das den Arbeitsspeicher eines Rechners als Datenspeicher nutzt. Sie arbeitet also im Gegensatz zu traditionellen Datenbank-Managementsystemen nicht mit Festplatten, sondern plattenlos. Sie vermeidet so den Flaschenhals der Ein-/Ausgabezeiten. Zudem bietet der Arbeitsspeicher eine wesentlich höhere Verarbeitungsgeschwindigkeit, und die Algorithmen für den Zugriff sind einfacher. Deshalb sind In-Memory-Datenbanken wesentlich schneller. Auch sind die Zugriffszeiten besser abschätzbar als die von Festplatten-basierten Systemen. Natürlich gibt es auch Nachteile: Zum einen ist Arbeitsspeicher deutlich teurer als Festplattenspeicher. Setzt man aber andere Methoden wie Spalten-Orientierung und Komprimierung in Kombination mit In-Memory ein, so werden die Datenvolumen deutlich reduziert, so dass der Arbeitsspeicherbedarf einer solchen Datenbank kleiner wird als der Festplattenspeicherbedarf einer vergleichbaren platten-basierten Datenbank. Zum anderen haben Rechner nicht beliebig viel Arbeitsspeicher. Daher greift man bei Datenbanken mit hoher Speicherkapazität auf Grid- Computing zurück, um auch Tera- und Petabyte-Volumen mit In-Memory-Datenbanken managen zu können. Die Persistenz der Daten stellt bei In-Memory-Datenbanken eine weitere Herausforderung dar: Da sie ihre Daten in flüchtigem Arbeitsspeicher speichern, der sie bei Systemabstürzen verliert, erfüllen sie nicht die Anforderung der dauerhaften Speicherung (Persistenz) erfolgreich abgeschlossener Transaktionen. Hier muss man mit Zusatzmethoden wie Schnappschuss- oder Protokoll-Dateien, nicht-flüchtigem RAM-Speicher oder mittels Replikation eine Hochverfügbarkeit anstreben. Data Appliances. Analytische Datenbanken können auch als sogenannte Data Appliances angeboten werden. Hier wird die Hardware an die Software angepasst. So lässt sich beispielsweise bei plattenbasierten Datenbanken die Kommunikation zwischen dem Datenbankserver und dem Speicher optimieren. Dazu kann man entweder die Zahl der Threads oder auch die Bandweite erhöhen. Zusätzlich kann man einen Mix aus großen, langsamen und kleinen, schnellen Speichereinheiten einsetzen und die Speicherung mittels Algorithmen dynamisch an das Verhalten des Datenbankspeichers anpassen. Das reduziert recht deutlich die Eingabe/Ausgabe-Geschwindigkeit, die bei plattenbasierten Datenbanken den Flaschenhals darstellt. Bei In-Memory-Datenbanken kann die Data Appliance sehr gut genutzt werden, um eine Hochverfügbarkeit der Datenbank herzustellen. All diese Methoden und Verfahren dienen der Beschleunigung des Suchens und Lesens in Datenhaltungssystemen. Aber diese Methoden und Verfahren schaffen an anderer Stelle Probleme: Die Transaktionsverarbeitung gemäß dem ACID-Prinzip [4] ist nicht so ohne weiteres möglich möglich. Das basiert auf Brewers CAP-Theorem [5], das besagt, dass in einem verteilten System die drei Eigenschaften Konsistenz, Verfügbarkeit und Partition-Toleranz nicht gleichzeitig erreichbar sind. (Abb. 1) Man kann sich diesem nicht existierenden Ideal -Zustand nur annähern, in dem man jeweils eine der drei Bedingungen abschwächt. So kann beispielsweise eine ACID-Transaktionskonsistenz abgeschwächt werden zu einer eventual consistency, also einer sich nach einigen Zwischenzuständen und nach einer gewissen Latenzzeit sich dann doch einstellenden Konsistenz. Das kann für gewisse Transaktionen ausreichend sein, für andere aber nicht. Daher muss man beim Einsatz von analytischen Datenbanken immer abwägen, was die tatsächlichen Anforderungen an die ACID-Transaktions-Konsistenz sind, und dann die entsprechenden analytischen Datenhaltungssysteme auswählen, die die geeigneten Eigenschaften haben. [4] ACID (atomicity, consistency, isolation, durability) ist eine Menge von Eigenschaften, die garantieren, dass Datenbank-Transaktionen zuverlässig abgewickelt werden. [5] siehe beispielsweise S.A.R.L. Martin/IT Research März

12 Brewers CAP-Theorem Konsistenz: ACID- Transaktionen Verfügbarkeit: totale Redundanz Es gibt kein verteiltes System, das gleichzeitig diese drei Eigenschaften hat. Partition-Toleranz: unbegrenzte Skalierbarkeit S.A.R.L. Martin 2013 Abbildung 1: Brewers CAP-Theorem besagt, dass in einem verteilten System die drei Eigenschaften Konsistenz, Verfügbarkeit und Partition-Toleranz nicht gleichzeitig erreichbar sind. Dabei bedeutet Konsistenz, dass alle Knoten zur selben Zeit dieselben Daten sehen, Verfügbarkeit, dass alle Anfragen an das System immer beantwortet werden, und Partitionstoleranz, dass das System auch bei Verlust von Nachrichten, einzelner Netzknoten oder Partition des Netzes weiterarbeitet. Analytische Datenbanken lösen dagegen die Probleme, mit denen die Kunden heute in der Analytik kämpfen: Performance, Skalierbarkeit und Kosten. Fassen wir nochmal die Vorteile zusammen: Information ist flexibler abrufbar und steht bis zu 100mal schneller oder sogar noch schneller zur Verfügung. Nutzerzufriedenheit erhöht sich signifikant aufgrund des schnelleren und flexibleren Zugriffs auf Information. Es können jetzt Daten analysiert werden, die vorher ohne Nutzen, aber mit Kosten gespeichert wurden. Das unterstützt und schafft bessere Entscheidungen. Die IT wird entlastet, da analytische Datenbanken hoch automatisiert sind und ein spezielles Wissen über Datenbankdesign und Tuning deutlich weniger gefragt ist. Zwei Dinge sollten zum Schluss noch klar gesagt werden: Eine analytische Datenbank macht ein physikalisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische, fachliche Design der analytischen Datenbank. In diesem Sinne bleibt weiterhin ein Information Management unabdinglich, auch wenn analytische Datenbanken eingesetzt werden. Denn ein Stamm- und Metadaten-Management, ein Datenqualitäts-Management, eine Information Governance und die anderen Aufgaben im Information Management bleiben auch mit analytischen Datenbanken kritische Erfolgsfaktoren. Eine analytische Datenbank ersetzt aufgrund von Brewers CAP-Theorem nicht die herkömmlichen Datenbanken in der Transaktionsverarbeitung. Analytische Datenbanken sind eine neue Generation von Datenbanken, die eben besonders für analytische Aufgaben im Unternehmen geeignet sind. Daher gehen viele Unternehmen den Weg, zwei unterschiedliche Datenbanktechnologien einzusetzen, eine für die analytischen Aufgaben, eine andere für die Transaktionsverarbeitung. S.A.R.L. Martin/IT Research März

13 Doch es gibt Ausnahmen: Oracle Exadata, Kognitio WX2 und SAP HANA eignen sich sowohl für hoch-performante analytische als auch transaktionsorientierte Aufgaben, in dem sie gute Kompromisse bieten, um Brewers CAP-Theorem in seiner rigorosen Form zu umgehen und den praktischen Anforderungen im operativen Unternehmensbetrieb befriedigende Lösungen zu bieten. Insbesondere SAP HANA bietet hier zukünftig ein großes Potenzial. Bei SAP HANA ist allerdings der Performance-Gewinn in der Transaktionsverarbeitung deutlich geringer, denn in der Transaktionsverarbeitung braucht man ein Select auf den Einzelsatz. Der Einzelsatzzugriff wird durch die von SAP HANA verwendeten Methoden aber kaum beschleunigt. Sie zeigen erst beim Select auf Gruppen die bekannten hohen Performance-Gewinne. 3.2 NoSQL-Technologien NoSQL-Datenhaltungssysteme werden heute vielfach im Kontext von Big Data diskutiert. Sie fokussieren auf der Haltung und Verarbeitung poly-strukturierter Daten und ergänzen so das traditionelle relationale Datenmodell, das im Wesentlichen für strukturierte Daten entworfen wurde. Das bedeutet im Endeffekt, dass die relationale Algebra keinen Alleinstellungsanspruch als einziges Datenhaltungsmodell mehr hat. Genauso wie verschiedene Methoden analytischer Datenbanken nicht neu sind, sind auch verschiedene NoSQL-Ansätze schon seit zum Teil langer Zeit im Einsatz, gewinnen aber erst jetzt im Big Data neue Aufmerksamkeit und Anwendung. NoSQL-Datenhaltungssysteme lassen sich wie folgt klassifizieren (Abb. 2): NoSQL-Datenhaltungssysteme Daten-Volumen Casandra Couchbase Key Value Hadoop HBase SAP Sybase IQ Mongo DB Couchbase 2.0 Spaltenorientiert Dokumentenorientiert Neo4j InterSystems Graph relational Objektorientiert Daten-Komplexität Eine relationale Algebra löst nicht alle Datenprobleme. S.A.R.L. Martin 2013 Abbildung 2: Klassifikation von NoSQL-Datenbanken und Positionierung anhand von Daten-Volumen und Daten- Komplexität. Das ergibt einen guten Anhaltspunkt, welche NoSQL-Technologie zu welchen fachlichen Anforderungen passt. Die genannten Produkte stellen (typische) Beispiele dar. Eine detaillierte Aufstellung von spaltenorientierten Datenhaltungssystemen, die ja zu den analytischen Datenbanken gehören, befindet sich in Kap S.A.R.L. Martin/IT Research März

14 Objektorientierte Datenbanken. In den 90er Jahren boten sie bereits Alternativen zum relationalen Modell. Sie hatten einen grundlegenden Ansatz, der in allen heutigen NoSQL-Datenhaltungssystemen zu finden ist. Sie sind schemafrei und setzen auf alternative Techniken, um festzulegen, wie Daten gespeichert werden. Dazu kommt der Einsatz anderer Protokolle als SQL für die Kommunikation zwischen Anwendung und Datenhaltungssysteme. Ähnlich wie bei den analytischen Datenbanken ist die Architektur vieler NoSQL-Datenbanken auf Skalierbarkeit ausgelegt: Die Verarbeitung und Verwaltung großer Datenbestände erfolgt verteilt mittels Cluster aus Standardsystemen. Graphen-Datenbanken (oder: Entity-Relationship-Datenbanken). Sie basieren auf der Darstellung von Daten als Knotenpunkte (Entitäten) und Beziehungen (Relationen) zwischen den Knoten. Statt traditioneller Datensätze erstellt man hier Knoten, die durch die Beziehungen, die man zwischen ihnen definiert, miteinander verknüpft werden. Dabei wird Information zu den Knoten und ihren Beziehungen als Eigenschaften (Attribute) gespeichert. Graphen-Datenbanken haben insbesondere Vorteile, wenn wie bei (sozialen) Netzen die Beziehungen zueinander im Mittelpunkt stehen, man also Netze abbilden will. Graphen-Datenbanken gehen auf Entwicklungen im Computer Aided Software Enginering (CASE) der späten 80er Jahre zurück. Dokumentenorientierte Datenbanken speichern Texte von beliebiger Länge mit poly-strukturierter Information und ermöglichen das Suchen auf Basis von Dokumentinhalten. Die gespeicherten Dokumente müssen nicht die gleichen Felder enthalten. XML-Datenbanken sind dokumentorientierte Datenbanken mit semi-strukturierten Daten. Spaltenorientierte Datenbanken. Sie gehören gemäß der hier benutzten Klassifikation in die Klasse der analytischen Datenbanken, was zeigt, dass analytische und NoSQL-Datenhaltungssysteme sich nicht disjunkt zueinander verhalten: Es gibt eben analytische Datenbanksysteme, die immer noch auf dem relationalen Modell basieren, als auch solche, die spalten-orientiert, also NoSQL sind. Key-Value-Datenbanken. Hier weist ein Schlüssel auf einen Wert, der in seiner einfachsten Form eine beliebige Zeichenkette sein kann. Key-Value-Datenbanken sind auch nicht neu. Sie sind als traditionelle Embedded-Datenbanken wie dbm, gdbm und Berkley DB in der Unix-Welt bekannt geworden. Key-Value-Datenbanken arbeiten entweder als In-Memory-System oder als On-Disk-Version. Sie sind besonders zum schnellen Suchen geeignet. Hadoop ist dabei, einen Standard der Zukunft in Big Data-Datenhaltung und Daten-Management zu setzen. Es ist ein Apache Software Foundation Open Source-Entwicklungsprojekt. Es arbeitet wie ein Daten-Betriebssystem und besteht aus drei Komponenten: der Speicherschicht HDFS (Hadoop Distributed File System), der von Google vorgeschlagenen Programmierumgebung MapReduce zur parallelen Verarbeitung von Abfragen, einer Funktionsbibliothek. Zu Hadoop gehört auch die HBase, ein skalierbares, analytisches Datenhaltungssystem zur Verwaltung sehr großer Datenmengen innerhalb eines Hadoop-Clusters. Die HBase ist eine Open Source-Implementierung der Google Big- Table. Die Speicherschicht HDFS speichert in der Standardeinstellung Daten in 64MB Blöcken, was paralleles Verarbeiten unterstützt und exzellent zum Lesen großer Datenmengen geeignet ist. Der Nachteil ist, dass eine solche Verarbeitung naturgemäß Batch-orientiert ist und sich deshalb nicht für Transaktionsverarbeitung oder Echtzeitanalysen eignet. HDFS hat schließlich eingebaute Redundanz. Es ist designt, um über hunderte oder tausende von preiswerten Servern zu laufen, von denen man annehmen kann, dass immer wieder einige ausfallen. Daher wird in der Hadoop-Standardeinstellung jeder Datenblock dreimal gespeichert. Neue Daten werden zudem immer angehängt, niemals eingefügt ( no insert ). Das erhöht die Geschwindigkeit des Speicherns und Lesens von Daten und erhöht auch die Zuverlässigkeit der Systeme. MapReduce (MR) wurde von Google in seiner spaltenorientierten BigTable implementiert, die auf dem Google File-System basiert. Es ist eine Programmier-Umgebung zur Parallelisierung von Abfragen, die die Verarbeitung S.A.R.L. Martin/IT Research März

15 großer Datenmengen deutlich beschleunigt. MR ist keine Programmier- oder Abfragesprache. Die Programmierung innerhalb von MR kann in verschiedenen Sprachen wie Java, C++, Perl, Python, Ruby oder R erfolgen. MR Programm-Bibliotheken können nicht nur HDFS, sondern auch andere Datei- und Datenbanksysteme unterstützen. In einigen analytischen Datenbank-Systemen werden MR Programme als in-database analytische Funktionen unterstützt, die in SQL-Befehlen benutzt werden können. MapReduce ist allerdings nur im Batch einsetzbar, nicht in Echtzeit-Verarbeitung, also auch nicht interaktiv. Dazu kommen noch einige Ergänzungen wie die HLQL (high level query languages) Hive, Pig und JAQL. Hive ist eine Data Warehouse-Umgebung, die auf einer Entwicklung von Facebook beruht. Zu Hive gehört die HLQL QL, die auf SQL beruht. Da es für die Hadoop-Programmierumgebung MapReduce noch nicht sehr viele Ressourcen gibt, die damit umgehen können, sind HLQLs wie QL sehr willkommen, da sie den Entwicklern die Verwendung einer SQL-ähnlichen Syntax erlauben. Eine andere HLQL ist Pig, eine prozedurale Sprache. Mit Hilfe von Pig sind parallele Ausführungen komplexer Analysen einfacher als mit MapReduce nachvollziehbar und durchführbar. Darüber hinaus bietet Pig auch im Gegensatz zu MapReduce eine automatisierte Optimierung komplexer Rechenoperationen. Pig ist auch offen und lässt sich durch eigene Funktionalitäten ergänzen. Zum Managen von Hadoop- Anwendungen dienen Chukwa, das die Echtzeitüberwachung sehr großer verteilter Systeme ermöglicht, und ZooKeeper, das zur Konfiguration von verteilten Systemen dient. Achtung. Obwohl Hadoop auf Technologien und Konzepten beruht, die von Big Data-Unternehmen wir Facebook und Google stammen, so ist doch heute noch sehr deutlich zu sagen, dass diese Technologien noch sehr jung und auch unausgereift sind. Daraus folgt, dass der Einsatz solcher Technologien ausgewiesene und am Markt nur schwer zu findende Mitarbeiter benötigt. Dazu kommt, dass viel Funktionalität noch in Eigenentwicklung zu leisten ist. 3.3 Analytik Online versus Offline Analytik lässt sich online und offline einsetzen. Offline-Analytik meint die Analyse einer statischen Datenmenge, Online-Analytik die Analyse einer dynamischen Datenmenge. Das beste Beispiel für Offline-Analytik ist das Data Warehouse. Daten werden hier aus operativen Prozessen mittels ETL-Prozessen vorverarbeitet und in einer Data Warehouse-Umgebung für analytische Adhoc-Abfragen oder analytische Anwendungen wie Berichte, Dashboards, Briefing Books, Data Mining etc. bereitgestellt. Hier lassen sich analytische Datenbanken bestens als Data Warehouse-Datenbank einsetzen. Man gewinnt so eine erhebliche Performance-Steigerung um Faktoren, die in der Regel zweistellig sind, aber unter bestimmten Bedingungen sogar dreistellig sein können: Man spricht auch von Analytik in Echtzeit. Hier kommen jetzt die im Kapitel 3.1 genannten Vorteile voll zum Tragen. Heute können solche Data Warehouse-Umgebungen erweitert werden, um Offline Big Data-Analytik zu unterstützen. Die Abbildung 3 zeigt eine solche Architektur, die einerseits einer existierenden Data Warehouse-Umgebung Investitionsschutz gibt und andererseits zeigt, wie Big Data-Analytik und existierende BI-Landschaften miteinander verknüpft werden können. Heutige Implementierungen einer solchen Offline Big Data-Analytik verwenden in der Regel zwei unterschiedliche Datenbank-Typen. Das Data Warehouse sitzt entweder immer noch auf traditionellen relationalen Datenbanken oder inzwischen auf einer analytischen Datenbank, während man vielfach, auch aus Kostengründen, zu einer Open Source NoSQL-Datenhaltung (wie Cassandra, Hadoop, MongoDB etc.) für das Managen von Big Data setzt. Zukünftig mit fortschreitender Reife von solchen NoSQL-Technologien wird man das heute physikalisch instanziierte Data Warehouse nur noch als logisches (virtuelles) Data Warehouse betreiben wollen. Es ist dann im Sinne von Datenvirtualisierung eine View auf das NoSQL-Datenhaltungssystem. S.A.R.L. Martin/IT Research März

16 Big Data-Analytik: Architektur polystrukturierte Daten Big Data modellierte Daten recherchieren/ identifizieren NoSQL oder analytisches DBMS gefilterte Daten analytische Ergebnisse Datenanalyse Analytische Applikationen & Services Daten- Integration Datenarchivierung, Filterung, Transformation Datenanalyse strukturierte Daten ETL/ELT Enterprise Data Warehouse Analytische Applikationen & Services externe und Unternehmensdaten nach Colin White S.A.R.L. Martin 2013 Abbildung 3: In der Offline Big Data-Analytik wird die traditionelle Data Warehouse-Architektur um die Analyse poly-strukturierter Daten ergänzt. Ein analytisches oder NoSQL-Datenhaltungssystem (beispielsweise Hadoop) wird mit den zu einer Problemlösung relevanten Daten aus dem Big Data und aus dem Enterprise Data Warehouse versorgt. Dann kann man dort recherchieren, identifizieren und analysieren. Analytische Ergebnisse und Daten, die für weitere Analysen in Frage kommen, werden gefiltert und ins Enterprise Data Warehouse zurückgeschrieben. So wird auch die traditionelle Datenanalyse durch Big Data Information angereichert. Hinzu kommt nach der Problemlösung die Datenarchivierung mittels Datenintegration inklusive möglicherweise anfallender Datenfilterung und -Transformation. Online-Analytik wird zur Steuerung operativer Prozesse in Echtzeit eingesetzt. Das Ziel ist, proaktiv mittels operativer Kennzahlen Unternehmen und Prozesse zu überwachen und zu steuern. Ein Beispiel gibt hier der Abgleich des Produktangebotes in einem Web-Shop mit der Produktverfügbarkeit. Die Produktverfügbarkeit ist eine operative Kennzahl, die den Bestand von Produkten an Hand der Verkaufs- und Lieferungs-Transaktionen misst. Die Produktverfügbarkeit ist also mit den Transaktionen synchronisiert. Sinkt nun die Produktverfügbarkeit unter einen vordefinierten Schwellenwert, so kann ein Alarm ausgelöst werden. Ein solcher Alarm könnte eine Nachlieferung automatisch auslösen. Ist eine Nachlieferung nicht möglich, dann könnte man das Produkt aus dem Katalog des Web-Shops herausnehmen oder sperren, so dass Kunden das Produkt nicht mehr bestellen können. Damit ist proaktiv sichergestellt, dass Kundenaufträge nicht storniert werden müssen, Kundenfrust wird vermieden und das Risiko eines Ausverkaufs wird minimiert. Zusätzlich könnte man auch noch automatisch einen Vermerk in den Web-Shop stellen, wann das Produkt wieder lieferbar wäre. Diese Kennzahl ist eine operative Steuerungsinformation, die mittels Online-Analytik in jeder Prozess-Instanz in Echtzeit ermittelt und genutzt wird. Basierend auf dem im Beispiel diskutierten Konzept kann man jetzt auch Echtzeit definieren. Definition: Echtzeit im Business bedeutet die richtige Information zum richtigen Zeitpunkt am richtigen Ort zum richtigen Zweck verfügbar zu haben. S.A.R.L. Martin/IT Research März

17 Die Echtzeit -Forderung im Business hat also nichts mit der Uhrzeit zu tun. Was für Echtzeit entscheidend ist, ist die Verfügbarkeit von Information in der Geschwindigkeit, mit der sie benötigt wird. Monatliche, wöchentliche oder tägliche Informationsbereitstellung kann also durchaus Echtzeit sein, wenn der zugrundeliegende Prozess entsprechend langsam abläuft (Beispiel: Fahrplan-Information bei Buchung versus Verspätungs-Information bei der Reise). In diesem Sinne bedeutet Echtzeit nichts anderes als Rechtzeitigkeit. Das Beispiel zeigt weiter, dass Analytik nicht nur diagnostische Aufgaben hat wie früher in der traditionellen Business Intelligence, sondern insbesondere auch vorausschauenden Charakter im Sinne von Vorhersage ( predictive analytics ) haben. Mittels Online-Analytik erhalten Prozesse die Fähigkeit, proaktiv und korrektiv zu agieren: Probleme und Risiken werden rechtzeitig erkannt und behandelt bevor Schäden auftreten. Das ist Geschäftssteuerung durch Echtzeit-Control basierend auf Analytik. (Abb. 4) Alles geschieht voll automatisch, also ohne manuelle Eingriffe von Produktmanagern oder anderen am Prozess Beteiligten. So spart man Zeit, Ressourcen und Kosten. Echtzeitanalytik: Architektur Geschäftsprozess Sensoren Zusammengesetzter Service analytische, kollaborative & Transaktions- Services Datenvirtualisierung Events & Sensoren Operative Daten Files, XML, Spreadsheets externe Daten Data Warehouse Big Data Einbettung von Echtzeitanalytik. S.A.R.L. Martin 2013 Abbildung 4: Online- oder Echtzeitanalytik dient der Prozesssteuerung und Automation. Sie wird erreicht durch die Einbettung von Analytik mittels Services in die Geschäftsprozesse. Die Analytik bedient sich aus unterschiedlichen Datenquellen mittels Datenvirtualisierung. So erreicht man eine Nulllatenzlösung. Die Ereignis- und Sensordaten stammen dabei nicht notwendigerweise allein aus dem Prozess, in den Analytik eingebettet wird, sondern in der Regel aus verschiedenen Prozessen und anderen Beobachtern, die die Außenwelt des Prozesses messen. Die Einbeziehung des Data Warehouses zeigt die Verknüpfung von Offline-Analytik und Online-Analytik. Die Anbindung von Big Data an das Data Warehouse entspricht der Big Data-Analytik von Abbildung 3. Die Ideen zu Online-Analytik stammen aus der Kontrolltheorie: Genauso wie man eine Raumtemperatur über einen geschlossenen Regelkreis überwachen und steuern kann, so will man jetzt Geschäftsprozesse auch operativ überwachen und steuern. Die Überwachung und Steuerung von operativen Systemen wird durch das Echtzeitprinzip ermöglicht: Es geht darum, die richtige Information zur richtigen Zeit am richtigen Ort für den richtigen Zweck S.A.R.L. Martin/IT Research März

18 zur Verfügung zu haben. In der Online-Analytik wird also Information als Bringschuld behandelt, i. e. eine eingehende oder entstehende Information wird im Augenblick des Entstehens an alle registrierten Informationsverbraucher propagiert. Im traditionellen Data Warehouse Modell (Offline-Analytik) war dagegen Information eine Holschuld. Der Informationsverbraucher war dafür verantwortlich, sich seine Information selbst abzuholen. Die Technologien zur Online-Analytik arbeiten nach dem Prinzip einer Service-Orientierung. Wird ein Online-Analytik-Service gestartet, so werden im ersten Schritt die notwendigen Daten mittels Datenvirtualisierung bereitgestellt. Datenvirtualisierung meint den virtualisierten (logischen) Zugriff auf Daten aus unterschiedlichen Datenquellen mittels einer Abstraktionsebene, wobei der Zugriff auf Daten zentralisiert wird, ohne die Notwendigkeit die Daten zu replizieren bzw. zu duplizieren. Sie erlaubt beispielsweise relationale JOINs in einer logischen View. Die Ergebnis-Mengen werden als Information Services bei Benutzeranforderung bereitgestellt. Das ist dann besonders elegant und performant, wenn analytische und transaktionelle Daten sich in einer In-Memory-Datenbank befinden (was seit kurzem SAP HANA erlaubt). Im zweiten Schritt werden die definierten analytischen Operationen ausgeführt, die auch mit weiteren Services kombiniert werden können. Im dritten Schritt erfolgt dann die Anwendung des analytischen Ergebnisses im Kontext des Geschäftsprozesses (Abb. 4). Wesentlich ist natürlich, dass diese drei Schritte schneller ausgeführt werden können als die im Kontext des Prozesses gegebene Latenzzeit. Beispiel: Kaufempfehlungen im Rahmen von Kundeninteraktionen in einem Webshop sollen die Kunden begeistern. Sie müssen also sofort (im Unter-Sekundenbereich) ausgesprochen werden können. Hier gilt es beispielsweise Data Warehouse-Daten zur Kunden-/Produkt-Profitabilität und zur Kundeneinstellung gewissen Produkten gegenüber (mittels Meinungsanalysen aus Big Data gewonnen) mit den Transaktionsdaten (Was liegt schon im Warenkorb?) und dem aktuellen Web-Klickstrom-Daten (Wie hat der Kunde aktuell im Webshop navigiert?) zu kombinieren, auszuwerten und mittels einer Regelmaschine eine Empfehlung auszusprechen. Wichtig ist es dann zu messen, ob die Empfehlung angenommen oder abgelehnt wurde. So bekommt man nicht nur eine Erfolgskontrolle, sondern kann auch eine lernende Komponente ins System einführen. 3.4 Big Data: Datenstrukturen und Latenz Analysen von Big Data lassen sich schließlich an Hand unterschiedlicher Datenstrukturen und Latenzanforderungen klassifizieren. Abbildung 5 visualisiert diese Klassifikation mittels der beiden Dimensionen Komplexität der Datenstrukturen und Verarbeitung in Batch (offline) oder Echtzeit (online). Echtzeit kann unterschiedliche Bedeutungen haben: Sie bezieht sich entweder auf Niedriglatenz-Zugriff auf bereits gespeicherte Daten oder auf die Verarbeitung und das Abfragen von Datenströmen mit Nulllatenz. Schauen wir uns die vier Quadranten der Abbildung 5 etwas genauer an: Batch und hoch-strukturiert. Lösungen basieren hier auf einer massiv-parallelen Architektur und einer hochskalierbaren, virtuellen Infrastruktur. Ein solcher Ansatz reduziert deutlich die Speicherkosten und verbessert in hohem Maße die Verarbeitungs-Effizienz traditioneller Data Warehouses. Führende Anbieter sind hier Oracle mit Exadata, IBM mit Netezza und Teradata. Echtzeit und hoch-strukturiert. Lösungen fokussieren hier auf analytischer Echtzeitverarbeitung und Data Mining-Ansätzen für prädiktive Analysen. Wenn es nur um schnelle Analysen ( Analyse in Echtzeit ) geht, dann sind analytische NoSQL-Datenhaltungssysteme gut geeignet. Wenn es aber um Echtzeitanalytik geht, dann sind In-Memory-Datenbanken die Lösung, da sie analytische und Transaktions-Daten gemeinsam im Hauptspeicher statt auf Platten verwalten. Sie gewinnen zudem an Geschwindigkeit durch eine drastische Reduzierung der Eingabe-/Ausgabe-Zeiten beim Datenzugriff und bieten eine besser abschätzbare Performance als platten-basierte Datenbanken. Führende Anbieter sind einerseits SAP mit Sybase IQ und Teradata mit Aster und andererseits Oracle mit TimesTen und SAP mit HANA. S.A.R.L. Martin/IT Research März

19 Big Data: Strukturen und Latenz massiv parallele Data Warehouses (IBM Netezza, Teradata) Batch (offline) verteilte Dateisysteme (Hadoop) poly-strukturiert hoch strukturiert Analytische NoSQL DB (Aster, SAP Sybase IQ) NoSQL: Graph DB, OODB (Neo4J, InterSystems) In-Memory Datenbanken (Oracle x10, SAP HANA) Echtzeit (online) Datenstrom- Verarbeitung (HStreaming, Streambase) Klassifikation von Big Data-Anbietern nach Datenstruktur- und Latenzanforderungen nach Forrester S.A.R.L. Martin 2013 Abbildung 5: Big Data klassifiziert nach Datenstrukturen (hoch strukturiert und poly-strukturiert) und Latenzanforderungen (Batch und Echtzeit). Die genannten Anbieter stehen stellvertretend für ihre Klasse. Mehr zur Klassifizierung von analytischen Datenbanken befindet sich in Kapitel 4.1. Batch und poly-strukturiert. Lösungen basieren hier auf einer Software-Struktur, die typischerweise ein verteiltes Datei-System, eine Verarbeitungsmaschine für große Mengen von Rohdaten und Anwendungen zum Managen der Software-Struktur enthalten. Ein prominentes Beispiel hierzu ist Hadoop. Echtzeit und poly-strukturiert. Geht es wieder um Analytik in Echtzeit, dann sind NoSQL-Technologien wie graphische und objekt-orientierte Datenhaltungssysteme gut geeignet. Die Basis für Lösungen in Echtzeitanalytik ist hier Event Stream Processing, um multiple Ereignisströme zu verarbeiten und bedeutungsvolle Einsichten zu geben. Die Aufgabe ist die Erkennung komplexer Muster in mehreren Ereignissen, Ereignis-Korrelierung und -Abstraktion, also Complex Event Processing. Führende Anbieter sind hier Cassandra, HStreaming, Streambase und Splunk. 3.5 Information Management im Big Data Information Management im Big Data bedeutet neue Herausforderungen. Dabei setzen sich die drei Hauptkomponenten von traditionellem Information Management zunächst entsprechend fort: Datenintegration, Stamm- und Meta-Daten-Management und Datenqualitäts-Management. Eine Auflistung der entsprechenden Anbieter finden Sie in Kapitel 4.2. Datenintegration. Bei der Big Data-Integration werden zunächst einmal die traditionellen Datenintegrations- Technologien wie ETL- und ELT-Prozesse und Echtzeit-Verarbeitung (change data capture, event triggering, Services) weiter genutzt. Aber es gibt auch einige weitere Anforderungen. Man braucht jetzt Konnektoren für alle Arten von analytischen und NoSQL-Datenbanken. Das setzt sich mit der Nutzung von Konstrukten zur Beschleu- S.A.R.L. Martin/IT Research März

20 nigung von Integrationsprozessen fort: Basierend auf MapReduce gibt es eine schnelle und leistungsfähige Flat-File- Verarbeitung zum Sortieren, Filtern, Mischen und Aggregieren von Daten inklusive einiger Basis-arithmetischer Funktionen. Beispiel hierzu ist das FileScale-Verfahren von Talend. Alternativ kann man hier aber auch auf alte und sehr bewährte Hochleistungs-Extrakt-Technologien wie DMExpress von Syncsort zurückgreifen, die im Zuge von Big Data wiederentdeckt werden und inzwischen auch Schnittstellen zu Hadoop haben. Eine weitere Herausforderung ist Datenintegration im Rahmen von Echtzeit-Analytik. Wir brauchen Informationsund Datenservices, die simultan Daten aus dem Data Warehouse und operativen Systemen mittels einer Datenintegrationsplattform bereitstellen. Selbst wenn es heute durch In-Memory-Datenbanken bereits möglich ist, ERP, CRM, SCM und andere Systeme auf gemeinsamen analytischen und Transaktions-Daten zu betreiben, werden wir in Zukunft weiterhin Datenintegrationsplattformen brauchen, da es außerhalb dieser Systeme ein großes Kontinuum weiterer Daten gibt, das es zu nutzen gilt. In der Vergangenheit hat man versucht, dieses zeitkritische Datenzugriffsproblem mit physischer (oder materialisierter) Datenintegration zu lösen. Die Daten werden mittels der ETL-Prozesse in das Zielmodell transformiert und in eine zentrale Datenbank kopiert, wo sie dann für rein lesende Verarbeitungen, beispielsweise Performance Management und Analytik zur Verfügung stehen. Heute nutzt man mehr und mehr Datenvirtualisierung, bei der die Integration erst bei einem Datenzugriff stattfindet. Kern ist ein logisches Datenmodell (kanonisches Schema). Es stellt einerseits die Schnittstelle zu den Quelldaten und deren Datenmodellen dar und bietet andererseits zugreifenden Services mittels Informations-Services eine integrierte globale sowohl lesende wie auch schreibende Schnittstelle zu den virtualisierten Daten. Datenvirtualisierung bedeutet auch, dass man alle Daten nur einmal hält und so redundante Datenhaltung vermeidet. Das ist im Big Data besonders wichtig, da man ja sowieso mit hohen Datenvolumen kämpfen muss. Durch Datenvirtualisierung lässt man alle Daten da wo sie sind: Man hält sie nur einmal. Datenvirtualisierung basiert also auf einer Abstraktion von Ort, Speicher, Schnittstelle und Zugriff. So werden relationale JOINs und andere Operationen in einer logischen View ermöglicht. Die Ergebnis-Mengen werden als Views oder Informations-Services bei Benutzeranforderung bereitgestellt. In solche Informations-Services lassen sich weitere Services zur Datenaufbereitung oder Anreicherung integrieren, beispielsweise Datenqualität-Services zu Gültigkeitsprüfungen. Datenvirtualisierung heute ist eine Weiterentwicklung der data federation, auch Enterprise Information Integration (EII) genannt. Datenvirtualisierung ist für Echtzeit-Analytik bestens geeignet und erlaubt eine Nulllatenz-Datenintegration, i.e. die Analytik arbeitet synchron mit den Transaktionsdaten. Eine solche Lösung war bisher wegen der Performanz- Anforderungen an die notwendige Netzwerk- und Hardware-Infrastruktur aber eine teure Lösung. Heute bietet In Memory-Verarbeitung interessante und preiswertere Alternativen. Datenintegration beschränkte sich bisher auf die Aufgabe, im Unternehmen vorhandene Daten zu integrieren, Adress- und Geo-Daten hinzuzukaufen und mit Attributen aus im Markt angebotenen Daten wie demo- und soziogeographischen Daten anzureichern. Das lässt sich mit den beschriebenen Methoden und Technologien machen. Heute im Zeitalter von Big Data kommt eine weitere Aufgabe auf die Datenintegration zu: Das Anreichern von Daten durch Social Media-Daten. Hier hat man jetzt die Aufgabe, die Kundendaten im Unternehmen mit den entsprechenden Daten aus den Social Media zusammenzuführen, denn Personen in den Social Media nennen sich teilweise anders, sind anonym oder benutzen falsche Identitäten. Ein solches Problem der Identity Resolution hatte man auch schon in gewissem Umfang bei Adressdaten, wenn es um die Dublettenbereinigung ging. Jetzt ist das Problem im Big Data entsprechend schwieriger, denn wir haben es mit unterschiedlichen Social Media, unterschiedlichen Sprachen, mit unterschiedlichen Schrifttypen und deren unterschiedlichen Transkriptionen zu tun. Die Aufgabe ist es, ein soziales Profil eines Kunden aufzustellen und mit dem Unternehmensprofil des Kunden abzugleichen. Das schafft man mit den Methoden und Technologien der sogenannten Entity Identity Resolution. Vor der Extraktion von Datenquellen im Web kommt noch das Identifizieren von relevanten Datenquellen. Dazu setzt man Suchmaschinen ein, die also inzwischen auch zu Werkzeugen im Information Management werden. Der S.A.R.L. Martin/IT Research März

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

BIG DATA Impulse für ein neues Denken!

BIG DATA Impulse für ein neues Denken! BIG DATA Impulse für ein neues Denken! Wien, Januar 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust The Age of Analytics In the Age of Analytics, as products and services become

Mehr

Wird BIG DATA die Welt verändern?

Wird BIG DATA die Welt verändern? Wird BIG DATA die Welt verändern? Frankfurt, Juni 2013 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Big Data Entmythisierung von Big Data. Was man über Big Data wissen sollte. Wie

Mehr

SAP HANA eine Plattform für innovative Anwendungen

SAP HANA eine Plattform für innovative Anwendungen SAP HANA eine Plattform für innovative Anwendungen Top Intelligence: Big Data & SAP HANA Zürich, Frankfurt, Hamburg, München, Mülheim/R Februar 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder

Mehr

Prozess- und Datenmanagement Kein Prozess ohne Daten

Prozess- und Datenmanagement Kein Prozess ohne Daten Prozess- und Datenmanagement Kein Prozess ohne Daten Frankfurt, Juni 2013 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Prozess- und Datenmanagement Erfolgreiche Unternehmen sind Prozessorientiert.

Mehr

Maximieren Sie Ihr Informations-Kapital

Maximieren Sie Ihr Informations-Kapital Maximieren Sie Ihr Informations-Kapital Zürich, Mai 2014 Dr. Wolfgang Martin Analyst, Mitglied im Boulder BI Brain Trust Maximieren des Informations-Kapitals Die Digitalisierung der Welt: Wandel durch

Mehr

IT-Megatrends 2013-2020 Wissen ist Macht Kundendaten-Management als Basis für erfolgreiches Kundenbeziehungs-Management

IT-Megatrends 2013-2020 Wissen ist Macht Kundendaten-Management als Basis für erfolgreiches Kundenbeziehungs-Management IT-Megatrends 2013-2020 Wissen ist Macht Kundendaten-Management als Basis für erfolgreiches Kundenbeziehungs-Management Dr. Wolfgang Martin Analyst, ibond Partner, und Mitglied im CRM Expertenrat Frankfurt,

Mehr

Business Analytics in der Big Data-Welt

Business Analytics in der Big Data-Welt Business Analytics in der Big Data-Welt Frankfurt, Juni 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Big Data-Analytik "The way I look at big data analytics is it's not a technology,

Mehr

Die Rolle des Stammdatenmanagements im digitalen Unternehmen

Die Rolle des Stammdatenmanagements im digitalen Unternehmen Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Die Rolle des Stammdatenmanagements im digitalen Unternehmen Frankfurt, April 2015 Die Digitalisierung der Welt Nach der Globalisierung

Mehr

Strategic Bulletin Juli 2012 BIG DATA. Dr. Wolfgang Martin

Strategic Bulletin Juli 2012 BIG DATA. Dr. Wolfgang Martin Strategic Bulletin Juli 2012 BIG DATA Dr. Wolfgang Martin Copyright Dieses Strategic Bulletin wurde vom Wolfgang Martin Team S.A.R.L. Martin und IT Research verfasst. Alle Daten und Informationen wurden

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data: Nutzen und Anwendungsszenarien CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data steht für den unaufhaltsamen Trend, dass immer mehr Daten in Unternehmen anfallen und von

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Business Intelligence

Business Intelligence Business Intelligence TOP Priorität für CIOs? Köln 08. Mai 2007 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Research Advisor am Institut für Business Intelligence BI TOP Priorität

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Von BI zu Analytik. bessere Entscheidungen basiert auf Fakten. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Von BI zu Analytik. bessere Entscheidungen basiert auf Fakten. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Von BI zu Analytik bessere Entscheidungen basiert auf Fakten Webinar Mai 2010 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Von Business Intelligence zu Analytik Die Bedeutung

Mehr

BI im Zeitalter von Big Data Innovation durch Location Intelligence IBM Cognos/geoXtend-Event, Frankfurt/M, Mai 2012

BI im Zeitalter von Big Data Innovation durch Location Intelligence IBM Cognos/geoXtend-Event, Frankfurt/M, Mai 2012 BI im Zeitalter von Big Data Innovation durch Location Intelligence IBM Cognos/geoXtend-Event, Frankfurt/M, Mai 2012 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Big Data und

Mehr

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Analytisches CRM und Data Mining

Analytisches CRM und Data Mining Analytisches CRM und Data Mining Magische Zahlen für das Marketing Computerwoche Initiative CRM 2009 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Mitglied im CRM Expertenrat

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

The Need for Speed. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

The Need for Speed. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor The Need for Speed CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor The Need for Speed Industrialisierung, Agilität und Compliance die Rolle von Performance Management

Mehr

Digitale Transformation: BI und Big Data treiben neue Geschäftsmodelle. CeBIT, 18.3.2015 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Digitale Transformation: BI und Big Data treiben neue Geschäftsmodelle. CeBIT, 18.3.2015 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Digitale Transformation: BI und Big Data treiben neue Geschäftsmodelle CeBIT, 18.3.2015 Dr. Carsten Bange, Gründer und Geschäftsführer BARC BARC: Expertise für datengetriebene Unternehmen Beratung Strategie

Mehr

Webinar: Mit TIBCO Spotfire wird Business Intelligence jetzt kollaborativ, mobil und social

Webinar: Mit TIBCO Spotfire wird Business Intelligence jetzt kollaborativ, mobil und social Webinar: Mit TIBCO Spotfire wird Business Intelligence jetzt kollaborativ, mobil und social Mit TIBCO Spotfire können nun Geschäftsanwender jederzeit und überall ihre Analytics-Anwendungen selbst entwickeln,

Mehr

Das intelligente Unternehmen

Das intelligente Unternehmen Das intelligente Unternehmen Das Office of the CFO als Leitstand SAP Infotage, Düsseldorf, Okt. 2007 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Research Advisor am Institut

Mehr

Intelligente Unternehmens- und Prozesssteuerung durch CPM

Intelligente Unternehmens- und Prozesssteuerung durch CPM Intelligente Unternehmens- und Prozesssteuerung durch CPM 5. IIR Forum BI, Mainz, Sept. 2006 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Research Advisor am Institut für Business

Mehr

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1)

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1) Datenbanken und SQL Kapitel 1 Übersicht über Datenbanken Übersicht über Datenbanken Vergleich: Datenorganisation versus Datenbank Definition einer Datenbank Bierdepot: Eine Mini-Beispiel-Datenbank Anforderungen

Mehr

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten

Mehr

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten

Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten Prognosen via Datenanalyse Predictive Analytics: Darauf müssen Unternehmen achten von Jürgen Mauerer Foto: Avantum Consult AG Seite 1 von 21 Inhalt Mehrwert aufzeigen nach Analyse des Geschäftsmodells...

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

Business Intelligence Meets SOA

Business Intelligence Meets SOA Business Intelligence Meets SOA Microsoft People Ready Conference, München, Nov. 2007 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Research Advisor am Institut für Business

Mehr

Big Data Herausforderungen für Rechenzentren

Big Data Herausforderungen für Rechenzentren FINANCIAL INSTITUTIONS ENERGY INFRASTRUCTURE, MINING AND COMMODITIES TRANSPORT TECHNOLOGY AND INNOVATION PHARMACEUTICALS AND LIFE SCIENCES Big Data Herausforderungen für Rechenzentren RA Dr. Flemming Moos

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Wachstumsförderung mit CRM

Wachstumsförderung mit CRM Wachstumsförderung mit CRM Computerwoche CRM Initiative Feb. 2007 Dr. Wolfgang Martin Analyst, Mitglied im CRM-Expertenrat und Research Advisor am Institut für Business Intelligence Wachstumsförderung

Mehr

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd. Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

10 Jahre Stammdaten-Management-Forum: Rückblick, Ausblick und Trends

10 Jahre Stammdaten-Management-Forum: Rückblick, Ausblick und Trends 10 Jahre Stammdaten-Management-Forum: Rückblick, Ausblick und Trends Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Köln, Juni 2015 10 Jahre Stammdatenmanagement Forum Stammdaten-Management

Mehr

CRM trifft Big Data: vom Kundenwissen zum Marktwissen

CRM trifft Big Data: vom Kundenwissen zum Marktwissen CRM trifft Big Data: vom Kundenwissen zum Marktwissen Frankfurt, Juli 2012 Dr. Wolfgang Martin Analyst, ibond Partner, und Mitglied im CRM Expertenrat CRM trifft Big Data Big Data. Kunde: Ich habe den

Mehr

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

UNLIMITED by Capgemini Echtzeit für Individualanwendungen

UNLIMITED by Capgemini Echtzeit für Individualanwendungen Application Services the way we do it UNLIMITED by Capgemini Echtzeit für Individualanwendungen Was wäre, wenn Ihre Individual-Software 30-mal schneller liefe? sie dabei 100-mal so viele Daten verarbeiten

Mehr

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG

DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG DATEN - Das Gold des 21. Jahrhunderts? Dr. Oliver Riedel, AUDI AG Inhalt Globale und unternehmensspezifische Herausforderungen Von Big Data zu Smart Data Herausforderungen und Mehrwert von Smart Data 2

Mehr

Prozess- und Service-Orientierung im Unternehmen mehr als Technologie

Prozess- und Service-Orientierung im Unternehmen mehr als Technologie Prozess- und Service-Orientierung im Unternehmen mehr als Technologie Presse Talk CeBIT 2007 Dr. Wolfgang Martin Analyst, ibond Partner, Ventana Research Advisor und Research Advisor am Institut für Business

Mehr

BIG DATA - BIG OPPORTUNITIES

BIG DATA - BIG OPPORTUNITIES BIG DATA - BIG OPPORTUNITIES eday: 2014 Wien, 6. März 2014 EBA Executive Business Advice GmbH 1120 Wien, Am Euro Platz 2, Gebäude G Tel.: +43 1 71728 172 Email: office@eba-business.at www.eba-business.at

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt NoSQL & Big Data Datenorientierte Systemanalyse NoSQL Databases and Big Data Gerhard Wohlgenannt Die besprochenen Systeme haben nicht den Anspruch und das Ziel DBS zu ersetzen, sondern für gewisse Anwendungsfälle

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

vfabric-daten Big Data Schnell und flexibel

vfabric-daten Big Data Schnell und flexibel vfabric-daten Big Data Schnell und flexibel September 2012 2012 VMware Inc. All rights reserved Im Mittelpunkt: Daten Jeden Morgen wache ich auf und frage mich: Wie kann ich den Datenfluss optimieren,

Mehr

Top 10 der Business Intelligence-Trends für 2014

Top 10 der Business Intelligence-Trends für 2014 Top 10 der Business Intelligence-Trends für 2014 Das Ende der Datenexperten. Datenwissenschaft kann künftig nicht nur von Experten, sondern von jedermann betrieben werden. Jeder normale Geschäftsanwender

Mehr

LEAN MANUFACTURING. Teil 2 Lean Konzepte. Ein Quick Guide für den schnellen Einstieg in die Möglichkeiten der Lean Philosophie.

LEAN MANUFACTURING. Teil 2 Lean Konzepte. Ein Quick Guide für den schnellen Einstieg in die Möglichkeiten der Lean Philosophie. 2009 LEAN MANUFACTURING Ein Quick Guide für den schnellen Einstieg in die Möglichkeiten der Lean Philosophie Teil 2 Lean Konzepte Martin Zander 2 M. Zander Lean Manufacturing Ein Quick Guide für den schnellen

Mehr

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data Herausforderungen und Chancen für Controller ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC BARC: Expertise für datengetriebene Organisationen Beratung Strategie

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Software AG Innovation Day 2014 Bonn, 2.7.2014 Dr. Carsten Bange, Geschäftsführer Business Application Research Center

Mehr

Customer Centricity. Frankfurt, November 2011. Dr. Wolfgang Martin Analyst, ibond Partner, und Mitglied im CRM Expertenrat

Customer Centricity. Frankfurt, November 2011. Dr. Wolfgang Martin Analyst, ibond Partner, und Mitglied im CRM Expertenrat Customer Centricity Frankfurt, November 2011 Dr. Wolfgang Martin Analyst, ibond Partner, und Mitglied im CRM Expertenrat Customer Centricity Kundenbeziehungs-Management Die Evolution der Modelle Outbound,

Mehr

Business Intelligence Governance

Business Intelligence Governance Business Intelligence Governance von der Vision zur Realität im Unternehmensalltag Webinar September 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das intelligente Unternehmen

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN CLOUD-ENTWICKLUNG: BESTE METHODEN 1 Cloud-basierte Lösungen sind auf dem IT-Markt immer weiter verbreitet und werden von immer mehr

Mehr

Stammdatenmanagement trifft Big Data Herausforderungen und Trends

Stammdatenmanagement trifft Big Data Herausforderungen und Trends Stammdatenmanagement trifft Big Data Herausforderungen und Trends Frankfurt, September 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Die Digitalisierung der Welt Nach der Globalisierung

Mehr

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Datei: Asklepius DA Flyer_Leistung_2 Seite: 1 von:5 1 Umfassende Datenanalyse Mit Asklepius-DA

Mehr

Infografik Business Intelligence

Infografik Business Intelligence Infografik Business Intelligence Top 5 Ziele 1 Top 5 Probleme 3 Im Geschäft bleiben 77% Komplexität 28,6% Vertrauen in Zahlen sicherstellen 76% Anforderungsdefinitionen 24,9% Wirtschaflicher Ressourceneinsatz

Mehr

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1 NoSQL-Datenbanken Kapitel 1: Einführung Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 1-1 Inhaltsverzeichnis NoSQL-Datenbanken Motivation und Definition Kategorisierung, Eigenschaften

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken Speichern und Analysen von großen Datenmengen 1 04.07.14 Zitat von Eric Schmidt (Google CEO): There was 5 exabytes of information created between the dawn of civilization through

Mehr

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm

Open Source BI Trends. 11. Dezember 2009 Wien Konstantin Böhm Open Source BI Trends 11. Dezember 2009 Wien Konstantin Böhm Profil Folie 2 JAX 2009 11.12.2009 Gründung 2002, Nürnberg 50 Mitarbeiter Innovative Kunden Spezialisiert auf Open Source Integration Open Source

Mehr

Capture Enabled BPM mobile und agile Prozesse

Capture Enabled BPM mobile und agile Prozesse Capture Enabled BPM mobile und agile Prozesse Frankfurt/M, September 2012 Dr. Wolfgang Martin unabhängiger Analyst Capture Enabled BPM BPM: Definitionen Prozess und Prozess-Infrastruktur Performance Management

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation

SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation SAP Customer Engagement Intelligence - Kundenanalysen der nächsten Generation Alexander Schroeter, Head of Outbound PM MEE, CRM & Commerce, SAP AG Regensdorf, November 19, 2013 SAP Customer Engagement

Mehr

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen: 1 Einführung in Datenbanksysteme Fast jeder kennt Excel und hat damit in seinem Leben schon einmal gearbeitet. In Excel gibt es Arbeitsblätter, die aus vielen Zellen bestehen, in die man verschiedene Werte

Mehr

PPM Production Performance Manager

PPM Production Performance Manager Business Intelligence Plattenzuschnitt-Industrie PPM Production Performance Manager FÜR DIE Plattenzuschnitt-Industrie www.ppmc.li PPM Production Performance Manager. besser informiert Geschäftsprozesse

Mehr

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen Nahezu 70% aller Data Warehouse Anwendungen leiden unter Leistungseinschränkungen der unterschiedlichsten Art. - Gartner

Mehr

Innovationen durch Big Data: Chancen für die Maritime Wirtschaft

Innovationen durch Big Data: Chancen für die Maritime Wirtschaft Pushing IT forward! Maritime IT Big Data Martin Lochte-Holtgreven 27.08.2013 Innovationen durch Big Data: Chancen für die Maritime Wirtschaft Agenda Innovationen durch BigData Grundlagen Beispiele aus

Mehr

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information SPoT Agenda Begrüßung und Vorstellung CAS AG Markttrends aus Analystensicht Big Data Trusted Information Lars Iffert, BARC GmbH Dr. Oliver Adamczak, IBM Deutschland GmbH Factory Ansatz für ETL-Prozesse

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Herausforderung innovativer Kommunikation mit dem Kunden Multikanal Management für Energieversorger. BTC Network Forum Energie 2013

Herausforderung innovativer Kommunikation mit dem Kunden Multikanal Management für Energieversorger. BTC Network Forum Energie 2013 Herausforderung innovativer Kommunikation mit dem Kunden Multikanal Management für Energieversorger BTC Network Forum Energie 2013 Starke Kunden fordern den Markt heraus Sozial vernetzt Digital verbunden

Mehr

Big Data als Ökosystem datengetriebener Unternehmen

Big Data als Ökosystem datengetriebener Unternehmen Big Data als Ökosystem datengetriebener Unternehmen Präsentation im CINIQ Center for Data and Information Intelligence, Fraunhofer Heinrich-Hertz-Institut in Berlin 10.09.2013 von Dr. Peter Lauf Zur Person

Mehr

Das Internet der Dinge

Das Internet der Dinge Das Internet der Dinge Peter Mengel 15. September 2015 Definition IoT Geprägt wurde der Begriff 1999 vom britischen Technologie-Pionier und Mitbegründer des Auto-ID-Centers des Massachusetts Institute

Mehr

POWER ALS BIG DATA PLATTFORM. Vom klassischen Data Warehouse zum Big Data Ansatz

POWER ALS BIG DATA PLATTFORM. Vom klassischen Data Warehouse zum Big Data Ansatz POWER ALS BIG DATA PLATTFORM Vom klassischen Data Warehouse zum Big Data Ansatz IBM COGNOS VORSTELLUNG Stefan Held Software Architekt PROFI GS Bochum Schwerpunkte: Business Intelligence & Analytics Big

Mehr

Der Energiesektor im Wandel. 10. Mai 2012

Der Energiesektor im Wandel. 10. Mai 2012 Der Energiesektor im Wandel 10. Mai 2012 Der Energiesektor im Wandel: Was sind die wesentlichen Herausforderungen Heute und Morgen? Riesige Datenmengen! Klimawandel Marktliberalisierung Statt einem Zählerstand

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr