BARC M1: Trends im Data Warehousing und Datenmanagement München, 17. Juni 2013 Otto Görlich, Timm Grosser, Lars Iffert BARC 2013 1
Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität Würzburg (Prof. Thome) 1999: Spin-Off als eigenständiges Analystenhaus (BARC GmbH) 2005: Internationalisierung 2011: Fusion mit CXP zu einer Unternehmensgruppe (80 Mitarbeiter, davon 40 Analysten) BARC Heute 35 Mitarbeiter, davon 15 Analysten & Berater über 1200 Kunden jährlich Themen: Business Intelligence, Datenmanagement, Enterprise Content Management, IT Service Management, ERP, CRM, HR Standorte: Würzburg, Zürich, Wien, London, Paris 17.06.2013 BARC 2013 2
Ressourcen bei BARC für Ihr Projekt Durchführung von internationalen Umfragen, basierend auf eigenem IT-Anwender-Panel The BI Survey 13 Datenqualitätsmanagement Planung und Budgetierung in Europa etc. Marktforschungsstudien Produktvergleichsstudien Business Intelligence Datenmanagement Enterprise Content Management IT Service Management Veranstaltungen Tagungen - LIVE-Demos von Software-Lösungen Seminare und individuelle Workshops Webinare zu unterschiedlichen Themenschwerpunkten Online Demos auf www.software-präsentationen.de Consulting Individuelle Unterstützung für Strategie, Architektur und Software-Auswahl Unabhängige Beratung in den Bereichen BI, Data Warehousing und Datenintegration, ECM, IT Service Management, ERP, CRM 17.06.2013 BARC 2013 4
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 6
Die Krise hat Anforderungen an BI verändert Kurzfristig verfügbare Transparenz und Frühindikatoren Prozessorientierte Auswertungen Planung und Simulation Dezentrale Flexibilität - Umsetzungsgeschwindigkeit für Änderungen 17.06.2013 BARC 2013 7
Angebot Nachfrage IT-Lösungsangebot Consumerization Heutige Angebotsentwicklung Private und betriebliche Nutzung von IT verschwimmt Historische Angebotsentwicklung Anwendererwartungen wachsen rapide Anwendermacht ebenso Unternehmen Konsument Bild in Anlehnung an: http://www.force10networks.com/whitepapers/unifiednetworkfabric.asp 17.06.2013 BARC 2013 8
Anwender fordern frischere Daten zur Entscheidungsunterstützung % aller Daten 70 60 50 Aktualisierungszyklen werden heterogener Aktualisierungszyklen verkürzen sich 40 30 20 1990 2000 2010 10 0 real time mehrmals am Tag Schätzung BARC 2008 täglich monatlich jährlich Aktualisierungszyklus 917.06.2013 BARC 2013 9
Echtzeit-Daten Wie viel Prozent der Daten werden in welchem Zeitintervall zur Verfügung gestellt? < 5 Sekunden < 1 Minute < 1 Stunde Einmal am Tag Einmal in der Woche Einmal im Monat 4% 10% 4% 7% 6% 9% 13% 9% 27% 24% 45% 40% BARC Big Data Survey 2013 n = 160 0% 20% 40% 60% Heute Geplant 17.06.2013 BARC 2013 10
Status quo Agiles BI stellt besondere Flexibilitäts- und Skalierbarkeitsanforderungen an das Datenmanagement, die durch die hohe Komplexität in den historisch gewachsenen Analytischen Systemen nur mit hohem Aufwand und hoher Latenz umgesetzt werden können. 17.06.2013 BARC 2013 11
Dezentrale Flexibilität durch Self Service BI Self Service BI Modifikation von Berichten und Dashboards Erzeugung von Berichten und Dashboards ad-hoc Integration privater, lokaler Daten Modifikation und Erzeugung von Datenmodellen Data Stewardship (Verbesserung Datenqualität) Data Governance 17.06.2013 BARC 2013 13 13
Dezentrale Flexibilität durch Sandboxing BI Services BI Sandbox Data Mart Data Mart Data Mart DP Services Data Warehouse Ind. copy DP Sandbox IQ Services IQ Sandbox OLTP 17.06.2013 BARC 2013 14
Status quo Agiles BI stellt besondere Flexibilitäts- und Skalierbarkeitsanforderungen an das Datenmanagement, die durch die hohe Komplexität in den historisch gewachsenen Analytischen Systemen nur mit hohem Aufwand und hoher Latenz umgesetzt werden können. 17.06.2013 BARC 2013 15
Datenwachstum Wie stark wachsen die für Berichtswesen und Analyse bereitgestellten Daten im Unternehmen pro Jahr? 2011 9% 66% 19% 7% 2012 4% 54% 35% 8% 2013 3% 48% 36% 13% 0% 20% 40% 60% 80% 100% Negatives / Kein Wachstum Leicht wachsend (1-25%) Stark wachsend (25%-50%) Sehr stark wachsend (>50%) n = 202 17.06.2013 BARC 2013 16
Verwendete Daten Welche Daten nutzen Sie für die Analyse? Transaktionsdaten 70% 20% 10% Logs 55% 30% 15% Sensorik 44% 31% 24% Unstrukturierte Daten (Dokumente, Video, Bild) 40% 29% 32% Social-Media-Daten 14% 50% 36% 0% 20% 40% 60% 80% 100% Im Einsatz Geplant Nicht geplant Q: BARC Big Data Survey Europe, n = 174 17.06.2013 BARC 2013 17
Höhere Anwenderzahlen Höhere Komplexität der klassischen BI-Infrastrukturen Größere Datenmengen Höhere Anwenderzahlen 17.06.2013 BARC 2013 18
Höhere Abfragekomplexität Höhere Komplexität der klassischen BI-Infrastrukturen Größere Datenmengen Höhere Anwenderzahlen Höhere Abfragekomplexität Traditionelle BI-Anwendungen Dashboards Standard- Reporting Ad hoc Reporting Analyse Data Mining Planung Wir wollen nicht mehr nur Reporting machen. 17.06.2013 BARC 2013 19
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 20
Wesentliche Treiber für Data Governance Prüfung und Umsetzung von Big Data Initiativen Antworten finden auf die wachsenden Flexibilitätsanforderungen aus den Fachbereichen Sicherstellung der Datenqualität & Steigerung der Vertrauenswürdigkeit von Daten Sicherstellung der Skalierbarkeit Erfüllung und Einhaltung von gesetzlichen Vorschriften Einhaltung des Datenschutz 17.06.2013 BARC 2013 21
Hauptprobleme in BI-Projekten Keine nennenswerte Probleme 32% Abfragegeschwindigkeit zu langsam Fehlendes Interesse der Nutzer Schlechte Datenqualität Unternehmenspolitik Uneinigkeit über Anforderungen Administrative Probleme Anforderungen änderten sich 17% 15% 15% 14% 13% 12% 12% Was sind die schwerwiegendsten Probleme, die bei der Nutzung von BI auftreten? Schlechte Data Governance Software ist nicht flexibel genug Unzuverlässige Software Daten aus einigen Vorsystemen nicht übernehmbar Fehlende Schlüsselfunktionen Softwarebedienung zu schwierig 9% 9% 8% 7% 6% 6% Zu große Datenvolumen für Produkt 4% Sicherheitbeschränkungen im Produkt 3% Quelle: BARC BI Survey 12 Zu große Nutzerzahlen für Produkt 2% (Oktober 2012), n=2067 www.bi-survey.com 0% 20% 40% 22 17.06.2013 BARC 2013 22
Data Governance (Datensteuerung) entspricht in Summe den Menschen, Prozessen und Technologien, die zur Verwaltung und zum Schutz des Datenkapitals des Unternehmens benötigt werden, um allgemein verständliche, korrekte, vollständige, vertrauenswürdige, sichere und auffindbare Unternehmensdaten garantieren zu können. 17.06.2013 BARC 2013 23
Nutzen einer Data Governance Bessere Entscheidungsunterstützung durch unternehmensweit abgestimmte Daten und Prozesse Erhöhung der Skalierbarkeit der IT-Landschaft durch klare Regeln Optimierung der Datenverwaltungskosten (zunehmend wichtig im Zeitalter explodierender Datenmengen) Steigerung der Effizienz durch Nutzung von Synergieeffekten Höheres Vertrauen in Daten durch qualitätsgesicherte und zertifizierte Daten sowie eine durchgängige Dokumentation der Datenprozesse, Erfüllung von Compliance Richtlinien, wie bspw. Basel III, Solvency II, u.a., Sicherheit für interne und externe Daten durch Überwachung und Prüfung der Datenschutzrichtlinien Steigerung der Prozesseffizienz durch Standardprozesse Klare Verantwortung und transparente Kommunikation 17.06.2013 BARC 2013 25
Herausforderungen bei der Einführung einer Data Governance Politik & Menschen Kommunikation Budgets & Stakeholder Standardisierung vs. Flexibilität 17.06.2013 BARC 2013 26
Marktsegmentierung: Werkzeuge zur Unterstützung von Data Governance Initiativen Data Governance Metadatenmanagement Datenqualitätsmanagement Stammdatenmanagement Datenintegration Datenmodellierung 17.06.2013 BARC 2013 27
Erkenntnis Data Governance ist Voraussetzung für die erfolgreiche Nutzung von Daten. Wer Data Govnernance nicht beachtet handelt grob fahrlässig und verbaut Potentiale. Data Governance Projekte sind richtig aufgesetzt keine unbeherrschbaren, hoch-komplexen Projekte. 17.06.2013 BARC 2013 28
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 30
Big Data verkörpert neue Daten Merkmale erzeugt vom heutigen digitalisierten Marktplatz Eigenschaften von Big Data Volume Variety Velocity Daten in großen Mengen Terabytes bis Petabytes von Daten Daten in vielen Formen Strukturierte, polystrukturierte, Text, Multimedia Daten Daten in Bewegung Analyse von Datenströmen für Entscheidungen in Sekundenbruchteilen Veracity Daten Verlässlichkeit Management der Zuverlässigkeit und Berechenbarkeit von inhärent ungenauen Datentypen 17.06.2013 BARC 2013 31
Die andersartigen, zusätzlichen (riesigen) Daten(mengen) und die technischen und wirtschaftlichen Verarbeitungsmöglichkeiten eröffnen ein neues IT-Modell: contextual computing Smartphones, Browser, Apps, etc. erzeugen eine riesige Menge an Daten über Nutzer und Kunden Menschen tauschen in sozialen Netzwerken (frei) Meinungen, Wissen, Bedürfnisse und ihre Absichten aus Open Data und Open API ermöglichen den Durchbruch im Hinblick auf Zugang und Integration Semantik-Technologie wie RDF ermöglichen automatisierte Datenverwertung und -aufnahme Neue Datenbanken zur Speicherung und web-scale Verarbeitung kontextabhängiger Informationen Advanced Analytics erschließen (automatisiert) Zusammenhänge für weitreichende Analyse und Prognosemöglichkeiten Watson-style Beratung mithilfe großer Speicher und kontextabhängiger Daten Mehrwert und konkretere Sichten durch lern- und anpassungsfähige Interaktionen und Visualisierungen 17.06.2013 BARC 2013 32
Big Data macht nicht alles neu, sondern ergänzt bekannte Konzepte Traditioneller Ansatz Strukturiert, analytisch, logisch Neuer Ansatz kreativ, ganzheitlich, intuitiv Transaction Data Data Warehouse Hadoop Streams Web Logs Internal App. Data Strukturiert Mainframe Data Wiederholbar Linear OLTP Systems Data Enterprise Data Integration Social Data Unstrukturiert Erforschend Text Data, emails Iterativ Sensor Data, Images ERP Sytems Data Traditional Sources New Sources RFID 17.06.2013 BARC 2013 33
Events / Streams Social Media Multimedia Documents (unstructured) Data at Rest Packages Big Data ergänzt das traditionelle DWH um Daten- und Analyse-Typen sowie weitere Dimensionen Produce Collect Integrate Provide Calculate Analyse Consume Orders, Lieferanten, Warenwirtschaft, CRM, etc. Traditionelles DWH Big Data Extract / Import Integrate/Cleanse/ De-duplicate Customer Master Data Map Enterprise DWH Reduce Cube Data Mart Data Mining & Statistics Optimization & Simulation Semantic Analysis Operational Analytics Business Analytics Predictive Analytics Analytics on Data at Rest Extract / Import Shuffle / Transform Fuzzy Comparison Calculation Networks Business Rules Real Time Analytics Event detection Capture real-time data Visualization Discovery Alle verfügbaren Daten Big Data Governance 17.06.2013 BARC 2013 34
Events / Streams Social Media Multimedia Documents (unstructured) Enterprise Query Layer Orders, Lieferanten, Warenwirtschaft, CRM, etc. Das Big Data Zielbild bietet den Fachbereichen end-to-end Analyse- Möglichkeiten und Transparenz der zugrundeliegenden Technologie Produce Collect Integrate Provide Calculate Analyse Consume Enterprise DWH Cube Operational Analytics Integrate/Cleanse/ De-duplicate Customer Master Data Data Mart Business Analytics Data Mining & Statistics Predictive Analytics Map Reduce Optimization & Simulation Semantic Analysis Analytics on Data at Rest Extract / Import Event detection Shuffle / Transform Fuzzy Comparison Business Rules Calculation Networks Real Time Analytics Visualization Discovery Capture real-time data Enterprise Data Hub Big Data Governance Analytics Platform Analytics Portal 17.06.2013 BARC 2013 35
Fehlannahmen über Big Data Big Data ist in erster Linie große Datenmengen Wir müssen alle älteren Systemen in der neuen Welt von Big Data ersetzen "Big Data ist nur Hadoop oder Open Source "Ältere Transaktionsdaten spielen keine Rolle mehr "Data Warehouses sind eine Sache der Vergangenheit "Big Data ist für die Internet-versierten Unternehmen. Traditionelle Unternehmen sind immun "Wir haben nicht die Notwendigkeit oder das Budget oder entsprechende Fähigkeiten, also interessiert es uns auch nicht "Big Data erfordert viele Data Scientists für Codierung und Betrieb" 17.06.2013 BARC 2013 38
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 39
Was ist eine Analytische Datenbank - was macht eine DWH Appliance aus? Analytische Datenbank (SW-only oder DWH Appliance) DBMS mit besonderer Eignung (Architektur, Arbeitsweise, Funktionen) für Analytik, was vor allem durch Abfrage- Eigenschaften bestimmt wird Vorkonfigurierte HW/SW-Pakete zur Sicherstellung eines ausgewogenen Systems und einfachem Betrieb (DWH) Appliance 17.06.2013 BARC 2013 40
Key Points Marktentwicklung Analytische Datenbanken Die Komplexität analytischer Infrastrukturen wächst Anwender fürchten Anforderungen mit traditionellen Datenbanken nicht mehr effizient umsetzen zu können. Deutliche Sichtbarkeitsschwelle für analytische Datenbanken vor 10 Jahren. Neue Lösungsangebote sorgen für steigende Marktdynamik. Datenbankhersteller kommen und gehen. Etablierte Anbieter ziehen nach durch Aufkäufe und/oder Eigenentwicklungen. Einsatz von analytischen Datenbanken auf dem DACH Markt eher zurückhaltend. Vertrauen wird vor allem einheimischen neuen Anbietern geschenkt. Nachwievor stark vorne liegen die etablierten DB Anbieter IBM, Oracle und Teradata. Traditionelle Anbieter rüsten Bestandskunden auf, haben einen schwachen Neukundengewinn. 17.06.2013 BARC 2013 41
Dritte Generation der Datenbank-Technologie 1. Generation DBMS: Proprietäre DBMS wie IMS, IDMS, Datacom 2. Generation DBMS: RDBMS für offene Systeme hängen von Disk Layout ab, Begrenzungen bzgl. Skalierbarkeit und Disk I/O 3. Generation DBMS: Die meisten Data Warehouse Datenbanken werden einen Column Store verwenden Die meisten (OLTP) Datenbanken werden entweder durch eine In-Memory-Datenbank ergänzt werden, oder selbst vollständig im Hauptspeicher liegen Die meisten Datenbank Server für große Systeme werden horizontale Skalierbarkeit durch Clustering erreichen Analytische Datenbanken 17.06.2013 BARC 2013 42
Trends im Markt analytischer Datenbanken Technologische Innovationen Hardware Speicherformen für analytische Datenbanken Speicherorte für analytische Datenbanken Lieferformen für analytische Datenbanken Prozessoren Speicher(-hierarchie) Software Relational, zeilenorientiert Relational, spaltenorientiert Festplatte Solid State Disks Software Appliance Verschiedene Ausprägungen Speicherform Speicherort Lieferform Architektur Multidimensional Sonstige (Objekt-relational, Assoziativ, Datei, Streaming) Single-Node SMP SMP-Cluster RAM Prozessor-Cache optimiert Architekturen SMP- 2tierCluster Cluster MPP-symetr. Data as a Service MPP-asymetr. Einer für alles versus aufgabenspezifisch optimiert 43 17.06.2013 BARC 2013 43
Architekturprinzipien und Designansätze optimiert für die Analyse Skalierbarkeit ist die Fähigkeit die Leistung durch hinzufügen von Ressourcen zu steigern Optimal: 100% mehr Ressourcen führen zu 100% mehr Leistung Gut ist auch schon eine Steigerung der Leistung von > 80% In der Vergangenheit konnte Leistungssteigerung auch durch schnellere Systemkomponenten erreicht werden Dies ist heute fast nicht mehr möglich, weil einzelne Bauteile nicht mehr deutlich schneller werden (z.b. CPUs) sondern nur die Anzahl erhöht werden kann Operationen müssen also zusätzliche Ressourcen nutzen, was eine entsprechende Architektur erfordert Voraussetzung für Skalierbarkeit ist somit die Parallelisierung Essentiell für die Skalierbarkeit ist die Vermeidung von sequentieller Verarbeitung und die Reduktion von Abhängigkeiten 44 17.06.2013 BARC 2013 44
Parallele Query Verarbeitung 46 select sum(x) from table_a,table_b where a = b connect Sum Join Optimize Coord Get statistics Read A Read B sum( ) Catalog sum=10 sum=12 sum=13 sum=11 Agent Agent Agent Agent Sum Sum Join Join Join A B A B A B Part1 Part2 Part3 PartN Sum Sum Join A B table_a table_b 17.06.2013 BARC 2013 46
Funktionen analytisch optimierter Technologien: Zusammenfassung der Trends Hohe Kompression Notwendig, da RAM der limitierende Faktor ist. Zeilen & spaltenbasierte Speicherung Zeilenformat für transaktionale Workloads und spaltenformat bei Datenzugriffen für OLAP Queries. Multi-Core und Vector optimierte Algorithmen Vermeidung von Locks oder Synchronisation. Ausnutzen von speziellen HW Features 6 7 1 2 In-Memory Datenbanken Datenbanktechnologie der 3. Generation vermeidet (Disk) I/O. Kompression und spezielle Technologien erlauben auch große Datenbanken im Memory zu halten. Prädikat-Evaluierung mit komprimierten Daten Verarbeitung (Scans und Evaluierung) der Daten in komprimiertem Format 5 4 3 Frequency Partitioning Voraussetzung für den effektiven parallelen Zugriff auf die komprimierten Daten mit horizontaler und vertikaler Eliminierung von Datenpartitionen. Massive Parallelität Alle Prozessor-Cores werden für Queries genutzt. MPP und shared nothing Architekturen. 17.06.2013 BARC 2013 49
Vieles ist nicht mehr notwendig: Keine Indexkreierung- und pflege Keine materialisierte View-Verwaltung Keine Aggregate und Summaries Keine Statistikverwaltung Keine Storage-Allokation Keine Anwendungsänderungen Fazit: der Einsatz einer analytischen Datenbank verbessert die Performance, vereinfacht die Administration und senkt die Betriebskosten 17.06.2013 BARC 2013 50
Marktübersicht Analytische Datenbanken Anbieter/DB-Engine Speicherstelle Lieferform Speichertyp Architektur Disk (HDD/SSD) In- Memory (RAM) Software Appliance DaaS Column Row SMP MPP Actian Vectorwise x x x (x) x Calpont InfiniDB x x x x x x EMC Greenplum x x x x x x A Exasol ExaSolution x x x x x x x S HP Vertica Analytics Platform x x x x x (x) x S IBM DB2 (PureData Op. Analytics) x x x x x S IBM Netezza (PureData Analytics) x x x x A InfoBright x x x Kognitio WX2 (x) x x x x x x S Microsoft SQL Server / PDW x x x x x C x Oracle Database / Exadata x x x (x) x 2TC ParAccel Analytic Platform x x x x x x x ParStream x x x x x x SAND Analytics Server x x x x x x SAP HANA (x) x x x (X) x S Sybase IQ x x x C Teradata x x x x x S Teradata Aster Database x x x x x x x S Auszug BARC-Studie Analytische Datenbanken 2013 X= ja C=SMP Cluster 2TC=2-tier-Cluster S=symetrisch A=asymetrisch 17.06.2013 BARC 2013 51
Auszug aus der BARC Studie Analytische Datenbanken (Bewertung) Anbieter und Produkt 5 Flexibilität 4 3 Abfrage-Fähigkeiten 2 1 Gesamtkosten 0 Pflege-Fähigkeiten Anbieter und Produkt 5 Flexibilität 4 3 Abfrage-Fähigkeiten Umsetzungseffizienz Mixed Workloads 2 1 Hochverfügbarkeit Gesamtkosten 0 Pflege-Fähigkeiten Actian Hersteller Vectorwise x v2.5 Durchschnitt Umsetzungseffizienz Mixed Workloads Hochverfügbarkeit IBM Hersteller DB2 v10/isas/puredata y for op. Analytics Durchschnitt 17.06.2013 BARC 2013 52
BARC-Bundle: Analytische Datenbanken Schnelle Analysen, einfacher Betrieb, niedrige Kosten noch Wunsch oder schon Wirklichkeit? Bestandteile: - Aktuelle Markttrends, -übersicht und klassifizierung der ADB-Technologien - Analystenkommentare zu Einsatz, Nutzen und Potential von ADBs - Vergleichende funktionale Bewertung relevanter ADBS anhand Stärken- Schwächen-Analysen - Beschreibung der Datenbank-Leistungsfähigkeit anhand von bestmöglichen Einsatzszenarien für jede analysierte Datenbank - PPT-Grafiken für Ihre Präsentationen - Eintägiges Seminar zur Vertiefung und Beantwortung individueller Fragen und Beschleunigung der Umsetzung des Themas in Ihrem Unternehmen 17.06.2013 BARC 2013 53
Exkurs In-Memory: Entwicklung Preis-/Nutzen der Hardware 17.06.2013 BARC 2013 55
In-Memory Datenbanken (IMDB) - Charakteristika Daten befinden sich permanent im Hauptspeicher Hauptspeicher ist die primäre "Persistenz Immer noch: Logging auf die Festplatte / Recovery von der Festplatte Der Zugriff auf den Hauptspeicher ist der neue Engpass Cache - bewusste Algorithmen / Datenstrukturen sind entscheidend (Lokalität ist wichtig) Nutzung von Prozessor Features (Vector Instruktionen, SIMD) Spaltenbasierte Datenspeicherung mit hohem Komprimierungsfaktor (Memory ist der limitierende Faktor) (Teilweise) Verarbeitung der Daten in komprimierter Form spart Rechenleistung Hauptspeicher optimierte Algorithmen und Verarbeitung 17.06.2013 BARC 2013 56
In-Memory Datenbank - Beispiele EXASOL EXASolution IMDB für analytsche Anwendungen IBM DB2 mit In-Memory Erweiterung BLU Hybride Datenspeicherung (klassisch und In-Memory) für OLTP und analytische Anwendungen DB2 with BLU Acceleration Runtime Classic DB2 runtime Classic DMS (non-blu tables) CPUs with SIMD BLU runtime BLU DMS (BLU tables) Classic DB2 bufferpool SAP HANA IMDB für analytische und OLTP Anwendungen Storage classic row structured table C1 C2 C3 C4 C5 C6 C7 C8 compressed, encoded columnar C1 C2 C3 C4 C5 C6 C7 C8 17.06.2013 BARC 2013 57
BARC-Coaching-Paket: SAP HANA Erhalten sie einen realistischen Einblick in die Chancen und Herausforderungen des Einsatzes von SAP HANA und der Alternativen für Ihr Unternehmen! Bestandteile: - Workshop - Übersicht BI mit SAP - Vergleich Leistungsfähigkeit - Positionierung in der BI-Landschaft Herausforderungen und Potentiale - Projekterfahrungen und Fallbeispiele - Technik, Markttrend, Benchmarks, Best Practices - Individuelle Gestaltung nach Ihren Wünschen - BARC-Studie Analytische Datenbanken - Unabhängige Bewertung aller marktführenden Produkte und interessante Neueinsteiger - Ein einheitlicher Kriterienkatalog sorgt für Transparenz und Vergleichbarkeit - Research Service BI Manager - 6 Monate Zugriff auf weitere wertvolle Informationsquellen - Monatliche Research Notes zu aktuellen Themen - Marktanalysen und Hintergrundbeiträge - Kostenfreie Teilnahme an BARC-Tagungen 17.06.2013 BARC 2013 58
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 59
Die vier Kernsätze für Data Warehousing formuliert in den 90er Jahren Operative und dispositive Umgebungen sollten sowohl aus Geschäfts- als auch aus technischen Gründen getrennt werden Ein Data Warehouse ist der einzige Weg, um eine zuverlässige, integrierte Sicht auf das Unternehmen zu erhalten Das Data Warehouse ist die einzig mögliche Instanziierung des vollständigen Unternehmens-Datenmodells Eine mehrschichtige Data Warehouse Architektur ist notwendig für die schnelle und zuverlässige Abfrage-Performance. 17.06.2013 BARC 2013 60
Herausforderungen im Umgang mit Daten und Informationen Quelle: BARC Data Warehousing 2011 Survey 17.06.2013 BARC 2013 61
Aberdeen Study: Best-In-Class Data Management for BI 216 global organizations Significant trends in high performing companies Best in class are twice as likely to use MDM as all other companies 1.8 times more likely to have data cleansing capabilities 2.2 times more likely to have the ability to optimize queries Competitive maturity assessment showed Average of 39 days average time to integrate new data sources versus 8.9 months for laggards Average 60 percent decrease in time to information compared to 10 percent for laggards Average 81 percent of analytical employees have access to BI whereas laggards have only 23 percent Outstanding companies had an 18 percent average year-over-year profit margin increase, compared to the 12 percent industry average Source: Data Management for BI: Strategies for leveraging the Complexity and Growth of Business Data, Aberdeen Group, 2009 17.06.2013 BARC 2013 62
DWH-Architektur Das geschichtete Data Warehouse seit den frühen 90er Jahren Business Intelligence Services Monitoring Reporting Ad-hoc Analysis Management Services Planning Legal Consolidation Advanced Analysis Visualization Collaboration Business Layer, Data Marts Layer, Access Layer,... Wichtige Annahme: separate Semantic Layer Data Marts Data Provisioning Services benötigt, um Core Leistungseinschränkungen Data Warehouse Layer von Caching Relational Data Dimensional Federation/ relationalen Datenbanken zu überwinden Storage Data Storage Virtual Data Stores Integration & Quality Services Staging Layer, ODS, Near Real-Time Data,... System & Process Monitoring Data Modeling Meta Data Mgt. Security Automation Data Quality Data Integration Enrichment Master Data 17.06.2013 BARC 2013 64
ERP SCM CRM Strukturierte Geschäftsdaten Externe Systeme DWH-Architektur Das geschichtete Data Warehouse seit den frühen 90er Jahren ETL (batch) Enterprise BI/DWH Lösung Staging (EDW) Komplexe Business Rules Star Schemas Komplexe Business Rules + Abhängigkeiten System of Record (EDW) Staging + Historie Conformed Dimensions Lookup Tables Hierarchien Fact Tables 65
Dashboards ERP SCM CRM Strukturierte Geschäftsdaten Standard- Reporting Ad hoc Reporting Analyse Externe Systeme Data Mining Planung Fortgeschrittene DWH-Architektur für Self Service BI, reduzierten Datenintegrationsaufwand, höhere Flexibiliät ETL (batch, continuous ingest,) Enterprise BI/DWH Lösung Star Schemas on demand Staging EDW Advanced Analytics ETL (batch, continuous ingest,) Komplexe Business Rules Report Collections Fundamentale Ziele wiederholbar konsistent Fehlertolerant skalierbar auditable Die business rules sind näher zu den Fachbereichen verlegt Verbesserte Reaktionszeiten in der IT Reduzierte Kosten und minimierte Beeinflussung des Enterprise Data Warehouse (EDW) 66
Fortgeschtrittene DWH-Architektur: Verbesserungen der Flexibilität, Abfrageperformance und Datenaktualität Business Intelligence Services Monitoring Reporting Verbesserte Abfrage Performance durch Ad-hoc Nutzung Analysis neuer Technologien Management Services Planning Legal Consolidation Advanced Analysis Visualization Collaboration System & Process Monitoring Data Provisioning Services Relational Data Storage Dimensional Data Storage Semantic Layer Federation/ Virtual Data Stores Datenbank Performance Caching Data Modeling Meta Data Mgt. Security Integration & Quality Services Data Quality Data Integration Enrichment Verbesserte Pflege Performance durch Vereinfachung der DI Strecken Master Data Automation 17.06.2013 BARC 2013 67
Fortgeschrittene Data-Warehouse-Architektur: Zielbild Enterprise Query Layer/Daten Virtualisierung Logisches Data Warehouse Streaming/ Event Data Historical Reporting Data Core Business Data Business Analysis Data Multistructured Data Etc. Etc. Metadata Datenakquise und Integration ERP SCM CRM Externe Systeme Sensor-Daten Web Logs Social Media Dokumente Strukturierte Geschäftsdaten Maschinengeneriert (strukt.) Mensch generiert (polystr.) Integrierte Strukturen Säulen anstatt Schichten Daten über Säulen hinweg gemeinsam genutzt Gespeichert & Streaming RDBMS und nicht-relational per Verarbeitungsanforderung Metadaten (& Modelle) über die Säulen hinweg genutzt 17.06.2013 BARC 2013 68
Trend zur gemischten BI/DWH-Topologie Data Sources Beispiele Event Data CRM Internet / Social Media ERP Data Integration Big Data Processing Real-time Analytics Traditional, centralized Enterprise Data Warehouse Queryable Archive IBM Logical Data Warehouse Architecture Teradata Analytic Eco-System Microsoft Distributed Data Warehouse Architecture External Sources Operational Analytics BI + Ad Hoc Analytics Q: IBM Data Governance, Security and Lifecycle Management Departmental Reporting Regional Reporting Central EDW Hub High-Performance Reporting Q: Teradata Landing Zone Q: Microsoft ETL Tools 69
Finales Beispiel: ebay-bi-umgebung (Mitte 2012) Tom Fastner, Sr. MTS APD Architecture, ebay 70
Schlussfolgerung: Big Data erweitert BI auf eine neue Ebene Jenseits des Hype, Big Data ist Mainstream und bietet neue Geschäftsmöglichkeiten in der Analytik- und Prozessinnovation Hadoop und zugehörige Tools sind eine (Entwicklungs) Umgebung die für Analytik und Datenaufbereitung geeignet ist Der Einsatz einer analytischen Datenbank kann die Performance verbessern, die Administration vereinfachen und die Betriebskosten senken. Big Data (und mehr) verlangt nach einem neuen Ansatz Inklusive aller Informations- Quellen, Typen und Nutzung Technologie und mehr und andersartige Daten eröffnen neue Möglichkeiten in Richtung context computing Fortgeschrittene Data Warehouse Architektur als Integrationsplattform für alle Daten 17.06.2013 BARC 2013 71
Trends im Data Warehousing und Datenmanagement Agenda Status quo Datenmanagement Data Governance Big Data Analytische Datenbanken Datenarchitekturen Datenqualitätsmanagement & Stammdatenmanagement 17.06.2013 BARC 2013 72
Gründe für Datenqualitätsinitiativen und Stammdatenmanagement: höhere Anforderungen im Fachbereich Big Data Mobile Social Media Fachbereich Verlässliche Daten (Stammdatenmanagement und Datenqualität) 17.06.2013 BARC 2013 73
Datenmanagement Relevante Themen aus Anwendersicht SaaS / Cloud-Angebote / gehostete Lösungen 40% 28% 29% Big Data 56% 20% 21% Nutzung mobiler Endgeräte 64% 21% 13% Echtzeit-Daten zur Analyse 66% 16% 17% Self-Service BI 72% 17% 8% Stammdatenmanagement (MDM) und Datenqualität 82% 10% 5% 0% 20% 40% 60% 80% 100% (Sehr) wichtig Gleichgültig Kaum / (un-)wichtig Bewerten Sie die Relevanz der folgenden Trendthemen für Ihr Unternehmen, n=192 BARC Big Data Survey Europe 2012, Dez 2012, http://www.barc.de/big-data 17.06.2013 BARC 2013 74
Datenmanagement Relevante Themen aus Anwendersicht SaaS / Cloud-Angebote / gehostete Lösungen 40% 28% 29% Big Data 56% 20% 21% Nutzung mobiler Endgeräte 64% 21% 13% Echtzeit-Daten zur Analyse 66% 16% 17% Self-Service BI 72% 17% 8% Stammdatenmanagement (MDM) und Datenqualität 82% 10% 5% 0% 20% 40% 60% 80% 100% (Sehr) wichtig Gleichgültig Kaum / (un-)wichtig DQ und MDM als wichtigstes Trend -Thema Bewerten Sie die Relevanz der folgenden Trendthemen für Ihr Unternehmen, n=192 BARC Big Data Survey Europe 2012, Dez 2012, http://www.barc.de/big-data 17.06.2013 BARC 2013 75
Hauptprobleme in BI Projekten (aus Anwendersicht) Keine nennenswerte Probleme 32% Abfragegeschwindigkeit zu langsam Fehlendes Interesse der Nutzer Schlechte Datenqualität Unternehmenspolitik Uneinigkeit über Anforderungen Administrative Probleme Anforderungen änderten sich 17% 15% 15% 14% 13% 12% 12% Was sind die schwerwiegendsten Probleme, die bei der Nutzung von BI auftreten? Schlechte Data Governance Software ist nicht flexibel genug Unzuverlässige Software Daten aus einigen Vorsystemen nicht übernehmbar Fehlende Schlüsselfunktionen Softwarebedienung zu schwierig 9% 9% 8% 7% 6% 6% Zu große Datenvolumen für Produkt 4% Sicherheitbeschränkungen im Produkt 3% Quelle: BARC BI Survey 12 Zu große Nutzerzahlen für Produkt 2% (Oktober 2012), n=2067 www.bi-survey.com 0% 20% 40% 17.06.2013 BARC 2013 76 76
Hauptprobleme in BI Projekten (aus Anbietersicht) Schlechte Datenqualität 36% Keine nennenswerte Probleme 26% Unternehmenspolitik 21% Uneinigkeit über Anforderungen Anforderungen änderten sich Administrative Probleme Daten aus einigen Vorsystemen nicht übernehmbar Fehlendes Interesse der Nutzer 13% 13% 13% 16% 19% Was sind die schwerwiegendsten Probleme, auf die Anbieter bei Ihren Kunden stoßen? Softwarebedienung zu schwierig 12% Abfragegeschwindigkeit zu langsam 12% Zu große Datenvolumen für Produkt Fehlende Schlüsselfunktionen 5% 5% Unzuverlässige Software 3% Zu große Nutzerzahlen für Produkt 2% Quelle: BARC BI Survey 12 Sicherheitsbeschränkungen im Produkt 1% (Oktober 2012), n=512 www.bi-survey.com 0% 20% 40% 17.06.2013 BARC 2013 77 77
Datenqualitätsinitiativen erhöhen das Vertrauen in Datenqualität signifikant Vertrauen in Daten analysiert nach Status der Datenqualitätsinitiative: (n = 133, in %) Bereits im Einsatz 56% In der Umsetzung 13% Planung innerhalb des Jahres 23% langfristig geplant 21% Hohes Vertrauen nicht geplant 13% 0 20 40 60 Quelle: BARC Studie Datenqualität in Deutschland 2011 - Organisation und Initiativen 17.06.2013 BARC 2013 78 78
Datenqualitätsmanagement und Stammdatenmanagement Bereich Ziel Lösung über Datenqualitätsmanagement Stammdatenmanagement Datenqualität in Daten verbessern Daten aus verschiedenen Datenquellen verwalten; dabei notwendig: Datenqualität Fachlichkeit Organisation Technik Richtlinien und Prinzipien Datenprofile Anwenderprofile Anwendungsfälle Regelwerke, Checklisten DQ und MDM sind ganzheitliche Themen 17.06.2013 BARC 2013 79
Klassische Herangehensweisen zur Steigerung der Datenqualität 17.06.2013 BARC 2013 80
Datenqualitätszyklus Datenqualität kann durch Umsetzung des DQ-Zyklus dauerhaft gesichert werden 17.06.2013 BARC 2013 81 81
Datenqualitätszyklus, Beispiel Analyse (IBM) 17.06.2013 BARC 2013 82
Datenqualitätszyklus, Beispiel Bereinigung (DataFlux: Aufbau von DQ-Prozessen) 83
Datenqualitätszyklus, Beispiel Referenzdaten (Microsoft SQL Server Data Quality Services: Definition von Referenzdaten)
Datenqualitätszyklus, Beispiel Kontrollieren und Überwachen (Trillium Software: DQ-Monitoring) 17.06.2013 BARC 2013 85
Aktuelle Trends des Datenqualitätsmanagements 17.06.2013 BARC 2013 86
Treiber des Datenqualitätsmanagements: Datenqualitätsmanagement im Fachbereich Treiber: DQ-Verständnis im FB, nicht IT Trends auf Anbieterseite: Werkzeuge für den Fachbereich (weniger technisch) Oberflächen für verschiedene Rollen (Regelersteller, Datenverwalter, Datennutzer ) 17.06.2013 BARC 2013 87
Treiber des Datenqualitätsmanagements: Abdeckung des gesamten DQ-Zyklus Treiber: DQ soll ganzheitlich und nachhaltig verwaltet werden (Analyse, Bereinigung, Anreicherung, Überwachung und Kontrolle) Trends auf Anbieterseite: Komplettierung von Funktionen zur Abdeckung DQ-Zyklus Fehlende Funktionen aus DQ-Zyklus durch offene Schnittstellen durch Drittanbieter umsetzen 17.06.2013 BARC 2013 88
Treiber des Datenqualitätsmanagements: DQ bereits bei Datenanlage sichern Treiber: Bereits in den operativen Systemen nur qualitativ hochwertige Daten halten Trends auf Anbieterseite: Integration von DQ-Logik in operative Systeme Erweiterung oder Ersetzung operativer Masken 17.06.2013 BARC 2013 89
Treiber des Datenqualitätsmanagements: Schnellstart der DQ-Initiative Treiber: Schnelles und korrektes Starten der DQ-Initiative auch im kleinen und bei beschränkten Budgets Trends auf Anbieterseite: Vorlage-Datenmodelle Vorlage-Logik Online Services Pakete für bestimmte Aufgabenstellungen (Solvency II) 17.06.2013 BARC 2013 90
Klassische Herangehensweisen zum Management von Stammdaten 17.06.2013 BARC 2013 91
Stammdatenmanagement Klassischer Anforderung: Stammdaten aus verschiedenen Systemen sollen verwaltet werden Wesentliche Voraussetzung: qualitätsgesicherte Daten Persistenter MDM Hub (Repository, ein OLTP-System) Persistenter MDM Hub (Repository, spezielle Applikation) MDM OLTP-System OLTP-System MDM Leading OLTP-System OLTP-System Operational Systems Data Warehouse Data Mart Virtual MDM Hub (Registry) Analytical MDM (Repository, manuelle Datenpflege, Zielsystem: DWH) MDM MDM Operational systems Virtual Operational Systems Data Warehouse Data Mart 17.06.2013 BARC 2013 92
MDM-Beispiel: Entwicklung von MDM-Regeln (Talend) 93 Screenshots: Talend
MDM-Beispiel: Anlage von Organisations-Stammdaten (SAP Netweaver Master Data Governance) 17.06.2013 BARC 2013 94 Screenshots: SAP
MDM-Beispiel: MDM mit anbieterspezifischen Workflows und Masken (ZetVisions SPoT: Pflege von Kreditoren/Debitoren) 17.06.2013 BARC 2013 95
Aktuelle Trends des Stammdatenmanagements 17.06.2013 BARC 2013 96
Treiber des Stammdatenmanagements: Integration weiterer Datenquellen Treiber: Integration weiterer Datenquellen Daten weiterer Standorte Integration der Datenmodelle Übersetzen von Daten Pflege von Daten Verteilung von Daten Trends auf Anbieterseite: Parallelbetrieb vs. Integration in operative Systeme Erweiterung oder Ersetzung operativer Masken Vorlage-Datenmodelle 17.06.2013 BARC 2013 97
Treiber des Stammdatenmanagements: Datenqualität Treiber: Unzureichende Datenqualität = hohe Kosten, niedrige Motivation; DQ-Verständnis im FB, nicht IT Trends auf Anbieterseite: Eigene DQ-Lösung Integration externer DQ-Lösungen (Installation, Web Services) Abbildung gesamter DQ-Zyklus 17.06.2013 BARC 2013 98
Treiber des Stammdatenmanagements: Mehr Datenlieferanten, mehr Datennutzer Treiber: Supply Chain Management, mehr Kanäle (Mobile Devices), soziale Medien Trends auf Anbieterseite: Abbildung von Rollen Besondere Benutzeroberflächen Workflows Regel-Management Business Glossare 17.06.2013 BARC 2013 99
Treiber des Stammdatenmanagements: MDM-Daten für BI Treiber: MDM-Daten als Grundlage für BI-Systemen Trends auf Anbieterseite: MDM als Bestandteil der Business Intelligence / Data Integration Suite / Angebots 17.06.2013 BARC 2013 100
Auszug Marktüberblick MDM Anbieter Dun&Bradstreet zetvisions Fachliche Spezialisten Vision Ware Zynapse Heiler Software Netconomy SAP Oracle Datanomics Hyperion Silver Creek Daten- Management Informatica Siperian Talend Amalto SAS DataFlux Tibco Teradata Service Orientierte Infrastruktur IBM Trigo, DWL, Initiate Microsoft Stratature Software AG Data Foundations Information Builders Ataccama (OEM) Ab Initio Ataccama Innovative Systems Stibo Systems Kalido ISO Systems Scarus Unterschiedliche Anforderungen an MDM werden von Anbietern durch verschiedene Herangehensweisen bedient Technische Integration 17.06.2013 BARC 2013 101 101