Data Vault Reine Lehre vs. Real-World Requirements Dr.-Ing. Holger Friedrich

Ähnliche Dokumente
Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015

ZWISCHEN ALBTRAUM UND OPTIMALER PERFORMANCE

Wie modelliere ich mein Core Data Warehouse?

Modellierung agiler Data Warehouses mit Data Vault

Business Vault Beispiele Petr Beles - DDVUG 30. März

ODI 12c - Flexible Datenintegration in komplexen BI/DWH-Umgebungen Dr.-Ing. Holger Friedrich

DWH Automatisierung mit Data Vault 2.0

DataVault Ein Leben zwischen 3NF und Star. DOAG Konferenz Nürnberg 2013 Michael Klose November 2013

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

INDEXIERUNGS- STRATEGIE IM DATA WAREHOUSE

DataVault in der Praxis

Partitionierungsstrategien für Data Vault

Nützliche Oracle 12c Features für Data Warehousing DOAG BI, 8. Juni 2016 Dani Schnider, Trivadis AG

Data Vault. Modellierungsmethode für agile Data Warehouse Systeme. Dr. Bodo Hüsemann Informationsfabrik GmbH. DOAG BI, München,

DevOps und Management mit Multi-Tenant App Containern Dr.-Ing. Holger Friedrich

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Grundlagen von SQL. Informatik 2, FS18. Dr. Hermann Lehner (Material von Dr. Markus Dahinden) Departement Informatik, ETH Zürich

5/14/18. Grundlagen von SQL. Grundlagen von SQL. Google, Facebook und Co. setzen auf SQL. Whatsapp

BIGDATA-INTEGRATION IN EINE BI-LANDSCHAFT PER DATA VAULT

Historisierung auf Knopfdruck

1 Business-Intelligence-Architektur 1

Roadshow - What s new in SQL Server 2016

Exalytics - Deep dive with OBIEE, Timesten and Essbase

Fehlertoleranz und Robustheit von ETL-Prozessen Wie gestalten wir Abläufe möglichst widerstandsfähig. Christian Borghardt I BI Consultant

Die perfekte Kombination im Agilen Data Warehouse Oracle Engineered Systems mit Data Vault

Das modulare DWH Modell

Modernisierung, Migration, Greenfield: DWH-Automatisierung mit dem ODI

Oracle 10g Einführung

Oracle DI Cloud Services Schlüssel moderner DI-Lösungen Dr.-Ing. Holger Friedrich

TDWI Konferenz DWH Architektur Agilität durch Data Vault Modeling. Twitter: @TDWI_EU

Klein anfangen und groß rauskommen mit Data Vault 2.0 Leif Hitzschke & Dajana Schleuß

Viel aus wenig: Enterprise-DWH mit Basic ETL

Wie modelliere ich mein Core DWH?

Wir bauen uns ein Data Warehouse mit MySQL

Erfolg mit Oracle BI?

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH

Für Querdenker Was ODI anders macht als OWB und umgekehrt

Indexierungsstrategie im Data Warehouse Zwischen Albtraum und optimaler Performance

Vom Single Point of Truth zur Single Version of the Facts. Data Warehousing zu Beginn des BigData-Zeitalters. inspire IT - Frankfurt

Teil II: Architektur eines Data-Warehouse-Systems... 57

BESSER WERDEN DURCH ERSE

Data Warehouse in der Telekommunikation

Oracle In-Memory & Data Warehouse: Die perfekte Kombination?

Tobias Braunschober DAS GENERISCHE DWH WENIGER CODE WENIGER KOSTEN

Optimale Performance durch Constraints im Data Warehouse

Harmonisiertes Reporting Single Point of Truth

Berechnung von Kennzahlen mit der SQL Model Clause

Präsentation der Bachelorarbeit

Oracle In-Memory & Data Warehouse: Die perfekte Kombination?

Entwicklung und Deployment. Stefan Raabe DOAG Konferenz

Noch mehr Flexibilität- DataVault mit virtuellen Datamarts

DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb. Referent: Raphael Henneke

DWH Best Practices das QUNIS Framework 80 Jahre Erfahrung bei der Modellierung & dem Betrieb von DWH. Referent: Ilona Tag

Data Vault und Ladeperformance Markus Kollas CGI Deutschland Ltd. & Co. KG Sulzbach (Taunus)

Trends in der BI. Hannover, 20. März 2017 Patrick Keller, Senior Analyst und Prokurist

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Oracle Data Warehouse Integrator Builder Ein Selbstversuch

QUNIS 360 was war, was wird? BI, Big Data, Cloud, Predictive & Advanced Analytics, Streaming. Referent: Steffen Vierkorn

Aufbau einer komplett automatischen Business Intelligence-Umgebung

SQL-basierte SCD2-Versionierung hierarchischer Strukturen

Laden von Data Marts auch mal komplex DOAG BI, 9. Juni 2016 Dani Schnider, Trivadis AG

Datenbankbasierte Lösungen

Designing Business Intelligence Solutions with Microsoft SQL Server MOC 20467

Welche BI-Architektur braucht Ihr Reporting?

19. DOAG-Konferenz Data Profiling: Erste Erfahrungen mit dem OWB 10g R2 Mannheim, Detlef Apel

Brücken bauen im dimensionalen Modell

Agile BI in der Praxis Data Warehouse Automation

Haben Sie die Zeit im Griff? Designtipps zur Zeitdimension

Modelle, deren Bestandteile und Weiteres SDDM organisiert alle Projektaspekte in einer klassischen Baumansicht, wie Abbildung 1 sie zeigt.

FEHLERTOLERANTE LADEPROZESSE IN ORACLE

DWH-Modellierung mit Data Vault

EU-DSGVO im DWH Praxisbericht aus der Versicherungsbranche

Data Warehousing. Sommersemester Ulf Leser Wissensmanagement in der Bioinformatik

Erfahrungen aus dem Betatest Oracle Database 11g

Microsoft Azure Deutschland ist jetzt verfügbar -

Konzeptueller Entwurf

OXO³ technische Aspekte der Oracle EMEA internen BI Implementierung

Oracle OLAP 11g: Performance für das Oracle Data Warehouse

Textmasterformat bearbeiten

Herzlich willkommen: #ITTage16 Der IT Hub IT Service Management in der digitalen Welt. Ihr Trainer: Markus Schweizer, Associate Partner CSC Schweiz

Dipl.-Hdl., Dipl.-Kfm. ACCESS 2007

Neues zur Oracle Lizenzierung (Michael Paege, OPITZ CONSULTING Hamburg, DOAG Competence Center Lizenzen)

Charakteristika von Unternehmensanwendungen

Von der transaktionalen zur dimensionalen Modellierung Vortrag auf der DOAG, Nürnberg, Felix Krul I Senior BI Consultant

Scrum für Business Intelligence Projekte erfolgreich nutzen. Es begrüßt Sie Thomas Löchte

Kleine Helferlein. Jens Behring its-people. Copyright its-people

Arbeiten mit ACCESS 2010

Data Vault Ein Leben zwischen 3NF und Star. Michael Klose, CGI Deutschland Oracle DWH Community,

Wiederholung VU Datenmodellierung

Wiederholung VU Datenmodellierung

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

DWH-Modellierung mit Data Vault in Kombination mit ODI 12c - Erfahrungen aus der Praxis - Claus Jordan Trivadis GmbH Stuttgart

Diagramme - Next Generation

Neue Welten: Externe Daten mit APEX nutzen

Die IBM Netezza Architektur für fortgeschrittene Analysen

Datenmodellierung im Zeitalter agiler Softwareentwicklung

Dr. Gernot Schreib, b.telligent GmbH & Co.KG DATENFLÜSSE IM DWH EINSATZ VON 3 RD -PARTY SOFTWARE

Transkript:

Data Vault Reine Lehre vs. Real-World Requirements Dr.-Ing. Holger Friedrich

Agenda Introduction Data Vault Diskussionsstoff Schlussfolgerungen 2

500+ Technsche Experten Helfen Kollegen Weltweit 3 Membership Tiers Oracle ACE Director Oracle ACE Oracle ACE Associate bit.ly/oracleaceprogram Connect: oracle-ace_ww@oracle.com Facebook.com/oracleaces @oracleace Nominiert euch selbst oder Kollegen: acenomination.oracle.com

sumit AG Beratung, Projekte, Implementierung Experten für Data Warehousing, Business Intelligence/Analytics, und Big Data Fokussiert auf Oracle-Technologie BI Foundation specialised -Partner Data Warehousing specialised -Partner Unser Motto: Get Value From Data Besuchen sie: www.sumit.ch 4

Holger Friedrich Diplom Informatiker des Karlsruhe Institute of Technology (KIT) Promotion in Robotik und Machine Learning Mehr als 18 Jahre Expertise mit Oracle-Technologie Experte für Data Integration Data Warehousing, Analytics Technischer Direktor von sumit AG Oracle ACE for Data Warehousing/Business Intelligence 5

Agenda Introduction Data Vault Diskussionsstoff Schlussfolgerungen 6

Inmon - Enterprise Data Warehouse Selfless Model modelliert die Welt wie sie ist üblicherweise 3-NF Vorteile flexibel mächtig Nachteile schwer verständlich komplexe Abfragen viele Joins nur begrenzt automatisierbar Abhängigkeiten im Ladeprozess Schwerfällig, lange Entwicklungszeiten, Performanceprobleme 7

Kimball - Dimensionale Modellierung Selfish Model modelliere Aspekte zweckgerichtet üblicherweise Star - oder Snowflake Vorteile einfach zu verstehen performant Nachteile begrenzt aussagefähig change schwierig zu managen komplex zu erstellen nur begrenzt automatisierbar Nur für Analyseschicht verwendbar, keine Alternative für Foundation 8

Linstedt - Data Vault Selfless Model modelliert die Welt wie sie ist verteilt Semantik auf spezifische Komponenten Vorteile flexibel & mächtig automatisierbar/agil (theoretisch) insert-only Nachteile pur recht schwer verständlich viele Joins Ideal für schnelle Quellsystemanbindung & DWH Foundation 9

Data Vault - Hubs Header-Tabelle für jede relevante Entity Enthält Business Key(s) DWH Surrogate Key Enthält nicht Historie (fachliche) Nutzattribute zeitliche Gültigkeitsinformation etc. Fragen Surrogate-Key-Repräsentation? relevante Entity? Behandlung von DQ-Problemen? DV2.0 - Hash-Wert 10

Data Vault - Links Header-Tabelle für jeden Foreign-Key Enthält DWH Surrogate Key Hub Primary- & Src-Sys-Keys Enthält nicht Historie (fachliche) Nutzattribute zeitliche Gültigkeitsinformation etc. Fragen Surrogate-Key-Repräsentation? Behandlung von DQ-Problemen? Gültigkeit von (1:n)-Beziehungen? DV2.0 - Quellsystem Business-Key- Values DV2.0 - Hash-Keys 11

Data Vault - Satelliten Tabelle für Nutzinformation von Objekte & Links Enthält Business Key(s) & DWH Surrogate Key CDC-Hash-Value Nutzattribute Ladedatum Historie Enthält nicht Fremdschlüssel Valid-To-Information Fragen Surrogate-Key- & CDC-Wert- Repräsentation? Zeitliche Auswertungen? DV2.0 - Hash-Wert für Change Data DV2.0 - Hash-Key 12

Data Vault - Herausforderungen Verständnis Tabellenzahl Temporale Queries Abfragekomplexität Performance Infrastruktur Integraton mehrerer Quellsysteme Neue Objekttypen im sogenannten Business Vault 13

Business Vault Point-In-Time Satelliten Bridge Tabellen Vordefinierte Aggregationen oder KPIs Same-As & Hierarchical Links 14

Agenda Introduction Data Vault Diskussionsstoff Schlussfolgerungen 15

Diskussionsstoff Hash-Keys Referentielle Integrität Abfragefreundlichkeit Löschungen Zeitreihen Change Management Performance & Lizenzen 16

Hash-Keys - Beworbene Vorteile Unabhängig voneinander in mehreren Systemen generierbar Vollständige Parallelisierung des Loads Effizientes Change Data Capturing Einfache Automatisierung 17

Hash-Keys - Aber die Idee ist nicht neu und hatte sich Jahrzehnte nicht durchgesetzt Was ist jetzt anders? Big Data! 18

Hash-Keys - Handling Change in Schlüsseln Quellsysteme werden heute agil entwickelt Folge: viele Änderungen, auch an Schlüsseln Datentypwechsel Erweiterung Klassische Sequenzschlüssel Anpassung der CDC-Logik Anpassung der Lookup-Logik Hash-Keys Rehashing aller Hubs, Links und Satelliten in allen Systemen 19

Hash-Keys - Change in Nutzattributen Neue Attribute (auch nullable) in bestehenden Satelliten Folgen Erweiterung von Satelliten Datenänderungen beim seeden/releasen oder beim ersten Load Neue Links falls notwendig Klassische Sequenzschlüssel Anpassung der CDC-Logik Hash-Keys Rehashing aller CDC-Hashes im betroffenen Satelliten oder Massenupdate beim ersten Load post Release Alternativ ein neuer Satellit 20

Herausforderung Software Engineering: gleiche Hash-Berechnung Cross-Plattform Hash-Keys - Hash-Berechnung Kollisionswahrscheinlichkeit: sehr gering, aber grösser Null Grenzen von Technologie/Implementierung: berechnen auf vielen Attributen und grossen Objekten (LOBs) - ORA_HASH: deprecated, hohe Kollisionswahrscheinlichkeit - DBMS_OBFUSCATION_TOOLKIT: deprecated, PL/SQL - DBMS_CRYPTO.HASH: PL/SQL - STANDARD_HASH: SQL-Function, aber keine LOBs 21

Sinnvolle Partitionierung auf Hash-Werten schwierig In-Memory Performance schlechter mit Hash-Keys keine Vector-By-Transformation auf VC2(32) Hash-Keys (siehe Blog-Post Dani Schnider https:// danischnider.wordpress.com/ 2017/10/25/oracle-database-inmemory-and-hash-keys/) Hash-Keys - Technische Gotchas in Oracle 22

Referentielle Integrität Technische Standardheader: Key(s), Load TS, Record Source Viele Quellsysteme/-daten verletzen referentielle Integrität Wie kann bzw. soll dieser Tatsache in Data Vault Rechnung getragen werden? Data Vault enthält keinen Standard zur Behandlung von Datenqualitätsproblemen bezüglich referentieller Integrität Alternativen Sicherstellung nach dem Raw Vault Load http://roelantvos.com/blog/?p=1072 Handling während des Loads 23

Löschungen Technische Standardheader: Key(s), Load TS, Record Source Löschen und wieder anlegen in Quellen sind üblich Wie kann bzw. soll dieser Tatsache in Data Vault Rechnung getragen werden? Data Vault enthält keinen Standard zur Behandlung von Löschungen und Wiederanlage von Quelldaten Alternativen einfügen von Deleted'-Records zeitliches abschliessen von Datensätzen (Abkehr vom Insert-Only-Prinzip) 24

Zeitreihen Technische Standardheader: Key(s), Load TS, Record Source Keine Zeitintervalle im Raw Vault Keine Zeitintervalle im Business Vault Abfragen müssen immer zeitliche Gültigkeit berechnen Jeder Select erfordert je Tabelle analytische Funktionen Alternativen View Layer zeitliches abschliessen von Datensätzen beim Load (Abkehr vom Insert-Only-Prinzip) 25

Auch hier immer analytische Funktionen notwendig Dani Schnider Immer vollständiger Neuaufbau Performance-Albtraum Roelant Vos Alternative Wherescape Abgeschlossene Zeitreihen Watermark-Dokumentation Temporale Filterung CDC für Bridge Tabellen PITs & BTs - Performance 26

Korrekte Link-Repräsentation Fachliches Problem: Switch von 1:n-Beziehungen Beispiel: Mitarbeiter wechselt Abteilung Folge Bisheriger Link-Eintrag gelöscht Neuer Link-Eintrag erstellt Herausforderung Zwei Ziele mit einem Datensatz manipulieren zeitlichen Anschluss' sicherstellen Lösungsmöglichkeit komplexere ETL-Logik vollständige Zeitintervalle (Abkehr vom Insert-Only-Prinzip) 27

Satelliten-Proliferation Agile Quellsystementwicklung fordert DWH-Entwicklung Quellobjekte werden gesplittet, Attribute hinzugefügt etc. Wie ist beim DWH-Design zu reagieren? Alternativen Traditionell Bestehende(n) Satelliten & Ladelogik anpassen Eventuell Seeding-Skripte & Historienupdate Auswertungen anpassen Modern Neue Satelliten & Ladelogik erzeugen PIT-Satelliten & Ladelogik anpassen Auswertungen anpassen 28

Ladeperformance Data Vault (2.0) erreicht bislang unerreichte Parallelisierung Folgen kurze Ladezeiten des Raw Vaults hohe Leistungsanforderung Viele PIT-Satelliten und Bridge-Tabellen sind zu rechnen Folgen zusätzliche Ladezeiten für Business Vault hohe Leistungsanforderung Temporale Abfragen erfordern analytische Funktionen Folgen hohe Fähigkeitsanforderung an Analysten hohe Leistungsanforderung Lizenzbedarf nimmt nicht ab 29

Agenda Introduction Data Vault Diskussionsstoff Schlussfolgerungen 30

Schlussfolgerungen I Data-Vault-Standard ist fokussiert auf Ladeperformance (Insert-Only-Prinzip) Verteilte Datenhaltung Weniger beachtet wird Abfragefreundlichkeit/-performance Datenqualitätssicherung Situation beim Kunden Wenig verteilte Datenhaltung Hohe Abfragefreundlichkeit gebraucht Hohe Datenqualität verlangt Begrenzte Rechenpower vorhanden Grosser Datenanteil mit Löschungen, geringer Anteil Insert-Only 31

Schlussfolgerungen II Data Vault ist ein hervorragendes Modellierungsparadigma für Foundation Layer Business Vault erlaubt hochautomatisierte Aufbereitung von Business-Objekten Aber Data Vault is keine Silver Bullet Ohne Automatisierung bedeutet Data Vault Mehrarbeit für Integratoren und Analysten Spezialwissen über Modellierung und Technologie bleibt weiterhin absolut entscheidend Manche Innovation in DV2.0 ist jenseits von Big Data Anwendungen zweifelhaft Fazit: DV umsetzen, aber nicht sklavisch den Standard einhalten 32