Mittwoch, In the Code: Daten banken für Analytik im Vergleich

Ähnliche Dokumente
PROfit 5.0. Hardware-/Software-Anforderungen. Ihre Ansprechpartner: BOC Information Technologies Consulting GmbH Naglerstraße Berlin

Industrie 4.0 und Smart Data

Neues aus der nicht-, semi- und relationalen Welt

Folgendes PL/SQL Codefragment zeigt das grundlegende Statement für diesen Test: Java.

TDWI Konferenz, München, LEISTUNG VON MODERNEN DATENBANKEN Aslı Yaman, Andreas Hauenstein, Andrej Vckovski, Simon Hefti"

Performance-Vergleich zwischen InterSystems Caché und Oracle in einer Data-Mart-Applikation

SAP HANA -Umgebungen. Prof. Dr. Detlev Steinbinder, PBS Software GmbH, 2013

RavenDB, schnell und skalierbar

Die Analyse großer Datensätze mittels freier Datenbanksysteme Dr Dirk Meusel

Datenbanken Grundlagen und Design

MS SQL Server Einstieg in relationale Datenbanken und SQL Marco Skulschus Marcus Wiederstein

Möglichkeiten für bestehende Systeme

Datenbankentwicklung

Einsatz des Microsoft SQL-Servers bei der KKH

SOLISYON GMBH CHRISTIAN WOLF, BENJAMIN WEISSMAN. Optimierung von Abfragen in MS SQL Server DWH-Umgebungen

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

Allgemeines zu Datenbanken

IDM: Identity Connector Framework (ICF) und SAP Connectors

S A P B W O N H A N A P R O O F O F C O N C E P T B E I S. O L I V E R

In diesem Abschnitt wollen wir uns mit der Architektur von Datenbank Managements Systemen beschäftigen.

Relationale Datenbanken Kursziele

Advanced Analytics for Making Smart Decisions Faster

1Ralph Schock RM NEO REPORTING

In.Memory im SQL Server 2014 im Vergleich mit SAP Hana im Praxistest

Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort... 13

Pasolfora Database Appliance PDA

Migration von Oracle auf HANA Was bedeutet das? Peter Heintzen, Bereichsleiter SIG Oracle & SAP

Systemanforderungen und Kompatibilität MSI-Reifen Rel.8

#DeloitteInnovation: In-Time Nutzen Sie das volle Potenzial von SAP HANA

Auf einen Blick. Abfrage und Bearbeitung. Erstellen einer Datenbank. Komplexe Abfragen. Vorwort 13

Einführung in Hauptspeicherdatenbanken

Neue Features Oracle Database 12.2 Wann denn endlich?

Mehrwert durch Microsoft Business Intelligence

Wir befinden uns inmitten einer Zeit des Wandels.

MHP BI Optimization Solution Ihre Lösung für einen maximalen Return on Investment Ihrer SAP BW Systemlandschaft!

Acrolinx Systemanforderungen

O-BIEE Einführung mit Beispielen aus der Praxis

Überblick über die Windows Azure Platform

Microsoft Azure: Ein Überblick für Entwickler. Malte Lantin Technical Evangelist, Developer Experience & Evangelism (DX) Microsoft Deutschland GmbH

SQL (Structured Query Language) Schemata Datentypen

Matthias Schubert. Datenbanken. Theorie, Entwurf und Programmierung relationaler Datenbanken. 2., überarbeitete Auflage. Teubner

Relationale Datenbanken Datenbankgrundlagen

Darüber hinaus wird das Training dazu beitragen, das Verständnis für die neuen Möglichkeiten zu erlangen.

Exadata Ultimate Performance - Migration bei Migros Bank. Dr.-Ing. Holger Friedrich

Erfahrungen mit APEX in Unternehmen Veranstaltung Cloud Computing mit APEX am

ISU 1. Ue_08/02_Datenbanken/SQL. 08 Datenbanken. Übung. SQL Einführung. Eckbert Jankowski.

Public Cloud im eigenen Rechenzentrum

Preise und Details zum Angebot

DIMEX Data Import/Export

Partitionierungsstrategien für Data Vault

Orpheus Datacenter Azure Cloud On-premises. EU-Datacenter (Microsoft) SQL-Lizenzen, Backup, OS-Wartung (durch Orpheus) Dedizierte Umgebung

HANA Solution Manager als Einstieg

Preise und Details zum Angebot

Office 365 Dynamics 365 Azure Cortana Intelligence. Enterprise Mobility + Security Operations Mgmt. + Security

Performance Tuning and Optimizing SQL Databases MOC 10987

Perceptive Document Composition

Performanceaspekte in der SAP BI Modellierung

Oracle 12c: Migrationswege und Konzepte. Dierk Lenz

SQL Azure Technischer Überblick. Steffen Krause Technical Evangelist Microsoft Deutschland GmbH

Praxisbeispiel Henkel - Data Warehouse in der Cloud. Michael Beckmann Neubeuern, 1. September 2017

UMSTIEG AUF SAP S/4 HANA: WARTEN ODER LOSLEGEN?

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH

PBS Nearline Analytic Infrastructure - Ein Pilotkundenbericht -

QUICK-START EVALUIERUNG

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte BI Operations Erfolgsfaktoren für einen effizienten Data Warehouse Betrieb

Vorwort. Aufbau und Struktur

Die SAP Business One Cloud Plattform auf SQL und HANA. Preisliste Juni

Customer Reference Case: Microsoft System Center in the real world

IT-Symposium April 2007

Preise und Details zum Angebot

NEVARIS Build Systemvoraussetzungen

Visualisierung in Informatik und Naturwissenschaften

Software Lösungen von masventa

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

PostgreSQL in großen Installationen

Whitepaper. Produkt: combit Relationship Manager 5. Import von Adressen nach Firmen und Personen. combit GmbH Untere Laube Konstanz

SAP HANA Einsatzmöglichkeiten und Potenziale

Datenbankenseminar: SAP Reporting Vergleich ABAP vs. Quick View. Dipl. WiFo Sven Adolph

Seminar in der Seminarreihe Business Intelligence 1. OLAP und Datawarehousing

NEVARIS Build Systemvoraussetzungen

Mutterschiff und Schnellboote Der Digitalisierungsansatz bei der Mobiliar

Inhaltsverzeichnis. Vorwort Kapitel 1 Einleitung... 15

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG DATA MANAGEMENT

Aus der Praxis für die Praxis: Die Cloud im behördlichen Umfeld

Operationen auf Relationen

DIGITALISIERUNG. Smart EcoSystem

Enterprise Portal - Abbildung von Prozessen, SAP-Datenintegration und mobile Apps

Java Application 1 Java Application 2. JDBC DriverManager. JDBC-ODBC Br idge. ODBC Driver Manager. Dr iver C. Dr iver D.

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

Business Chancen im Reporting nutzen. Ingo Diekmann Leiter Kooperationen & Business Development IDL GmbH Mitte

NEVARIS Build Systemvoraussetzungen

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

PBS Nearline Storage Lösung mit Sybase IQ - Überblick und Erfahrungen aus Kundenprojekten. PBS Software GmbH, Dr. Christoph Bedau, Stefan Weickum

Inhaltsverzeichnis. Vorwort 13. Kapitel 1 Einleitung 15

Datenbanken Unit 9: OLAP, OLTP und objektrelationale Datenbanken

Performant mit CAPE und der Performance Signatur MMS APM Kay Koedel

Transkript:

Mittwoch, 08.06.2016 In the Code: Daten banken für Analytik im Vergleich Laufzeiten von Abfragen im spezifischen Setup des Kunden, in Minuten: Wichtigste Abfragen links / bekannte Langläufer rechts. MS SQL Server 2016 (SQL 16), SAP HANA (HANA), SAP Sybase IQ 1.5.4 (SY15), SAP Sybase IQ 16 (SY16) sowie Oracle 12c (ORA) Welche Datenbank eignet sich am besten für Analytics und Reporting? Simon Hefti weiss, wie man das herausfindet und stellt fest: Microsoft SQL Server 2016 lässt die Konkurrenz in bestimmten Setups weit hinter sich. Datenbasierte Wertschöpfung ist zu einem zentralen Erfolgsfaktor in allen Industrien geworden. Gleichzeitig stellt sie auf allen Ebenen bedeutende Herausforderungen, die Kultur, Daten und Technologie betreffend. Heute bleiben wir aber auf der Technologie-Ebene und stellen die Frage: "Welche Datenbank passt am Besten zu meinem Reporting- und Analyse-Anforderungen und begleitet mich zuverlässig über die nächsten drei bis fünf Jahre"? Wie die Einschränkung auf Reporting und Analytik zeigt, steht hier die Select- oder Lese- Performance im Vordergrund. Natürlich sind Schreib-Operationen für die datenbasierte Genehmigung des Verlags.1

Wertschöpfung ebenfalls relevant. Im Gegensatz zu Anforderungen von grossen Systemen, die täglich viele hundert Millionen Transaktionen verarbeiten müssen, können für Reporting und Analytik oft Massenoperationen und bulk inserts benutzt werden. Das verringert die Anforderungen an die Schreib-Operationen verglichen mit den Lese-Operationen beträchtlich. Eine Krankenkasse mit 3 Millionen Versicherten hat sich genau diese Frage gestellt und die Produkte Oracle, SAP HANA, SAP Sybase IQ und SQL Server in ihrem spezifischen Setup verglichen. Die Erfahrung zeigt, dass Herstellerangaben und standardisierte Benchmarks nur eine grobe Einordnung der verschiedenen Produkte erlauben. Es ist wie beim Massanzug: man muss die verschiedenen Produkt-Kandidaten anziehen und am eigenen Leib testen. Das ist aber auf Grund der Datenmenge (die grösste Tabelle der Krankenkasse enthält mehrere Milliarden Zeilen) und der benötigten Hardware gar nicht so leicht zu bewerkstelligen. Wie also geht man an eine solche Frage heran? Mit Daten natürlich. Ein erfolgsversprechender Ansatz ist, Systeme in der Cloud aufzubauen und Vergleichsmessungen mit synthetischen Daten durchzuführen. Damit dies sinnvoll gelingt, muss man einige Punkte beachten. Das Datenmodell muss mit dem Datenmodell übereinstimmen, das man im Zielsystem verwenden will. Dies betrifft vorallem die Beziehungen zwischen den Entitäten, da die Verknüpfungen (Joins) bezüglich Performance die Knacknuss für alle Hersteller sind. Zweitens müssen die synthetischen Daten die gleichen statistischen Eigenschaften aufweisen wie die produktiven Daten (technisch: wenn die Verteilung zufällig wäre, könnte das getestete System mit gut ausbalancierten Bäumen und damit nahe am Optimum arbeiten). Drittens muss die Anzahl Zeilen dem produktiven Setup entsprechen, woraus wiederum vorallem eine Herausforderung bei den Verknüpfungen entsteht. Dies ist eine nicht zu unterschätzende Anforderung, da die Datenmengen gross sind. Die Breite der Tabellen ist für moderne Produkte in der Regel weniger wichtig, da sich der spaltenbasierte Ansatz breit durchgesetzt hat. Es reicht also, sich in der Simulation auf einige wenige Attribute pro Tabelle zu beschränken. Um eine gute Aussagekraft der Resultate zu erreichen, ist der Aufbau einer Leiter zwingend, die es ermöglicht, Resultate von unterschiedlichen Systemen miteinander in Beziehung zu setzen. Dies gilt insbesondere für den Vergleich von On-Premise Systemen mit Systemen in der Cloud. Der Goldfisch Übrigens - wie ist denn gute Performance zu definieren? Hier bietet sich der Goldfisch- Genehmigung des Verlags.2

Ansatz an. Der Goldfisch hat bekanntlich eine Aufmerksamkeitsspanne von 9 Sekunden und übertrifft uns Menschen damit. Braucht das System länger als 10 Sekunden für die Antwort auf eine Frage, zum Beispiel ausgedrückt durch das Ändern eines Filters in einem Bericht, so wird der Gedankenfluss des Benutzers unterbrochen. Häufige Unterbrüche führen dazu, dass die Analyse gar nicht gemacht wird. Aber zurück zu den angesprochenen Vergleichsmessungen. Die Messungen wurden mit Maschinen mit 16 Kernen und 120-240 GB RAM durchgeführt. Dabei schnitt wie gesagt im ganz spezifischen Setup der erwähnten Krankenkasse Microsoft SQL Server 2016 überraschend gut ab. In der Tabelle oben sind die Laufzeiten der verschiedenen Produkte für die wichtigsten Abfragen (Tabelle Links) und für bekannte Langläufer (Tabelle rechts) dargestellt. Weitere Erkenntnisse aus den Vergleichsmessungen: SAP HANA ist für wichtige Abfragen vergleichbar schnell, ist aber bei Queries mit vielen Verknüpfungen gefordert. Die Performance-Steigerung von SQL Server 2014 zu 2016 ist beeindruckend. Sowohl bei Oracle und bei SQL Server bringt die Einführung von Aggregate Awareness eine Steigerung der Abfrage-Performance um den Faktor 10. Funktionale Verbesserungen Für die Krankenkasse waren neben der Performance die verschiedene funktionale Verbesserungen ebenfalls wichtig: Die Möglichkeit, Aggregate Awareness einzusetzen: Das steigert erstens die Performance. Fast wichtiger aber ist zweitens, dass keine Data Marts eingeführt werden müssen. Genauer gesagt: die Data Marts sind für den Benutzer nicht sichtbar. Aggregate Awareness bedeutet ja gerade, dass das System selbst entscheidet, ob für die Beantwortung einer Abfrage voraggregierte Daten verwendet werden können, oder ob das Resultat von Grund auf berechnet werden muss. Aus Benutzersicht ist das ein Schlüsselerfolgsfaktor, da Data Marts immer ein Teilbild zeigen, hier aber der Blick auf die gesamte Organisation interessiert. Das klassische Beispiel ist die Incentivierung des Verkaufs. Wenn der Data Mart nur Abschlüsse berüchsichtigt, nicht aber den Geschäftserfolg, der mit diesen Abschlüssen erzielt wurde, so ist die Gefahr einer Fehlsteuerung vorhanden. Die Möglichkeit der Kopplung der Zugriffskontrolle mit dem bestehenden Identity und Access Management System auf Basis von Active Directory (der Row Level Security). Die Monitor &Suspend Funktionen auf Basis des Query Store, die es ermöglicht, Benutzer zu identifizieren und auszubilden, die das System über die Massen beanspruchen. Die Unterstützungsfunktionen bei der kontinuierlichen Verbesserung der Abfragen. Der um einen Faktor 7 tiefere Platzbedarf, der sich aus der starken Kompression ergibt. Sind die gerade beschriebenen funktionalen Anforderungen und die nicht-funktionalen Anforderungen (z.b. Performance) erst einmal geklärt, so stellt sich die wahrscheinlich wichtigste Frage: ist eine Migration möglich, und in welchem Zeitraum? Genehmigung des Verlags.3

Dass die Migration möglich ist, war für die erwähnte Krankenkasse schnell einmal klar - dies insbesondere, da sie eine einzelne Komponente der Datenstrecke und nicht die gesamte Datenstrecke betrifft. Während der erfolgreich in 12 Wochen durchgeführten Migration sind mir verschiedene Punkte aufgefallen: Die aus den Vergleichsmessungen erwartete Performance-Steigerung wurde realisiert. Verschiedene kleinere Bugs in den Release Candidates von SQL Server 2016 konnten identifiziert und im Rahmen des Technology Adaption Programms (TAP) in enger Zusammenarbeit mit Microsoft behoben werden. Natürlich müssen SQL Queries und T/SQL Prozeduren angepasst werden, und das Verhalten bei Transaktionen und Fehlern ist anders. Insgesamt ist der Migrationsaufwand aber überschaubar. Besonders lustig ist, dass die Funktion count() des SQL Servers auf dem Datentyp int basiert und damit mit 4 bytes auf 2 Milliarden limitiert ist. Aber die Lösung ist nicht weit: mit count_big() können auch Zeilen in Tabellen gezählt werden, die grösser sind. Erstaunlicherweise wird UTF-8 noch nicht unterstützt. Letztendlich führten die besprochenen Aspekte (Performance, funktionale Verbesserungen und Migration in kurzer Zeit) die Krankenkasse zum Entscheid, den SQL Server 2016 als Reporting- und Analyse-Datenbank produktiv einzusetzten, noch bevor der finale Release des Produkts verfügbar ist. Erfahrungen zusanmmengefasst: Was für den Anzug recht ist, muss billig sein für die zentralen Systeme, die den wertvollen Rohstoff Daten verwalten - es braucht passgenaue Systeme. Die Cloud ermöglicht es, in kurzer Zeit und auf einfache Weise Vergleichssysteme bereitzustellen, die den realitätsnahen Performancevergleich ermöglichen. Mit dem Einsatz von synthetischen Daten ist der Einsatz der Cloud mit Blick auf sensitive Daten unbedenklich. Eine allfällige Migration ist - wenn sie sorgfältig geplant ist - zügig durchführbar. Der Continuous Innovation Ansatz des Herstellers reduziert die Risiken des Wechsel auf einen 1.0er Release deutlich, da viele der Komponenten des Produkts bereits bekannt und produktiv eingesetzt werden. Über den Autor Simon Hefti ist Gründungspartner von D ONE, dem Beratungsunternehmen für datenbasierte Wertschöpfung. In seiner Dissertation hat er den Ursprung des Sonnenwindes erforscht. Als Unternehmer und Business Scientist begleitet er Kunden aus unterschiedlichsten Branchen in technischen, konzeptionellen und organisatorischen Fragen. Genehmigung des Verlags.4

Mehr zu diesem Thema: In the Code: Internet of Things? Aber sicher! In the Code: Der Kampf gegen den grossen Dreckklumpen In the code: Erfolgreiche Big-Data-Programme Genehmigung des Verlags.5