SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Ähnliche Dokumente

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Big Data Informationen neu gelebt

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Prof. Dr.-Ing. Rainer Schmidt 1

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Apache HBase. A BigTable Column Store on top of Hadoop

ETL in den Zeiten von Big Data

Big Data Mythen und Fakten

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Hadoop Eine Erweiterung für die Oracle DB?

Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, in Hamburg

EXASOL Anwendertreffen 2012

DOKUMENTATION PASY. Patientendaten verwalten

Elasticsearch aus OPS-Sicht Teil1. Markus Rodi Karlsruhe,

Verbindung HELIUM V und WebShop (Magento). Verbindung zwischen HELIUM V und WebShop AioS

Big Data Technologien

vinsight BIG DATA Solution

Business Intelligence in NRW

Überblick und Vergleich von NoSQL. Datenbanksystemen

Microsoft SharePoint 2013 Vorteile und Neuheiten. Fachseminar Microsoft SharePoint 2013

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Big Data im Retail-Sektor am Beispiel Kassenbondaten

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

Ein subjektiver Vergleich zwischen SSIS und Kettle mit Ausblick auf die Generierung von BI-Lösungen

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Möglichkeiten für bestehende Systeme

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

Allgemeines zu Datenbanken

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

COSYNUS iphone/ipad Connector für Tobit David Integriert und offline mit Tobit David arbeiten

Hardware- und Softwareanforderungen für die Installation von California.pro

Echtzeitanomalieerkennung für Internetdienste (Abschlussvortrag)

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Systemvoraussetzungen: DOMUS NAVI für DOMUS 4000 Stand 02/15

Windows 7 ist da! Der Nachfolger von Vista kommt noch vor dem Sommer

LINQ to SQL. Proseminar Objektorientiertes Programmieren mit.net und C# Christoph Knüttel. Institut für Informatik Software & Systems Engineering

4D Server v12 64-bit Version BETA VERSION

HERZLICH WILLKOMMEN SHAREPOINT DEEP DIVE FOR ADMINS IOZ AG 2

Big Data: Apache Hadoop Grundlagen

Wine - Windows unter Linux

Systemvoraussetzungen Sitzungsmanager

Dokumentenorientierte Datenbanken - MongoDB

Personalmarke,ngkongress 2012

Mehrere PDF-Dokumente zu einem zusammenfügen

Das Zettabyte. CeBIT Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG mitp/bhv

NEWSLETTER // AUGUST 2015

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

Gesetzliche Aufbewahrungspflicht für s

Living Lab Big Data Konzeption einer Experimentierplattform

Softwaren Engineering I

REGIONALES RECHENZENTRUM ERLANGEN [ RRZE] Datenbanken. RRZE-Campustreffen, Stefan Roas und Ali Güclü Ercin, RRZE

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen mit SQL Server-Daten

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Kampagnenmanagement mit Siebel Marketing/Oracle BI ein Praxisbericht

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Domainverwaltung - NetUSE Domain Manager

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Kurzanleitung OOVS. Reseller Interface. Allgemein

meinungsstudie. meinungs studie Nagelfolien online selbst gestalten: nail-designer.com.

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

Replikationsoptimierung mit Citrix BranchRepeater. Oliver Lomberg Citrix Systems GmbH

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

SAP Memory Tuning. Erfahrungsbericht Fritz Egger GmbH & Co OG. Datenbanken sind unsere Welt

Reporting Services und SharePoint 2010 Teil 1

Von Windows-Forms zu WPF mit Expression Blend? Thomas Müller conplement AG Nürnberg

Installation SQL- Server 2012 Single Node

Online Data Protection

Auswertung Kundenbefragung Essen auf Räder

Lokale Installation von DotNetNuke 4 ohne IIS

I. Travel Master CRM Installieren

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Systemvoraussetzungen

Beauftragen Sie jetzt Ihre eigene Homepage!

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

BU-Optimierung: Mehr Schutz für ALLE! Berufsunfähigkeit.

ISBN: Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

Selbst ist die Frau / der Mann: eine eigene Homepage erstellen!

Der Einsatz von Open-Source-Produkten im Unternehmen, dargestellt am Beispiel von OpenOffice

Titel. System Center Service Manager 2012 R2 Anleitung zur Installation

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

! " # $ " % & Nicki Wruck worldwidewruck

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

TYPO3 CMS 6.2 LTS. Die neue TYPO3- Version mit Langzeit- Support

Ergebnisse zur Umfrage GC MARKT-BLITZLICHT No. 6 Mitarbeiter gewinnen. 08. August 2014

Spezialisierung Business Intelligence

BitDefender Client Security Kurzanleitung

Hybrid-Szenarien in der Virtualisierung

Mobile Analytics mit Oracle BI

Transkript:

SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

War nicht BigData das gleiche NoSQL? 2

Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3

! No SQL!? Kylin Oracle Hadoop Connector Splice InfiniDB Hive on Spark Pivotal HAWQ Shark Hive-on-Tez Tajo Hive BigSQL Phoenix Apache Drill Lingual Presto Impala Hadapt Trafodion Spark SQL CitusDB IBM BigSQL Aster SQL/Mapreduce 4

Agenda Warum SQL, Anwendungfälle Überblick Hive Wie kann Hive verbessert werden SQL-Engines: Welche für was? Zusammenfassung 5

Warum jetzt doch SQL? Türöffner zur BigData-Welt Kenntnisse weit verbreitet Software:Treiber vorhanden flickr.com/salynaz 6

No SQL? Oracle Hadoop Connector Splice InfiniDB Hive on Spark Pivotal HAWQ Kylin Hive-on-Tez Tajo BigSQL Shark Hive Phoenix Apache Drill Lingual Presto Impala Trafodion Hadapt Aster SQL/Mapreduce CitusDB Spark SQL IBM BigSQL 7

Hive ursprünglich von Facebook Compiliert HiveQL, ein SQL-Dialekt, zu MapReduce-Jobs Schema wird separat zu den Daten abgelegt: Metastore ursprünglich von Facebook 8

Hive Architektur Anwender Hive Query Hadoop Hive Server2 Meta store Parser, Analyzer, Compiler 9

Hive ETL: gut geeignet Ad-hoc: Zu hohe Latenz Analytics: Latenz, Sprachumfang ungenügend ETL: gut geeignet 10

Was kann man besser machen? Oder: Warum ist Hive wie es ist 11

Hive auf Mapreduce Zieltabelle HDFS Reduce Rot: Plattenzugriff Shuffle Map Reduce-side Join Reduce HDFS HDFS Temporärtabelle Map-Side Join Shuffle HDFS Map Map HDFS HDFS HDFS HDFS Kunden Adressen Käufe Produkte 12

Optimiertes Hive: DAGs Adressen HDFS Shuffle Reduce Reduce Reduce-side Join HDFS Map Shuffle HDFS Map-Side Join HDFS Map HDFS Kunden Adressen Käufe Produkte 13

Oracle Hadoop Connector Splice InfiniDB Hive on Spark Pivotal HAWQ Kylin Shark Hive-on-Tez Tajo Hive BigSQL Phoenix Apache Drill Lingual Presto Impala Hadapt Trafodion Spark SQL CitusDB IBM BigQuery Aster SQL/Mapreduce 14

MPP (massive parallel processing) Datenbanken Master Slave Slave Slave Slave (blackbox) (blackbox) (blackbox) (blackbox) HDFS HDFS HDFS HDFS 15

MPP-basiert Oracle Hadoop Connector Splice InfiniDB Hive on Spark Pivotal HAWQ Kylin Shark Hive-on-Tez Tajo Hive BigSQL Phoenix Apache Drill Lingual Presto Impala Hadapt Trafodion Spark SQL CitusDB IBM BigSQL Aster SQL/Mapreduce 16

No SQL!? Oracle Hadoop Connector Splice InfiniDB Hive on Spark Pivotal HAWQ Kylin Shark Hive-on-Tez Tajo Hive BigSQL Phoenix Apache Drill Lingual Presto Impala Hadapt Trafodion Spark SQL CitusDB IBM BigSQL Aster SQL/Mapreduce 17

Stinger initiative Hortonworks/Microsoft Hive weiterentwickeln Geschwindigkeit: Tez, ORC SQL-Features, Analytische Queries (OVER) Security (GRANT) 18

Tez und Spark TEZ Spark YARN Hive Spark MR YARN: Tez, Spark und Hive nebeneinander Tez: Neuer, spezialisierter Spark: generischer, viel Monumentum 19

Impala MPP-basiert Queries zu nativem Code Speicherhungrig, empfohlen 128GB keine strukturierten Datentypen Zwischenergebnisse müssen in RAM passen (bis Impala 2.0) 20

Facebooks Presto MPP-Engine Discovery-Server + Worker-Nodes Struktur-Datentypen -> JSON Hive, Cassandra, MySQL Anwendung bei Facebook: Fact-table in Hive, Dimensions in MySQL einfaches Deployment 21

Apache Drill MapR s Schema-on-Read Connectoren für Hive, HBase, JSON, CSV. Joins über mehrere Quellen hinweg Compliliert Queries zu Java-Byte-Code Version 0.5.0 22

Kylin Sehr neu, entwickelt von ebay (M)OLAP Engine Aggregate werden in HBase gespeichert 23

Saiku - Beispiel 2 24

Mondrian mit Hive / Impala + Saiku UI 25

Mondrian mit Kylin 26

Doch einige Zahlen 70,00& 60,00& 50,00& 50,91& 40,00& 30,00& 34,31& 30,96& 39,43& 20,00& 16,69& 10,00& 5,25& 9,25& 0,00& Hive& Shark& Shark/Cluster& Impala& Presto& Drill& Tajo& 27

Resume I Schnell Connectivity Drill Impala Tajo Presto Ausgereift Tez/Spark Hive Sprach- Umfang Zahlen noch unzuverlässig 28

Resumé Extrem schnell wachsendes, sich änderndes Umfeld. Unübersichtlich Keine One-Size-Fits-All Lösung bisher Anhand des individuellen Anwendungsfalles zu evaluieren.

Vielen Dank für Eure Aufmerksamkeit! Kontakt! Hans-Peter Zorn Data Management & Analytics! inovex GmbH Office Karlsruhe Ludwig-Erhard-Allee 6 76131 Karlsruhe! 0173 31 81 093 hzorn@inovex.de! 30