BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?)

Transkript

2 AGENDA ITGAIN Big SQL Aktionen PoC Cobol meets Hadoop Beta Test Big SQL 4.0 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit BigS QL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Big SQL for Hortonworks (Mogelpackung oder genialer Schachzug) Copyright 2017 ITGAIN GmbH 2

16 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DPF Big SQL Hadoop Daten mit BigSQL abfragen Big SQL und Hive Einsatz von BigS QL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 16

17 BIG SQL UND HORTONWOKS August 2016: Einladung der IBM Analytics Group (San Francisco) als einziger deutscher Beta-Tester für BIG SQL on Hortonworks Bisher nur für IBM Open Platform (IOP) verfügbar September 2016: Release der Beta-Version Installation und Test eines 2 Knoten Clusters Offizielle Ankündigung von BigSQL v.4.2 Ende September Dezember 2016: Vortrag auf der GSE DB2 Tagung Februar 2017 Vortrag auf der GSE Big Data & Analytics Tagung Copyright 2017 ITGAIN GmbH 17

19 WARUM SQL ZUGRIFF AUF HADOOP? Für Hadoop benötigt man Java-Programmierer mit Kenntnissen in MapReduce, Spark, Pig, etc. Analysten können ohne Hilfe von Entwicklern unstrukturierte Hadoop-Daten kaum abfragen SQL-ähnliche Abfragen mit HiveQL basieren auf MapReduce und sind relativ langsam und halten sich nicht an den ANSI-SQL Standard SQL macht Hadoop einem breiteren Publikum zugänglich Copyright 2017 ITGAIN GmbH 19

21 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 21

23 WAS IST HIVE? Open Source SQL für Hadoop Hive Komponenten: SQL Execution Engine Hive Metastore Hive Storage Model Quelle: Big SQL: Powerful SQL Optimization - Re-Imagined for open source 2017 IBM Corporation Copyright 2017 ITGAIN GmbH 23

24 BIG SQL UND HIVE Big SQL Tabellen sind Hive Tabellen Big SQL und Hive nutzen die gleichen Tabellen Gemeinsame Daten Gemeinsame Metainformationen Quelle: Big SQL: Powerful SQL Optimization - Re-Imagined for open source 2017 IBM Corporation Big SQL for Hortonworks (Mogelpackung oder genialer Schachzug) Copyright 2017 ITGAIN GmbH 24

26 BIG SQL 4.2 IBM MPP-engine (C++) löst MapReduce-Layer (Java) ab Big SQL ist eine MPP (Massively Parallel Processing) SQL-engine HBASE ist eine verteilte spaltenorientierte Key- Value Datenbank HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen verteilt auf mehreren Knoten Quelle: Big SQL: A Technical Introduction 2016 IBM Corporation Copyright 2017 ITGAIN GmbH 26

28 BIG SQL WHAT S NEW Migrationsunterstützung von IOP(IBM Open Platform) nach HDP (Hortonwork Data Platform) Big SQL Interpreter für Zeppelin (Unterstützung von Tabellen auf Basis von S3 Storage) (Big SQL auch für CentOS) Verbesserte Spark Integration Performanceverbesserungen Erweiterte Hochverfügbarkeit (BLU Acceleration für Big SQL).. Copyright 2017 ITGAIN GmbH 28

44 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit BigSQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit BigSQL abfragen Big SQL und Hive Einsatz von BigSQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 44

45 MPP VS. SMP ARCHITEKTUR Symmetric Multi Processing: Dynamische Verteilung laufender Prozesse auf alle verfügbaren Prozessoren, die sich Systemressourcen teilen (=Multiprozessorsystem) Copyright 2017 ITGAIN GmbH 45

46 MPP VS. SMP ARCHITEKTUR Massive Parallel Processing: Verteilung einer Aufgabe auf mehrere voneinander unabhängige Knoten mit eigenem Prozessor, Hauptspeicher und I/O-Subsystem (= Shared Nothing Architektur) Copyright 2017 ITGAIN GmbH 46

47 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL MPP vs. SMP Architektur Db2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen# Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 47

48 DB2 DPF DPF Koordinator (1): kommuniziert mit dem Client und weiß auf welcher Partition die angeforderten Daten liegen DB2 Partition (2): führt die Abfrage aus Jede Datenbank-Partition hat ihre eigenen Disks Weitere Partitionen können jederzeit hinzugefügt werden Partitionen kommunizieren nicht untereinander Quelle: Big SQL: Similarities and differences from DB2 LUW 2016 IBM Corporation Copyright 2017 ITGAIN GmbH 48

49 HADOOP HDFS NameNode (1): Verwaltet das Metadaten- Repository(a) (welcher Block gehört zu welcher Datei) kommuniziert mit dem Client und koordiniert den Zugriff auf die Daten DataNode(2): Speichert die Daten in HDFS-Blöcken und kennt die Lokation dieser Blöcke (a) HDFS-Blöcke werden zwischen den Knoten repliziert (b) Quelle: Big SQL: Similarities and differences from DB2 LUW 2016 IBM Corporation Copyright 2017 ITGAIN GmbH 49

50 DB2 DPF VS. BIG SQL CLUSTER TYPOLOGIE (HDFS) DPF: Jede Daten- Partition hat ihr eigenes Set an Disks HADOOP: Jede Daten- Partition kann auf alle HDFS-Daten zugreifen Quelle: Big SQL: Similarities and differences from DB2 LUW 2016 IBM Corporation Copyright 2017 ITGAIN GmbH 50

51 VON DB2 DPF ZU BIG SQL (1) HDFS: Physischen Disks werden durch HDFS ersetzt (DB2 kontrolliert nicht mehr wo die Daten liegen) (2) Temp Data bleibt bestehen (3) SQL Scheduler: Erhält Anfragen für Tabellenzugriff vom DPF Koordinator Interagiert mit dem Hive-Metastore und ermittelt die File-Lokation für Tabellen im HDFS Interagiert mit dem Namenode um die HDFS- Blöcke auf den Datanodes zu ermitteln (4) BigSQL I/O-Engines: Native C++ Reader und Java Reader: Big SQL entscheidet anhand des Dateiformats welcher Reader verwendet wird Big SQL Scheduler erteilt Aufrträge an die I/O Engines Quelle: Big SQL: Similarities and differences from DB2 LUW 2016 IBM Corporation Mogelpackung oder genialer Schachzug? Copyright 2017 ITGAIN GmbH 51

52 BIG SQL ARCHITEKTUR Big SQL Master hört auf JDBC/ODBC Verbindungen kompiliert die Abfrage und koordiniert dies Ausführung auf den Workern Worker führen die Abfrage auf dem Knoten aus, auf dem die Daten liegen (Data Locality) Datenaustausch zwischen den Knoten soweit notwendig Quelle: Big SQL: A Technical Introduction 2016 IBM Corporation Copyright 2017 ITGAIN GmbH 52

54 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.0 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DPF Big SQL Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 54

55 ITGAIN TESTUMGEBUNG Initiale Installation von 2 Knoten-Cluster Hardware 2 virtuelle Server mit 8 Cores / 10 GB RAM / SSDs Software Linux RedHat 7.2 / Cent OS 7.2 Ambari Hortonworks Data Platform (HDP) BETA: Big SQL 4.2 for Hortonworks Data Platform Erweiterung um drei weitere Knoten 1x NameNode / MasterNode 4x DataNodes / WorkerNodes Copyright 2017 ITGAIN GmbH 55

62 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit BigSQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 62

69 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 69

71 PERFORMANCE UNTERSCHIEDE DB2 DPF VERSUS DB2 HDFS Random I/O Benchmark (Lesen von 1023 Sätzen) DB2 DPF Cold: DB2 HDFS Cold: Warm: Warm: BIGSQL homerun or merely a major bluff? Copyright 2017 ITGAIN GmbH 71

73 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.2 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 73

74 HADOOP DATEN MIT BIG SQL ABFRAGEN Arbeiten mit strukturierten Daten SQL Arbeiten mit Datentypen für komplexe Daten (halbstrukturiert) ARRAY: Sammlung von Daten des gleichen Typs MAP: Sammlung von Key/Value Paaren STRUCT: Sammlung von Daten verschiedenen Typs Arbeiten mit unstrukturierten Daten ist über Serializer and Deserializer (SerDe) möglich Das SerDe-Interface instruiert Hive wie es Datensätze verarbeitet soll Es gibt zahlreiche Built-In SerDes z.b für JSON, Avro, Parquet, Regular Expressions, usw. Zahlreiche SerDes sind als PublicDomain verfügbar Kundenspezifische SerDes können nach Bedarf in Java entwickelt werden Copyright 2017 ITGAIN GmbH 74

81 DATEN ABFRAGEN UNSTRUKTURIERTE DATEN select * from apache_log fetch first 5 rows only; Neue Logfiles werden nicht sofort eingelesen, sondern erst nach Ausführung SP (Cache leeren): CALL SYSHADOOP.HCAT_CACHE_SYNC bigsql, apache_log ); Copyright 2017 ITGAIN GmbH 81

82 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.0 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL? MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL and Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 82

95 AGENDA ITGAIN Big SQL Aktionen (Warmup) PoC Cobol meets Hadoop Beta Test Big SQL 4.0 for HDP Sandbox Test Big SQL 5.0 Was ist Big SQL MPP vs. SMP Architektur DB2 DPF vs. Hadoop (HDFS) Installation, Administration und Monitoring Arbeiten mit Big SQL: Bekanntes und Unbekanntes Performancevergleich DB2 DPF Big SQL HDFS Hadoop Daten mit Big SQL abfragen Big SQL und Hive Einsatz von Big SQL Fragen & Diskussionen Copyright 2017 ITGAIN GmbH 95

96 EINSATZ VON BIGSQL Big SQL Hadoop-Tabellen sind kein Ersatz für OLTP-DBMS Technologien Big SQL ermöglicht SQL-Abfragen auf bestehende Hadoop Daten (kein proprietäres Storage-Format) Alle Daten sind Hadoop-Dateien in HDFS Big SQL wurde entwickelt um die Hadoop-Infrastruktur wirksam und effizient einzusetzen SQL Kenntnisse sind in den meisten Unternehmen vorhanden! Kein UPDATE oder DELETE für Hadoop-Tabellen möglich Deutlich geringere Lizenzkosten als für DB2 DPF Sehr gute SQL Kompatibilität Copyright 2017 ITGAIN GmbH 96

97 EINSATZ VON BIGSQL Primäres Einsatzgebiet derzeit vor allem: um wenig frequentierte Daten aus dem Datawarehouse auf günstigere Hardware auszulagern und trotzdem über SQL direct darauf zugreifen zu können um unstrukturierte Daten (wie Logdateien, Sensordaten, Social Media Posts, etc.) zu filtern und zu analysieren und mit strukturierten Daten zu verknüpfen (z.b. über Federation) Copyright 2017 ITGAIN GmbH 97