Big Data Konnektivität Einführung und Hands-On Workshop Für die Platform Peter Welker (Trivadis GmbH) Berater/ Partner

Big Data Konnektivität Einführung und Hands-On Workshop Für die Platform Peter Welker (Trivadis GmbH) Berater/ Partner BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENF HAMBURG KOPENHAGEN LAUSANNE MÜNCHEN STUTTGART WIEN ZÜRICH

Wer bin ich? Peter Welker Berater (Trivadis Stuttgart) Partner Aufgaben bei Trivadis Big Data Solutions Business Intelligence Beratung und Entwicklung Hintergrundinfos 23 Jahre IT / 17 Jahre DWH (meist Oracle) Architekturen, Performance Reviews, Evaluationen, PoCs DWH Appliances, MPP- & Neue Plattformen Training, Artikel, Talks, Bücher Themenverantwortlicher Big Data 2 17.09.2015

Rückblick DOAG BigData 2014 Ausgezeichneter Hadoop Workshop Viele Hands-On Beispiele und Demos Umfasst zahlreiche Übungen zu Hadoop CmdLine, MR- Programmierung, Sqoop ( native Hadoop ETL) und Hive (SQL auf Hadoop) Bietet einen Ausblick auf die Oracle Big Data Connectoren Genau da machen wir heute weiter! 3 17.09.2015

Ausblick DOAG BigData 2015 Donnerstag 13:00 15:30Big Data Konnektivität mit Oracle (Peter Welker, Trivadis) 16:00 18:00JSON, SQL und die Oracle Datenbank (Carsten Czarski, Oracle) Freitag 09:00 13:00Spark: Next Generation Data Processing (Mathias Höreth, Metafinanz) 4 17.09.2015

Agenda 1. Big Data @ Oracle Statement of Direction 2. Eine umfassende analytische Plattform mit Oracle Produkten? 3. Big Data Glue Überblick Konnektivität 4. Oracle Big Data Lite Einführung 5. Konnektoren und mehr (Hands-On) 6. ODI, Golden Gate & Big Data 7. Zusammenfassung 5 17.09.2015

Big Data @ Oracle Statement of Direction 6 17.09.2015

Oracle Big Data Statement of Direction (1) http://www.oracle.com/technetwork/database/bigdata-appliance/overview/sod-bdms-2015-04-final-2516729.pdf Oracle: Big Data Management Systeme bestehen aus Data Warehouse (Database) Franchised Query Engine Federation Tool (Big Data SQL) Data Reservoir BigData Ecosystem mit Hadoop & NoSQL (Big Data Appliance) 7 17.09.2015

Oracle Big Data Statement of Direction (2) Aktueller Fokus auf vier Bereichen Global Metadata Services a single view of all available data across multiple data stores, exposed in a format similar to Oracle s data dictionary. Global Query Routing and Processing optimized query execution across multiple data stores. A single query may possibly merge data from multiple data stores. A variety of query optimization and caching techniques will be applied to optimize performance. Global Resource Monitoring and Management prioritization of workloads across the entire BDMS ecosystem. Global Data Optimization the ability to automatically move data from one repository to another (for example, from a data warehouse to a data reservoir or vice versa) based on query performance requirements and/or storage costs. 8 17.09.2015

Oracle Big Data Statement of Direction (3) Ein paar Aussagen Oracle will provide fast, integrated, secure access to all data not only data stored in [ ] Exadata [ ] or Oracle Big Data Appliance, but also data stored in operational NoSQL databases, transactional relational databases, streaming data sources, and more. Oracle will provide a framework for easily incorporating new data sources, ensuring that these new data sources can be seamlessly accessed and managed Strategy is to extend its existing in-database features (such as its data dictionary, SQL query engine, query optimizer, resource manager, and data optimization) in order to manage the entire Big Data Management System 9 17.09.2015

Oracle Big Data Statement of Direction (4) A favorite hobby of new entrants to the database market is to paint Oracle, the market-leading database, as inflexible and promote their product on the basis that Oracle will never be able to provide the same type of functionality as their new platform. Such vendors pursue this positioning at their peril: object-oriented databases, massively-parallel databases, columnar databases, data warehouse appliances and other trends have been outed as replacements for Oracle Database only to later see their core benefits subsumed by the Oracle platform. 10 17.09.2015

Eine umfassende analytische Plattform mit Oracle Produkten? 11 17.09.2015

Das Traditionelle / Klassische DWH RDBMS + OLAP Hoher ETL Aufwand Hoher Integrationsgrad OLTP Quellen Tagesaktuell Core = SPOT Marts dimensional BI Suite obendrauf Power-User Direktzugriff 12 17.09.2015

Auswahl häufiger moderner DWH Anforderungen Operativ Einbindung direkt in operative Prozesse nicht nur analytisch / dispositiv ODS 1:1 Abbild der Quellsysteme manchmal historisiert als Teil der Staging Area Echtzeit Latenz von Stunden oder Minuten sehr selten wirklich Echtzeit Self Service BI Ansätze zur Flexibilisierung Sandboxes, BI Tool-Features, einfache ETL Tools, Federation auf OLTP Systeme Unified Analysis Einbindung/Zusammenspiel mit Big Data Lösungen/Plattformen + Federation 13 17.09.2015

Das Logische Data Warehouse (LDW) nach Gartner SLA für Data Management (DM) LDW ist eine integrierte DM Plattform Das klassische DWH ist ein Teil davon Metadata Best-fit Engineering Quelle: Gartner 14 17.09.2015

LDW Die vergessenen 20% (80/10/5 Regel) Use Case Access Semantics SLA Requirements Taxonomy/Ontology Resolution =/<>/~ Auditing and Management Statistics DQ, MDM, Gov. Metadata 80/10/5 Regel = Anteil Use Cases, nicht Datenmenge, Kosten oder Mehrwert Nach Gartner Data Warehouse (Database) 15 17.09.2015 COMPROMISE CONTENDER CANDIDATE Repositories (80%) Classic DWHs & ODS Federation Virtualization (10%) Flexibility & Direct Access Distributed Process (5%) Big Data Analytics VERACITIY VARIABILITY HIGH VALUE Franchised Query Engine Federation Tool (Big Data SQL) Science Sandbox (80/10/5 = 5%) Data Scientist Playground Data Reservoir BigData Ecosystem mit Hadoop& NoSQL (Big Data Appliance)

Big Data Glue Überblick Konnektivität 16 17.09.2015

Das Oracle Big Data Management System (1) Quelle: Oracle 17 17.09.2015

Das Oracle Big Data Management System Data Integration Schema on Read Raw Data Source Systems DSS OLTP Sensor Event Dokument Internet Video Audio Image Data Ingestion Golden Gate Complex Event Processing Data Integrator SQL*Loader Big Data Connectors Data Optimization Data Foundation Raw Data Reservior NoSQL Key Value Enterprise R Big Data Discovery Cloudera Hadoop HDFS + Tools Database EE InMemory OLAP ESSBASE Semantic Graph (NoSQL) XDB, JSON (NoSQL) Advanced Analytics DB M/R Enterprise R Data Access Big Data SQL Data Integrator Connectivity Query & Analytics BIEE, BI- Publisher, Hyperion Visual Analyzer, BD Discovery, Endeca Data Ingestion Advanced Analytics R Managed Data Schema on Write Metadata Management, Data Quality, Big Data Discoverer etc. 18 17.09.2015

Welches Produkt für welchen Fall? http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/2297765.pdf Gutes Whitepaper Beschreibt und definiert Big Data, organisatorische und technische Anforderungen sowie Tooling Ingestion rate Straight through processing Tooling maturity Availability & Business Continuity ACID transactional requirements und Entscheidungskriterien Cost effectively store low value data Security Quelle: Oracle Ingestion (coding) simplicity Data sparsity Variety of data formats 19 17.09.2015

Oracle Big Data Lite Einführung 20 17.09.2015

Oracle Big Data Lite 4.1, 4.2, 4.2.1 VM für Test- und Trainingszwecke Von Oracle zusammengestellt und gepflegt Läuft direkt auf Oracle Virtual Box Benötigt bis zu 55 GB Plattenplatz und mindestens 8 GB RAM auf dem Host Was ist dran und drin? Oracle Linux, Oracle DB, Cloudera CDH, ODI, Golden Gate, Big Data SQL, Big Data Konnektoren, NoSQL DB, Spatial & Graph, JDeveloper, SQL Developer usw. Jede Menge Hands-On Labs: http://www.oracle.com/technetwork/database/bigdataappliance/oracle-bigdatalite-2104726.html#hol http://www.oracle.com/technetwork/database/bigdata-appliance/oracle-bigdatalite- 2104726.html Es funktioniert nicht immer alles 100% einwandfrei ;-) Quelle: Oracle 21 17.09.2015

Oracle Big Data Lite Hands-On Labs Die Lab-Übungen sind teilweise abhängig von den genauen OBDL-Versionen Einstieg entweder über die entsprechende Website Oder anhand der Dokumente auf dem Trivadis-Stick Wer die Website älterer Versionen nicht findet Über die Neueste einsteigen und scrollen bis 22 17.09.2015

Oracle Big Data Lite Einfache Konfiguration 23 17.09.2015

Oracle Big Data Lite Hands-On Lab Infos Oder die Dateien auf dem Memory Stick 24 17.09.2015

Konnektoren und mehr 25 17.09.2015

Oracle Big Data Connectors OSCH OLH OXH ORH Oracle SQL Connector for HDFS (OSCH) Oracle Loader for Hadoop(OLH) Oracle XQuery for Hadoop Oracle R Advanced Analytics for Hadoop 26 17.09.2015

Oracle SQL Connector for HDFS (OSCH) OSCH Read Only HDFS Zugriff auf Oracle Data Pump files, Delimited text files und Delimited text files in Apache Hive Tabellen aus einer Oracle Datenbank heraus Einfachste Variante für Zugriff auf HDFS und Hive aus der Datenbank heraus Nutzt External Tables und ET Präprozessor zum Zugriff auf HDFS und Hive via SQL Ermöglicht Zugriff auf Apache Hadoop ab Version 2.2.0 (bspw. Cloudera 4 und 5) Hive Versionen 0.10.0, 0.12.0, 0.13.0, 0.13.1 oder 1.1.0 Benötigt DB ab 10.2.0.5, 11.2.0.2 oder 12 Nur für Linux x86-64 27 17.09.2015

OSCH Setup OSCH Installation von Hadoop Client und OSCH auf DB Server http://docs.oracle.com/cd/e63064_01/doc.42/e63063/start.htm#bdcug109 Datenbankbenutzer einrichten CONNECT / AS sysdba; CREATE USER hdfsuser IDENTIFIED BY password DEFAULT TABLESPACE hdfsdata -- Nur für Schreibvor- QUOTA UNLIMITED ON hdfsdata; -- gänge in die DB GRANT CREATE SESSION, CREATE TABLE, CREATE VIEW TO hdfsuser; GRANT EXECUTE ON sys.utl_file TO hdfsuser; -- UTL_FILE Zugriff! GRANT READ, EXECUTE ON DIRECTORY osch_bin_path TO hdfsuser; -- OSCH binaries GRANT READ, WRITE ON DIRECTORY external_table_dir TO hdfsuser; -- External Tables Danach generiert OSCH Zugriffsmechanismen und -objekte 28 17.09.2015

OSCH was passiert beim Generieren der ET? OSCH Hive Table Files Hadoop Hive Metadata Developer 1. Creates Deletmited HDFS Files 2a Hadoop ExternalTable Exec 2a XML Definition mit Strukturinfo Reads Reads Oracle Datapump Files OR OR OSCH 2b Generates 3b Data Stream Oracle Create Table Command Program used in Preprocessor 2c Creates hdfs_stream 3b Data Stream External Table uses 3a uses OSCH Location-File Oracle Database 3.SQL DB User Local Linux File Metadata OSCH Installed or Generated Existing Developed Program 29 17.09.2015

OSCH ExternalTable Setup OSCH Achtung: Hier handelt es sich um das OSCH CommandLine Tool ExternalTable, nicht um den Oracle Database Befehl ExternalTable Tool in Hadoop ausführen Provide ET with information about the Hadoop data source and a schema in the Oracle Database either as part of the CREATE ET command or in a separate XML file Achtung: Außerhalb DB statt es ist ein Aufruf eines Java -- hadoop Programms Befehl mittels des Hadoop $OSCH_HOME/jlib/orahdfs.jar client \ hadoop jar \ oracle.hadoop.exttab.externaltable \ -conf /home/oracle/movies/moviefact_hdfs.xml \ -createtable Das Tool generiert den passenden Create External Table Befehl für die Datenbank Der Zugriff geschieht über einen generischen Präprozessor -- Tool aus folgender Bibliothek -- Name des Tools (Java Programm) -- Param: XML mit ET Definition -- Param: Befehl im Tool 30 17.09.2015

OSCH ExternalTable Syntax & more OSCH hadoop jar OSCH_HOME/jlib/orahdfs.jar \ oracle.hadoop.exttab.externaltable \ [-conf config_file]... \ [-D property=value]... \ -createtable [--noexecute [--output filename.sql]] -drop [--noexecute] -describe -publish [--noexecute] -listlocations [--details] -getddl Nur SELECTs Paralleles Lesen bei mehreren Files unterstützt External Table Funktionalität (bspw. Formatmasken, Datenkonvertierung usw.) Es werden immer FULL TABLE SCANs durchgeführt Also kein PushDown von Filtern aus WHERE Clauses, keine Indexe usw. 31 17.09.2015

Oracle Loader for Hadoop (OLH) OLH Effizienter high-performance Loader für den schnellen Transfer von Daten aus einem Hadoop Cluster in eine Tabelle in einer Oracle Datenbank Erstellt aus anderen Dateien Oracle Datapump Dateien auf HDFS Ist ein MapReduce Programm: Partitioniert, sortiert, konvertiert und lädt Daten Optimiert auf hohe Ladeperformance Unterstützt zahlreiche Dateiformate wie Hive Tables, Delimited oder Avro Erweiterbar um neue Formate via Java Unterstützt Online und Offline Modi Online lädt die Daten bei der Conversion gleich in die DB Offline erstellt DP- oder Delimited Dateien für OSCH oder SQL*Loader 32 17.09.2015

OLH Setup OLH Installation von Hadoop Client und OLH auf DB Server http://docs.oracle.com/cd/e63064_01/doc.42/e63063/start.htm#bdcug115 Danach generiert OLH Zugriffsmechanismen und objekte und führt den Ladevorgang aus, wenn gewünscht (Online Mode) OraLoader Tool in Hadoop ausführen Provide OraLoader with information about the Hadoop data source, the table definition in the Oracle Database and various optimizations in one or two separate XML files Es ist ein Aufruf eines Java Programms mittels Hadoop client hadoop jar \ -- hadoop Befehl $OLH_HOME/jlib/oraloader.jar \ -- Tool aus folgender Bibliothek oracle.hadoop.loader.oraloader \ -- Name des Tools (Java Programm) -conf /home/oracle/movies/jobconfig.xml -- Param: XML mit Loaderdefinition [-libjars input_file_format1.jar[,...]] -- MapReduce Input Definitionen 33 17.09.2015

OLH was genau passiert im Online Mode? OLH VariousFile VariousFile Formats Formats 2b Reads Hadoop OraLoader Exec 2a Reads 2d Creates 2d Loads 2c Creates Bad-File Output File CSV or DataPump Hadoop 1. Creates XML Job Config File XML Loader MapFile Local OS (Linux) Developer Oracle Database Staging Table File OLH Installed or Generated Existing Developed Program Optional 34 17.09.2015

OLH was genau passiert im Offline Mode? OLH VariousFile VariousFile Formats Formats 3b Reads Hadoop OraLoader Exec 3a Reads 3c Creates XML Metadata File Output File CSV or DataPump Hadoop 2. Creates XML Job Config File XML Loader MapFile 1b Creates (locally) Local OS (Linux) Developer 1. Calls OraLoaderMetadata - Exec Reads Definition Staging Table 1a Oracle Database File OLH Installed or Generated Existing Developed Program Optional 35 17.09.2015

OLH Input Formate OLH Simple Delimited Text File Newline separiert Records, ein Zeichen separiert Felder Complex Delimited Test Files Regular Expression separiert Felder Hive Tables Konvertiert Hive Tabellen in das Avro-Format und lädt dieses Avro Lädt Avro Formate Oracle NoSQL DB Lädt Values aus der NoSQL DB. Java Programmierung erforderlich, um auch die Keys zu laden Custom Input Formats InputFormat Klasse von MapReduce muss erweitert werden 36 17.09.2015

OLH Output Formate OLH Nur Online Load JDBC Output Format Configdatei-Parameter mapreduce.outputformat.class = oracle.hadoop.loader.lib.output.jdbcoutputformat o Batch Inserts ohne vollständige Fehlerbehandlung OCI Direct Path Output Format Configdatei-Parameter mapreduce.outputformat.class = oracle.hadoop.loader.lib.output.ocioutputformat o Nur wenn Hadoop auf Linux x86-64 läuft o Zieltabelle muss partitioniert sein o Parallelität = Anzahl Reducer im MapReduce Job Files (Online und Offline) Delimited Text Output Format Files auf dem Hadoop Cluster Data Pump Output Format Files auf dem Hadoop Cluster 37 17.09.2015

OLH Details OLH DB Mapping Auto Mode Im Online-Mode holt der OraLoader die DB Tabellenmetadaten direkt aus der DB Im Offline-Mode kann mit dem lokalen Java Program OraLoaderMetadata vorab ein Oracle Metadata XML File erzeugt werden. Dies muss vorab auf den Hadoop Cluster kopiert werden Automatisches Mapping möglich, sofern alle Spalten geladen und nur gleiche Spaltennamen sowie nur ein Date-Format verwendet wird DB Mapping Manual Mode Loadermap XML Datei muss erstellt werden 38 17.09.2015

Oracle XQuery for Hadoop (OXH) Überblick OXH Oracle XQuery for Hadoop runs transformations expressed in the XQuery language by translating them into a series of MapReduce jobs, which are executed in parallel on an Apache Hadoop cluster Input Formate: HDFS files oder Oracle NoSQL DB Adapter für Avro, JSON, Oracle DB (OCI & JDBC + Datapump und Delimited Text als Output), Oracle NoSQL DB, Sequence Files, Solr, Text Files und XML XML Extensions for Hive liest XML Dateien als Hive Tabellen oder XML in Hive Tabellen Apache Tika Adapter erlaubt die Programmierung weiterer Formate Nutzt Hadoop Distributed Cache, Custom Java Functions, XQuery Bibliotheken, XML Schema Defintionen usw. 39 17.09.2015

Oracle R Adv. Analytics for Hadoop - Überblick ORH MapReduce fähige und erweiterte Variante von R nutzt Hadoop Streaming Hies früher Oracle R Connector for Hadoop die Abkürzung ORCH wird noch in der Dokumentation verwendet R-Nutzer können Daten aus Oracle Tabellen nach HDFS und zurück bewegen (SQOOP und OLH) 40 17.09.2015

Connectors Hands-On (1) Hands-On SQL Connector for HDFS (1a) Oracle Loader for Hadoop (3) Big Data SQL 1_Übung_big-data-connectors-olh-osch-1937064_4.1.pdf 1_Übung_big-data-connectors-olh-osch-1937064_1_4.2.pdf 1_Übung_big-data-connectors-olh-osch-1937064_2_4.2.1.pdf Demo Heterogenous Gateway with Generic ODBC Driver Achtung ggf. Probleme mit SQLPLUS sqlplus moviedemo/welcome1 sqlplus moviedemo@orcl/welcome1 41 17.09.2015

Direkte DB Big Data Verbindungen OBDS ODG Oracle Big Data SQL Oracle Database Gateway for ODBC 42 17.09.2015

Big Data SQL OBDS Abfragen bspw. Gegen Apache Hive, HDFS, Oracle NoSQL Database oder Apache HBase [via Hive Metadata] Gemeinsames Analysieren von Daten aus diversen Datenspeichern as if it were all stored in an Oracle database Die vollständige Oracle SQL Syntax kann genutzt werden (auch AAO etc.) Der Zugriff erfolgt via External Tables (wie bei OSCH), unterstützt aber darüber hinaus SmartScans (bspw. Filter Predicate Offload) Zwei Varianten sind verfügbar Oracle Big Data for Hive (für Hive und HBase Konnektivität) Oracle Big Data SQL Server (für freien Zugriff mit SmartScan Funktionalität) Benötigt Installation von Oracle Komponenten auf dem Hadoop Cluster Aktuell limitiert auf die Kombination Exadata Big Data Appliance! 43 17.09.2015

Big Data SQL Installation im Überblick OBDS Big Data SQL muss auf dem Hadoop Cluster (BDA) installiert sein Auf dem DB Server muss ein Hadoop Client installiert sein (CDH) Die Konfiguration auf dem DB Server geschieht via Verzeichnisstrukturen und Konfigurationsdateien (bigdata.properties, Cluster-directory usw.) Diese OS-Verzeichnisse werden in Oracle Directories gemappt Der Big Data SQL Multithreaded Agent (MTA) sorgt via Extproc und DB Link für den Metadatenaustausch zwischen Hadoop und DB Damit wird das Oracle Dictionary um einige HIVE Views erweitert USER ALL DBA_HIVE_TABLES, USER ALL DBA_HIVE_TAB_COLUMNS Achtung, funktioniert auf OBDL nicht 44 17.09.2015

Big Data SQL Was passiert da? OBDS Oracle Big Data SQL Software on BDA 1b Ask for Metadata Oracle Big Data SQL Agent on DB Local Linux 1d 2a 2a 1c Read Metadata Oracle Hive Data Dictionary 1a Ask for Metadata Oracle Database Other HDFS Files Hive Table Files Hive Metadata External Hive Table Oracle Create Hive Table Command 1.DDL Hadoop External HDFS Table Oracle Create HDFS Table Command with detailed access parameters 2. Query DB Developer File Metadata OBDS Installed or Generated Existing Developed Program 45 17.09.2015

Big Data SQL External Tables erstellen (HDFS) OBDS Der Rest ist ausgesprochen einfach Beispiel JSON Applog Jede Zeile in einer VARCHAR2(4000) Spalte in der DB abbilden CREATE TABLE movielog (click VARCHAR2(4000)) ORGANIZATION EXTERNAL (TYPE ORACLE_HDFS DEFAULT DIRECTORY DEFAULT_DIR LOCATION ('/user/oracle/moviework/applog_json/') ); -- Für ganze Applog Zeile -- External Table -- Neuer Typ ORACLE_HDFS -- Dateien auf Hadoop Cluster Beispielquery mit JSON Funktionalität SELECT m.click.custid, m.click.movieid, m.click.genreid, m.click.time FROM movielog m WHERE rownum < 50; 46 17.09.2015

Big Data SQL External Tables erstellen (Hive) OBDS Da hier direkt die Hive Metadaten verwendet werden, ist es noch einfacher Beispiel Applog man muss allerdings die Struktur in Hive kennen, damit es passt DBMS_HADOOP. CREATE_EXTDDL_FOR_HIVE hilft hier und erstellt das passende DDL CREATE TABLE movieapp_log_json ( -- Spaltenangeben wie in Hive custid INTEGER, movieid INTEGER, genreid INTEGER, time VARCHAR2 (20), recommended VARCHAR2 (4), activity NUMBER, rating INTEGER, price NUMBER ) ORGANIZATION EXTERNAL (TYPE ORACLE_HIVE); -- Neuer Typ ORACLE_HIVE In ACCESS_PARAMETERS der ET Definition sind zahlreiche Einstellungen möglich CREATE TABLE... (TYPE ORACLE_HIVE ACCESS PARAMETERS ( com.oracle.bigdata.tablename: order_db.order_summary com.oracle.bigdata.colmap: {"col":"item_cnt", field": oli_count"}... ) ); 47 17.09.2015

Big Data SQL Mehr zu ORACLE_HIVE OBDS Zur Create Table DDL Ausführungszeit werden die Hive Metadaten gelesen Typen werden bei Bedarf automatisch konvertiert Bei external Hive Daten sogar bis zu zweimal: 1. via SerDe ins Hive Format und 2. von dort ins Oracle Format Auch Zugriff auf Oracle NoSQL oder HBase ist möglich Schritt 1: Hive External Table auf KVStore von Oracle NoSQL bzw. HBase erstellen Schritt 1: Oracle External Table auf diese Hive Table erstellen 48 17.09.2015

Big Data SQL Copy to BDA Tool OBDS Bietet Hive-Zugriff auf einzelne, via CTAS-DP (siehe unten) erzeugte Dateien Dazu erstellt man via CREATE TABLE EXTERNAL (TYPE ORACLE _DATAPUMP) DP Dateien mit einer Tabelle als Inhalt Kopiert diese nach HDFS und erstellt eine External Hive Table mit dem SERDE oracle.hadoop.hive.datapump.dpserde 49 17.09.2015

Connectors Hands-On (2) OBDS Hands-On SQL Connector for HDFS Oracle Loader for Hadoop Big Data SQL Demo Heterogenous Gateway with Generic ODBC Driver Achtung ggf. Probleme mit SQLPLUS 2_Übung_Analyze All Your Data with Oracle Big Data SQL.pdf (so weit wie s Spass macht ;-) sqlplus moviedemo/welcome1 sqlplus moviedemo@orcl/welcome1 50 17.09.2015

Für Umme : Oracle Database Gateway ODG Erzeugt Database Links zu anderen Datenbanken (SQL Server, Teradata usw.) Gerne kostenintensiv Kostenfrei ist aber die GENERIC OCBD Variante https://community.oracle.com/thread/2292321 Erzeugt einen DB Link via ODBC Treiber bspw. zu Hive Was ist die Idee? Oracle Konnektoren meiden die Nutzung anderer SQL Query Engines wie Hive oder Impala (auch wenn sie gerne die Hive Metadaten verwenden) Mit ODG tun wir das aber mit allen Vor- und Nachteilen 51 17.09.2015

Database Gateway for ODBC Architektur ODG Quelle: Oracle 52 17.09.2015

Database Gateway for ODBC Setup ODG 1. Passenden OBCD Treiber installieren und konfigurieren 2. ODBC Gateway Installieren 3. listener.ora und tnsnames.ora anpassen 4. In ORACLE_HOME\hs\admin neue Datei erzeugen 5. Public Database Link erzeugen 6. loslegen 53 17.09.2015

ODI, Golden Gate & Big Data 54 17.09.2015

Oracle Big Data Capturing & Integration ODI OGG Oracle Data Integrator Oracle Golden Gate 55 17.09.2015

Oracle Data Integrator Überblick ODI Big Data Option (separate Lizenz!) Native Code Generierung für Pig Latin, Spark (PySpark) und Oozie Auswahl aus dem traditionellen ODI Agent oder Apache Oozie als Orchestrierungs- Engine WebLogic Hive JDBC Driver Zahlreiche Direct Load KMs (LKM = Loading Knowledge Modules kombiniert mit anderen KMs in einem Mapping einsetzbar) bspw. für Sqoop etc. Oracle Data Integrator Application Adapter for Hadoop Part of the Oracle Big Data Connectors (uses OLH/OSCH) There is also a Big Data SQL Integration to ODI 56 17.09.2015

Oracle Golden Gate for Big Data Überblick OGG Oracle Golden Gate Capture Trail Pump Route Deliver For Big Data Adapted from Oracle 57 17.09.2015

Oracle Golden Gate for Big Data Überblick (2) OGG Oracle Golden Gate for Big Data Provides GoldenGate delivery to Flume, HDFS, Hive and HBase Includes GoldenGate for Java, enabling integration to others such as Oracle NoSQL, Apache Kafka, Apache Storm, Apache Spark etc. Key component of Oracle s big data integration offering along with Oracle Data Integrator 12c Oracle GoldenGate supports log-based capture from, and delivery to, Oracle, DB2 for z/os, i Series, & LUW (Linux, Unix, Windows), SQL Server, MySQL, Informix, Sybase ASE, SQL/MX, JMS messaging systems and more. Oracle GoldenGate s delivery capabilities also include Oracle TimesTen In Memory Database and PostgreSQL, in addition to Hadoop-based big data systems 58 17.09.2015

Zusammenfassung 59 17.09.2015

Zusammenfassung Konnektivität Datenbank Big Data Plattform steht im Zentrum der Oracle BigData Aktivitäten Oracle Big Data Connectors (OLH, OSCH, OXH usw.) schon länger verfügbar Big Data SQL vereinfacht und beschleunigt Konnektivität deutlich, ist äußerst vielversprechend aber lizenzmäßig extrem limitiert und daher für die meisten Kunden heute irrelevant Oracle Generic ODBC Database Gateway ist eine kostengünstige und einfache Option für Verbindungen ohne besondere Ansprüche an Durchsatz und Kompatibilität ODI hat zahlreiche KMs rund um Hadoop und Co. Mit der Big Data Option ist die Nutzung von Hadoop als Datenintegrationsplattform greifbar Golden Gate erlaubt Hadoop & Co als Replikationsziel Real-Time DI für Hive mag eingeschränkten Nutzen haben, aber Flume, Storm etc. sind vielversprechende Ziele für Streaming 60 17.09.2015

Peter Welker peter.welker@trivadis.com +49 162 295 96 81 61 17.09.2015