Big Data Konnektivität Einführung und Demos für die Platform Peter Welker (Trivadis GmbH) Berater / Partner

Ähnliche Dokumente
Big Data Konnektivität Einführung und Hands-On Workshop Für die Platform Peter Welker (Trivadis GmbH) Berater/ Partner

Oracle Data Warehouses und Big Data im Zusammenspiel

Oracle Data Warehouses und Big Data im Zusammenspiel

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

Data Federation. in analytischen Applikationen. Peter Welker (Trivadis

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer

Business Intelligence oder Big Data?

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Big Data Technologien

Copyright 2014 Oracle and/or its affiliates. All rights reserved.

Oracle Data Integrator Ein Überblick

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

ZWISCHEN ALBTRAUM UND OPTIMALER PERFORMANCE

Hadoop Eine Erweiterung für die Oracle DB?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data in der Praxis

Oracle Data Warehouse Integrator Builder Ein Selbstversuch

Big Data (kl)eine technische Auswahl Peter Welker

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

Automatisierter Java EE Entwicklungs-Lifecycle mit WebLogic Server 12c. Robin Müller-Bady Systemberater, Oracle Deutschland

Was ist Big Data? DOAG Business Intelligence Community Informiert zu BI und Big Data

Connectivity zwischen den Welten

Zeitlich abhängig von OWB?

Berechnung von Kennzahlen mit der SQL Model Clause

<Insert Picture Here> 8. Business Intelligence & Data Warehouse Konferenz

Updating your Database Skills to Microsoft SQL Server 2012 MOC 40008

Data und Big Data in der Cloud

O-BIEE Einführung mit Beispielen aus der Praxis

Designing Business Intelligence Solutions with Microsoft SQL Server MOC 20467

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Customer-specific software for autonomous driving and driver assistance (ADAS)

Oracle Big Data Discovery Ein Überblick

Verwaltung von OBI Metadaten: XML-Integration die Lösung aller Probleme? DOAG Konferenz und Ausstellung 2013

Oracle Database Cloud Service

BI Projekt mit Exadata / Golden Gate

Microsoft Azure Deutschland ist jetzt verfügbar -

Lizenzierung von ODI. Oracle Lizenzierung. Michael Paege, Director License Management Consulting. Lizenzierung ODI, DOAG Data Integration Day 2015

Big Data: Die ersten Schritte eines Oracle Experten

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Skalierbare Webanwendungen

Copyright 2013, Oracle and/or its affiliates. All rights reserved.

Step 0: Bestehende Analyse-Plattform

IBM Workshop Hands-on Workshop zur IBM Big Data Plattform und BigInsights

<Insert Picture Here> z/os Migration und Integration

FEBE Die Frontend-Backend-Lösung für Excel

NoSQL mit Postgres 15. Juni 2015

iid software tools QuickStartGuide iid USB base driver installation

Order Ansicht Inhalt

Office 365 Dynamics 365 Azure Cortana Intelligence. Enterprise Mobility + Security Operations Mgmt. + Security

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

Neue Welten: Externe Daten mit APEX nutzen

Oracle Golden Gate. Seminarunterlage. Version vom

Creating OpenSocial Gadgets. Bastian Hofmann

Username and password privileges. Rechteverwaltung. Controlling User Access. Arten von Rechten Vergabe und Entzug von Rechten DBS1 2004

Big Data: Apache Hadoop Grundlagen

Big Data Konnektoren: Hadoop und die Oracle DB

Übersicht Streams nach Liste Produkte/Themen

<Insert Picture Here>

Designer Development Kit (DDK)

Titelmasterformat durch Klicken bearbeiten

Flexible Schnittstelle für Flat Files in das DWH

Oracle GW / MSSQL Linked Server

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT

+++ Bitte nutzen Sie die integrierte Audio-Funktion von WebEx (Menü Audio -> Integrated Voice Conference -> Start auswählen), um uns zu hören!!!.

Datenaustausch Hadoop & Oracle DB. DOAG Konferenz 2013 Nürnberg, November 2013 Carsten Herbe metafinanz Informationssysteme GmbH

Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015

Mehrwert durch Microsoft Business Intelligence

Big Data und Oracle bringen die Logistik in Bewegung

Daniela Reiner. Stuttgart,

SQL Developer Unit Tests

Neues zur Oracle Lizenzierung (Michael Paege, OPITZ CONSULTING Hamburg, DOAG Competence Center Lizenzen)

APEX OOS TOOLS & HELFER

PRODATIS CONSULTING AG. Folie 1

Fast Analytics on Fast Data

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung , Nürnberg Philipp Loer

Logical Data Warehouse SQL mit Oracle DB und Hadoop

ETL in den Zeiten von Big Data

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Big Data Roadschow Realisierung Betriebsmodelle und Hardware. Big Data Roadshow im Oktober 2015

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

Hands-On Workshop am Freitag vormittags: Oracle Big Data Connectors und Oracle Big Data SQL

Tube Analyzer LogViewer 2.3

BI und Data Warehouse im Zeitalter der Digitalisierung

Oracle9i Designer. Rainer Willems. Page 1. Leitender Systemberater Server Technology Competence Center Frankfurt Oracle Deutschland GmbH

Erfahrungen aus dem Betatest Oracle Database 11g

Oracle Public Cloud benutzen

Charakteristika von Unternehmensanwendungen

Laden von Data Marts auch mal komplex DOAG BI, 9. Juni 2016 Dani Schnider, Trivadis AG

Oracle 9i Einführung Performance Tuning

FlexFrame for Oracle. Torsten Schlautmann OPITZ CONSULTING Gummersbach GmbH

Immer in Bewegung bleiben Oracle Managed File Transfer

Data Pipelines mit zentralem Kosmos Kafka. Markus Bente

Neues von Grid Control. Ralf Durben Oracle Deutschland B.V. & Co. KG Business Unit Datenbank DBTec

DOAG SIG Day. E-Business Suite und SOA: Was ist heute schon möglich? Thomas Karle PROMATIS software GmbH. Frankfurt 26. April 2007

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

Transkript:

Big Data Konnektivität Einführung und Demos für die Platform Peter Welker (Trivadis GmbH) Berater / Partner BASEL BERN BRUGG DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. GENF HAMBURG KOPENHAGEN LAUSANNE MÜNCHEN STUTTGART WIEN ZÜRICH

Wer bin ich? Peter Welker Berater (Trivadis Stuttgart) Partner Aufgaben bei Trivadis Big Data Solutions Business Intelligence Beratung und Entwicklung Hintergrundinfos 23 Jahre IT / 17 Jahre DWH (meist Oracle) Architekturen, Performance Reviews, Evaluationen, PoCs DWH Appliances, MPP- & Neue Plattformen Training, Artikel, Talks, Bücher Themenverantwortlicher Big Data 2 17.11.2015

Agenda 1. Big Data @ Oracle Statement of Direction 2. Eine umfassende analytische Plattform mit Oracle Produkten? 3. Big Data Glue Überblick Konnektivität 4. Konnektoren und mehr 5. ODI, Golden Gate & Big Data 6. Zusammenfassung 3 17.11.2015

Big Data @ Oracle Statement of Direction 4 17.11.2015

Oracle Big Data Statement of Direction (1) http://www.oracle.com/technetwork/database/bigdata-appliance/overview/sod-bdms-2015-04-final-2516729.pdf Oracle: Big Data Management Systeme bestehen aus Data Warehouse (Database) Franchised Query Engine Federation Tool (Big Data SQL) Data Reservoir BigData Ecosystem mit Hadoop & NoSQL (Big Data Appliance) 5 17.11.2015

Oracle Big Data Statement of Direction (2) Aktueller Fokus auf vier Bereichen Global Metadata Services a single view of all available data across multiple data stores, exposed in a format similar to Oracle s data dictionary. Global Query Routing and Processing optimized query execution across multiple data stores. A single query may possibly merge data from multiple data stores. A variety of query optimization and caching techniques will be applied to optimize performance. Global Resource Monitoring and Management prioritization of workloads across the entire BDMS ecosystem. Global Data Optimization the ability to automatically move data from one repository to another (for example, from a data warehouse to a data reservoir or vice versa) based on query performance requirements and/or storage costs. 6 17.11.2015

Oracle Big Data Statement of Direction (3) Ein paar Aussagen Oracle will provide fast, integrated, secure access to all data not only data stored in [ ] Exadata [ ] or Oracle Big Data Appliance, but also data stored in operational NoSQL databases, transactional relational databases, streaming data sources, and more. Oracle will provide a framework for easily incorporating new data sources, ensuring that these new data sources can be seamlessly accessed and managed Strategy is to extend its existing in-database features (such as its data dictionary, SQL query engine, query optimizer, resource manager, and data optimization) in order to manage the entire Big Data Management System 7 17.11.2015

Oracle Big Data Statement of Direction (4) A favorite hobby of new entrants to the database market is to paint Oracle, the market-leading database, as inflexible and promote their product on the basis that Oracle will never be able to provide the same type of functionality as their new platform. Such vendors pursue this positioning at their peril: object-oriented databases, massively-parallel databases, columnar databases, data warehouse appliances and other trends have been outed as replacements for Oracle Database only to later see their core benefits subsumed by the Oracle platform. 8 17.11.2015

Eine umfassende analytische Plattform mit Oracle Produkten? 9 17.11.2015

Das Traditionelle / Klassische DWH RDBMS + OLAP Hoher ETL Aufwand Hoher Integrationsgrad OLTP Quellen Tagesaktuell Core = SPOT Marts dimensional BI Suite obendrauf Power-User Direktzugriff 10 17.11.2015

Auswahl häufiger moderner DWH Anforderungen Operativ Einbindung direkt in operative Prozesse nicht nur analytisch / dispositiv ODS 1:1 Abbild der Quellsysteme manchmal historisiert als Teil der Staging Area Echtzeit Latenz von Stunden oder Minuten sehr selten wirklich Echtzeit Self Service BI Ansätze zur Flexibilisierung Sandboxes, BI Tool-Features, einfache ETL Tools, Federation auf OLTP Systeme Unified Analysis Einbindung/Zusammenspiel mit Big Data Lösungen/Plattformen + Federation 11 17.11.2015

Das Logische Data Warehouse (LDW) nach Gartner SLA für Data Management (DM) LDW ist eine integrierte DM Plattform Das klassische DWH ist ein Teil davon Metadata Best-fit Engineering Quelle: Gartner 12 17.11.2015

LDW Die vergessenen 20% (80/10/5 Regel) Use Case Access Semantics SLA Requirements Taxonomy/Ontology Resolution =/<>/~ Auditing and Management Statistics DQ, MDM, Gov. Metadata 80/10/5 Regel = Anteil Use Cases, nicht Datenmenge, Kosten oder Mehrwert Nach Gartner Data Warehouse (Database) 13 17.11.2015 COMPROMISE CONTENDER CANDIDATE Repositories (80%) Classic DWHs & ODS Federation Virtualization (10%) Flexibility & Direct Access Distributed Process (5%) Big Data Analytics VERACITIY VARIABILITY HIGH VALUE Franchised Query Engine Federation Tool (Big Data SQL) Science Sandbox (80/10/5 = 5%) Data Scientist Playground Data Reservoir BigData Ecosystem mit Hadoop& NoSQL (Big Data Appliance)

Big Data Glue Überblick Konnektivität 14 17.11.2015

Das Oracle Big Data Management System (1) Quelle: Oracle 15 17.11.2015

Das Oracle Big Data Management System Data Integration Schema on Read Raw Data Source Systems DSS OLTP Sensor Event Dokument Internet Video Audio Image Data Ingestion Golden Gate Complex Event Processing Data Integrator SQL*Loader Big Data Connectors Data Optimization Data Foundation RawData Reservior NoSQL Key Value Enterprise R Big Data Discovery Cloudera Hadoop HDFS + Tools Database EE InMemory OLAP ESSBASE Semantic Graph (NoSQL) XDB, JSON (NoSQL) Advanced Analytics DB M/R Enterprise R Data Access Big Data SQL Data Integrator Connectivity Query & Analytics BIEE, BI- Publisher, Hyperion Visual Analyzer, BD Discovery, Endeca Data Ingestion Advanced Analytics R Managed Data Schema on Write Metadata Management, Data Quality, Big Data Discoverer etc. 16 17.11.2015

Welches Produkt für welchen Fall? http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/2297765.pdf Gutes Whitepaper Beschreibt und definiert Big Data, organisatorische und technische Anforderungen sowie Tooling Ingestion rate Straight through processing Tooling maturity Availability & Business Continuity ACID transactional requirements und Entscheidungskriterien Cost effectively store low value data Security Quelle: Oracle Ingestion (coding) simplicity Data sparsity Variety of data formats 17 17.11.2015

Konnektoren und mehr 18 17.11.2015

Oracle Big Data Connectors OSCH OLH OXH ORH Oracle SQL Connector for HDFS (OSCH) Oracle Loader for Hadoop(OLH) Oracle XQuery for Hadoop Oracle R Advanced Analytics for Hadoop 19 17.11.2015

Oracle SQL Connector for HDFS (OSCH) OSCH Read Only HDFS Zugriff auf Oracle Data Pump files, Delimited text files und Delimited text files in Apache Hive Tabellen aus einer Oracle Datenbank heraus Einfachste Variante für Zugriff auf HDFS und Hive aus der Datenbank heraus Nutzt External Tables und ET Präprozessor zum Zugriff auf HDFS und Hive via SQL Ermöglicht Zugriff auf Apache Hadoop ab Version 2.2.0 (bspw. Cloudera 4 und 5) Hive Versionen 0.10.0, 0.12.0, 0.13.0, 0.13.1 oder 1.1.0 Benötigt DB ab 10.2.0.5, 11.2.0.2 oder 12 Nur für Linux x86-64 20 17.11.2015

OSCH Setup OSCH Installation von Hadoop Client und OSCH auf DB Server http://docs.oracle.com/cd/e63064_01/doc.42/e63063/start.htm#bdcug109 Datenbankbenutzer einrichten CONNECT / AS sysdba; CREATE USER hdfsuser IDENTIFIED BY password DEFAULT TABLESPACE hdfsdata -- Nur für Schreibvor- QUOTA UNLIMITED ON hdfsdata; -- gänge in die DB GRANT CREATE SESSION, CREATE TABLE, CREATE VIEW TO hdfsuser; GRANT EXECUTE ON sys.utl_file TO hdfsuser; -- UTL_FILE Zugriff! GRANT READ, EXECUTE ON DIRECTORY osch_bin_path TO hdfsuser; -- OSCH binaries GRANT READ, WRITE ON DIRECTORY external_table_dir TO hdfsuser; -- External Tables Danach generiert OSCH Zugriffsmechanismen und -objekte 21 17.11.2015

OSCH was passiert beim Generieren der ET? OSCH Hive Table Files Hadoop Hive Metadata Developer 1. Creates Deletmited HDFS Files 2a Hadoop ExternalTable Exec 2a Reads Reads XML Definition mit Strukturinfo Oracle Datapump Files OR OR OSCH 2b Generates 3b Data Stream Oracle Create Table Command Program used in Preprocessor 2c Creates hdfs_stream 3b Data Stream External Table 3a uses OSCH Location-File Oracle Database 3.SQL DB User Local Linux File Metadata OSCH Installed or Generated Existing Developed Program 22 17.11.2015

OSCH ExternalTable Setup OSCH Achtung: Hier handelt es sich um das OSCH CommandLine Tool ExternalTable, nicht um den Oracle Database Befehl ExternalTable Tool in Hadoop ausführen Provide ET with information about the Hadoop data source and a schema in the Oracle Database either as part of the CREATE ET command or in a separate XML file hadoop Achtung: jar \ Außerhalb DB statt es ist ein Aufruf eines Java -- hadoop Programms Befehl mittels des Hadoop $OSCH_HOME/jlib/orahdfs.jar client \ -- Tool aus folgender Bibliothek oracle.hadoop.exttab.externaltable \ -- Name des Tools (Java Programm) -conf /home/oracle/movies/moviefact_hdfs.xml \ -- Param: XML mit ET Definition -createtable -- Param: Befehl im Tool Das Tool generiert den passenden Create External Table Befehl für die Datenbank Der Zugriff geschieht über einen generischen Präprozessor 23 17.11.2015

OSCH ExternalTable Syntax & more OSCH hadoop jar OSCH_HOME/jlib/orahdfs.jar \ oracle.hadoop.exttab.externaltable \ [-conf config_file]... \ [-D property=value]... \ -createtable [--noexecute [--output filename.sql]] -drop [--noexecute] -describe -publish [--noexecute] -listlocations [--details] -getddl Nur SELECTs Paralleles Lesen bei mehreren Files unterstützt External Table Funktionalität (bspw. Formatmasken, Datenkonvertierung usw.) Es werden immer FULL TABLE SCANs durchgeführt Also kein PushDown von Filtern aus WHERE Clauses, keine Indexe usw. 24 17.11.2015

Oracle Loader for Hadoop (OLH) OLH Effizienter high-performance Loader für den schnellen Transfer von Daten aus einem Hadoop Cluster in eine Tabelle in einer Oracle Datenbank Erstellt aus anderen Dateien Oracle Datapump Dateien auf HDFS Ist ein MapReduce Programm: Partitioniert, sortiert, konvertiert und lädt Daten Optimiert auf hohe Ladeperformance Unterstützt zahlreiche Dateiformate wie Hive Tables, Delimited oder Avro Erweiterbar um neue Formate via Java Unterstützt Online und Offline Modi Online lädt die Daten bei der Conversion gleich in die DB Offline erstellt DP- oder Delimited Dateien für OSCH oder SQL*Loader 25 17.11.2015

OLH Setup OLH Installation von Hadoop Client und OLH auf DB Server http://docs.oracle.com/cd/e63064_01/doc.42/e63063/start.htm#bdcug115 Danach generiert OLH Zugriffsmechanismen und objekte und führt den Ladevorgang aus, wenn gewünscht (Online Mode) OraLoader Tool in Hadoop ausführen Provide OraLoader with information about the Hadoop data source, the table definition in the Oracle Database and various optimizations in one or two separate XML files Es ist ein Aufruf eines Java Programms mittels Hadoop client hadoop jar \ -- hadoop Befehl $OLH_HOME/jlib/oraloader.jar \ -- Tool aus folgender Bibliothek oracle.hadoop.loader.oraloader \ -- Name des Tools (Java Programm) -conf /home/oracle/movies/jobconfig.xml -- Param: XML mit Loaderdefinition [-libjars input_file_format1.jar[,...]] -- MapReduce Input Definitionen 26 17.11.2015

OLH was passiert im Online Mode? OLH Various Various File File Formats Formats 2b Reads Hadoop OraLoader Exec 2a Reads 2d Creates 2d Loads 2c Creates Bad-File Output File CSV or DataPump Hadoop 1. Creates XML Job Config File XML Loader MapFile Local OS (Linux) Developer Oracle Database Staging Table File OLH Installed or Generated Existing Developed Program Optional 27 17.11.2015

OLH was passiert im Offline Mode? OLH Various Various File File Formats Formats 3b Reads Hadoop OraLoader Exec 3a Reads 3c Creates XML Metadata File Output File CSV or DataPump Hadoop 2. Creates XML Job Config File XML Loader MapFile 1b Creates (locally) Local OS (Linux) Developer 1. Calls OraLoaderMetadata - Exec Reads Definition Staging Table 1a Oracle Database File OLH Installed or Generated Existing Developed Program Optional 28 17.11.2015

OLH Input Formate OLH Simple Delimited Text File Newline separiert Records, ein Zeichen separiert Felder Complex Delimited Test Files Regular Expression separiert Felder Hive Tables Konvertiert Hive Tabellen in das Avro-Format und lädt dieses Avro Lädt Avro Formate Oracle NoSQL DB Lädt Values aus der NoSQL DB. Java Programmierung erforderlich, um auch die Keys zu laden Custom Input Formats InputFormat Klasse von MapReduce muss erweitert werden 29 17.11.2015

OLH Output Formate OLH Nur Online Load JDBC Output Format Configdatei-Parameter mapreduce.outputformat.class = oracle.hadoop.loader.lib.output.jdbcoutputformat o Batch Inserts ohne vollständige Fehlerbehandlung OCI Direct Path Output Format Configdatei-Parameter mapreduce.outputformat.class = oracle.hadoop.loader.lib.output.ocioutputformat o Nur wenn Hadoop auf Linux x86-64 läuft o Zieltabelle muss partitioniert sein o Parallelität = Anzahl Reducer im MapReduce Job Files (Online und Offline) Delimited Text Output Format Files auf dem Hadoop Cluster Data Pump Output Format Files auf dem Hadoop Cluster 30 17.11.2015

OLH Details OLH DB Mapping Auto Mode Im Online-Mode holt der OraLoader die DB Tabellenmetadaten direkt aus der DB Im Offline-Mode kann mit dem lokalen Java Program OraLoaderMetadata vorab ein Oracle Metadata XML File erzeugt werden. Dies muss vorab auf den Hadoop Cluster kopiert werden Automatisches Mapping möglich, sofern alle Spalten geladen und nur gleiche Spaltennamen sowie nur ein Date-Format verwendet wird DB Mapping Manual Mode Loadermap XML Datei muss erstellt werden 31 17.11.2015

Oracle XQuery for Hadoop (OXH) Überblick OXH Oracle XQuery for Hadoop runs transformations expressed in the XQuery language by translating them into a series of MapReduce jobs, which are executed in parallel on an Apache Hadoop cluster Input Formate: HDFS files oder Oracle NoSQL DB Adapter für Avro, JSON, Oracle DB (OCI & JDBC + Datapump und Delimited Text als Output), Oracle NoSQL DB, Sequence Files, Solr, Text Files und XML XML Extensions for Hive liest XML Dateien als Hive Tabellen oder XML in Hive Tabellen Apache Tika Adapter erlaubt die Programmierung weiterer Formate Nutzt Hadoop Distributed Cache, Custom Java Functions, XQuery Bibliotheken, XML Schema Defintionen usw. 32 17.11.2015

Oracle R Adv. Analytics for Hadoop - Überblick ORH MapReduce fähige und erweiterte Variante von R nutzt Hadoop Streaming Hies früher Oracle R Connector for Hadoop die Abkürzung ORCH wird noch in der Dokumentation verwendet R-Nutzer können Daten aus Oracle Tabellen nach HDFS und zurück bewegen (SQOOP und OLH) 33 17.11.2015

Direkte DB Big Data Verbindungen OBDS ODG Oracle Big Data SQL Oracle Database Gateway for ODBC 34 17.11.2015

Big Data SQL OBDS Abfragen bspw. Gegen Apache Hive, HDFS, Oracle NoSQL Database oder Apache HBase [via Hive Metadata] Gemeinsames Analysieren von Daten aus diversen Datenspeichern as if it were all stored in an Oracle database Die vollständige Oracle SQL Syntax kann genutzt werden (auch AAO etc.) Der Zugriff erfolgt via External Tables (wie bei OSCH), unterstützt aber darüber hinaus SmartScans (bspw. Filter Predicate Offload) Zwei Varianten sind verfügbar Oracle Big Data for Hive (für Hive und HBase Konnektivität) Oracle Big Data SQL Server (für freien Zugriff mit SmartScan Funktionalität) Benötigt Installation von Oracle Komponenten auf dem Hadoop Cluster Aktuell limitiert auf die Kombination Exadata Big Data Appliance! 35 17.11.2015

Big Data SQL Installation im Überblick OBDS Big Data SQL muss auf dem Hadoop Cluster (BDA) installiert sein Auf dem DB Server muss ein Hadoop Client installiert sein (CDH) Die Konfiguration auf dem DB Server geschieht via Verzeichnisstrukturen und Konfigurationsdateien (bigdata.properties, Cluster-directory usw.) Diese OS-Verzeichnisse werden in Oracle Directories gemappt Der Big Data SQL Multithreaded Agent (MTA) sorgt via Extproc und DB Link für den Metadatenaustausch zwischen Hadoop und DB Damit wird das Oracle Dictionary um einige HIVE Views erweitert USER ALL DBA_HIVE_TABLES, USER ALL DBA_HIVE_TAB_COLUMNS Achtung, funktioniert auf OBDL nicht 36 17.11.2015

Big Data SQL Was passiert da? OBDS Oracle Big Data SQL Software on BDA 1b Ask for Metadata Oracle Big Data SQL Agent on DB Local Linux 1d 2a 2a 1c Read Metadata Oracle Hive Data Dictionary 1a Ask for Metadata Oracle Database Other HDFS Files Hive Table Files Hive Metadata External Hive Table Oracle Create Hive Table Command 1.DDL Hadoop External HDFS Table Oracle Create HDFS Table Command with detailed access parameters 2. Query DB Developer File Metadata OBDS Installed or Generated Existing Developed Program 37 17.11.2015

Big Data SQL External Tables erstellen (HDFS) OBDS Der Rest ist ausgesprochen einfach Beispiel JSON Applog Jede Zeile in einer VARCHAR2(4000) Spalte in der DB abbilden CREATE TABLE movielog (click VARCHAR2(4000)) ORGANIZATION EXTERNAL (TYPE ORACLE_HDFS DEFAULT DIRECTORY DEFAULT_DIR LOCATION ('/user/oracle/moviework/applog_json/') ); -- Für ganze Applog Zeile -- External Table -- Neuer Typ ORACLE_HDFS -- Dateien auf Hadoop Cluster Beispielquery mit JSON Funktionalität SELECT m.click.custid, m.click.movieid, m.click.genreid, m.click.time FROM movielog m WHERE rownum < 50; 38 17.11.2015

Big Data SQL External Tables erstellen (Hive) OBDS Da hier direkt die Hive Metadaten verwendet werden, ist es noch einfacher Beispiel Applog man muss allerdings die Struktur in Hive kennen, damit es passt DBMS_HADOOP. CREATE_EXTDDL_FOR_HIVE hilft hier und erstellt das passende DDL CREATE TABLE movieapp_log_json ( -- Spaltenangeben wie in Hive custid INTEGER, movieid INTEGER, genreid INTEGER, time VARCHAR2 (20), recommended VARCHAR2 (4), activity NUMBER, rating INTEGER, price NUMBER ) ORGANIZATION EXTERNAL (TYPE ORACLE_HIVE); -- Neuer Typ ORACLE_HIVE In ACCESS_PARAMETERS der ET Definition sind zahlreiche Einstellungen möglich CREATE TABLE... (TYPE ORACLE_HIVE ACCESS PARAMETERS ( com.oracle.bigdata.tablename: order_db.order_summary com.oracle.bigdata.colmap: {"col":"item_cnt", field": oli_count"}... ) ); 39 17.11.2015

Big Data SQL Mehr zu ORACLE_HIVE OBDS Zur Create Table DDL Ausführungszeit werden die Hive Metadaten gelesen Typen werden bei Bedarf automatisch konvertiert Bei external Hive Daten sogar bis zu zweimal: 1. via SerDe ins Hive Format und 2. von dort ins Oracle Format Auch Zugriff auf Oracle NoSQL oder HBase ist möglich Schritt 1: Hive External Table auf KVStore von Oracle NoSQL bzw. HBase erstellen Schritt 1: Oracle External Table auf diese Hive Table erstellen 40 17.11.2015

Big Data SQL Copy to BDA Tool OBDS Bietet Hive-Zugriff auf einzelne, via CTAS-DP (siehe unten) erzeugte Dateien Dazu erstellt man via CREATE TABLE EXTERNAL (TYPE ORACLE _DATAPUMP) DP Dateien mit einer Tabelle als Inhalt Kopiert diese nach HDFS und erstellt eine External Hive Table mit dem SERDE oracle.hadoop.hive.datapump.dpserde 41 17.11.2015

Umsonst und draußen : Oracle Database Gateway ODG Erzeugt Database Links zu anderen Datenbanken (SQL Server, Teradata usw.) Gerne kostenintensiv Kostenfrei ist aber die GENERIC OCBD Variante https://community.oracle.com/thread/2292321 Erzeugt einen DB Link via ODBC Treiber bspw. zu Hive Was ist die Idee? Oracle Konnektoren meiden die Nutzung anderer SQL Query Engines wie Hive oder Impala (auch wenn sie gerne die Hive Metadaten verwenden) Mit ODG tun wir das aber mit allen Vor- und Nachteilen 42 17.11.2015

Database Gateway for ODBC Architektur ODG Quelle: Oracle 43 17.11.2015

Database Gateway for ODBC Setup ODG 1. Passenden OBCD Treiber installieren und konfigurieren 2. ODBC Gateway Installieren 3. listener.ora und tnsnames.ora anpassen 4. In ORACLE_HOME\hs\admin neue Datei erzeugen 5. Public Database Link erzeugen 6. loslegen 44 17.11.2015

ODI, Golden Gate & Big Data 45 17.11.2015

Oracle Big Data Capturing & Integration ODI OGG Oracle Data Integrator Oracle Golden Gate 46 17.11.2015

Oracle Data Integrator Überblick ODI Big Data Option (separate Lizenz!) Native Code Generierung für Pig Latin, Spark (PySpark) und Oozie Auswahl aus dem traditionellen ODI Agent oder Apache Oozie als Orchestrierungs- Engine WebLogic Hive JDBC Driver Zahlreiche Direct Load KMs (LKM = Loading Knowledge Modules kombiniert mit anderen KMs in einem Mapping einsetzbar) bspw. für Sqoop etc. Oracle Data Integrator Application Adapter for Hadoop Part of the Oracle Big Data Connectors (uses OLH/OSCH) There is also a Big Data SQL Integration to ODI 47 17.11.2015

Oracle Golden Gate for Big Data Überblick OGG Oracle Golden Gate Capture Trail Pump Route Deliver For Big Data Adapted from Oracle 48 17.11.2015

Oracle Golden Gate for Big Data Überblick (2) OGG Oracle Golden Gate for Big Data Provides GoldenGate delivery to Flume, HDFS, Hive and HBase Includes GoldenGate for Java, enabling integration to others such as Oracle NoSQL, Apache Kafka, Apache Storm, Apache Spark etc. Key component of Oracle s big data integration offering along with Oracle Data Integrator 12c Oracle GoldenGate supports log-based capture from, and delivery to, Oracle, DB2 for z/os, i Series, & LUW (Linux, Unix, Windows), SQL Server, MySQL, Informix, Sybase ASE, SQL/MX, JMS messaging systems and more. Oracle GoldenGate s delivery capabilities also include Oracle TimesTen In Memory Database and PostgreSQL, in addition to Hadoop-based big data systems 49 17.11.2015

Zusammenfassung 50 17.11.2015

Zusammenfassung Konnektivität Datenbank Big Data Plattform steht im Zentrum der Oracle BigData Aktivitäten Oracle Big Data Connectors (OLH, OSCH, OXH usw.) schon länger verfügbar Big Data SQL vereinfacht und beschleunigt Konnektivität deutlich, ist äußerst vielversprechend aber lizenzmäßig extrem limitiert und daher für die meisten Kunden heute irrelevant Oracle Generic ODBC Database Gateway ist eine kostengünstige und einfache Option für Verbindungen ohne besondere Ansprüche an Durchsatz und Kompatibilität ODI hat zahlreiche KMs rund um Hadoop und Co. Mit der Big Data Option ist die Nutzung von Hadoop als Datenintegrationsplattform greifbar Golden Gate erlaubt Hadoop & Co als Replikationsziel Real-Time DI für Hive mag eingeschränkten Nutzen haben, aber Flume, Storm etc. sind vielversprechende Ziele für Streaming 51 17.11.2015

Peter Welker peter.welker@trivadis.com +49 162 295 96 81 52 17.11.2015