Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA
Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. AGENDA 1 SAS & Hadoop Technologien, Lösungen 2 Demo SAS access to hadoop, SAS Dataloader for hadoop 3 SAS Hadoop Anwendungsszenarien & Ausblick
Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. SAS FOR HADOOP VISION To be the Analytic and Data Management solution of choice for Hadoop.
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. HADOOP GRUNDLAGEN KEINE GEGENSÄTZE ABER OFT NICHT GEMEINSAM BETRACHTET! Wdh. Hadoop als Data Integration Platform Hadoop als Kernkomponente einer next gen BI- und Analytics-Strategie EVALUATE / MONITOR RESULTS IDENTIFY / FORMULATE PROBLEM DATA PREPARATION DEPLOY MODEL DATA EXPLORATION ETL Process VALIDATE MODEL TRANSFORM & SELECT BUILD MODEL ist Baustein einer Transformation der IT Landschaft dient zur Unterstützung neuer Fragestellungen in den Fachbereichen
SAS & HADOOP BASIS TECHNOLOGIEN & PRODUKTE SAS/Access to Hadoop Push some SAS processing from Hadoop into SAS Embedded Process - Push SAS data processing to Hadoop with Map Reduce In-Memory Analytics - Use Hadoop for Storage persistence and commodity computing. SAS SAS SAS Hive Impala Score A Code A HPA LASR SAS/Access to Hadoop - Demo SAS/Access to Cloudera Impala SAS DI Server SAS/Scoring Accelerator for Hadoop SAS Code Accelerator for Hadoop * SAS Data Quality Accelerator for Hadoop* SAS Data Loader for Hadoop (*inkludiert) - Demo SAS Visual Analytics SAS Visual Statistics SAS in memory Statistics SAS HPA Produkt bundles Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
SAS & HADOOP DATENMANAGEMENT FÜR HADOOP MIT SAS Datenmanagement mit SAS PROC HADOOP (Map Reduce + Pig Scripting + HDFS Kommandos) SAS Access to Hadoop Hive, Hive2, Impala Proc Pushdown: FREQ, RANK, REPORT, SORT, SUMMARY/MEANS & TABULATE Hadoop Plugins für SAS Data Integration Studio SAS Data Loader Point & Click Datenmanagement für Hadoop: Einlesen, Transformieren und Bereinigen von Daten in Hadoop Highlights: SQOOP Integration, SAS Profiling und Data Quality Engines, Transfer der Daten zu SAS In- Memory Analytics Cluster HTML-basierendes Interface Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. KURZDEMO SAS ACCESS TO HADOOP ENGINE SAS access to Hadoop Zugriffe - > 3 Möglichkeiten Sas access engine -> Hive library SAS Application Server Access to Hadoop Hadoop Cluster HiveServer2 XML Files JAR Files JDBC Hive Metastore MapReduce (Compute Framework) HDFS File access -> hdfs Fileref Data Files Data Files HDFS Proc hadoop -> pass through proc Hadoop -> passthrough hdfs commands eingebettet in sas code
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SAS DATA INTEGRATION SERVER GUI SUPPORTED HADOOP TRANSFORMATIONEN FROM Hadoop IN Hadoop EP WITH Hadoop EP EP
SAS DATA LOADER FOR HADOOP STECKBRIEF Führt SAS DS2 Code, HiveQL und DQ Code auf einem Hadoop Cluster aus Kann Hadoop-Daten in einen vorhandenen LASR Server laden (für weitere Analysen in VA / VS) Zugriff auf externe Datenbanken (2.2) RDBMS SAS Data Loader Hadoop Cluster SAS LASR (VA / VS) Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. KURZDEMO SAS DATALOADER FOR HADOOP 2.2 CONFIG TRIAL EDITION Client PC 1 ACQUIRE DATA DISCOVER DATA 2 TRANSFORM DATA 3 CLEANSE DATA 4 INTEGRATE DATA 5 DELIVER DATA EP SAS Embedded Process + QKB Virt. SAS Data Loader vapp Hadoop Config Hadoop Sandbox EP HDFS Virt. Hadoop Config SAS Embedded Process + QKB Copy Data to Hadoop Profile Data Identification Analysis Query Query Select Columns Apply Filters Map Columns Sort / Order Calculate Columns Transpose data Aggregate Validate Parse Standardize Join Create Match codes Sort & Deduplicate Aggregate Run a SAS program Load SAS LASR Create tables Create views Copy from Hadoop Configuration Directory Hadoop Data Transform data Access data, move it into Hadoop, and assess the data structure and content Select data of interest, manipulate it, and structure it into the data format desired Put data into a consistent format Combine datasets, including data that has no common key, remove duplicate data, and create new data points thru aggregation Load datasets into SAS LASR inmemory analytic server, Create new Hadoop tables, and deliver data to other databases and apps
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SAS DATA LOADER FOR HADOOP EXAMPLE PREPARE AND LOAD CUSTOMER DATA Business Analyst Action Business Analyst Action Use Copy Data to Hadoop Use Transform data in Hadoop I need my Customer data in Hadoop I need to subset and summarize the data Use Cleanse Data in Hadoop Use Load Data to LASR I can see, but I can also fix, the data quality issue I need to Load the data to LASR for visualization
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. HADOOP PRAXIS ZUSAMMENFASSUNG Hadoop unterscheidet sich von traditionellen DBMS Systemen Umdenken bei der Datenverarbeitung notwendig Hive & SQL bedarfsgetrieben verwenden Datenhaltung eröffnet neue Möglichkeiten Ordner von Flatfiles werden als Tabelle verwaltet (vergleichbar SPD Server/SPD Engine) Arbeiten mit den Partitionen Nutzen der Transfer-Transformationen Hadoop ist optimiert auf große Tabellen Datenqualitätsfunktionen mit DQ Accelerator optimal für Big Data Dataloader for Hadoop Fachbereichstaugliches point & click Werkzeug für hadoop ( Datentransfer rdms hdfs, LASR Server, DQ, ETL..)
SAS DATA LOADER FOR HADOOP WHATS NEW ROADMAP Version 2.3 (9.4M3) Enhancements Profile Threading & Performance Enhancements SAS User Defined Formats Hive 14 Enhancements Distribution Support MapR / PHD (stretch) New Directives: Hive Node, Delete Node LDAP Authentication Future (2.4+) * New Directives : Merge, Score Unstructured Text Processing Major Features Spark Integration Chained Directives Execute in Jobs Parallel Federation Server Integration Automated & Smart Profiling * features are subject to change Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.
SAS 9.4M3 WHAT S NEW MapR Support für alle SAS Bausteine PROC SQOOP SAS/Access to Hadoop Verbessert: Performance, Durchreichen von Fehlerbeschreibungen, implicit passthrough (where exists, between) SAS/ACCESS to HAWQ SAS/ACCESS to Impala BASE Proc Pushdown Embedded Process (Accelerators) Zugriff auf Daten über HCatalog (Hive SerDes) Dateiformate verwendbar: Parquet, ORC, Avro, Sequence, RCFILE Code Accelerator: erlaubt multiple Input Data Sources, unterstützt Merge Statement Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. SAS & HADOOP IN-MEMORY TECHNOLOGIE BI & ANALYTIC LASR-based In-Memory Technology SAS Visual Analytics / Visual Statistics Business Analysten und Data Scientists Fokus auf interaktive Analysen SAS In-Memory Statistics Fokus auf Programmierung SAS High-Performance Analytics SAS Prozeduren aus den Bereichen Statistics, Data Mining, Text Analytics, Optimization übertragen auf verteilte In-Memory Technologie Frontend: Enterprise Miner Fokus auf Batch-Processing und Produktiv-Betrieb
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SAS & HADOOP ANWENDUNGS SZENARIEN HADOOP ANALYTICS FÜR SPEZIALTHEMEN UND INPUT / ANREICHERUNG EDW BI and Analytics Operational Data Sources Data Mart Data Mart EDW Analytic Mart Analytic Mart Analytic Mart Data Mart
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SAS & HADOOP ANWENDUNGS SZENARIEN Operational Data Sources HADOOP DATA PLATFORM ALS STAGING LAYER DATA LAKE Beladung HDFS, Auswertestrukturen in Hadoop, data appliances oder RDBMS EDW BI and Analytics Data Mart Data Mart Analytic Mart Analytic Mart
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. HADOOP IM EINSATZ ERGEBNISSE EINER UMFRAGE UNTER SAS KUNDEN, DIE BEREITS HADOOP EINSETZEN (EMEA/AP, 02.2015) Kunden nach Branchen Eingesetzte Hadoop Distributionen Produkte im Einsatz Einsatzszenarien Fraud 13% "Analytics" 42% Offload EDWH / Cost Reduction 32% "Data Lake" 13%
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SAS ANGEBOT BIG DATA LAB Einsatzfertiges Komplettpaket für die selbständige Entwicklung von Big Data Use Cases zum Fixpreis Software- Lösungen TECHNOLOGIE Bereitstellung On- Premise Cloud Größenskalierung S M L Datenmanagement Data Loader for Hadoop Access to Hadoop Metadatenmanagement Analytics Visual Analytics Visual Statistics In-Memory Statistics Installation Konfiguration Training SERVICE Umsetzung eines beispielhaften Use Cases Zusätzlich buchbare Dienstleistungen: Coaching und Bereitstellung von Experten (Data Scientist, Daten- Management-Experte) Consulting
BIG DATA LAB IHRE VORTEILE Sie starten schneller. Sie minimieren das Risiko falscher Investments. Sie sparen Doppelarbeit und Doppelinvestitionen. Sie bezahlen genau das, was Sie brauchen. Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
C o p y r i g h t 2 0 1 2, S A S In s t i t u t e In c. A l l r i g h t s r e s e r ve d. SUMMARY SAS & HADOOP VIELFÄLTIGE UNTERSTÜTZUNG, MORE TO COME! 1. Data Management: SAS optimiert und erleichtert den Zugriff auf Daten in Hadoop 2. In-Memory Analytics: SAS erweitert und beschleunigt Analytik auf Hadoop-Daten. 3. In-Database Processing: SAS verlagert (analytische) SAS Funktionalität in das Hadoop Cluster.
Copyright o p y r i g h t 2012, 2 0 1 2, SAS S A S Institute s t i t u tinc e In. c All. Arights l l r i g hreserved. t s r e s e r ve d. UNSER ANGEBOT THINK BIG, START NOW! BIG DATA LAB Auf www.sas.de/bigdatalab alle Infos zum Nachlesen Kommen Sie ins Gespräch mit uns! PRODUKTE TESTEN SAS Data Loader for Hadoop kostenlos herunterladen und 90 Tage testen: www.sas.de/dataloader SAS Visual Analytics (Demo) kostenlos ausprobieren: www.sas.de/visualanalytics
INFORMATIONEN - KONTAKT SAS UND HADOOP INFORMATIONEN: http://www.sas.com/de_de/software/sas-hadoop.html - http://www.sas.com/en_us/software/sas-hadoop.html Interessante White papers: http://www.sas.com/en_us/whitepapers/big-data-analytics-hadoop-107049.html http://www.sas.com/en_us/whitepapers/bringing-power-of-sas-to-hadoop-105776.html BARC: Big data analytics in der DACH region: http://www.sas.com/de_de/whitepapers/ba-wp-barc-big-data-analytics-2014-2298353.html Webinare: http://www.sas.com/de_at/webinars.html Big Data Analytics mit SAS & Hadoop Big data lab Code Beispiele:http://support.sas.com/resources/papers/proceedings14/SAS033-2014.pdf Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
THANKS A LOT!! FRAGEN - next steps?? rainer.sternecker@sas.com, gerhard.svolba@sas.com, gernot.engel@sas.com DANKE! Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.