WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT
EBINAR@LUNCHTIME HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training Hans-Joachim Edert SAS Institute GmbH Senior Solutions Architect Xing-Profil: http://www.xing.com/profile/annekatrin_bognerhamleh?key=0.0 Xing-Profil: https://www.xing.com/profile/hans_edert Hinweise zum Ablauf des Webinars: Teilnehmer sind automatisch stumm geschaltet Sie können Nachrichten an den Moderator senden und Fragen stellen die Veranstaltung wird aufgezeichnet Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
SAS & HADOOP SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP Hadoop Grundlagen Data Management Live In-Memory Technologie Zusammenfassung Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP GRUNDLAGEN DIE KERNPRINZIPIEN Open-Source Framework zum verteilten Speichern und parallelen Verarbeiten von großen, (un-)strukturierten Datenmengen Was kennzeichnet Hadoop? Prinzip der horizontalen Skalierung auf kostengünstiger Hardware ( Scale out ) Prinzip der Datenlokalität: Der Programmcode wird auf die Cluster-Nodes mit den zugehörigen Daten verteilt, dort verteilt ausgeführt und die (Teil-)Ergebnisse wieder zusammengeführt Übersetzt in Technologie: HDFS: Hadoop Distributed File System Map/Reduce: Ein Verarbeitungsverfahren nach dem Teile und Herrsche -Ansatz Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP GRUNDLAGEN EINE HADOOP2 DISTRIBUTION (HORTONWORKS HDP 2.2) (Quelle: Hortonworks) Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP GRUNDLAGEN 3 TECHNOLOGISCHE ANSÄTZE FÜR SAS FROM Hadoop Fokus Datenmanagement: Extraktion der Hadoop- Daten zur weiteren Verarbeitung in einem SAS Server. IN Hadoop Fokus Datenmanagement und Analytik: SAS- Code und -Analytik wird in-database im Hadoop Cluster ausgeführt. WITH Hadoop Fokus Analytik und Reporting: Verarbeitung von Hadoop Daten in einem massiv-parallelen, inmemory basierten SAS Analytics Cluster. Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
Impala SAS/Access to Impala HADOOP GRUNDLAGEN SAS IM HADOOP ÖKOSYSTEM User Interface SAS Display Manager SAS Enterprise Guide SAS Data Integration SAS Enterprise Miner SAS Visual Analytics Metadata SAS Metadata Data Access Base SAS & SAS/ACCESS to Hadoop In-Memory Data Access SAS User Data Processing Pig Hive SAS Embedded Process Accelerators SAS High-Performance Analytic Procedures SAS LASR Analytic Server Next- Generation SAS User Map Reduce MPI Based File System HDFS Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
SAS DATA MANAGEMENT IN HADOOP Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP DATA INTEGRATION PLATFORM BLUEPRINT ARCHITEKTUR Operational Data Sources EDW Data Mart Data Mart BI und Analytics Analytic Mart Analytic Mart Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP DATA INTEGRATION PLATFORM SAS DATA MANAGEMENT FÜR HADOOP Base SAS Map Reduce + Pig Scripting + HDFS Kommandos SAS Access to Hadoop (Hive) SAS Access to Impala (Cloudera) SAS Data Integration Studio SAS Enterprise Guide SAS Data Loader for Hadoop SAS Data Integration Studio Hadoop Plugins HDFS Dateien lesen/schreiben HiveQL Abfragen, Map/Reduce Jobs und Pig Latin Programme abschicken Datentransfer von/nach Hadoop via Hadoop Tools SAS Event Stream Processing (HDFS adapter) Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
HADOOP DATA INTEGRATION PLATFORM SAS DATA LOADER FÜR HADOOP SAS Data Loader for Hadoop Point & Click Data Management GUI speziell für Hadoop entwickelt: Einlesen, Transformieren und Cleansing (DQ) von Hadoop Daten Als leichtgewichtiges ELT Tool entwickelt Anwender-Zielgruppe: Fachanwender Keine Abhängigkeit zu SAS Infrastruktur, keine SAS Skills benötigt Keine lokale Verarbeitung von Daten (in SAS) HTML5-basierendes Interface Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
HADOOP DATA INTEGRATION PLATFORM SAS IN-DATABASE TECHNOLOGIE SAS Scoring Accelerator for Hadoop SAS Ent. Guide SAS Metadata Ausführen von Scoring Modellen aus EM und SAS DI Studio SAS Workspace STAT Projekten SAS Data Quality Accelerator for Hadoop RDBMS Ausführen von DQ Routinen (Parse, Standardize, Client PC SAS Server Gender Analysis, Identification, Match Code ) SAS Code Accelerator for Hadoop Ausführen von DataStep2 Code Alle Accelerators basieren auf dem SAS Embedded Process Lighweight SAS Engine inside Hadoop Hadoop NameNode Hadoop Name- Node Service Hadoop DataNode HDFS EP Hadoop Data Service Hadoop DataNode HDFS EP Hadoop Data Service Hadoop DataNode HDFS EP Hadoop Data Service Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
LIVE LASR LASR LASR LASR Zugriff auf Hadoop Browser Visual Analytics Mid Tier mit Enterprise Enterprise Guide Guide und Data Loader Data Loader SAS Server und HPA/VA Root Node HPA/VA Worker Node HPA/VA Worker Node HPA/VA Worker Node parallel read/write Client PC Hadoop NameNode Hadoop DataNode Hadoop DataNode Hadoop DataNode Hadoop DataNode EP EP EP EP HDFS HDFS HDFS HDFS Hadoop Name- Node Service Hadoop Data Service Hadoop Data Service Hadoop Data Service Hadoop Data Service Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.
SAS IN-MEMORY TECHNOLOGIE UND HADOOP Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
IN-MEMORY ANALYTICS WARUM HADOOP? Hadoop ist eine ideale Partner-Technologie für SAS Vergleichbare Designprinzipien: Massiv parallel, Master / Slave, Scale-Out Ansatz Cluster besitzt 1 Head Node und n Worker Nodes, skaliert über zusätzliche Hardware. Commodity Hardware & OS: Standard Intel Architekturen, Linux In-Memory Technologie macht Analysen unabhängig von Verarbeitungsverfahren in Hadoop setzt Uplift der Daten voraus Performantes Verfahren entscheidend Hadoop speichert Daten ebenfalls verteilt -> parallele Beladung der SAS Worker Nodes Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
IN-MEMORY ANALYTICS Co-located Setup Typische Topologie für Visual Analytics: a.k.a. co-located : Hadoop und LASR nutzen gemeinsam die verfügbaren Nodes. Nur für Hadoop : Memory Mapping von HDFS Daten durch SAS eigenes Datenformat (SASHDAT). Browser Client PC LASR Server TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node LASR Server TKGrid VA Worker Node LASR Server TKGrid VA Worker Node LASR Server TKGrid VA Worker Node Vorteil: Performance- Gewinn bei großen Datenmengen! Nachteil: Proprietäres Datenformat. Mobile device Hadoop Name- Node Service HDFS Hadoop Data Service HDFS Hadoop Data Service HDFS Hadoop Data Service Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.
IN-MEMORY ANALYTICS Asymmetric Setup Mobile device SAS Embedded Process Technologie ist nicht nur für Hadoop, sondern auch für SAP HANA und die führenden MPP DB Appliances verfügbar Embedded Process als parallel data feeder in der Appliance transferiert die Daten auf die SAS Nodes. In allen Fällen: dediziertes SAS Compute Server Modell (logische und physische Trennung von SAS und Appliance) Browser Client PC SAS Embedded Process LASR Server TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node SAP HANA / Massiv-Parallele Datenbank Appliances / Hadoop Cluster SAS Embedded Process LASR Server TKGrid VA Worker Node SAS Embedded Process VA Worker Node SAS Embedded Process LASR Server TKGrid parallel read/write LASR Server TKGrid VA Worker Node SAS Embedded Process Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.
SAS & HADOOP HADOOP DISTRIBUTOREN Supportete Distributionen Cloudera (CDH 4.6/5.x) Hortonworks (HDP 1.3/2.x) MapR Technologies (v4.x) Pivotal HD 2.x IBM Big Insights 3.x SAS ist Gründungsmitglied der Open Data Platform Initiative (Feb. 2015) Gemeinsam mit Hortonworks, IBM, Teradata u.v.a. Ziel: Standardisierung der Hadoop Plattform Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.
Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. FRAGEN?
WEBINAR@LUNCHTIME VIELEN DANK FÜR IHRE TEILNAHME Interesse an weiterem Austausch? Diskutieren Sie mit uns in der XING-Gruppe Business Analytics mit SAS Sprechen Sie uns direkt an: education@ger.sas.com Ausbildungsprogramm SAS Data Scientist White Paper Data Scientist zum Download Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
WEBINAR@LUNCHTIME NÄCHSTES WEBINAR@LUNCHTIME Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.
FOLIEN ZUM DOWNLOAD UNTER WWW.SAS.DE/LUNCHTIME WIE HAT IHNEN UNSER WEBINAR GEFALLEN? Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. www.sas.com