WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT



Ähnliche Dokumente
Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

THEMA: " SCHICKE BERICHTE SCHNELL ERSTELLT MIT DEM SAS ENTERPRISE GUIDE" HELENE SCHMITZ

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP

June Automic Hadoop Agent. Data Automation - Hadoop Integration

THEMA: SAS ADMINISTRATION LEICHT GEMACHT MIT SAS 9.4 ALLE SYSTEME IM BLICK" ANKE FLEISCHER

Hadoop und SAS Status und Ausblick WIEN, JUNI 2015 GERNOT ENGEL, CLIENT SERVICE MANAGER SAS AUSTRIA

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Big Data Informationen neu gelebt

Open Source als de-facto Standard bei Swisscom Cloud Services

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

Hadoop-as-a-Service (HDaaS)

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Simulationen und Mathematische Programmierung mit SAS Dr. Mihai Paunescu

ETL in den Zeiten von Big Data

Cross-Channel-Marketing und Customer Journey

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

SAS Education. Grow with us. Anmeldung bei SAS Education. Kurstermine Juli Dezember 2015 für Deutschland, Österreich und die Schweiz

THEMA: SAS DATA INTEGRATION STUDIO FÜR MEHR TRANSPARENZ IM DATENMANAGEMENT EVA-MARIA KEGELMANN

Integriertes Marketingmanagement 2013

SAP HANA Einsatzmöglichkeiten und Potenziale

Lokale Installation von DotNetNuke 4 ohne IIS

Möglichkeiten für bestehende Systeme

THEMA: HALTEN SIE IHRE SAS UMGEBUNG SAUBER MIT DEM SAS ENVIRONMENT MANAGER FRANK LEISTEN, FLITCON GMBH

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

Zend PHP Cloud Application Platform

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SAS Metadatenmanagement Reporting und Analyse

Howto. Einrichten des TREX Monitoring mit SAP Solution Manager Diagnostics

Neue Ansätze der Softwarequalitätssicherung

THEMA: WAS MACHT EIGENTLICH EIN DATA SCIENTIST?" BERNADETTE FABITS

Apache HBase. A BigTable Column Store on top of Hadoop

Internet online Update (Internet Explorer)

Installation der SAS Foundation Software auf Windows

SOA im Zeitalter von Industrie 4.0

JEAF Cloud Plattform Der Workspace aus der Cloud

Installationsanleitung für. SugarCRM Open Source. Windows Einzelplatz

> Soft.ZIV. SAS Software für statistische Datenanalyse

1 Was ist das Mediencenter?

Mit In-Memory Technologie zu neuen Business Innovationen. Stephan Brand, VP HANA P&D, SAP AG May, 2014

Infor PM 10 auf SAP. Bernhard Rummich Presales Manager PM Uhr

Faktenbasiert entscheiden auf Knopfdruck: Mythos oder Realität?

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG DATA MANAGEMENT

Multi-Device Applikationen aus der Swisscom Cloud. Lukas Lehmann

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Archive / Backup System für OpenVMS

Innovation gestalten - von ABAP zur SAP HANA Cloud Platform

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

SOCIAL. LOCAL. MOBILE.

Windows 8 Lizenzierung in Szenarien

Prof. Dr.-Ing. Rainer Schmidt 1

ICS-Addin. Benutzerhandbuch. Version: 1.0

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

M b o i b l i e l e S a S l a e l s e s f or o S A S P P E R E P P m i m t i S b y a b s a e s e U nw n ir i ed e d P l P a l t a for o m

EXCHANGE Neuerungen und Praxis

Next Generation Datacenter Automation und Modularisierung sind die Zukunft des Datacenters

OERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt

Leitfaden zur Nutzung von binder CryptShare

[DvBROWSER] Offline-Viewer für [DvARCHIV] und [DvARCHIVpersonal] Version 2.2

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Zend Server Cluster Manager

Fragen zur GridVis MSSQL-Server

SharePoint Demonstration

Installationsanleitung für pcvisit Server (pcvisit 12.0)

Ihren Kundendienst effektiver machen

Senden von strukturierten Berichten über das SFTP Häufig gestellte Fragen

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

SAP NetWeaver Gateway. 2013

1Ralph Schock RM NEO REPORTING

Opencast und Opencast Matterhorn

PCC Outlook Integration Installationsleitfaden

Bes 10 Für ios und Android

Trends im Markt für Business Intelligence. Patrick Keller, Senior Analyst & Prokurist CeBIT 2016

iphone-kontakte zu Exchange übertragen

Was ist Windows Azure? (Stand Juni 2012)

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

Preis- und Leistungsverzeichnis der Host Europe GmbH. Dedicated Storage - ISCSI V 1.1. Stand:

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, in Hamburg

Webinar Virtuelle Teams

vinsight BIG DATA Solution

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

Sicherer Datenaustausch mit Sticky Password 8

Das Zettabyte. CeBIT Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland

Strategie / Zusammenfassung

Microsoft Digital Pharma. Die nächste Generation von Innovationen für Chemie und Pharma. Covast

MehrWert durch IT. REALTECH Assessment Services für SAP Kosten und Performance Optimierung durch Marktvergleich

EMC. Data Lake Foundation

Internet online Update (Mozilla Firefox)

Installationsanleitung SSL Zertifikat

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

HMS. Statistiken mit SAS ins Internet. HMS Analytical Software GmbH - Johannes Lang

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt

Getting Started Guide CRM Online, 2013 & 2015 xrm1 Verpflegungspauschalen

Karten-Freischaltung mit dem UNLOCK MANAGER

Transkript:

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT

EBINAR@LUNCHTIME HERZLICH WILLKOMMEN BEI WEBINAR@LUNCHTIME Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Training Hans-Joachim Edert SAS Institute GmbH Senior Solutions Architect Xing-Profil: http://www.xing.com/profile/annekatrin_bognerhamleh?key=0.0 Xing-Profil: https://www.xing.com/profile/hans_edert Hinweise zum Ablauf des Webinars: Teilnehmer sind automatisch stumm geschaltet Sie können Nachrichten an den Moderator senden und Fragen stellen die Veranstaltung wird aufgezeichnet Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

SAS & HADOOP SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP Hadoop Grundlagen Data Management Live In-Memory Technologie Zusammenfassung Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP GRUNDLAGEN DIE KERNPRINZIPIEN Open-Source Framework zum verteilten Speichern und parallelen Verarbeiten von großen, (un-)strukturierten Datenmengen Was kennzeichnet Hadoop? Prinzip der horizontalen Skalierung auf kostengünstiger Hardware ( Scale out ) Prinzip der Datenlokalität: Der Programmcode wird auf die Cluster-Nodes mit den zugehörigen Daten verteilt, dort verteilt ausgeführt und die (Teil-)Ergebnisse wieder zusammengeführt Übersetzt in Technologie: HDFS: Hadoop Distributed File System Map/Reduce: Ein Verarbeitungsverfahren nach dem Teile und Herrsche -Ansatz Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP GRUNDLAGEN EINE HADOOP2 DISTRIBUTION (HORTONWORKS HDP 2.2) (Quelle: Hortonworks) Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP GRUNDLAGEN 3 TECHNOLOGISCHE ANSÄTZE FÜR SAS FROM Hadoop Fokus Datenmanagement: Extraktion der Hadoop- Daten zur weiteren Verarbeitung in einem SAS Server. IN Hadoop Fokus Datenmanagement und Analytik: SAS- Code und -Analytik wird in-database im Hadoop Cluster ausgeführt. WITH Hadoop Fokus Analytik und Reporting: Verarbeitung von Hadoop Daten in einem massiv-parallelen, inmemory basierten SAS Analytics Cluster. Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

Impala SAS/Access to Impala HADOOP GRUNDLAGEN SAS IM HADOOP ÖKOSYSTEM User Interface SAS Display Manager SAS Enterprise Guide SAS Data Integration SAS Enterprise Miner SAS Visual Analytics Metadata SAS Metadata Data Access Base SAS & SAS/ACCESS to Hadoop In-Memory Data Access SAS User Data Processing Pig Hive SAS Embedded Process Accelerators SAS High-Performance Analytic Procedures SAS LASR Analytic Server Next- Generation SAS User Map Reduce MPI Based File System HDFS Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

SAS DATA MANAGEMENT IN HADOOP Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP DATA INTEGRATION PLATFORM BLUEPRINT ARCHITEKTUR Operational Data Sources EDW Data Mart Data Mart BI und Analytics Analytic Mart Analytic Mart Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP DATA INTEGRATION PLATFORM SAS DATA MANAGEMENT FÜR HADOOP Base SAS Map Reduce + Pig Scripting + HDFS Kommandos SAS Access to Hadoop (Hive) SAS Access to Impala (Cloudera) SAS Data Integration Studio SAS Enterprise Guide SAS Data Loader for Hadoop SAS Data Integration Studio Hadoop Plugins HDFS Dateien lesen/schreiben HiveQL Abfragen, Map/Reduce Jobs und Pig Latin Programme abschicken Datentransfer von/nach Hadoop via Hadoop Tools SAS Event Stream Processing (HDFS adapter) Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

HADOOP DATA INTEGRATION PLATFORM SAS DATA LOADER FÜR HADOOP SAS Data Loader for Hadoop Point & Click Data Management GUI speziell für Hadoop entwickelt: Einlesen, Transformieren und Cleansing (DQ) von Hadoop Daten Als leichtgewichtiges ELT Tool entwickelt Anwender-Zielgruppe: Fachanwender Keine Abhängigkeit zu SAS Infrastruktur, keine SAS Skills benötigt Keine lokale Verarbeitung von Daten (in SAS) HTML5-basierendes Interface Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

HADOOP DATA INTEGRATION PLATFORM SAS IN-DATABASE TECHNOLOGIE SAS Scoring Accelerator for Hadoop SAS Ent. Guide SAS Metadata Ausführen von Scoring Modellen aus EM und SAS DI Studio SAS Workspace STAT Projekten SAS Data Quality Accelerator for Hadoop RDBMS Ausführen von DQ Routinen (Parse, Standardize, Client PC SAS Server Gender Analysis, Identification, Match Code ) SAS Code Accelerator for Hadoop Ausführen von DataStep2 Code Alle Accelerators basieren auf dem SAS Embedded Process Lighweight SAS Engine inside Hadoop Hadoop NameNode Hadoop Name- Node Service Hadoop DataNode HDFS EP Hadoop Data Service Hadoop DataNode HDFS EP Hadoop Data Service Hadoop DataNode HDFS EP Hadoop Data Service Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

LIVE LASR LASR LASR LASR Zugriff auf Hadoop Browser Visual Analytics Mid Tier mit Enterprise Enterprise Guide Guide und Data Loader Data Loader SAS Server und HPA/VA Root Node HPA/VA Worker Node HPA/VA Worker Node HPA/VA Worker Node parallel read/write Client PC Hadoop NameNode Hadoop DataNode Hadoop DataNode Hadoop DataNode Hadoop DataNode EP EP EP EP HDFS HDFS HDFS HDFS Hadoop Name- Node Service Hadoop Data Service Hadoop Data Service Hadoop Data Service Hadoop Data Service Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.

SAS IN-MEMORY TECHNOLOGIE UND HADOOP Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

IN-MEMORY ANALYTICS WARUM HADOOP? Hadoop ist eine ideale Partner-Technologie für SAS Vergleichbare Designprinzipien: Massiv parallel, Master / Slave, Scale-Out Ansatz Cluster besitzt 1 Head Node und n Worker Nodes, skaliert über zusätzliche Hardware. Commodity Hardware & OS: Standard Intel Architekturen, Linux In-Memory Technologie macht Analysen unabhängig von Verarbeitungsverfahren in Hadoop setzt Uplift der Daten voraus Performantes Verfahren entscheidend Hadoop speichert Daten ebenfalls verteilt -> parallele Beladung der SAS Worker Nodes Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

IN-MEMORY ANALYTICS Co-located Setup Typische Topologie für Visual Analytics: a.k.a. co-located : Hadoop und LASR nutzen gemeinsam die verfügbaren Nodes. Nur für Hadoop : Memory Mapping von HDFS Daten durch SAS eigenes Datenformat (SASHDAT). Browser Client PC LASR Server TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node LASR Server TKGrid VA Worker Node LASR Server TKGrid VA Worker Node LASR Server TKGrid VA Worker Node Vorteil: Performance- Gewinn bei großen Datenmengen! Nachteil: Proprietäres Datenformat. Mobile device Hadoop Name- Node Service HDFS Hadoop Data Service HDFS Hadoop Data Service HDFS Hadoop Data Service Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.

IN-MEMORY ANALYTICS Asymmetric Setup Mobile device SAS Embedded Process Technologie ist nicht nur für Hadoop, sondern auch für SAP HANA und die führenden MPP DB Appliances verfügbar Embedded Process als parallel data feeder in der Appliance transferiert die Daten auf die SAS Nodes. In allen Fällen: dediziertes SAS Compute Server Modell (logische und physische Trennung von SAS und Appliance) Browser Client PC SAS Embedded Process LASR Server TKGrid Visual Analytics Mid Tier SAS Server und VA Root Node SAP HANA / Massiv-Parallele Datenbank Appliances / Hadoop Cluster SAS Embedded Process LASR Server TKGrid VA Worker Node SAS Embedded Process VA Worker Node SAS Embedded Process LASR Server TKGrid parallel read/write LASR Server TKGrid VA Worker Node SAS Embedded Process Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d.

SAS & HADOOP HADOOP DISTRIBUTOREN Supportete Distributionen Cloudera (CDH 4.6/5.x) Hortonworks (HDP 1.3/2.x) MapR Technologies (v4.x) Pivotal HD 2.x IBM Big Insights 3.x SAS ist Gründungsmitglied der Open Data Platform Initiative (Feb. 2015) Gemeinsam mit Hortonworks, IBM, Teradata u.v.a. Ziel: Standardisierung der Hadoop Plattform Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d.

Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. FRAGEN?

WEBINAR@LUNCHTIME VIELEN DANK FÜR IHRE TEILNAHME Interesse an weiterem Austausch? Diskutieren Sie mit uns in der XING-Gruppe Business Analytics mit SAS Sprechen Sie uns direkt an: education@ger.sas.com Ausbildungsprogramm SAS Data Scientist White Paper Data Scientist zum Download Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

WEBINAR@LUNCHTIME NÄCHSTES WEBINAR@LUNCHTIME Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d.

FOLIEN ZUM DOWNLOAD UNTER WWW.SAS.DE/LUNCHTIME WIE HAT IHNEN UNSER WEBINAR GEFALLEN? Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. www.sas.com