on Azure mit HDInsight & Script Ac2ons

Ähnliche Dokumente
HDInsight on Azure. Verteilte Datenanalyse mit Apache Hadoop Hans- Peter Grahsl, FH CAMPUS on TwiDer. Willkommen beim #GWAB 2014!

Was ist Windows Azure? (Stand Juni 2012)

Big Data Informationen neu gelebt

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Neue Ansätze der Softwarequalitätssicherung

ETL in den Zeiten von Big Data

Überblick und Vergleich von NoSQL. Datenbanksystemen

Titel. App-V 5 Single Server Anleitung zur Installation

Identity & Access Management in der Cloud

Installation des GeoShop Redirector für Apache (Stand ) ================================================================

INHALT 1. INSTALLATION DES V-MODELL XT UNTER WINDOWS 7 2. INSTALLATION DES V-MODELL XT UNTER WINDOWS VISTA

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Prof. Dr.-Ing. Rainer Schmidt 1

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Getting Started Guide CRM Online, 2013 & 2015 xrm1 Verpflegungspauschalen

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

EXASOL Anwendertreffen 2012

Nico Lüdemann. Applikationsvirtualisierung mit Microsoft SoftGrid Galileo Press

Computer- und Medienservice Öffentliche Computerarbeitsplätze (ÖCAP) Willi Petrov

Installation SQL- Server 2012 Single Node

OP-LOG

Task: Nmap Skripte ausführen

WinVetpro im Betriebsmodus Laptop

Powershell DSC Oliver Ryf

MailUtilities: Remote Deployment - Einführung

DOKUMENTATION VOGELZUCHT 2015 PLUS

ONET: FT-NIR-Netzwerke mit zentraler Administration & Datenspeicherung. ONET Server

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

Cloud-Provider im Vergleich. Markus

Installation der SAS Foundation Software auf Windows

Quick Cluster Overview

Installation von NetBeans inkl. Glassfish Anwendungs-Server

Update und Konfiguraton mit dem ANTLOG Konfigurations-Assistenten

Javadoc. Programmiermethodik. Eva Zangerle Universität Innsbruck

Business Application Framework für SharePoint Der Kern aller PSC-Lösungen

HERZLICH WILLKOMMEN SHAREPOINT DEEP DIVE FOR ADMINS IOZ AG 2

Workshop: Eigenes Image ohne VMware-Programme erstellen

Oracle Database Backup Service - DR mit der Cloud

Magento Theming Ein Einstieg Rainer Wollthan

Update / Inbetriebnahme domovea Server. Update/Inbetriebnahme domovea Server Technische Änderungen vorbehalten

Microsoft Windows PowerShell v3.0/4.0

3 System Center Virtual Machine Manager 2012

Herzlich Willkommen zur IT - Messe

FileMaker Konferenz 2011 Hamburg Speed. Performance Optimierung für Ihre Lösung / Entwickler

ABACONNECT VERWENDUNG VON APACHE TCPMON UTILITY MIT ABACONNECT WEBSERVICES

Virtuelle Umgebungen mit Powershell verwalten Azure und der Rest der Virtualisierung. Holger Voges

Möglichkeiten für bestehende Systeme

RIS Abbild mit aktuellen Updates

ARAkoll 2013 Dokumentation. Datum:

Smap3D PDM 10. Installation. Stand-Alone-Migration-Analyzer

PM/HV - SAP. Installationsanleitungen. Seite 1 von 12

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Software-Lizenzierung und Aktivierung: Verteilen von Software mit Apple Remote Desktop

Lizenzierung von System Center 2012

INSTALLATION DES V-MODELL XT UNTER WINDOWS VISTA

Fragen zur GridVis MSSQL-Server

Entwicklungen bei der Linux Clustersoftware

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

MSDE 2000 mit Service Pack 3a

ECLIPSE PLUG-IN. Redwood Anwendertage 2015

Deduplizierung mit Bacula Base Jobs Bacula Base Jobs

PRESman. Presentation Manager. Reduzieren Sie nachhaltig die Kosten für das. Erstellen, Verwalten und Verteilen Ihrer

Lokale Installation von DotNetNuke 4 ohne IIS

3 System Center Virtual Machine Manager 2012

3 Windows als Storage-Zentrale

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Installationsanleitung unter Windows

Die Installation des GeoShop Redirector für IIS (Internet Information Server, Version 4.0, 5.0 und 6.0) umfasst folgende Teilschritte:

Installation & Konfiguration AddOn CopyObjects

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

Step by Step Webserver unter Windows Server von Christian Bartl

Reporting Services und SharePoint 2010 Teil 1

» Hyper-V Best Practice Microsofts Virtualisierung professionell einsetzen

Hadoop-as-a-Service (HDaaS)

Konfiguration Firewall (Zyxel Zywall 10) (von Gruppe Schraubenmeier)

FastViewer Remote Edition 2.X

Event Recognition Engine

MSSQL Server Fragen GridVis

Titel. SCSM ITIL - CMDB - neue CI Klasse erstellen und benutzen. Eine beispielhafte Installationsanleitung zur Verwendung im Testlab

Hochverfügbarkeit mit Windows Server vnext. Carsten Rachfahl Microsoft Hyper-V MVP

LabTech RMM. Integration von Teamviewer. Vertraulich nur für den internen Gebrauch

Möglichkeiten des Parallelbetriebs der VR-NetWorld Software Parallelbetrieb VR-NetWorld Software 4.4x und Version 5.0 ab der 2. Beta!

Options- und Freitext-Modul Update-Anleitung

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Konfiguration von Igel ThinClients fu r den Zugriff via Netscaler Gateway auf eine Storefront/ XenDesktop 7 Umgebung

Es sollte die MS-DOS Eingabeaufforderung starten. Geben Sie nun den Befehl javac ein.

Installation EPLAN Electric P8 Version Bit Stand: 07/2014

Windows 8 Lizenzierung in Szenarien

DOKUMENTATION PASY. Patientendaten verwalten

Anleitung zum Prüfen von WebDAV

Worum geht es in diesem Projekt?

Transit/TermStar NXT

terra CLOUD IaaS Handbuch Stand: 02/2015

Transkript:

Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl

Überblick Inhalte Was ist HDInsight? Wozu überhaupt Spark? Customizing mit Script Ac2ons Demo: Spark on Azure

HDInsight Was ist HDInsight? 100% auf Apache Hadoop basierendes Azure Cloud Service entstanden aus enger Zusammenarbeit von MicrosoM & Hortonworks Hortonworks HDP ist die onpremise Version für Windows Server Umgebungen

HDInsight Was ist HDInsight? beinhaltet viele Komponenten des Hadoop Ökosystems Pig, Hive, Sqoop, Ooozie, Mahout,... ergänzende HDInsight Services: HBase od. Storm Versionsdschungel : HDInsight Version => HDP Version => Hadoop Version hxp://azure.microso[.com/enus/documenta2on/ar2cles/hdinsightcomponentversioning/

Hadoop auf einer Folie... Was ist Hadoop? verteiltes System zur Speicherung & Analyse von Daten typischerweise große unstrukturierte Datenmengen 2 Hauptkomponenten HDFS: redundante verteilte Datenspeicherung Hadoop Distributed File System MapReduce: fehlertolerantes skalierbares ProgrammierParadigma inkl. Ressourcen Verwaltung und Job Scheduling Datenlokalität: Berechnungen laufen auf jenen Knoten im Cluster wo Daten gespeichert sind (bzw. in maximaler Nähe dazu)

Wozu überhaupt Spark? Hadoop MapReduce gilt seit Jahren als defacto Standard... ABER? 1. keine highlevel Abstrak_on hinsichtlich fehlertoleranter & verteilter inmemory Datenstrukturen sämtliche Datenverarbeitung mibels MapReduce ist mühsam Wiederverwendung von Daten nur mibels temp. Persistenz 2. im Kern primär BatchVerarbeitung ruhender Daten iteragve Analyseverfahren? Data Mining & Machine Learning? interakgve Auswertungen und Stream Verarbeitung?

Verallgemeinerung mi9els Spark beide Aspekte werden von Spark addressiert Apache Spark is a fast and general engine for largescale data processing. verteilte & fehlertolerante inmemory Datenstrukturen generische Abstrak_onen für diverse Anwendungsszenarien Implemen2erungssprache: Scala (Language Bindings Java & Python)

Spark Stack Spark SQL Spark Streaming MLlib GraphX Spark Core YARN Standalone Scheduler Mesos

Spark on Azure? HDInsight + = Script Ac_ons

Script Ac_ons? individuelle Anpassung von HDInsight Clustern anwendbar auf Head / Worker / alle Nodes 2 Hauptanwendungsfälle: weitere So[ware Pakete & Frameworks installieren Konfigura2on bestehender Komponenten ändern

Script Ac_ons hxp://azure.microso[.com/enus/documenta2on/ar2cles/hdinsighthadoopcustomizecluster/

Script Ac_ons Script Ac2ons als PostInstallaGonHooks nach Standard HDInsight Konfigura2on der Nodes laufen mit Admin(!) Privilegien Reihenfolge für mehrere Script Ac2ons definierbar 3 RollOut Möglichkeiten für Script Ac2ons Konfigura2onsWizard im Azure Management Portal Azure PowerShell cmdlets => AddAzureHDInsightScriptAc_on HDInsight.NET SDK

Script Ac_ons via Azure Portal & Custom Config Wizard

Script Ac_ons via Azure Powershell $config = AddAzureHDInsightScriptAc_on Config $config Name MeinSparkHook ClusterRoleCollec2on HeadNode Uri <URL_TO_PS1_SCRIPT> via HDInsight.NET SDK clusterinfo.configac2ons.add(new ScriptAc_on( MeinSparkHook, new ClusterNodeType[] { ClusterNodeType.HeadNode}, new Uri(<URL_TO_PS1_SCRIPT>), null //keine Parameter erfoderlich ));

Script Ac_ons Beispiele Beispiele für PowerShell Script Ac2ons

Script Ac_ons Helper viele Hilfsmethoden zur Erstellung eigener Skripts vorhanden z.b. Download von Dateien Archive entpacken Hadoop Version feststellen laufende Dienste inspizieren wich2ge XML Konfigura2onsdateien anpassen etc. hxp://azure.microso[.com/enus/documenta2on/ar2cles/hdinsighthadoop- scriptac2ons/#helpermethods

Script Ac_ons Beispiele Vorgefer2gte Script Ac2ons von Microso[ als Basis für eigene Demo: Wie sieht Script Ac_on z.b. für Spark Customiza_on aus? hxps://hdiconfigac2ons.blob.core.windows.net/sparkconfigac2onv03/sparkinstallerv03.ps1...

Script Ac_ons Best Prac_ces HDInsight bzw. Hadoop Version prüfen Unterstützung für Anpassungen erst ab HDI 3.1 == Hadoop 2.4 man benö2gt z.t. versch. Versionen der zu installierenden Komponenten Script & Ressourcen Bereistellung über permanente Links wich2g z.b. für reimaging von Node am besten über Azure Storage Account verlinken geeigneter Installa_onsort für Komponenten typischerweise unter C:\apps (\dist) oder D:\

Script Ac_ons Best Prac_ces Einstellung des Hochverfügbarkeitsmodus berücksich_gen per default kein autofailover für nachinstallierte Komponenten Scripts sollten idempotent sein relevant bei mehrmaliger Ausführung z.b. bei reimaging von Node Azure Blob Storage Konfigura2on HDInsight Cluster kann von Haus aus HDFS + WASB Ökosystem Komponenten per default auf HDFS ausgerichtet z.b. muss Spark explizit für WASB konfiguriert werden

Script Ac_ons Testläufe Testläufe mixels HDInsight Emulator Variante 1: auf lokaler Instanz => Installa2on je nach Windows Version leider nicht immer reibungslos Variante 2: auf Azure VM => am besten mit Windows Server 2012 R2 Image

Script Ac_ons Troubleshoo_ng Fehlersuche bei Problemen Logs in Azure Table Storage => output und error logs im Storage Account des Clusters aller Nodes lokale LogFiles auf einzelnen Cluster Nodes => C:\HDInsightLogs\DeploymentAgent.log

Running Spark Applica_ons on Azure Demo Time Spark SQL und Spark Streaming Showcase Spark SQL Spark Streaming MLlib GraphX Spark Core YARN Standalone Scheduler Mesos Spark WebUI und/oder YARN WebUI am Head Node z.b. hxp://headnode0.hpghdi15.f8.internal.cloudapp.net:4040

Aktuelle Herausforderungen TOP 3 Herausforderungen: meine persönliche Liste 1. derzeit keine Möglichkeit für Remote Job Submission nur am Head Node (RDP) in CmdPrompt mixels sparksubmit und einem lokalen JAR File 2. aktuell nur Zulu OpenJDK 1.7 d.h. kein Java 8 Support! Spark ohne Lambdas & Co macht einfach wenig(er) Spaß 3. für neuesten Spark Versionen (1.3+) etwas Handarbeit nö_g derzeit bis Spark 1.2.1 inkl. Script Ac2on & WASB Config alles vorbereitet

Zusammenfassung Spark on Azure: sinnvolle Ergänzung zu HDInsight Standard Komponenten bietet highlevel APIs und verteilte sowie fehlertolerante inmemory Datenstrukturen unterstützt beliebige Kombina2onen aus SQL, Graph & Stream Verarbeitung sowie Machine Learning innerhalb einer Anwendung ist durch vorgefer_gte Script Ac_ons auf Knopfdruck verfügbar

Kontakt HansPeter Grahsl hanspeter@grahsl.at +43 650 217 17 04 @hpgrahsl hxps://www.xing.com/profile/hanspeter_grahsl hans_peter_g