Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer



Ähnliche Dokumente
Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Big Data Informationen neu gelebt

Möglichkeiten für bestehende Systeme

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Positionspapier Big Data

Apache HBase. A BigTable Column Store on top of Hadoop

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

EXASOL Anwendertreffen 2012

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Big Data Mythen und Fakten

Big Data in der Praxis

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Was ist Windows Azure? (Stand Juni 2012)

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Big Data in der Forschung

OPERATIONEN AUF EINER DATENBANK

Schnellanleitung: Verbuchung von Studien- und Prüfungsleistungen

Prof. Dr.-Ing. Rainer Schmidt 1

Daten am USB Stick mit TrueCrypt schützen

MySQL Queries on "Nmap Results"

Beispiel des Zusammenführens der APV- Tabellen Stammdaten und Verlaufsdaten mithilfe von Access

Allgemeines zu Datenbanken

Bearbeitung und Download von grossen Datenmengen in STAT-TAB

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

3 Windows als Storage-Zentrale

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

Der beste Plan für Office 365 Archivierung.

vinsight BIG DATA Solution

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Whitepaper. Produkt: combit List & Label 16. List & Label Windows Azure. combit GmbH Untere Laube Konstanz

FileMaker Konferenz 2011 Hamburg Speed. Performance Optimierung für Ihre Lösung / Entwickler

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

TELEMETRIE EINER ANWENDUNG

MS SQL Server: Index Management. Stephan Arenswald 10. Juli 2008

Identity & Access Management in der Cloud

WARY Notariat Urkundenrolle V2013

TimeSafe Installationsanleitung mit InfotechStart

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre.

G DATA GOES AZURE. NEXT LEVEL MANAGED ENDPOINT SECURITY DRAGOMIR VATKOV Technical Product Manager B2B

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Installationsanleitung dateiagent Pro

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

ARCO SQL T5 - Business Intelligence

desk.modul : ABX-Lokalisierung

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Dateisysteme und Datenverwaltung in der Cloud

Daten in der Cloud mit Access, Office 365 und Apps foroffice Dirk Eberhardt

Professionelle Seminare im Bereich MS-Office

BigTable Else

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Was ist das Tekla Warehouse

Netzlaufwerke verbinden

OP-LOG

SOLISYON GMBH TOBIAS GRUBER BEN WEISSMAN. Analyse von Dimensions-Schlüsselfehlern bei der Aufbereitung von SSAS Datenbanken

Neuerungen der Ck-Schnittstelle in dms.net Rev. 4895

Name des Servers auf dem die Produktiv-IL-Datenbank läuft. Name des Servers auf dem die Test-IL- Datenbank läuft

Psyprax GmbH. Netzwerk Installation unter XP. Wichtig für alle Netzwerkinstallationen: Psyprax GmbH

Themen. M. Duffner: Datenbanksysteme

IT-Tutorial. Access Microsoft. Infos zur Migration von Access I MPRESSUM

TSM-Migration Hermann Frasch Markus Bader

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

Softwaren Engineering I

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Graphen in Apex von Thomas Hernando.

Installationsbeschreibung Flottenmanager 7.1

ERASMUS+ im Schulbereich (COMENIUS) Mobility Tool. Berichterstattung über KA1 Mobilitätsprojekte. Stand: 23. Oktober 2014

Möglichkeiten des Parallelbetriebs der VR-NetWorld Software Parallelbetrieb VR-NetWorld Software 4.4x und Version 5.0 ab der 2. Beta!

e-banking-business Edition Bestehende Lastschriftvorlagen in SEPA-Lastschriftvorlagen umwandeln

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

mywms Vorlage Seite 1/5 mywms Datenhaltung von Haug Bürger

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

on Azure mit HDInsight & Script Ac2ons

desk.modul : WaWi- Export

Synchronisations- Assistent

Neue Ansätze der Softwarequalitätssicherung

WinVetpro im Betriebsmodus Laptop

SFKV MAP Offline-Erfassungstool. Installationsanleitung

Datenübernahme easyjob 3.0 zu easyjob 4.0

Tutorial Windows XP SP2 verteilen

PRAXISMANAGEMENT FÜR DIE ZAHNARZTPRAXIS, MKG - CHIRURGIE UND KLINIK PRO X DENT MKG ZMK UMSTELLUNG DER INSTALLATION AUF NETZLAUFWERK

SEMINAR Modifikation für die Nutzung des Community Builders

ISA Server 2004 Protokollierung - Von Marc Grote. Die Informationen in diesem Artikel beziehen sich auf:

Datenmanagement in Android-Apps. 16. Mai 2013

mit SD-Karte SD-Karte Inhalt

Nach der Installation des FolderShare-Satellits wird Ihr persönliches FolderShare -Konto erstellt.

Datenbanken. Ein DBS besteht aus zwei Teilen:

Psyprax GmbH. Wichtig für alle Netzwerkinstallationen: Psyprax GmbH

KURZANLEITUNG CLOUD OBJECT STORAGE

Transkript:

Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer

Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo

Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs der Datenmenge Günstiger Speicher (Hardware & Cloud) Günstige Rechenpower Soziale Netzwerke (Mehr digitale Kommunikation) Device Explosion (Wearables, Smart Phones) Internet of Things (Sensoren, Kameras, RFID, Industrie 4.0) = Big

Big wird klassifiziert durch folgenden Eigenschaften: Volume Große Datenmengen Variety - Strukturierte und unstrukturierte Daten Velocity - Konstanter Datenstrom mit großer Bandbreite Veracity Sicherheit, Präzision (z.b. Soziale Medien)

Umgang mit Big Klassische relationale Datenbanken sind nicht für Umgang mit Big konzipiert Relationale Datenbanken sind konzipiert für die Speicherung von strukturierten Daten Parallele Ausführung von Abfragen wird nur begrenzt unterstützt Apache Hadoop = Open Source Framework für die verteilte Verarbeitung von Big HDFS Verteiltes Dateisystem Map Reduce - Abfragesprache HD Insight = auf Apache Hadoop basierender Microsoft Cloud Dienst

Hadoop - Anwendungsbeispiele Luftfahrt Sehr viele Sensoren in Flugzeugen Boeing 777 erzeugt auf einem Transatlantikflug 30 TB Daten Soziale Netzwerke Twitter Real Time Stimmungsanalyse UIDAI (Unique Identification Authority of India) Aadhaar-Program 1,2 Mrd Einwohner Biometrische Merkmale Real Time Zugriff (für Erstellung von Bankkonten etc., )

HD Insight - Datenspeicherung o 1) HDFS Hadoop Distributed File System Name Node Node 1 Node 2 Node

HD Insight - Datenspeicherung Client File1.txt Name Node Node 1 Node 2 Node

HD Insight - Datenspeicherung Client 1 Block 1 Block 2 Block 3 Name Node Node 1 Node 2 Node

HD Insight - Datenspeicherung Client 2 Wohin soll Block 1 gespeichert werden? 1 Block 1 Block 2 Block 3 Name Node Node 1 Node 2 Node Node 3, 4, 5

HD Insight - Datenspeicherung Client 2 Node 1, 2 und 4 1 Block 1 Block 2 Block 3 3 Name Node Node 1 Node 2 Node Node 3, 4, 5

HD Insight - Datenspeicherung Client 2 Kopiere Daten in Node 1 1 Block 1 4 3 Name Node Node 1 Node 2 Node Node 3, 4, 5

HD Insight - Datenspeicherung Client 2 Kopiere Daten in Node 2 1 3 4 Name Node Node 1 Block 1 Node 2 Node Node 3, 4, 5 5 Block 1

HD Insight - Datenspeicherung Client 2 Kopiere Daten in Node 4 1 4 3 Name Node Node 1 Node 2 Block 1 Block 1 Node Node 3, 4, 5 5 6 Block 1

HD Insight - Datenspeicherung Client 2 Node 4: Fertig 1 4 3 Name Node Node 1 Node 2 Node Node 3, 4, 5 Block 1 Block 1 Block 1 5 6 7

HD Insight - Datenspeicherung Client 2 Node 2: Fertig 1 4 3 Name Node Node 1 Block 1 Block 1 Node 2 Node Node 3, 4, 5 Block 1 5 6 8 7

HD Insight - Datenspeicherung Client 2 Node 1: Fertig 1 9 4 3 Name Node Node 1 Block 1 Block 1 Node 2 Node Node 3, 4, 5 Block 1 5 6 8 7

HD Insight - Datenspeicherung 1 Client 3 2 Metadata: Block 1: Node 1, 2, 4 Block 2: 9 4 Name Node Node 1 Block 1 Block 1 Node 2 Node Node 3, 4, 5 Block 1 5 6 8 7

HD Insight - Datenspeicherung oredundante Datenspeicherung Standardreplikationsfaktor = 3 o Nodes benutzen Azure Blob Store -> HD Insight nur benötigt während der Auswertung -> Daten auch für andere Anwendungen ohne HD Insight zugreifbar -> Extra Level an Redundanz

HD Insight - Datenabfrage 2) Abfragesprache: Map Reduce 1) Große Probleme in kleine Probleme aufspalten 2) Die Aufgabe ausführen Map 3) Ergebnisse kombinieren Ergebnis Reduce

Abfragen omap Reduce (Java,.Net, C#) + Strukturierte und unstrukturierte Daten + Sehr mächtig (z.b. im Umgang mit Hierarchien) + Gute Performance - Aufwendig zu entwickeln ohive (HiveQL) + Schnell zu entwickeln - SQL sehr ähnlich + Gut für adhoc Analyse - Nur für strukturierte Daten geeignet - Schlechtere Performance - Weniger mächtig

Demo Einrichten eines HD Insight Clusters in Azure

Hive Beispiel Klimaanlage o Einfaches Beispiel mit kleiner Datenmenge zur Verdeutlichung der Funktionsweise o Sensordaten von Heizung, Klimaanlage o 20 große Gebäude o Strukturierte Quelldaten:

Hive Beispiel Klimaanlage o Vorgehen: 1) Erstellen einer externen (logischen) Rohdatentabelle mit den Sensortransaktionsdaten 2) Erstellen einer externen (logischen) Rohdatentabelle mit den Gebäudestammdaten 3) Erstellen einer (physischen) Tabelle mit eigenen berechneten Feldern 4) Erstellen einer (physischen) Tabelle, die die Sensordaten mit Gebäudedaten anreichert

Hive Beispiel Klimaanlage o Erstellen einer Sensordatentabelle --create the hvac table on comma-separated sensor data CREATE EXTERNAL TABLE hvac(date STRING, time STRING, targettemp BIGINT, actualtemp BIGINT, system BIGINT, systemage BIGINT, buildingid BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'wasb://techcamphdinsight@azuretechcamp3.blob.core.windows.net/hdisamples/sensorsample/hvac/';

Hive Beispiel Klimaanlage o Erstellen einer Gebäudetabelle --create the building table on comma-separated building data CREATE EXTERNAL TABLE building(buildingid BIGINT, buildingmgr STRING, buildingage BIGINT, hvacproduct STRING, country STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'wasb://techcamphdinsight@azuretechcamp3.blob.core.windows.net/hdisamples/sensorsample/building/';

Hive Beispiel Klimaanlage o Interpretieren der Sensordaten --create the hvac_temperatures table by selecting from the hvac table CREATE TABLE hvac_temperatures AS SELECT *, targettemp - actualtemp AS temp_diff, IF((targettemp - actualtemp) > 5, 'COLD', IF((targettemp - actualtemp) < -5, 'HOT', 'NORMAL')) AS temprange, IF((targettemp - actualtemp) > 5, '1', IF((targettemp - actualtemp) < -5, '1', 0)) AS extremetemp FROM hvac;

Hive Beispiel Klimaanlage o Erstellen einer Gebäudetabelle --create the hvac_building table by joining the building table and the hvac_temperatures table CREATE TABLE hvac_building AS SELECT h.*, b.country, b.hvacproduct, b.buildingage, b.buildingmgr FROM building b JOIN hvac_temperatures h ON b.buildingid = h.buildingid;

Rahmenbedingungen Datenschutz Sind meine Daten vor dem Zugriff anderer geschützt? Zugriffsmöglichkeit durch US Regierung bzw. Justiz unklar -> Speicherung von streng vertraulichen Daten in der Cloud überprüfen Alternative Möglichkeiten -> Vorerst Entwicklungs- oder Testumgebungen in Cloud nutzen -> Daten anonymisiert speichern und die Schlüssel lokal belassen -> Anwendungen mit weniger sensiblen Daten in der Cloud hosten

Ausblick - Weitere Nutzungsmöglichkeiten o Archivierung von älteren Daten auf Hadoop o Erstellung des HD Insight Clusters per Skript 1) Automatisches Erstellen des Clusters 2) Auswerten der Daten 3) Speichern der Ergebnisse, z.b. in anderer Azure Datenbank oder als Datei 4) Löschen des Clusters -> Daten sind noch vorhanden -> Kein Vorhalten von Hadoop notwendig -> Geringere Kosten wegen nur kurzer Bereitstellung/Nutzung des Clusters o HD Insight als Verdichtungsstufe vor dem Warehouse Quellen ETL mit HD Insight DWH BI Reporting

Vielen Dank stemmer@ergonweb.de

Literatursammlung

Zusätzliche Helferprogramme Azure Power Shell o Kommandozeilentool um Azure Dienste zu Erstellen, Steuern und zu Managen o Anmelden am persönlichen Azure Account: Add-AzureAccount AzCopy o Kommandozeilen Kopierprogramm Lokal -> Azure Blob Storage o http://aka.ms/downloadazcopy o Liegt in %ProgramFiles(x86)%\Microsoft SDKs\Azure\AzCopy o Doku: http://azure.microsoft.com/en-us/documentation/articles/storage-use-azcopy/

Literatursammlung Hive - SQL Ähnliche Höhere Programmiersprachen, die von MapReduce abstrahieren Pig - Scriptsprache für Datentransformationen Storm - Stream Analytics Hbase - Apache HBase ist eine nichtrelationale Datenbank basierend auf Hadoop und eignet sich speziell für große Mengen unstrukturierter und teilstrukturierter Daten - bis zu Milliarden von Zeilen mal Millionen von Spalten. Mahaud - Machine Learning Sqoop - Import & Export von Daten

Vorbereitung Desktop aufräumen IE Starten Azure anmelden Azure Power Shell starten Favouriten ausblenden Evtl. Präsiuser anlegen