Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Ähnliche Dokumente

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Apache HBase. A BigTable Column Store on top of Hadoop

Big Data Informationen neu gelebt

Big Data Mythen und Fakten

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Überblick und Vergleich von NoSQL. Datenbanksystemen

Big Data in der industriellen Praxis. Gunnar Fabritius Business Intelligence & Big Data Consulting T-Systems Multimedia Solutions

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

PostgreSQL in großen Installationen

vinsight BIG DATA Solution

Hadoop-as-a-Service (HDaaS)

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

ETL in den Zeiten von Big Data

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Einführung in Hadoop

Möglichkeiten für bestehende Systeme

Prof. Dr.-Ing. Rainer Schmidt 1

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Dateisysteme und Datenverwaltung in der Cloud

Informatik 12 Datenbanken SQL-Einführung

1 WEB ANALYTICS: PROFESSIONELLE WEB-ANALYSEN UND REPORTING FÜR IHR ONLINE MARKETING.

IT-Kosten im Mittelstand höher als bei Großunternehmen

MapReduce. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

EXASOL Anwendertreffen 2012

Neue Ansätze der Softwarequalitätssicherung

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Dokumentenorientierte Datenbanken - MongoDB

Open Source als de-facto Standard bei Swisscom Cloud Services

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: ADACOR Hosting GmbH

Was ist Windows Azure? (Stand Juni 2012)

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Hadoop. Simon Prewo. Simon Prewo

MapReduce in der Praxis

Big & Smart Data. bernard.bekavac@htwchur.ch

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

YouTube: Video-Untertitel übersetzen

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

C09: Einsatz SAP BW im Vergleich zur Best-of-Breed-Produktauswahl

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

JEAF Cloud Plattform Der Workspace aus der Cloud

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

1 Was ist das Mediencenter?

Reporting Services und SharePoint 2010 Teil 1

Big Data in der Praxis

EMC. Data Lake Foundation

Universität Zürich Informatikdienste. SpamAssassin. Spam Assassin Go Koordinatorenmeeting 27. April

Storage-Trends am LRZ. Dr. Christoph Biardzki

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

SAP HANA Einsatzmöglichkeiten und Potenziale

schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG mitp/bhv

All for One Steeb. Das SAP Haus. ALL FOR ONE STEEB DAS SAP HAUS

Persönliche Einladung. Zur IT Managers Lounge am 4. November 2009 in Köln, Hotel im Wasserturm.

Was passiert mit den Daten nach der Scheidung mit der Cloud Lösung?

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

"Hier kann ich mich weiterentwickeln!"

SMARTE LÖSUNGEN FÜR DIE VERNETZTE WELT

Datenbanken SQL Einführung Datenbank in MySQL einrichten mit PhpMyAdmin

Prüfungsberatungs-Stunde Datenbanksysteme 1 (Dbs1)

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

Systemanforderungen für MSI-Reifen Release 7

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre.

SAP NetWeaver Gateway. 2013

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

!"#$"%&'()*$+()',!-+.'/',

backupmyfilestousb ==> Datensicherung auf USB Festplatte

Howto. Einrichten des TREX Monitoring mit SAP Solution Manager Diagnostics

Sicherheits-Tipps für Cloud-Worker

ERPaaS TM. In nur drei Minuten zur individuellen Lösung und maximaler Flexibilität.

Von ODBC zu OLE DB. Neue Möglichkeiten der Datenintegration. Harald Gladytz, Team Vertrieb ESRI Niederlassung Leipzig

Proseminar: Website-Managment-System. NetObjects Fusion. von Christoph Feller

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

MailUtilities: Remote Deployment - Einführung

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

BIG UNIVERSITÄTSRECHENZENTRUM

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Wie richten Sie Ihr Web Paket bei Netpage24 ein

Lokale Installation von DotNetNuke 4 ohne IIS

Big Data Kundendaten im 2015 Michael Gisiger Wortgefecht Training & Beratung

Whitepaper. Produkt: combit Relationship Manager / address manager. Integration der Ansicht "Adressen" in eigene Solution

Das Zettabyte. CeBIT Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Well-Balanced. Performance Tuning

Die Projek*ools. Files, Git, Tickets & Time

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie Januar 2011

Produktvorstellung: CMS System / dynamische Webseiten. 1. Vorwort

Transkript:

Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Was ist Big Data? 2

Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes VELOCITY ANALYTICS VARIETY Batch Near Time Real Time Streams Strukturiert Semistrukturiert Unstrukturiert 3

Facebook in Zahlen (Stand August 2012) Insgesamt 950 Millionen User Im Durchschnitt 6,5 h pro Monat online Cirka 180.000 Server Pro Tag: 2,5 Milliarden Content Items (status updates, wall posts, photos, videos, comments) 2,7 Milliarden Likes 300 Millionen Photos uploaded 500+ Terabytes neue Daten werden in Datenbanken geladen März 2008: 1,2TB März 2009: 12-18TB September 2009: 30-36TB Juli 2010: 80-90 TB 4

Big Data z.b. in der Logistik Datenerfassung in Verteilzentren Mobile Endgeräte für Angestellte Bar Code Readers Honeywell Dolphin 99EX GPS Tracking Sensordata Vehicle Monitoring (Fuel) DHL Smart Sensor RFID Chips B2B Shipment Tracking Supply Chain Management Mobile Dienste für Kunden Smartphones Tablets Electronic Mail Web Usage Data 5

Herausforderungen für Unternehmen Datenintegration und -konsolidierung! Skalierbarkeit Fehlertoleranz und Verfügbarkeit von Systemen Analytik, Monitoring und Reporting 6

Technologien für Big Data Probleme Klassische relationale Datenbanksysteme: Verteilte, spaltenorientierte und In-Memory Datenbanken: Open Source basierte Big Data Lösungen: 7

Google Erfolgreich durch intelligente Big Data Lösungen Vielfältige Applikationen auf riesigen Datenmengen: Google Web Suche Google Maps / Google Earth Gmail YouTube Picasa Google+ Wissenschaftliche Veröffentlichungen von Google: The Google File System (2003) MapReduce: Simplified Data Processing on Large Clusters (2004) Big Table: A Distributed Storage System for Structured Data (2006) 8

Was ist Apache? Entwicklung durch Doug Cutting bei Yahoo! Nachimplementierung der Google Ideen Veröffentlichung als Open Source Software Top-Level Projekt der Apache Software Foundation Hauptentwickler und -nutzer unter anderem: Yahoo! Facebook Kostengünstige verteilte Big Data Lösung: Open Source Software 64 Bit Linux mit Java Virtual Machine Commodity Hardware (Einfache Standardserver ohne RAID) 9

Professionelle Lösungen basierend auf Apache Hadoop Kommerzieller Distributionen von Apache Hadoop mit Service und Support: Integration in führende DWH und BI Produkte: 10

11

HDFS: Hadoop Distributed File System Eine gegebene Datei wird in Blöcke (default=64/128 MB) aufgeteilt und diese über den Cluster repliziert (default=3). Optimiert für: Durchsatz Schreiben/Lesen/Löschen Anfügen Block Replikation für: Dauerhaftigkeit Verfügbarkeit Durchsatz Block Replikate werden über Server und Racks verteilt. 2 1 1 2 3 4 5 HDFS 4 5 1 2 3 4 2 5 1 3 4 3 5 12

HDFS Kommandozeile Angelehnt an Linux Dateisystembefehle ls, cp, mkdir, rm, rmdir, df, du cat, tail copyfromlocal, copytolocal, movefromlocal, movetolocal Rechtesystem ähnlich zu Linux chown, chgrp, chmod Integrationsmöglichkeiten für HDFS Mount HDFS: fuse-dfs HTTP/REST: WebHDFS Java, C/C++ 13

HDFS Beispiele Big Data Wikipediaseite lokal runterladen: curl o bigdata.html http://en.wikipedia.org/wiki/big_data Kopieren ins HDFS: hadoop fs copyfromlocal bigdata.html /user/gunnar/ Verzeichnis anzeigen: hadoop fs ls /user/gunnar 14

Namenode Webinterface 15

MapReduce Ausnutzen von Datenlokalität Ein gegebener Job wird in Map und Reduce Tasks aufgeteilt und diese jeweils möglichst nah zu ihren Daten eingeplant. Programmieren von Map und Reduce Schritten in Java oder analytische Anfragesprachen (Pig, Hive) 2 4 5 1 3 4 Optimiert für: Ausnutzen der Datenlokalität Batchverarbeitung Recovery von Fehlern 2 3 4 Das System erkennt hängende Tasks und führt spekulativ parallele Tasks auf den gleichen Datenteilen aus. 1 2 5 1 3 5 16

MapTile Rendering bei Google mit MapReduce 17

Die Hadoop Architektur Master Node Slave Node 1 Slave Node n... Job Tracker MapReduce Task Tracker Task Tracker Task Tracker Layer HDFS Layer Name Node Data Node Data Node Data Node 18

Anzahl Links pro URL in HTML-Seiten zählen Mapper Bekommt HTML-Seite als Eingabe Findet alle Links e.g. <a href="www.target.com">target</a> Extrahiert die URL Bereinigt die URL (z.b. http:// entfernen) Gibt pro Link eine 1 aus e.g. www.target.com 1 Shuffle Phase Sortiert die Key-Value Paare nach URL e.g. www.target.com Reducer Bekommt einen Key und eine Liste von zugehörigen Values: www.target.com [1,1,1,1] Summiert die Values auf und gibt ein Key-Value Paar aus: www.target.com 4 19

Links in HTML-Seiten zählen Mapper 20

Links in HTML-Seiten zählen Reducer 21

hadoop jar./linkcounter.jar /user/gunnar/bigdata.html /user/gunnar/results 22

Jobtracker Webinterface 23

Ergebnisdatei 24

Klingt toll, aber mühsam? Apache Pig Skriptsprache (Pig Latin) zum Schreiben von MapReduce Programmen Entwicklung von Yahoo! Apache Hive SQL ähnliche Anfragen die als MapReduce Programme ausgeführt werden Entwicklung von Facebook Ich mag aber kein Java Hadoop Streaming API oder Hadoop Pipes Kommunikation über StdIn StdOut oder Sockets Andere Programmiersprachen (z.b. Ruby, Python, C/C++) können so Mapper und Reducer implementieren 25

Der Hadoop Software Stack Reporting und ETL-Tools (z.b. SAP BO, MS SQL Server, Microstrategy, Talend) File System Mount (Fuse-DFS) BI Connectivity (ODBC, JDBC) Data Integration Tools (Flume, Sqoop) Job Workflow (Oozie) Metadata Management (Hive, HCatalog) Analytical Languages (Pig, Hive) MapReduce Data Mining (Mahout) Coordination Service (Zookeeper) Distributed, column-oriented Database (HBase) Hadoop Distributed File System (HDFS) Linux (64 bit) with Java Virtual Machine Commodity Server Hardware 26

Hive: Datawarehousing auf Hadoop ein Datawarehouse-System, das auf Hadoop aufsetzt ursprünglich von Facebook entwickelt, seit Sommer 2008 Open-Source ermöglicht Datenabfragen mit einer SQL-ähnlichen Sprache (HiveQL) Anfragen werden in MapReduce Jobs übersetzt 27

Motivation für die Entwicklung von Hive Probleme mit Hadoop: Schwierigkeiten mit der Programmierung von Map-Reduce-Skripten Viele Analysten mit schwachen Java-Kenntnissen aber SQL Erfahrung Fehlende Schnittstelle an Reporting-Systeme Hive bietet vereinfachte Analysemöglichkeiten: Hive interpretiert Logfiles, CSV-Files o.ä. als Tabellen und definiert ein Datenbankschema auf Dateien im HDFS Hive übersetzt SQL-Skripte in MapReduce-Jobs Auch Analysten ohne Java-Kenntnisse können Abfragen in Hadoop machen Hive ermöglicht die Anbindung an Reporting-Tools (JDBC, ODBC) 95% der Hadoop-Jobs bei Facebook werden über Hive durchgeführt 28

Hive-Architektur 29

Anlegen einer Hive-Tabelle 30

Befüllen eine Hive Tabelle hadoop fs mv /user/gunnar/results/part-r-0000 /user/hive/warehouse/outgoinglinks Beladen von Hive Tabellen = Kopieren von Dateien ins HDFS Hive arbeitet mit Rohdaten Sehr schnelle Beladung des Warehouses möglich Hinzufügen von Files (z.b. Logfiles) fügt Daten zur Tabelle hinzu Aber: Keine einzelnen Inserts oder Updates Keine Transaktionen Kein ACID 31

Top 5 ausgehenden Links der Seite Query: SELECT * FROM outgoinglinks ORDER BY count DESC, url LIMIT 5; Fazit: Viel langsamer auf kleinen Datenmengen (> 20 sec) Sehr gute Skalierung auf großen Datenmengen (Tablescans auf vielen Giga/Terabytes) 32

Integration in Reporting System wie z.b. Microstrategy, SAP BO 33

Apache HBase Nachimplementierung von Googles Big Table Konzept (wie Cassandra) Big Table: A Distributed Storage System for Structured Data (2006) Googles Big Table und deren Nachfolger sind wichtiger Bestandteil für Google Suche HBase ist Basis für Facebooks Messaging System Eigenschaften: Columnstore Architektur (Columnfamilies und Kompression) Automatische horizontale Partitionierung von Tabellen (Autosharding) basierend auf deren Zeilenschlüssel Ausgelegt auf hohe Last von Random Reads und Random Writes Nahezu lineare Skalierung durch Hinzufügen von Knoten Flexible Anzahl von Spalten und dünnbesetzte Tabellen 34

Beispiel: Nutzerverwaltung in einem Forum Unterschiedliche Arten von Daten: Schlüssel: Nutzername Name, Vorname, Alter, Status About me Seite (längere HTML Seite) Nutzerbild (JPEG) Nutzername ist Schlüssel und wird für die Verteilung genutzt (Nicht gleichverteilt!) Drei Columnfamilies userdata aboutme pic Unterschiedliche Kompression möglich für Columnfamilies Erweiterbarkeit: zusätzliche Nutzerdaten, Nutzerbilder in unterschiedlichen Größen 35

Anlegen und Befüllen einer Tabelle auf dem CLI 36

Key Business Values von neuartigen Big Data Technologien Flexibilität Speichere jegliche Art von Daten Analysiere jegliche Art von Daten Skalierbarkeit von Systemen Von einem Terabyte auf drei Knoten bis zu Petabytes auf tausenden Knoten On-Demand Speicher- und Rechenkapazität in der Cloud (Elastic Computing) Langlebigkeit von Daten Wesentlich geringere Kosten pro Terabyte Speicherplatz 37

Wir unterstützen Sie bei der Lösung Ihrer Big Data Herausforderungen! Big Data Analysis Big Data Challenge Anforderung Analyse Beratung Konzeption Entwicklung Test & Betrieb Benefits T-Systems Multimedia Solutions 38

T-Systems Ihr Partner für Big Data Lösungen Interesse an Big Data, Hadoop und T-Systems MMS? Wir suchen: Motivierte und engagierte Mitarbeiter Werksstudenten Absolventen für Bachelor und Masterarbeiten Hausanschrift Telekontakte Gunnar Schröder Technical Consultant T-Systems Multimedia Solutions GmbH Riesaer Straße 5, 01129 Dresden Telefon +49 351 2820-2282 Telefax +49 351 2820-4282 E-Mail: gunnar.schroeder@t-systems.com 39