Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel

Ähnliche Dokumente
Big Data: Hadoop im Unternehmenseinsatz bei. TDWI Roundtable Frankfurt, Patrick Thoma, inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Stefan Igel inovex GmbH. Hadoop in modern BI-Infrastrukturen

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: ADACOR Hosting GmbH

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre.

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek.

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Installation SQL- Server 2012 Single Node

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Reporting Services und SharePoint 2010 Teil 1

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

«DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

XING und LinkedIn-Integration in das erecruiter-bewerberportal

Systemvoraussetzungen winvs office winvs advisor

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Big Data Projekte richtig managen!

WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

vinsight BIG DATA Solution

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

ETL in den Zeiten von Big Data

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Spotlight 5 Gründe für die Sicherung auf NAS-Geräten

-Virtuelle Jagdfliegerschule- Teamspeak Seite 1 von 6

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Preisvergleich ProfitBricks - Amazon Web Services M3 Instanz

Formular»Fragenkatalog BIM-Server«

4D Server v12 64-bit Version BETA VERSION

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Apache HBase. A BigTable Column Store on top of Hadoop

SYSTEM REQUIREMENTS. 8MAN v4.5.x

HAFTUNGSAUSSCHLUSS URHEBERRECHT

Lokale Installation von DotNetNuke 4 ohne IIS

Der Kopf ist rund, damit das Denken die Richtung

Die Wasser App.

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

Der Nutzen und die Entscheidung für die private Cloud. Martin Constam Rechenpower in der Private Cloud 12. Mai 2014

Dynamic Ressource Management

Summer Workshop Mehr Innovationskraft mit Change Management

Übung: Verwendung von Java-Threads

Oracle GridControl Tuning Pack. best Open Systems Day April Unterföhring. Marco Kühn best Systeme GmbH

WINDOWS 8 WINDOWS SERVER 2012

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Solaris Cluster. Dipl. Inform. Torsten Kasch Bielefeld.DE> 8. Januar 2008

vsphere vs. HyperV ein Vergleich aus Sicht eines VMware Partners interface:systems

Open Source als de-facto Standard bei Swisscom Cloud Services

Installation der SAS Foundation Software auf Windows

2. ERSTELLEN VON APPS MIT DEM ADT PLUGIN VON ECLIPSE

IDV Assessment- und Migration Factory für Banken und Versicherungen

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

iphone-kontakte zu Exchange übertragen

Multichannel Challenge: Integration von Vertriebsorganisation und Contact Center in der Versicherung

Test mit lokaler XAMPP Oxid Installation

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Allgemeine Anforderungen zum Einsatz von (gültig ab Version 45.xx.xx)

Der beste Plan für Office 365 Archivierung.

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Speicher in der Cloud

Control-M Workload Change Management 8

Titel BOAKdurch Klicken hinzufügen

Hochleistungsrechnen für Wissenschaft und Wirtschaft im internationalen Verbund

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

SAP Memory Tuning. Erfahrungsbericht Fritz Egger GmbH & Co OG. Datenbanken sind unsere Welt

Fragen zur GridVis MSSQL-Server

Erfolgsfaktoren im Projektmanagement

Oracle EngineeredSystems

Hyper-V Replica in Windows Server 2012 R2. Benedict Berger Microsoft MVP Virtual Machine

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

! APS Advisor for Automic

Test zur Bereitschaft für die Cloud

Über uns. HostByYou Unternehmergesellschaft (haftungsbeschränkt), Ostrastasse 1, Meerbusch, Tel , Fax.

Outsourcing und Offshoring. Comelio und Offshoring/Outsourcing

VIELE SAGEN... hohe Qualität große Erfahrung besondere Spezialisierung. nur für Sie!

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Vorstellung SimpliVity. Tristan P. Andres Senior IT Consultant

BMC Control M Tipps & Tricks 2. Martin Dienstl, BMC Software martin_dienstl@bmc.com

NS G S ervice GmbH Die Firma NS G S ystems GmbH stellt sich vor

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Kooperativer Speicher: Schwächen und Gegenmaßnahmen

PC-Umzug: So ziehen Sie Ihre Daten von Windows XP nach Windows 8 um

MANAGED BUSINESS CLOUD. Individuell. Flexibel. Sicher.

Inside. IT-Informatik. Die besseren IT-Lösungen.

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

ANYWHERE Zugriff von externen Arbeitsplätzen

Freunde, Fans und Faszinationen: Das Potenzial von Social Media

MSSQL Server Fragen GridVis

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

Mercurial. or how I learned to stop worrying and love the merge. Ted Naleid IAIK

Durchführung der Datenübernahme nach Reisekosten 2011

FrontDoor/Monitor mehr sehen von FrontDoor

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Umstieg auf Microsoft Exchange in der Fakultät 02

Installation mit Lizenz-Server verbinden

HERZLICH WILLKOMMEN SHAREPOINT DEEP DIVE FOR ADMINS IOZ AG 2

Das vollständige E-Book können Sie nach Eingabe Ihrer Kontakt-Daten herunterladen.

Transkript:

Hadoop im Unternehmenseinsatz Präsentation von Dirk Schmid und Dr. Stefan Igel

Dirk Internet affin seit 1997 durch, einem der zwei ersten Internetprovider Deutschlands. Softwarearchitekt bei der 1&1 Mediafactory Seit 2005 in der Software-Entwicklung im Internet- Portalbereich tätig Java, Hadoop, verteilte Systeme, Hochverfügbarkeit, SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung Synthesizer und Hammond-Orgeln dirk.schmid@1und1.de 1&1 Internet AG 2012 2

Stefan Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Erstkontakt mit Hadoop 09/2009 Mag spannende Projekte Tischtennis-Spieler und Häuslebauer stefan.igel@inovex.de 1&1 Internet AG 2012 3

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 4

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 5

Beispiel 1: WEB.DE 1995 gestartet als Internet-Katalog Eines der größten deutschen Internet- Portale mit 16,44 Mio. Nutzern/Monat* WEB.DE FreeMail beliebtester deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures *Unique User / AGOF internet facts 2011-12 1&1 Internet AG 2012 6

Beispiel 2: GMX FreeMail Pionier mit leistungsstarken Mail- und Messaging-Lösungen 12,75 Mio. Nutzer/ Monat* Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com *Unique User / AGOF internet facts 2011-12 1&1 Internet AG 2012 7

5 Hochleistungs-Rechenzentren auf 2 Kontinenten 70.000 Server 10,67 Mio. Kundenverträge 30,8 Mio. Free-Accounts Hosting von 18 Millionen Domains Rund 9 Milliarden Seitenabrufe im Monat Mehr als 5 Milliarden E-Mails pro Monat 9.000 TByte monatliches Transfervolumen Doppelt sicher durch redundante Rechenzentren (Dual Hosting) Nahezu 100%ige Verfügbarkeit Mehrfach redundante Glasfaser-Anbindung Unterbrechungsfreie Stromversorgung (USV) Vollklimatisierte Sicherheitsräume bieten Schutz vor Gas, Wasser und Feuer Betreuung rund um die Uhr durch hochqualifizierte Spezialisten Betrieb mit grünem Strom 1&1 Internet AG 2012 8

Hadoop bei 1&1 Development Romania Team Big Data Solutions Development Romania: Email Search mit Solr und Hadoop Email Organizer Development UIM Abteilung Target Group Planning: Mehrere produktive Hadoop-Cluster Schwerpunkt Data Mining und Machine Learning Abteilung Web.Intelligence: Produktives Hadoop-Cluster SYNAPSE Web-Analytics, Logfile-Processing und Datawarehousing 1&1 Internet AG 2012 9

Hadoop bei Web.Intelligence Erste Evaluierung von Hadoop 2009 05: Cluster-Ausbau auf 20 Knoten 06: Hadoop Projekt Log-Analytics geht live: 1.000.000.000 Datensätze/Tag 2012 2006 Web-Analytics mit spalten-orientiertem Vector-RDBMS 2011 01: Hadoop Projekt Web-Analytics beginnt 08: Hadoop-Cluster mit 12 Knoten einsatzbereit 10: Hadoop verarbeitet im produktiven Einsatz ca. 200.000.000 Datensätze/Tag 1&1 Internet AG 2012 10

Web Intelligence Das Prinzip Reporting Stammdaten BI Plattform Datenlieferungen Bewegungsdaten 1&1 Internet AG 2012 11

aber die Menge macht s! BI Plattform Web-Analytics: 240 Files/d 200 GB/d * 90d = 18 TB Log-Analytics: 1.000 Files/d 2000 GB/d * 30d = 60 TB 1&1 Internet AG 2012 12

Die Aufgabenstellung Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle Informationen zu wandeln. Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und Speicherkapazität, um auf wachsende Anforderungen reagieren zu können. Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen unterschiedlicher Bedeutung und Herkunft. Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den Mitarbeitern und in der Open Source-Community. Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten. 1&1 Internet AG 2012 13

Die Lösung: SYNAPSE SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann. Fileserver DWH SYNAPSE 1&1 Internet AG 2012 14

Dougs Ratschlag Question: What advice would you give to enterprises considering Hadoop? Doug Cutting: I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop]. http://a.images.blip.tv/strataconf- STRATA2012DougCuttingTheApacheHadoopEcosystem410-224.jpg http://www.computerworld.com/s/article/9222758/the_grill_doug_cutting 1&1 Internet AG 2012 15

Einige Herausforderungen bleiben Geeignete Hardware finden und betreiben Geeignete Hadoop-Frameworks identifizieren MapReduce Algorithmen entwickeln und testen Verschiedene Daten-Eingangs- und Ausgangskanäle Unterschiedliche Dateiformate Mehrere konkurrierende Prozesse Mehrere Benutzer Konsistentes Verarbeiten vieler Eingangs-Files Prozess-Steuerung über einen heterogenen System-Stack 1&1 Internet AG 2012 16

1&1 Best Practice Identifiziere dein BIG DATA Problem 1&1 Internet AG 2012 17

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 18

Hardware-Sizing Hadoop-DataNodes Empfehlung Cloudera Support* 2 Quad Core CPUs Disk Drive Size 1 2 TByte Auswahl-Kriterien Kosten-Effizienz Stromverbrauch Platz im Rechenzentrum Standard-HW-Warenkorb * http://www.cloudera.com/blog/2010/03/ clouderas-support-team-shares-some-basic-hardware-recommendations 1&1 Internet AG 2012 19

Sizing der SYNAPSE Unsere Szenarien sind Storage Heavy : Sizing ist bestimmt durch erforderliche Speicherkapazität: 480 TB 78 TB Nutzdaten (Web- + Log-Analytics) Faktor 2 für Zwischenergebnisse Replikationsfaktor 3 zur Datensicherung 480TB / 2TB / 12 = 20 Rechner! http://en.wikipedia.org/wiki/google_platform Google's first production server rack, circa 1998 1&1 Internet AG 2012 20

Unsere Definition von Commodity Hardware 4x 1GB Network 12 x 2TB as JBOD direct attached 20 x Worker-Node (Datanode, Tasktracker) 8 Cores @2,4GHz 96 GB RAM 50GB local Storage 2x Namenode Server (Namenode, Sec.-Namenode, Jobtracker) 4 Cores @2,4GHz 12 GB RAM 1&1 Internet AG 2012 21

Best Practice: Laste deine Systeme nur zu 75% aus! Hauptspeicher Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht mehr den spill to disk durchzuführen => Out Of Memory Exception Plattenplatz Achtung: auch Zwischenergebnisse mit einrechnen Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz vorgesehen werden! 1&1 Internet AG 2012 22

Das Fileserver Problem Problemstellung Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts (Import Rohdaten, Export von Aggregaten) Konkurrierende Zugriffe reduzieren den Durchsatz überproportional Lösung Reduktion der Zugriffslast Mit einem Prozess im/exportieren (hadoop fs copyfrom/tolocal) Z.B. via Fair-Scheduler Pools (fair-scheduler.xml: maxmaps and maxreduces) Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind: z.b. Flume für Import z.b. HBase für Export 1&1 Internet AG 2012 23

Namenode Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse, ) Es gibt nur genau EINE Namenode im Cluster Fällt diese aus oder wird korrupt gibt es keine Daten mehr im Cluster! Namenode Server Hadoop Namenode FS Image FS Image Edit Logs 1&1 Internet AG 2012 24

Namenode Running Datanodes Namenode Server Hadoop Namenode FS Image FS Image Edit Edit Logs Logs 1&1 Internet AG 2012 25

Secondary Namenode!= Redundanz Die Secondary Namenode dient lediglich dem Verdichten der persistierten Änderungslogs Die Namenode ist ein SPOF und muss entsprechend abgesichert werden! Namenode Server Hadoop Namenode FS Image Sec. Namenode Server Hadoop Secondary Namenode New FS FS Image Edit New Edit Logs Edit Logs Edit Logs FS Image New FS Image Edit Logs 1&1 Internet AG 2012 26

Namenode HA Redundanz für Namenode transparent für Cluster Crash Recovery möglich http://www.clusterlabs.org/ http://www.drbd.org/ 1&1 Internet AG 2012 27

Namenode HA Failover im Sekunden-Bereich Im Worst-Case minimaler Daten- Verlust während Failover möglich Im besten Falle keiner! 1&1 Internet AG 2012 28

Netzwerk Die Knoten eines Hadoop-Clusters sollten möglichst nahe beieinander stehen und auch bei den Datenquellen dafür muss Platz im Rechenzentrum verfügbar sein Je Besser die Netzwerk-Anbindung des Clusters desto besser seine Performance 4GBit 1GBit 2GBit each 1&1 Internet AG 2012 29

1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! 1&1 Internet AG 2012 30

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 31

Wir machen unsere Werkzeugkiste auf und schauen mal was wir darin finden 1&1 Internet AG 2012 32

Aufgabenverteilung Transport kontinuierlich entstehender Massendaten Vorgänge koordinieren Aggregationen alle 3 Stunden >1000 Files/Tag ~ 3TB Aggregation Speicherung Suche AdHoc Anfragen ILM Integration mit DWH Nachvollziehbarkeit Wiederaufsetzbarkeit 1&1 Internet AG 2012 33

Quelle: http://www.flickr.com/photos/_mrs_b/4717427429/ Unser Technologie-Stack (Reduced to the Max) 1&1 Internet AG 2012 34

Lessons learned Stabilität Entwicklung ist immer noch im Fluss Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung Flankierende Projekte haben gefühlt oft noch Beta-Status im Handumdrehen ist man Committer eines OS-Projektes ;-) 1&1 Internet AG 2012 35

Lessons learned Feature-Set Ähnliche Toolsets unterscheiden sich meist nur in Details Pig, Hive, Cascading HBase und Casandra Askaban vs. Oozie Aber gerade die können manchmal entscheidend sein! 1&1 Internet AG 2012 36

Schön, dass es Distributionen gibt! Hadoop-Solution-Partner geben Sicherheit Beispiel: Cloudera Eigenes Hadoop-Release basierend auf den Apache Repositories bietet konsistente, in sich schlüssige Release-Stände und Bugfixes Möglichkeit des kommerziellen Supports 1&1 Internet AG 2012 37

1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! 1&1 Internet AG 2012 38

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 39

Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG 2012 40

Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) SYNAPSE Mass Data Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG 2012 41

Importieren und Speichern Das Serialisierungs-Framework Unterstützt die Verarbeitung durch Header-Zeile pro File mit Typ-Information (JSON-Format) Versionsprüfung möglich IDL optional Effiziente Verarbeitung durch Speicher-effizientes Binärformat (De-)Serialisierung ok Zukunftssicher da Künftiger Hadoop-Standard Aktive Weiterentwicklung Sukzessive Integration in die Hadoop-Teilprojekte # avro textual representation {"type": "record", "name": "Point", "fields": [ {"name": "x", "type": "int"}, {"name": "y", "type": "int"} ] } 5 8-3 4 2-7 1&1 Internet AG 2012 42

Importieren und Speichern FLIS - Flexibilität gefragt Plain csv Flexible Input Selector thrift 1&1 Internet AG 2012 43

Transformieren Join in MapReduce Map Side Join Eingangsfiles müssen nach gleichem Schlüssel sortiert und partitioniert sein Sorted-Merged-Join noch vor dem Mapper Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat Reduce Side Join Klassischer MR-Join Hauptlast wird in der Shuffle/Sort-Phase getragen 1&1 Internet AG 2012 44

Transformieren Join in MapReduce Join-Operationen können in MR als Hash Join implementiert werden Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt Kleine CPU, keine Netzwerk-Last während der Verarbeitung Die Grenze bildet das Volumen der Lookup-Daten Lookup- Data Lookup- Data Lookup- Data Lookup- Data Lookup- Data Data Data MR- Join Result Data Data MR- Join Result 1&1 Internet AG 2012 45

Transformieren - oder doch mit HBase? Distributed Key-Value Stores f(k) = V Datenzugriff granular Antwortzeiten im Milli-Sekunden- Bereich Auf Lesezugriff optimiert 1&1 Internet AG 2012 46

Transformieren mit PIG Ursprünglich von Yahoo entwickelt File basiertes High Level Daten-Manipulations-Framework SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs übersetzt und ausgeführt wird http://hadoop.apache.org/pig/ 1&1 Internet AG 2012 47

Transformieren Ergebnisse aus Web-Analytics Projekt: Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance- Gewinn bringen! 12 10 8 6 4 2 Monthly Aggregation Weekly Aggregation Daily Aggregation 0 Column-DB Hadoop (1:1 Migration) Hadoop (optimierte Algorithmen) 1&1 Internet AG 2012 48

Lessons learned Know-how Muss oft erst aufgebaut werden. Hierfür passende Projekte einplanen. Am Anfang fehlt das Know-how an allen Fronten DEV: Best Practices sind nicht vorhanden. Oft funktionieren die Dinge in Dev und brechen dann im Live-Einsatz. QS: Herausforderung: verteiltes Testen - möglichst mit Echt- Daten (bzgl. Qualität und Quantität) LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning- Möglichkeiten mannigfaltig und oft nur mit DEV- Unterstützung durchführbar. 1&1 Internet AG 2012 49

1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! 1&1 Internet AG 2012 50

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG 2012 51

BI-Plattform Information Lifecycle Management Access Standard Reporting Adhoc Queries (Mass) Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) DWH als Langzeit- Archiv Kosten: 0,15 /MB Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer Hadoop als Kurzzeit-Archiv Kosten: 0,0005 /MB BI Source Systems Source Data WI Gateway Fileserver Replicated Source Data 1&1 Internet AG 2012 52

Speichern: Gerne aber wie lange? Auch 500 TByte sind irgendwann einmal voll! IL separat für jede Verarbeitungsebene Je wertvoller die Daten, desto länger der IL Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.) System Ebene Begründung Aufbewahrung Fileserver Import Nachladen 5 Tage Export Fachliche Anforderung 40 Tage SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage Integration Fachliche Anforderung 15-90 Tage Aggregation Nachladen 5 Tage DWH Acquisition Nachberechnen 30 Tage Integration Fachliche Anforderung 2-10 Jahre Reporting Fachliche Anforderung 2-10 Jahre 1&1 Internet AG 2012 53

Mehrparteien-Betrieb: Wer darf wann? Hadoop Job Scheduler Gleichmäßige Lastverteilung über die Zeit nach Prioritäten Verschiedene Anwendungen können konkurrierend betrieben werden Mechanismus Default Capacity Fair Vergeben von Prioritäten pro Job Job-Queues mit festgelegten Prioritäten Funktionsfähig Ja Ja Ja Clusterauslastung Ja Nein Ja Gefahr von Starvation Ja Nein Nein Job-Queues und Pools mit Gewichten 1&1 Internet AG 2012 54

Mehrparteien-Betrieb: Wer darf überhaupt? Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories Hadoop hat keine eigene Benutzer-Authentifizierung Hadoop übernimmt user name (whoami) und group name (bash -c groups) vom aufrufenden Client-Prozess Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder Überschreiben fremder Dateien. Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein Geeignetes Konzept für Tool -User oder Application Manager This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion. http://hadoop.apache.org/common/docs/r0.20.2/hdfs_permissions_guide.html 1&1 Internet AG 2012 55

1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Sorge für geordnete Verhältnisse im Cluster! 1&1 Internet AG 2012 56

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG 2012 57

Azkaban (LinkedIn) PRO Workflows können graphisch dargestellt und gedrilled werden Einfache Handhabung (Komplexes wird in Scripts ausgelagert) Startet Hadoop-Jobs und Anderes einfach als Unix-Prozesse Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed Contra Minimaler Funktionsumfang Keine Rechte und Zugriffs-Verwaltung Jobausführung nur Zeit-basiert Keine Redundanz (Azkaban-Server wird zum SPOF) 1&1 Internet AG 2012 58

Oozie (Yahoo!) PRO Enge Integration mit Hadoop and M/R Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc. Webservice- und Java-API Zeit- und Ereignis-basierte Job-Ausführung Contra WEB-Konsole ist Read-Only, keine graphische Aufbereitung von Abhängigkeiten Ressoucen (.jar files, pig scripts) müssen manuell vor der Jobausführung auf dem HDFS deployed werden Müsste um File-Registierung erweitert werden Requesting job status: sudo -u oozie oozie job -oozie http://localhost:11000/oozie -info 0000018-110712204501024-oozie-oozi-C 1&1 Internet AG 2012 59

Architektur BI-Plattform - Steuerung Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein! Das richtige Werkzeug für die jeweilige Aufgabe: GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung) FUNDI = eigens entwickelter verlängerter Arm für Hadoop-Spezifika 1&1 Internet AG 2012 60

Das richtige Werkzeug für die jeweilige Aufgabe PDI (http://kettle.pentaho.com/) ETL-Jobs im DWH HDFS-Zugriff GEPPI = Workflow-Engine Übergreifende-Steuerung Functional Dependency Integrator Hadoop Job-Ausführung Data-Repository 1&1 Internet AG 2012 61

FUNDI: Swahili für Der fleißige Handwerker FUNDI File-Registration Register File & Metadata Distributed or local File System File Registration Functional Dependency Integrator Search for matching files Data Files 1&1 Internet AG 2012 62

FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Run get Jar/PIG Metadata Input-Filenames Register Output-Files & Metadata Hadoop-Cluster Inp. Data Files Run Job(name) Functional Dependency Integrator Start MR Job Outp Data Files 1&1 Internet AG 2012 63

FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Ketten (Das EVA-Prinzip) Metadata for Job-Rung, Inp.-Files, Outp.-Files E V A Named-Input Fundi-JOB A Named-Output Fundi-JOB B Configuration e.g. Path, Filenames, Jar/PIG-Script, Settings 1&1 Internet AG 2012 64

1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Es geht auch ohne Skript-Wüste und cron-jobs! 1&1 Internet AG 2012 65

Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG 2012 66

Langer Rede kurzer Sinn: Die Aufgabe Hadoop verlangt ein neues Denken in allen IT- Bereichen: Operations, Entwicklung, QS, Binde alle Stakeholder möglichst früh in deine Planung ein! Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden! Identifiziere dein Pilotprojekt! Bleibe nicht zu lange im Spielbetrieb, evaluiere gegen echte Anforderungen! 1&1 Internet AG 2012 67

Langer Rede kurzer Sinn: Die Belohnung Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme! 1&1 Internet AG 2012 68

Langer Rede kurzer Sinn: Der Beweis Massendatenverarbeitung ist bei 1&1 für Web-Analytics, Logfile-Verarbeitung und Datawarehousing mit Hadoop messbar performanter, kostengünstiger, skalierbarer, flexibler und zukunftsfähiger geworden! 1&1 Internet AG 2012 69

Vielen Dank für Ihre Aufmerksamkeit Zeit für Fragen