Stefan Igel inovex GmbH. Hadoop in modern BI-Infrastrukturen

Ähnliche Dokumente

Big Data: Hadoop im Unternehmenseinsatz bei. TDWI Roundtable Frankfurt, Patrick Thoma, inovex GmbH

Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle Data Integrator Ein Überblick

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte. Best Practices aus unseren Projekten. Dr. Stefan Igel Karlsruhe,

Problemstellung. Keine Chance! Ich brauche eine genaue Spezifikation und dann vielleicht in 3-4 Wochen können Sie einen erstes Beispiel haben!

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation

BUSINESS INTELLIGENCE (BI) MIT PENTAHO. Schneller, höher, weiter!

Zeitlich abhängig von OWB?

Oracle Big Data Discovery Ein Überblick

Microsoft Azure Deutschland ist jetzt verfügbar -

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

ORACLE CLOUD VERLEIHT ADF ANWENDUNGEN FLÜGEL. Andreas Koop CEO & Consultant Oracle Technologies

Welche BI-Architektur braucht Ihr Reporting?

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Entwicklung und Deployment. Stefan Raabe DOAG Konferenz

Oracle XML Publisher

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

Immer in Bewegung bleiben Oracle Managed File Transfer

Big Data in der Praxis

SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database

Modellierung agiler Data Warehouses mit Data Vault Dani Schnider, Trivadis AG DOAG Konferenz 2015

OXO³ technische Aspekte der Oracle EMEA internen BI Implementierung

IT-Symposium Storage Area Management. Management von Applikationen, SAN und Terrabyte-Speichersystemen am praktischen Beispiel

Office 365 Dynamics 365 Azure Cortana Intelligence. Enterprise Mobility + Security Operations Mgmt. + Security

PRODATIS CONSULTING AG. Folie 1

CALUMMA ETL Tool Benutzerhandbuch

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Platform as a Service (PaaS) & Containerization

Step 0: Bestehende Analyse-Plattform

simply sophisticated Integration von SAP und Non SAP Lösungen Marktüberblick, Techniken, Möglichkeiten & Probleme

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

BIG UNIVERSITÄTSRECHENZENTRUM

Best Practices: BI mit Open-Source-Tools

Agenda. Boris Plaumann. Alena Fojtík. Alena Fojtík Boris Plaumann. Smart. Big. Data. Analytics. Science. Analytics im Day-2-Day Business

i2b2 Wizard Installation

Big Data: Apache Hadoop Grundlagen

FlexFrame for Oracle. Torsten Schlautmann OPITZ CONSULTING Gummersbach GmbH

BUSINESS INTELLIGENCE IM MITTELSTAND EIN PRAXISBERICHT

Big Data im Retail-Sektor am Beispiel Kassenbondaten

Aufbau einer komplett automatischen Business Intelligence-Umgebung

Raber+Märcker Techno Summit 2014 Microsoft Dynamics NAV 2013 R2 Überblick und Hintergründe zu aktuellen Version.

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte. Best Practices aus unseren Projekten. Dr. Stefan Igel Mainz,

Lizenzierung von ODI. Oracle Lizenzierung. Michael Paege, Director License Management Consulting. Lizenzierung ODI, DOAG Data Integration Day 2015

Open Source Data Center Virtualisierung mit OpenNebula CeBIT Bernd Erk

Oracle System Application Management in a Nutshell

Open Source Data Center Virtualisierung mit OpenNebula LinuxTag Berlin. Bernd Erk

Suchen allein ist nicht genug!

consulting Ventum Consulting Hadoop im Unternehmenseinsatz, aber sicher Nürnberg, November 2015 Results, no excuses.

Übersicht Streams nach Liste Produkte/Themen

S T O R A G E - LÖ S U N G E N

IDRT: Unlocking Research Data Sources with ETL for use in a Structured Research Database

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Unsere Vorträge auf der DOAG 2015

Rapid Deployment von OS, Virtualisierung und Applikation

Rapid Deployment mit JomaSoft VDCF

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Carrier Integration. Wie binden Sie eigentlich Ihre Transportdienstleister in Ihre Prozesse ein?

Portal for ArcGIS Konzepte und Deployment

Exalytics - Deep dive with OBIEE, Timesten and Essbase

DWH Automation - Steigerung von Qualität, Effektivität und Transparenz in der DWH Implementierung und dem Betrieb. Referent: Raphael Henneke

On-premise owncloud für die Mitarbeiter der Deutschen Bahn - mit "DB Box" flexibel und sicher Dateien austauschen -

Charakteristika von Unternehmensanwendungen

Solaris Cluster. Dipl. Inform. Torsten Kasch Bielefeld.DE> 8. Januar 2008

BESSER WERDEN DURCH ERSE

Isabel Arnold CICS Technical Sales Germany z/os Explorer IBM Corporation

Kennzahlen und Datenlogistik

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Erfolgsfaktor 1 beim Aufbau von DWH. Erik Purwins Unit Manager Business Intelligence

ITGAIN Fach- und Technikspezialist

BI around the world - Globale Reporting Lösungen bei Continental Automotive

Best of Show on Tour März bis 06. April 2017

SAP Analytics für KMU. Oktober 2017

Big Data und Oracle bringen die Logistik in Bewegung

Mit Excel Know-how webbasierte BI- Applikationen erstellen #MobileBI Business Driven Intelligence

Marktübersicht: kostenlose BI-Tools Überblick Open Source Werkzeuge und Praxisbeispiele

Powershell DSC Oliver Ryf

Das perfekte Rechenzentrum mit PernixData Architect & FVP

Avalon Anwendertreffen 2016

SharePoint 2016 was kommt auf uns zu? SharePoint & Office 365 Community Zentralschweiz

In 30 Minuten zur BI-Lösung in der Cloud Aufbau einer BI-Infrastruktur & Entwicklung von Reports Live. Referent: Patrick Eisner & Ronja Schermer

Scrum für Business Intelligence Projekte erfolgreich nutzen. Es begrüßt Sie Thomas Löchte

A central repository for gridded data in the MeteoSwiss Data Warehouse

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Data Warehouse schnell gemacht Performanceaspekte im Oracle DWH

Analytik Mittels R als übergreifende Plattform

Transkript:

Stefan Igel inovex GmbH Hadoop in modern BI-Infrastrukturen

BI-Plattform Access Standard Reporting Information Lifecycle Management Adhoc Queries /MB (SYNAPSE) << /MB (DWH) (Mass) Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) Value: DWH als Langzeit-Archiv für Informationen Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer Volume: Hadoop als Kurzzeit-Archiv für Massendaten BI Source Systems Source Data WI Gateway Fileserver Replicated Source Data 51

Speichern: Gerne aber wie lange? Auch 500 TByte sind irgendwann einmal voll! IL separat für jede Verarbeitungsebene Je wertvoller die Daten, desto länger die Lebensdauer Bei >>100.000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.) System Ebene Begründung Aufbewahrung Fileserver Import Nachladen 5 Tage Export Fachliche Anforderung 40 Tage SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage Integration Fachliche Anforderung 15-90 Tage Aggregate Nachladen 5 Tage DWH Acquisition Nachberechnen 30 Tage Integration Fachliche Anforderung 0,5-10 Jahre Reporting Fachliche Anforderung 0,5-10 Jahre 52

Mehrparteien- Betrieb Wer darf wann? Hadoop Job Scheduler Gleichmäßige Lastverteilung über die Zeit nach Prioritäten Verschiedene Anwendungen können konkurrierend betrieben werden Ermöglicht Adhoc-Queries mit definierten Ressourcen Mechanismus Default Capacity Fair Vergeben von Prioritäten pro Job Job-Queues mit festgelegten Prioritäten Funktionsfähig Ja Ja Ja Clusterauslastung Ja Nein Ja Gefahr von Starvation Ja Nein Nein Job-Queues und Pools mit Gewichten 53

Mehrparteien- Betrieb Wer darf überhaupt? Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories Hadoop hat keine eigene Benutzer-Authentifizierung Hadoop übernimmt user name (whoami) und group name (bash -c groups) vom aufrufenden Client-Prozess Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder Überschreiben fremder Dateien. Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein Geeignetes Konzept für Tool -User oder Application Manager / Data Scientists This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion. http://hadoop.apache.org/common/docs/r0.20.2/hdfs_permissions_guide.html 54

Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, weniger kann mehr sein! Die Algorithmen bestimmen die Effizienz! Sorge für geordnete Verhältnisse im Cluster! 55

Agenda BI meets BIG DATA Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 56

BI-Plattform Prozess-Steuerung Access Standard Reporting Adhoc Queries (Mass) Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) ETL im DWH Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer Integration MR-Jobs in Hadoop BI Source Systems Source Data WI Gateway Fileserver Replicated Source Data 57

Prozess-Steuerung Anforderungen Steuerung von ETL-Prozessen im Batch-Mode Steuerung Datei-basierter Datenflüsse Verteilung der ETL-Algorithmen auf dem Cluster Integration in übergreifende Prozessketten Unterstützung des Information Lifecycle Managements (Housekeeping) Nachvollziehbarkeit von Ladeprozessen Fehler-Toleranz durch Wiederaufsetzbarkeit Technisches und fachliches Monitoring 58

Steuerung Azkaban (LinkedIn) PRO CONTRA Workflows können graphisch dargestellt und gedrilled werden Einfache Handhabung (Komplexes wird in Scripts ausgelagert) Startet Hadoop-Jobs und Anderes einfach als Unix-Prozesse Minimaler Funktionsumfang Keine Rechte und Zugriffs-Verwaltung Jobausführung nur Zeit-basiert Keine Redundanz (Azkaban-Server wird zum SPOF) Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed 59

Steuerung Oozie (Yahoo!) PRO CONTRA Enge Integration mit Hadoop und M/R Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc. Webservice- und Java-API Zeit- und Ereignis-basierte Job- Ausführung WEB-Konsole ist Read-Only, keine graphische Aufbereitung von Abhängigkeiten Ressoucen (.jar files, pig scripts) müssen manuell vor der Jobausführung auf dem HDFS deployed werden Müsste um File-Registierung erweitert werden 60

BI-Plattform Steuerung Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein! Das richtige Werkzeug für die jeweilige Aufgabe: GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung) FUNDI = Eigenentwicklung verlängerter Arm für Hadoop-Anbindung 61

Das richtige Werkzeug für die jeweilige Aufgabe PDI (http://kettle.pentaho.com/) ETL-Jobs im DWH HDFS-Zugriff delegiert an Pentaho Kettle delegiert an FUNDI GEPPI = Workflow-Engine Übergreifende-Steuerung Functional Dependency Integrator Hadoop Job-Ausführung Data-Repository 62

FUNDI Swahili für... Der fleißige Handwerker FUNDI File-Registration Register File & Metadata File Registration Functional Dependency Integrator Search for matching files Data Files 63

FUNDI Swahili für... Der fleißige Handwerker FUNDI Job-Run get Jar/PIG Metadata Input-Filenames Register Output-Files & Metadata Inp. Data Files Run Job(name) Functional Dependency Integrator Start MR Job Outp Data Files 64

FUNDI Swahili für... Der fleißige Handwerker FUNDI Housekeeping Check Config & Metadata Housekeeping Functional Dependency Integrator Remove matching files Data Files 65

FUNDI Swahili für... Der fleißige Handwerker Fundi Job-Ketten (Das EVA-Prinzip) Metadata for Job-Run, Inp.-Files, Outp.-Files E V A Named-Input Named-Output Configuration e.g. Path, Filenames, Jar/PIG-Script, Settings 66

Monitoring mit Ganglia 01.07.2012 02:00 Uhr 67

Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, weniger kann mehr sein! Die Algorithmen bestimmen die Effizienz! Sorge für geordnete Verhältnisse im Cluster! Es geht auch ohne Skript-Wüste und cron-jobs! 68

Agenda BI meets BIG DATA Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 69

Lange Rede kurzer Sinn: Die Aufgabe ist BIG! Hadoop verlangt ein neues Denken in allen IT-Bereichen: Operations, Entwicklung, QS, Binde alle Stakeholder möglichst früh in deine Planung ein! Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden! Reduziere Komplexität, wo möglich, es bleibt herausfordernd genug! Identifiziere dein Pilotprojekt! Bleibe nicht zu lange im Spielbetrieb, evaluiere gegen echte Anforderungen! 70

Die Belohnung: Hadoop beeindruckt! Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme! http://www.flickr.com/photos/xrm0/184379507/ 71

Der Nutzen Hadoop beeindruckt Massendatenverarbeitung bei 1&1 ist für Web- und Media-Analytics, Logfile-Verarbeitung und Datawarehousing mit Hadoop messbar performanter, kostengünstiger, skalierbarer, flexibler, und zukunftsfähiger. Vielen Dank! 72

Vielen Dank für eure Aufmerksamkeit 73

Aufgabenverteilung Aggregationen alle 6 Stunden >15000 Files/Tag ~ 3TB 74