Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Ähnliche Dokumente
Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Einführung in Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Apache Software Foundation

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Big Data Informationen neu gelebt

PostgreSQL in großen Installationen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Hadoop-as-a-Service (HDaaS)

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Big Data Mythen und Fakten

Open Source als de-facto Standard bei Swisscom Cloud Services

EHCache und Terracotta. Jochen Wiedmann, Software AG

Dokumentenorientierte Datenbanken - MongoDB

Überblick und Vergleich von NoSQL. Datenbanksystemen

Neue Ansätze der Softwarequalitätssicherung

MapReduce in der Praxis

ETL in den Zeiten von Big Data

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: ADACOR Hosting GmbH

Managed Cloud Services

Dateisysteme und Datenverwaltung in der Cloud

Big Data Management Thema 14: Cassandra

Continuous Database Integration mit Flyway

BigTable Else

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

MapReduce. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

FileLock FLEXIBLE SKALIERBARE KOSTENEFFIZIENTE HARDWARE- UNABHÄNGIGE LÖSUNGEN ZUR LANG-ZEIT DATENARCHIVIERUNG YOUR DATA.

HDFS als schneller und günstiger Storage?

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

5. Programmierschnittstellen für XML

Das Beste aus zwei Welten

5. Programmierschnittstellen für XML

Möglichkeiten für bestehende Systeme

Solaris Cluster. Dipl. Inform. Torsten Kasch Bielefeld.DE> 8. Januar 2008

Hadoop. Simon Prewo. Simon Prewo

Oracle Big Data Technologien Ein Überblick

Big Data in der Praxis

HA Architekturen mit MySQL

Wonderware InTouch 11.0 Wonderware InTouch 2014

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller

!"#$"%&'()*$+()',!-+.'/',

Einführung in CouchDB

Open Source. Hendrik Ebbers 2015

Big Data in der Forschung

CentricStor FS. Scale out File Services

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek.


Interoperabilität mit Office-Anwendungen (1)

vinsight BIG DATA Solution

Prof. Dr.-Ing. Rainer Schmidt 1

Webseiten-Bericht für bibekkumarshrestha.com.np

TimeMachine. Installation und Konfiguration. Version 1.4. Stand Dokument: installcentos.odt

Open Source in der Cloud

Zentrale Steuerkonsole sämtlicher NetKey Tools. Zentrale gescannte Hardware-Informationen. Übersichtliches Software-Inventar über alle PCs

R.I.P Oracle-Datenbank. ggg

Kooperativer Speicher: Schwächen und Gegenmaßnahmen

PV-S1600 Betriebssystem-Aktualisierungsvorgang. Sie müssen die beiden folgenden Schritte ausführen,

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Microsoft SharePoint 2013 Vorteile und Neuheiten. Fachseminar Microsoft SharePoint 2013

Konsistenzproblematik bei der Cloud-Datenspeicherung

Installation / Update Advantage Database Server. Die Software Hausverwaltung

inphonation macht aus jedem Mobilgerät eine kleine Informationszentrale.

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

TinyMCE. Frederik Leidloff

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Albert Dengg. Graz,

melange.com

Copyright & Copyriot

ALM mit Visual Studio Online. Philip Gossweiler Noser Engineering AG

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Wörterbücher von MS nach Ooo konvertieren

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce?

Freie Software: Was bringt s mir? Peter Bubestinger, David Ayers. 17. Mai 2008

inphonation macht aus jedem Mobilgerät eine kleine Informationszentrale.

Gliederung Erkennung anhand des Absenders. Methoden zur Filterung und Blockung. Alexandru Garnet

WINDOWS AZURE IM ÜBERBLICK GANZ NEUE MÖGLICHKEITEN

. Sage-Einsatz in der Lehre. Open Source Mathematik-Software. Jochen Schulz. Georg-August Universität Göttingen 1/15

Torsten Flatter inovex GmbH. "Git.NET" gibt's nicht?

Auf dem Weg in das postrelationale Zeitalter

Umbenennen eines NetWorker 7.x Servers (UNIX/ Linux)

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale

Sichere Einbindung von Open Source in kommerzielle Projekte

WebReplicator WebReplicator Features. Net Server

Wide Column Stores. Felix Bruckner Mannheim,

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

EMC. Data Lake Foundation

Übersicht. Eclipse Foundation. Eclipse Plugins & Projects. Eclipse Ganymede Simultaneous Release. Web Tools Platform Projekt. WSDL Editor.

SEMINAR Modifikation für die Nutzung des Community Builders

Oracle Big Data Technologien Ein Überblick

OSS & Cloud Computing: der Motor für das Geoportal Bund

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

Transkript:

Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache The Apache Software Foundation Community und Code Apache Software License Free + Open + Source Mission: Software free of charge problemlos in Closed Source verwendbar

Referent unabhängiger Software Architekt, Frankfurt Member The Apache Software Foundation aktiv in Apache James Apache Labs (PMC Chair) Vysper: XMPP Server

Inhalt Übersicht Hadoop Distributed Computing Architektur Verteiltes File System: HFS Verteilte Datenbank: HBase Verteilte Programme: Map/Reduce Das Hadoop Umfeld

Hadoop Produkte Hadoop HFS Hadoop HBase MapReduce Zookeeper Pig Distributed File System Distributed Database Distributed Data Processing Coordinate Distributed Processes Data Analysis Language

Warum Hadoop? Verbessert... Skalierbarkeit (Datenmenge) Durchsatz ( Throughput ) Reliability: Design-for-failure...durch Einsatz von COTS Hardware Trade-offs: Latency, Consistency

klassisch: 3-tier

3-tier Eigenschaften Daten skalieren...gigabyte Relationale DB: Dutzende Spalten Millionen von Zeilen Redundante Daten sind nicht live Skalierbarkeit sehr begrenzt mehrere single points of failure

Distributed Computing

Hadoop Eigenschaften Daten skalieren... Terabyte Distributed DB: Millionen von Spalten Milliarden von Zeilen Redundante Daten sind alle zugreifbar Skalierbarkeit auf 10.000+ DataNodes DataNode = Fail-over, NameNode = SPF

Distributed Write Name Node Replication Control 3. Replication Coordination NYC 4a. Replicate 1. Coordinate Write Zürich Client 4b. Replicate 2. Initial Write

HFS Vorbild: Google File System verteiltes FS Software-FS, benutzt die File Systeme der Betriebssysteme (Linux) R/W: Client greift direkt auf DataNode zu FS regelt Verteilung & fail-over

HBase Vorbild: Google s BigTable basiert auf HFS Jede Zelle ist versioniert schwach besetzte Matrix schema-frei & keine Fremdschlüssel Zeilen sind geordnet, über definierten Key Jede Spalte gehört zu einer ColumnFamily

RDB: Storing Mail key h_from h_to body type read prio M1 info@ openexpo.ch berndf@ apache.org Hi! text 08.9.1. 08:24 2 M2 spam@ spammer.de berndf@ apache.org <a href= scam.html > Buy me!</a> html 08.9.1. 00:00-1

HBase: Storing Mail key M1 time stamp t3 header: body: tag: from to text html read prio info@ openexpo.ch berndf@ apache.org Hi! <b>hi!</b> M2 t4 spam@ spammer.de berndf@ apache.org <a href= scam.html > Buy me!</a> Yes M1 t5 08.9.1. 08:24 1 M1 t6 2

Map/Reduce Vorbild: Google s Map/Reduce Paper führt Programme auf Hadoop aus Code & Daten nah beieinander verteilt/parallelisiert Daten und Code

Map DataNode Code Data Big Problem DataNode Code Data Code Many Data DataNode Code Data DataNode Code Data

Reduce DataNode Partial Result DataNode Partial Result Big Problem DataNode Partial Result Result DataNode Partial Result

Map/Reduce Anwendungen Aggregationen über viele Daten Zähle für jede Webseite, wieviele andere Seiten auf sie verweisen! Monte-Carlo-Simulation Invertieren großer Matrizen siehe Apache Mahout!

Map/Reduce: Link-Zähler Map Job1 Sites for openexpo.ch 2 [a-g].ch apache.org 1 Map Job 2 [h-l].ch openexpo.ch 1 Map Job 3 [m-z].ch openexpo.ch 1 Reduce openexpo.ch 4 apache.org 1

Manage Map/Reduce TaskTracker Startet und überwacht Nodes Koordiniert Übergang von Map zu Reduce Einzeltask Fail-over: auf Ersatz-Nodes

verwandte Apache Produkte Apache Nutch Apache Mahout Hama (Incubator) Internetcrawler Maschinenlernen Matrizenoperationen CouchDB (Incubator) Distributed DB (Erlang)

Links http://apache.org http://hadoop.apache.org http://incubator.apache.org/pig http://lucene.apache.org/mahout http://incubator.apache.org/hama http://labs.apache.org/ http://labs.google.com/papers/gfs.html http://labs.google.com/papers/bigtable.html

Vielen Dank! Besuchen Sie uns auf dem ASF Stand! Fragen und Antworten Do you believe in the Users? Behind the Scenes of the ASF Ceki Gülcü Taming content repositories with Sling Brian Fitzpatrick Do 10:10 Lars Eilebrecht Do 13:10 SLF4j and logback projects Do 13:50 Bertrand Delacrétaz Do 15:10