Zoo voller Gehege Uwe Seiler

Größe: px
Ab Seite anzeigen:

Download "Zoo voller Gehege Uwe Seiler"

Transkript

1 HADOOP ÖKOSYSTEM Die wichtigsten Projekte der Hadoop-Community Zoo voller Gehege Uwe Seiler Was mit einem kleinen gelben Stoff - elefanten als Namensgeber und Inspiration für das Logo begann, hat sich zu einem zunehmend größer werdenden Zoo entwickelt. Zeit für einen Rundgang durch den Hadoop-Tiergarten, um seine derzeit wichtigsten Bewohner kennen - zulernen. Rund um das Hadoop-Projekt hat sich eine Vielzahl von Projekten gebildet, die Ergänzungen und/oder Erweiterungen für das Framework zur Verfügung stellen. Sie helfen in der Entwicklung und im Betrieb beim Umgang mit großen Datenmengen. Ein Überblick über das Hadoop-Ökosystem und einige seiner wichtigsten Tools. Gehege 1: Die Unverzichtbaren Wie in jedem guten Zoo gibt es auch im Hadoop-Ökosystem Bewohner, die von Anfang an dabei waren. Im Hadoop-Zoo erwartet den Besucher daher gleich am Eingang das Gehege mit dem verteilten und fehlertoleranten Dateisystem (Hadoop Distributed File System), das beliebige Daten frisst, sie zur parallelen Verarbeitung in praktische kleine Blöcke unterteilt und dabei wie ein Elefant nichts vergisst. Diese grundsätzlichen Eigenschaften der Schemafreiheit beim Speichern, der Unterteilung der Daten in Blöcke und der Fehlertoleranz dieser Blöcke durch Replikation machen zur Grundlage des Ökosystems und sorgen dafür, dass viele andere Bewohner darauf aufbauen oder in enger Freundschaft dazu stehen. Damit die Kommunikation mit artfremden Tierarten erleichtert wird, bringt mit Web seine eigene REST-Schnittstelle mit. Direkt daneben und eng damit verdrahtet steht (Yet Another Resource Negotiator), der dafür zuständig ist, die Ressourcen im Cluster auf alle Bewohner zu verteilen. Dazu werden die Ressourcen in Container mit unterschiedlich zugewiesenem RAM sowie (virtuellen) CPUs unterteilt, in deren Grenze dann die jeweiligen Tierchen auf der JVM ihre Arbeit verrichten können. Dabei ist wie ein Löwe der König über diese Container, und jeder Untertan im Reich wird zum Bittsteller und kann seinen Bedarf anmelden. Abwägend zwischen der Lastsituation im Cluster und den vorliegenden Anforderungen sind dann Schlauheit und Güte des Königs gefragt, um verbleibende Ressourcen und Wartezeiten gerecht zu verteilen. Glücklicherweise hat mit dem Capacity- und Fair Scheduler zwei unterschiedliche, jeweils auf unterschiedliche Ziele konfigurierbare Strategien entwickelt, mit denen er all seinen Untertanen und ihren Anforderungen gerecht werden kann. Wirklich allen Untertanen? Hier ist den Zoowärtern im Laufe der Zeit aufgefallen, dass die Festlegung der Container-Größe direkt zum Startpunkt einer -Applikation zwar für Applikationen mit einem Endzeitpunkt in naher Zukunft funktioniert, allerdings nicht ideal für langlaufende Applikationen ist. Denn HBase oder Storm sind im Idealfall wochen- oder monatelang in Betrieb, haben während dieser Zeit aber ihrerseits wechselnde Anforderungen. Daher wurde mit Apache Slider noch eine schlichte Applikation zur Seite gestellt, die es ermöglicht, die Ressourcen darauf aufbauender -Apps dynamisch zur Laufzeit zu ändern. Gehege 2: Die Schattentiere Unmittelbar neben diesen unbestrittenen Stars des Zoos mögen die Bewohner des angrenzenden Geheges zwar im Schatten dieser beiden stehen, sind aber trotzdem für den Zusammenhalt des Ökosystems unabdingbar. Apache ZooKeeper ist ein verteilter Koordinationsservice, der mit seiner eigenen API im Kern ein minimales, verteiltes Dateisystem ist. Mit ZooKeeper können die anderen Bewohner des Ökosystems alle Probleme adressieren, die mit ihrer eigenen verteilten Natur einhergehen. Dazu können sie Aufgaben wie verteilte Queues, verteilte Locks oder 36 ix Developer 2015 Big Data

2 Leader Election auf die zuverlässigen Schultern von ZooKeeper auslagern. So benutzen etwa und im Hochverfügbarkeitsmodus (implementiert im Active-Passive-Pattern) Zoo- Keeper zur Auswahl des aktiven Knoten, zur Überwachung der beiden Knoten und zum unterbrechungsfreien Schwenk im Fehlerfall. Damit bei diesen Aufgaben und Abhängigkeiten Zoo- Keeper nicht zum Engpass wird, rottet es sich zu Rudeln mit ungerader Teilnehmerzahl (meist 3 oder 5) zusammen. Der Quorum Journal Manager ist ein Hilfsdienst für und seinerseits ein Mini-Cluster im Cluster. Er erlaubt es, im Hochverfügbarkeitsmodus die Journaldatei mit den letzten Dateisystemtransaktionen persistent und im gleichzeitigen Zugriff abzulegen, sodass im Fehlerfall der Schwenk auf den bisher passiven Knoten ohne merklichen Zeitverlust gegeben ist. Dabei erfordert dieser Service keine dedizierte Hardware, aber für sein Quorum eine ungerade Teilnehmerzahl. Der Timeline Server ist die nächste Evolutionsstufe des Job History Server, der bisher Log-Informationen lediglich auf Basis einzelner -Jobs sammelt. Es fehlte aber ein einheitlicher Mechanismus für -Applikationen zum Sammeln ihrer eigenen applikationsspezifischen Log-Informationen. Diese Lücke füllt der Timeline Server, indem er dafür entsprechende Schnittstellen zur Verfügung stellt, die derzeit Applikationen wie Tez und zukünftig immer mehr -Apps wie MapReduce oder Spark nutzen. Gleich ist bei beiden der Ansatz, die verteilten Log-Informationen in zentraler Weise in abzulegen, um damit die Fehlersuche und das Debugging zu vereinfachen. Gehege 3: Die Arbeitstiere Weiter geht der Spaziergang zum Prunkstück des Zoos: dem Gehege mit den Arbeitstieren. Diese verarbeiten fleißig wie Bienen die in gespeicherten Daten und teilen sich die dazu benötigten Ressourcen via. Im ältesten Bereich des Zoos findet sich mit MapReduce ein verteiltes System zur parallelen Datenverarbeitung. Es geht dabei nach dem Divideand-Conquer-Prinzip vor und operiert auf Ebene von - Hadoop 1 Hadoop 2 MapReduce Cluster-Ressourcen- Management und Data Processing Redundanter, zuverlässiger Storage MapReduce Data Processing Der architektonische Wandel zu Hadoop 2 (Abb.ˇ1) andere Data Processing Cluster-Ressourcen- Management Redundanter, zuverlässiger Storage Blöcken, die abhängig vom Datentyp mit programmierbaren Input-Formaten zuerst weiter in Key-Value-Paare zerlegt werden. In der Map-Phase werden diese parallel und nach Möglichkeit lokal gemäß der vom Benutzer programmierten Logik verarbeitet. In der nachfolgenden Shuffle-/Sort-Phase werden die in der Map-Phase generierten Key-Value-Paare über das Netzwerk im Cluster neu auf die Reducer verteilt, die diese im finalen Schritt zum globalen Ergebnis zusammenfassen und in speichern. Lange Zeit musste MapReduce die gesamte Arbeitslast im Cluster allein schultern und ist dabei auch heute noch auf die geringe Anzahl an Bausteinen und deren feste Reihenfolge beschränkt. Das hat zur Folge, dass für komplexe Berechnungen aufwendige Aneinanderreihungen einzelner MapReduce-Jobs notwendig werden. Zudem kommt aus Performancesicht erschwerend hinzu, dass der Datenaustausch zwischen den Jobs lediglich über den kostspieligen Weg der Zwischenspeicherung auf Festplatte möglich ist. Damit ist MapReduce in der Welt der Batch-Verarbeitung gefangen, womit man die jüngere Generation der Zoo-Besucher heute nicht mehr begeistern kann. Daher hat die Gemeinde der Zoowärter mit dem Apache-Projekt Apache Tez (Hindi für Geschwindigkeit) eine Alternative Cluster Management GUI Ambari Ganglia Nagios Web GUI Hue Cluster Monitoring Data Ingestion Sqoop Flume Kafka NFS Gateway Falcon Oozie Drill Impala DataFu Data Processing Machine Learning Pig Mahout MapReduce Hive HCatalog Tez Streaming MLlib Spark Execution Engines In-Memory Processing Cluster Resource Management Stream Processing Graph Processing In-Memory Streaming NoSQL Stores Data Search Phoenix HBase Accumolo Slider Dynamic Resource Management Storm Giraph Flink Solr Elasticsearch Knox Ranger Sentry Web Data Storage Data Governance Workflow Management Timeline Server Quorum Journal Manager ZooKeeper Cluster Support Services Data Security Ein Überblick über die wichtigsten Bewohner des Hadoop-Zoos im Frühjahr 2015ˇ(Abb. 2) ix Developer 2015 Big Data 37

3 HADOOP ÖKOSYSTEM zu MapReduce ins Leben gerufen, die die Datenverarbeitung weg von der Batch-Verarbeitung in den interaktiven Bereich beschleunigt. Im Kern ist Tez wie MapReduce eine Execution Engine, die einen gerichteten azyklischen Graph (DAG) zur Beschreibung eines Datenflusses und zur Verarbeitung ebendieser aufbaut. Allerdings abstrahiert und erweitert Tez die Konzepte aus MapReduce und baut auf einem flexiblen Input-Prozessor- Output-Modell zur Datenverarbeitung auf. Damit lassen sich auch Mapper und Reducer abbilden, jedoch ermöglicht das Modell eine Vielzahl weiterer Bausteine. Zudem lassen sich diese freier miteinander kombinieren, sodass man etwa mehrere Reducer direkt aneinanderreihen kann. Kombiniert man dieses Basismodell mit der Möglichkeit, den Datenaustausch zwischen den Bausteinen zu steuern, und dem programmierbaren Einfluss auf die Persistenz der (temporären) Daten der einzelnen Bausteine, entsteht insgesamt ein reichhaltiger Baukasten zum Aufbau von Ausführungsgraphen. Zudem bietet Tez die Möglichkeit, die Graphen unter Einbeziehung verschiedener Faktoren wie Datengröße, Datenlokalität oder Cluster-Auslastung dynamisch zur Laufzeit zu konfigurieren. Weiterhin kann der Tez Service die Bausteine der Graphen in bereits vorgewärmten JVMs ausführen ein ähnliches Konzept wie Connection Pools bei Datenbanken. Insgesamt ist Tez dadurch in der Lage, intelligentere Ausführungsgraphen aufzubauen und die Verarbeitung großer Datenmengen im Vergleich zu MapReduce deutlich zu beschleunigen. Eine der neuesten Attraktionen im Hadoop-Zoo und unbestritten der derzeitige Publikumsliebling ist Apache Spark, eine parallele Execution Engine, die stark auf In-Memory-Verarbeitung setzt. Dabei ist Spark zuerst in freier Wildbahn im Rahmen eines Projekts der Universität Berkley gewachsen, wurde nun aber gezähmt und lässt sich durch die Portierung auf auch direkt in den Hadoop-Zoo integrieren. Zurzeit baut die Gemeinde der Zoowärter im Rahmen von Phaseˇ2 der Initiative Stinger.next sogar an einem Gehege in derselben Reihe zu MapReduce und Tez. Dadurch wird Spark zum dritten bedeutenden Arbeitstier im Hadoop-Ökosystem und lässt sich innerhalb von Frameworks wie Pig, Hive oder Mahout als alternative Execution Engine verwenden. Damit aber genug zu Spark. Der Artikel auf Seite 46 geht noch einmal gesondert auf die Technik ein. Gehege 4: Die Symbionten In unmittelbarer Nähe zu den Arbeitstieren steht das Gehege der Symbionten, die sich für die Verarbeitung der Daten auf eines oder mehrere der Arbeitstiere verlassen. Dafür bringen sie aber Hadoop 2 Pig Hive Mahout MapReduce Tez Spark Slider Flink Giraph Storm Die Arbeitstiere und ihre Verwandten im Überblickˇ(Abb.ˇ3) Solr mit jeweils eigener Syntax eine zusätzliche Abstraktionsebene mit, die es dem Zoobesucher erlaubt, sich auf die wesentlichen Aspekte der Datenverarbeitung zu konzentrieren. Der erste Bewohner in diesem Gehege war Apache Pig (der Name ist wörtlich gemeint, da Pig wie ein Schwein fast alles frisst in diesem Fall Daten). Es handelt sich um ein Framework zum Laden, Transformieren und Verarbeiten von Daten, das von Anfang an eine Symbiose mit MapReduce eingegangen ist. Pig bringt in die Partnerschaft Pig Latin ein, eine High-Level-Sprache zur Beschreibung von Datenflüssen, sowie den zugehörigen Compiler, der Pig Latin in einen entsprechenden MapReduce-Ausführungsplan übersetzt. Seit der Version 0.14 unterstützt Pig auch Tez als Execution Engine. Durch die Abstraktion kann sich der Anwender auf den Datenfluss konzentrieren und muss im Vergleich zu MapRe - duce mit Java deutlicher weniger Zeilen meist monotonen Programmcode schreiben. Gleichzeitig gibt man durch die Abstraktion allerdings einige Freiheiten auf und kann nicht mehr auf jedes Detail der Verarbeitung Einfluss nehmen. Aber häufig muss man das gar nicht, und daher erfreut sich Pig großer Popularität unter Hadoop-Entwicklern, die Pig Latin mit seiner skriptähnlichen Syntax schnell erlernen und zudem auf eine Vielzahl Pig-Bibliotheken zugreifen können. Diese enthalten User-Defined Functions (UDF), die sich direkt in Pig-Skripte einbinden lassen und verbreitete Algorithmen und Hilfsfunktionen für Datenprobleme bereithalten. Die bekannteste und umfangreichste Sammlung an UDFs heißt DataFu und enthält Funktionen aus den Bereichen Statistik, Schätzung, Mengenoperationen, Stichprobenverfahren, Linkanalyse sowie einigen weiteren Bereichen. Der zweite Bewohner in diesem Gehege ist mit Apache Hive (Hive bringt Ordnung in Hadoop analog zu einem Bienenstock ein SQL-on-Hadoop-Framework. Es kann sowohl auf MapReduce und Tez als auch bald auf Spark (wird bis Mitte 2015 im Rahmen der Initiative Stinger.next implementiert) zur Verarbeitung seiner Abfragen vertrauen. In die Partnerschaft bringt Hive mit HiveQL eine zu ANSI SQL-92 kompatible Syntax ein, die sich für den Zoobesucher bei der Formulierung von Abfragen wie eine SQL-Datenbank anfühlt mit dem Unterschied, dass Hive-Tabellen auf -Verzeichnisse verweisen, die potenziell Tera- oder Petabyte an verteilt gespeicherten Daten enthalten. Zur Speicherung von Daten stehen in Hive verschiedene Dateiformate wie das bevorzugte ORC (Optimized Row Columnar) oder Parquet zur Verfügung, die einen Teil der Intelligenz direkt ins Dateiformat schieben. Sie stimmen ihre eigene Blockgröße direkt auf -Blöcke ab und halten in den Metadaten pro Datenabschnitt vorberechnete Werte vor, um Abfragen weiter zu beschleunigen. Natürlich benötigt auch Hive eine Übersetzungs- und Ausführungsschicht, die sich um das Erstellen und Optimieren von Ausführungsplänen kümmert. Das funktioniert noch besser, wenn man die Daten vorstrukturiert und etwa in Partitionen oder Buckets unterteilt. Dadurch ist nicht mehr der ganze Datenbereich zu scannen, und auch Joins zwischen Tabellen können intelligentere Algorithmen verwenden. Auf Architekturebene ist Hive anders als Pig nicht nur eine reine Client-Bibliothek, sondern bringt eine eigene Serverkomponente mit. Dadurch ist es möglich, in Hive Autorisierung in Verbindung mit Benutzerverzeichnissen wie LDAP oder Active Directory sowie Authentifizierung bis auf Spaltenebene durchzuführen. Für die persistente Speicherung von Tabellendefi - nitionen vertraut Hive auf eine eigene relationalen Meta- Datenbank. Diese Definitionen werden Pig mit dem früher eigenständigen, nun aber vollständig in Hive integrierten Pro- 38 ix Developer 2015 Big Data

4 jekt Apache HCatalog zur Verfügung gestellt. Somit entfallen redundante Schemadefinitionen, sodass Pig und Hive gut zusammenarbeiten können. Das sieht meist so aus, dass besonders Business-Anwender Hive wegen der SQL-ähnlichen Syntax zur Datenexploration bevorzugen, während Pig eher unter Entwicklern zur Implementierung von ETL-Prozessen und Aggregationen Anwendung findet. Prinzipiell sind die beiden Frameworks im Funktionsumfang aber ähnlich, wobei man derzeit mehr Innovation und Aktivität im Umfeld von Hive beobachten kann. Mit Apache Mahout (Mahout bezeichnet auf Hindi den Führer eines Arbeitselefanten) tummelt sich in diesem Gehege noch ein weiterer Symbiont, der aber in einem stark abgegrenzten Arbeitsumfeld agiert. Es handelt sich um eine Bibliothek aus skalierbaren Machine-Learning-Algorithmen. Diese werden je Implementierung entweder im lokalen Modus oder verteilt mit einer Execution Engine ausgeführt. Hat Mahout hierbei lange Zeit ausschließlich auf MapReduce gebaut, werden derzeit viele Algorithmen auf alternative Execution Engines wie Spark, Flink oder H2O portiert. Im Bereich der Anwendungsfälle unterstützt Mahout im Wesentlichen drei Klassen: zum einen zahlreiche Algorithmen wie User-Based Collaborative Filtering aus dem Bereich Recommendations, die Untersuchungen des bisherigen Benutzerverhaltens vornehmen, mit dem Ziel, dem Benutzer Dinge vorzuschlagen, die ihm zukünftig gefallen könnten. Zum zweiten Algorithmen wie k-means aus dem Bereich des Clustering, die die Zuordnung von Dingen zu Gruppen thematisch ähnlicher Dinge vornehmen, eingesetzt zum Beispiel bei Webshops im Sinne von wird oft zusammen gekauft. Die dritte Klasse von Algorithmen wie Naive Bayes stammt aus dem Bereich Classification, die auf Basis bisherige Klassifizierungen die Merkmale einer Klasse lernen und diese automatisch auf noch nicht klassifizierte Dinge übertragen. Gehege 5: Die Eichhörnchen Im nächsten Gehege leben auf den ersten Blick recht unterschiedliche Bewohner, sie eint aber ihre Hauptaufgabe der Verarbeitung von Daten. Dazu bringen sie anders als die Symbionten ihre eigene Verarbeitungsschicht mit, verlassen sich aber auf zur Ausführung sowie auf zum Speichern. Der erste Vertreter mag zwar dessen Namensgeber sein, aber dennoch ist er ein junger und noch nicht allzu weit verbreiteter Zeitgenosse. Apache Flink ist ein Verarbeitungs-Framework, das 2009 aus dem Stratosphere-Forschungsprojekt der TU Berlin hervorgegangen und Anfang 2015 zum Top-Level-Projekt bei Apache aufgestiegen ist. Konzeptionell ist Flink am ehesten mit Spark zu vergleichen. Es erkennt und optimiert beim Erstellen von Ausführungsgraphen konsequenter zyklische Da - tenflüsse und eignet sich daher für die iterative Verarbeitung von Echtzeit-Datenströmen. Dieser Optimizer ist sicherlich das Prunkstück von Flink, zudem bringt das Projekt aber auch sein eigenes Speichermanagement zur effizienten und schnellen Datenverarbeitung mit. Dieses mappt Datenobjekte transparent auf Memory Pages. Die weitere Verarbeitung basiert auf Binär - daten, wodurch es möglich wird, auf einzelne Datenbereiche direkt zuzugreifen, ohne das komplette Datenobjekt zeitaufwendig zu deserialisieren. Weiterhin bringt Flink ein Set an Bausteinen und Operatoren mit, die dem Endbenutzer über APIs in Java, Python und Scala zum Erstellen von Datenalgorithmen zur Verfügung stehen. Dabei baut auch Flink auf der zuverlässigen Basis von und auf und unterstützt dadurch alle Hadoop-kompatiblen Datenformate. Einen deutlich spezialisierteren Ansatz verfolgt Apache Giraph (die Namensgebung beruht auf der Musterung der Giraffe, die an einen Graph erinnert). Bei Giraph stehen Graphen im Mittelpunkt des Datenmodells und der -verarbeitung, handelt es sich dabei doch um ein iteratives Graph-Framework und eine Open- Source-Implementierung von Googles Pregel. Das Datenmodell für eine Giraph-Berechnung basiert auf Graphen bestehend aus Knoten und gerichteten Kanten. Diese können unterschiedlichste Anwendungsfälle wie soziale Beziehungen, Netzwerk- und Telekommunikationsstrukturen, Empfehlungen oder Identitätsdaten repräsentieren. In diesem Modell lassen sich die Knoten und Kanten mit Werten versehen, und eine Berechnung entspricht dann einer Sequenz iterativer Schritte, in denen jeweils Programmcode auf Knoten und den ausgehenden Kanten ausgeführt wird. Der Datenaustausch zwischen den einzelnen Iterationen geschieht mit Nachrichten, und in jedem Schritt lassen sich die gespeicherten Werte anpassen und Nachrichten an andere Knoten schicken. Auf diese Weise lässt sich in diesem Datenmodell eine Vielzahl komplexer Berechnungen wie der Einfluss verschiedener Faktoren auf die Entscheidungsfindung von Personen intuitiver und performanter als etwa in tabellenorientierten Modellen durchführen. Mit Apache Storm befindet sich in dem Gehege ein weiterer Zeitgenosse, der sich seine eigene Nische gesucht hat die Verarbeitung von Datenströmen in Echtzeit. Anders als die Datentransporter ein paar Gehege weiter bietet Storm aber nicht nur die Möglichkeit, Daten effizient von einer Quelle zu einer Senke zu bewegen, sondern bietet zudem weitreichende Mittel, die Daten auf diesem Weg zu manipulieren. Dazu wird in Storm ein Netzwerk von Aktoren die Topologie aufgebaut. Durch diese fließen Datenströme bestehend aus Tupeln, die ihren Ursprung in Spouts haben. Eine Spout ist eine Abstraktion für eine Datenquelle. Hier bringt Storm seine eigenen mit, zum Beispiel diverse JMS-Provider, Konnektoren zu Twitter oder eine Anbindung an Kafka, oder stellt alternativ Schnittstellen zur Programmierung eigener Spouts zur Verfügung. Die Daten werden in der Folge innerhalb der Topologie zwischen Bolts geroutet, die sich durch eine geringe Latenz auszeichnen und beliebigen Benutzercode ausführen können. So lassen sich diese etwa dazu verwenden, Daten zu filtern, zu aggregieren, mit Daten aus anderen Systemen anzureichern oder die Daten in oder HBase zu speichern. Storm hat eine Vergangenheit als von Hadoop unabhängige Architektur, wurde aber mit dem Erscheinen von Hadoopˇ2 als einer der ersten Applikationen auf portiert. Das Master- Element, der Nimbus, ist selbst leichtgewichtig, nimmt vor allem die Topologien entgegen und verteilt diese auf die Worker-Elemente. Dort wird die Topologie unabhängig vom Nimbus ausgeführt, und typischerweise beträgt ihre Laufzeit dann Wochen oder Monate. Über den Nimbus lässt sie sich aber dynamisch zur Laufzeit umkonfigurieren, was Storm auch zu einem der ersten Kandidaten zur Integration mit Apache Slider gemacht hat, da sich so zusätzlich die Größe der unterliegenden Ausführungscontainer dynamisch umkonfigurieren lässt. Insgesamt spielt Storm durch sein Modell und seine Performanz eine wichtige Rolle beim Erstellen von Echtzeit-Architekturen oder hybriden Ansätzen wie der Lambda-Architektur. Hierzu ist es hilfreich, dass Storm Garantiegrade für die Verarbeitung von Tupeln wie mindestens einmal oder (in Verbindung mit einer langlebigen Datenquellen wie Kafka und dem eigenen transaktionalen Framework Trident) auch genau einmal ermöglicht. Auch in Hadoop müssen häufig Dinge gesucht werden und daher befinden sich in diesem Gehege die beiden auf Apache ix Developer 2015 Big Data 39

5 HADOOP ÖKOSYSTEM Lucene aufbauenden Volltextsuchmaschinen Apache Solr und Elasticsearch. Für weitere Informationen sei hier aber auf die Artikel auf S. 106 und 110 verwiesen. Gehege 6: Die Individualisten Im nächsten Gehege hält der Hadoop-Zoo ein paar Tierchen bereit, die nicht ganz so tief im Ökosystem verwurzelt sind wie die Bewohner in den vorhergehenden Gehegen. Sie benutzen zwar oder HBase zum Speichern von Daten, lassen aber zur Ressourcenverwaltung außen vor. Bei Impala (der Name bezieht sich auf die Eleganz der Schwarzfersenantilopen sowie zum Teil auf die damalige Vorliebe des Projektleiters für die Band Tame Impala) handelt es sich um einen der Pioniere der Beschleunigung von SQL-on-Hadoop-Ansätzen wie Hive bei der Echtzeit. Dabei ist sein Ansatz von Googles Dremel inspiriert, und Impala implementiert dazu in C++ seine eigene Execution Engine. Wie ähnliche Ansätze auch verteilt diese die Abfragen auf die relevanten Datenknoten, hat ihre eigene Verarbeitungslogik und -optimierungen und kümmert sich außerdem selbstständig um das Management im Fehlerfall. In der Datenhaltung baut Impala aus Sicht der Performance idealerweise auf optimierten Binärformaten wie Parquet auf, unterstützt aber alle Hadoop-kompatiblen Formate. Die Modellierung der Daten folgt wie in Hive einem tabellenbasierten Ansatz, und zum Speichern der Tabellendefinitionen wird sogar der Hive Metastore mitverwendet. Dem Endbenutzer präsentiert sich Impala mit einer SQL-ähnlichen Abfragesprache, die aber einen eigenen Dialekt spricht und viele Sprachkonstrukte von Hive nicht unterstützt. Impala wird zudem nicht wie fast alle anderen Bewohner über die Apache Software Foundation verwaltet, sondern über GitHub. Es steht aber unter der Apache-Lizenz und hat seine eigene aktive Entwicklergemeinde, die hauptsächlich von Cloudera mit Unterstützung von MapR, Amazon und Oracle vorangetrieben wird. Im gleichen Gehege findet sich mit Apache Drill eine weitere von Dremel inspirierte und hauptsächlich von MapR vorangetriebene SQL-on-Hadoop-Implementierung. Dabei ist sie per Design noch unabhängiger von Hadoop, versteht sich aber durchaus mit Hadoop-kompatiblen Dateisystemen, Daten in HBase oder in Hive definierten Daten und kann auf diese zugreifen. Zur Verarbeitung bringt auch Drill eine eigene Execution Engine und SQL-Schicht mit, die aber jeweils flexibel in der Architektur verankert sind und sich dadurch austauschen lassen. Da ist es nur konsequent, dass Drill zum Ressourcenmanagement nicht auf aufbaut. Gehege 7: Die Speicherriesen Weiter geht der Rundgang durch den Hadoop-Zoo zu Bewohnern, für die das Speichern von Daten das Größte ist. Sie sind eng mit verwandt und bauen darauf sowie seinen grundsätzlichen Mechanismen wie Replikation auf, implementieren aber alternative Datenmodelle und ermöglichen damit auch andere Zugriffsmuster wie den Einmal große Daten schreiben, häufig lesen -Ansatz von. Der bekannteste Vertreter ist die NoSQL-Datenbank Apache HBase, die von Googles Big - Table-Modell inspiriert ist und im Gegensatz zu sowohl schnellen Lese- als auch Schreibzugriff auf kleine Datensätzen erlaubt. Dadurch wird die Datenhaltung in HBase gerade für Webanwendungen interessant, allerdings sind die Daten dafür entsprechend zu modellieren und im Idealfall auf die Abfra - gemuster abzustimmen. Das grundsätzliche Datenmodell von HBase basiert auf Tabellen, die aber im Gegensatz zum relationalen Modell sortierte Listen von Zeilen sind, die aus einer variablen Anzahl von Spalten bestehen, die zusätzlich noch automatisch mit einem Zeitstempel versehen werden. Dadurch ist es möglich, zusammenhängende Spalten zu Familien zu gruppieren und diese wiederum in einer Baumstruktur verteilt in einzelnen Dateien zu speichern. Dazu benutzt HBase ein eigenes Dateiformat, das neben anderen Anpassungen nicht nur -Blöcke zum reinen Speichern der Daten verwendet, sondern noch für jeden Block eine eigene Indexdatei zum schnellen Zugriff auf Inhalte innerhalb eines Blocks mitführt. Der Außenwelt präsentiert sich HBase mittels einer eigenen Java-API, bietet aber auch Schnittstellen via REST, Thrift oder Avro an. Die API bietet dabei im Wesentlichen Mittel, Daten zu schreiben und zu lesen. Es ist keine Verarbeitung der Daten direkt in HBase möglich, aber dazu versteht sich HBase gut mit vielen der Arbeitstiere im Hadoop-Zoo. Zusätzlich steht für HBase mit Apache Phoenix eine eigene SQL-Schicht zur Verfügung, die eine Brücke zu Abfragen in altbekannter SQL-Syntax schlägt. Mit Apache Accumolo befindet sich im gleichen Gehege noch ein weiterer BigTable-Klon, der in Charakteristika und Funktionen nahe zu HBase ist. Der signifikanteste Unterschied befindet sich im Bereich der Sicherheit, da das Datenmodell von Accumolo von Anfang an eine feingranulare Authentifizierung bis hinunter auf die Ebene einzelner Zellen eingebaut hat. In diesem Punkt hat HBase mittlerweile nachgerüstet und die Granularität der Authentifizierung vom Niveau der Tabellen auf das Niveau von Zellen erweitert. Insgesamt sind sich diese beiden Bewohner vom Datenmodell und von der Umsetzung ähnlich und scheinen sich gegenseitig im Kampf um die Krone im gleichen Gehege zu befruchten. Gehege 8: Die Datentransporter Im nächsten Gehege versammeln sich die Ameisen von Hadoop, die für den Transport der Daten in und aus dem Zoo zuständig sind. Für diese Aufgabe steht eine Vielzahl von Optionen zur Verfügung. Sie reichen von einfachen Vertretern wie distcp (ein Kommandozeilen-Tool, das MapReduce zum parallelen Transport von Daten nutzt) über das NFS Gateway (ein Protokollübersetzer zwischen und NFSv3 zum Mounten des virtuellen Dateisystems wie ein physisches Dateisystem) bis hin zu ausgewachsenen Vertretern dieser Art, die auf den Transport großer Datenmengen aus unterschiedlichen Quellen in den Datensee ausgelegt sind. In diese Kategorie fällt mit Apache Sqoop (Kurzform von SQL to Hadoop ) zwar kein allzu schillernder, dafür aber umso nützlicherer Bewohner des Zoos. Es handelt sich um ein Kommandozeilen-Tool, das die Welt der strukturierten Daten mit dem Datensee von Hadoop verbindet. Dabei funktioniert Sqoop bidirektional und kann sowohl Daten aus zum Beispiel relationalen Datenbanken nach oder HBase importieren als auch umgekehrt Daten wie die Ergebnisse von MapReduce- Berechnungen zurück in SQL-Datenbanken transferieren. Gesteuert wird Sqoop über die entsprechenden Argumente auf der Kommandozeile, was etwa den Import ganzer Tabellen, ausgewählter Spalten oder Abfrageergebnisse aus SQL-Datenbanken ermöglicht. Der Sqoop-Client übersetzt die Transferaufgabe dann in einen MapReduce-Job, der lediglich aus einer Map-Phase zur Steuerung des Datentransfers läuft. Dadurch kann dieser parallelisiert mit den entsprechenden Vorteilen in der Geschwindigkeit der Verarbeitung ablaufen. Weiterhin ist Sqoop architek- 40 ix Developer 2015 Big Data

6 tonisch modular aufgebaut und neben einem allgemeinen JDBC- Konnektor gibt es datenbankspezifische Konnektoren oder auch welche zu anderen Big-Data-Systemen wie Teradata. Im gleichen Gehege tummelt sich mit Apache Flume (der Name geht auf die künstlichen Kanäle zurück, die Holzfäller zum Transport von Baumstämmen auf Flüssen anlegen) ein weiterer Datentransporter, der allerdings im Gegensatz zu Sqoop seine eigene Infrastruktur benötigt und nicht auf MapReduce aufbaut. Flume ist nicht nur im Hadoop-Zoo zu Hause, sondern ein allgemeines verteilt arbeitendes System zum Sammeln, Aggregieren und Transportieren großer Datenmengen. Es arbeitet dabei nach dem Producer-Consumer-Modell, und während Flume ursprünglich für Log-Daten gedacht war, funktioniert seine Basisabstraktion eines Events auch für beliebige andere Datenströme. Heutzutage existieren eine Vielzahl von Quellen für zum Beispiel JMS, HTTP, Thrift, Avro oder Twitter sowie Senken für, HBase und Avro, die Flume für das Hadoop-Ökosystem interessant machen und seinen Platz in diesem Gehege rechtfertigen. Zum Transport der Datenströme von der Quelle zur Senke stehen konfigurierbare Speicher- oder Festplattenkanäle zur Verfügung, die es ermöglichen, die Geschwindigkeit des Transports gegen die Ausfallsicherheit des Transports abzuwägen. Die individuellen Konfigurationen für Quelle, Senke und Kanal werden in einer Konfigurationsdatei zu einem Agenten zusammengefasst, der dann auf dem oder den Flume-Servern ausgeführt wird. Dabei erlaubt Flume die Definition von Fan-in- oder Fanout-Architekturen, die es ermöglichen, Flume auch als Transportsystem horizontal zu skalieren. Mit Apache Kafka ist ein Artverwandter von Flume mittlerweile so nah an den Hadoop-Zoo herangerückt, dass auch er in diesem Gehege ein Plätzchen findet. Kafka ist ebenfalls ein verteiltes, skalierbares und fehlertolerantes System zum Transport von Daten, das aber anders als Flume auf einem Publish-Subscribe-Modell aufbaut. Auch Kafka kommt in vielen Anwendungsfällen jenseits von Hadoop zum Einsatz, eignet sich vom Modell her aber gut zum Aufbau moderner Realtime-Architekturen gerade in Verbindung mit Storm oder Spark. Modellmäßig basiert Kafka auf Topics, einer benutzerdefinierten Kategorie, auf die Nachrichten als geordnete und unveränderbare Sequenz verteilt werden. Damit die Aufteilung skaliert, lassen sich die Topics in Partitionen aufteilen, die horizontal auf Broker verteilt werden. Die Consumer lesen dann die Nachrichten aus den für sie interessanten Topics und verarbeiten sie. Dabei trägt zur Skalierbarkeit und Performance von Kafka bei, dass nicht die Broker, sondern die Consumer dafür zuständig sind, mitzuführen, welche Nachrichten konsumiert wurden. Dazu muss sich der Consumer nur das Offset der letzten Nachricht merken, da Kafka alle Nachrichten für einen konfigurierbaren Zeitraum persistent speichert und so das Wiederholen oder Überspringen von Nachrichten ermöglicht. Diese Eigenschaften ermöglichen es etwa, durch Kapselung mit Kafka aus unzuverlässigen Datenquellen, die kein erneutes Abspielen ausgelieferter Nachrichten ermöglichen, langlebige Datenquellen zu machen, aus denen sich jede beliebige Nachricht oder Nachrichtensequenz erneut anfordern lässt. Dadurch wird Kafka häufig zum Spielkameraden von Storm, da dieses so eine Garantie dafür abgeben kann, dass jeder Datensatz nur genau einmal verarbeitet wird. Gehege 9: Die Hüter der Ordnung Das nächste Gehege befindet sich nicht ohne Grund in direkter Nachbarschaft zu den Datentransportern, da seine Bewohner versuchen, durch Automatisierung Ordnung in den Datenzoo ix Developer 2015 Big Data 41

7 HADOOP ÖKOSYSTEM zu bringen. Die Grundlage dafür liefert Apache Oozie (birmanisch für Elefantenführer), das im Hadoop-Zoo seine Dienste als Workflow-Engine bereitstellt. Allgemein ist ein Oozie- Workflow eine Sequenz von Oozie-Aktionen, die sich mit einem gerichteten azyklischen Graph beschreiben und an den Oozie-Server zur direkten oder zeitgesteuerten Ausführung übermitteln lassen. Dort werden die Jobs zur erneuten Ausführung in einem relationalen Metastore gespeichert. Um die Jobs auszuführen, startet der Oozie-Server einen eigenen Map - Reduce-Job, der nur aus einer Map-Phase als Klammer für die eigentlichen Oozie-Aktionen besteht. Diese können über eine Callback-URL ihre Fertigstellung an den Steuerprozess zurückmelden, werden aber auch periodisch überwacht, um etwa Fehlerfälle zu erkennen. Zum Erstellen spezifischer Workflows stehen viele Hadoop-bezogene Aktionen wie, MapReduce, Pig, Hive, Sqoop, aber auch allgemeine wie SSH, Shell oder zur Verfügung. Damit wird Oozie zum Kleber im Hadoop-Zoo, der die anderen Bewohner miteinander verbindet und viele alltäglichen Aufgaben wie Datenimporte und Datenvorverarbeitung automatisiert. In enger Zusammenarbeit mit Oozie beackert der recht neue Zoobewohner Apache Falcon (bezieht sich sowohl auf seinen Lebensraum, der ihm eine gute Übersicht ermöglicht, als auf seine herausragende Eigenschaft als schnelles Tier) die Felder von Data Management und Governance. Er ermöglicht es Administratoren, die zahlreichen Data Pipelines, den Lebenszyklus der Daten sowie ihre Erkundung über den Falcon-Server zu verwalten und zu kontrollieren. Dazu definiert man via CLI oder REST deklarativ mit XML entsprechende Policies, etwa für das automatisierte Archivieren, Replizieren oder Löschen von Daten nach einem gewissen Zeitraum oder zum Erstellen und Einhalten von SLAs. Diese Policies werden dann in Oozie-Workflows übersetzt und mit dem Oozie-Server ausgeführt. Seine Mächtigkeit gewinnt Falcon durch die Flexibilität, zum einen eng mit den anderen Zoo-Bewohnern wie Oozie, Sqoop, Flume, MapReduce, Pig oder Hive zusammenzuarbeiten, sich zum anderen aber auch mit proprietären Tools zu verstehen. Auf diese Weise kann Falcon alles und jeden orchestrieren und Datenflüsse zentral steuern und automatisieren. Gehege 10: Die Hüter der Sicherheit Ein Gehege weiter befinden sich die etwas ruppigeren Artgenossen des Zoos, die aber durchaus hart durchgreifen und Besuchern den Zutritt zum Hadoop-Zoo verweigern können. Um Client LDAP SSO Firewall SSH REST DMZ Knox Firewall Web WebHCat Oozie Hive SSH Pig Map Reduce möglichst vollumfängliche Sicherheit zu gewährleisten, steht das Gehege dabei auf vier Säulen. Die erste Säule ist die Frage nach dem Wer bin ich?, also der Authentifizierung. Hier hat Hadoop zur nativen Absicherung Kerberos integriert, das nur registrierte Besucher mit Ticket in den Zoo lässt und über seinen Ticket-Mechanismus gut mit der je nach Clusterlast zeitverzögerten Ausführung von Jobs zurechtkommt. Häufig kommen die Besucher aber nicht mehr direkt in den Zoo, sondern greifen über HTTP oder REST auf ihn zu. Für diesen Fall befindet sich im Gehege mit Apache Knox ein noch recht neues Tierchen zur Perimeter-Sicherung, das mit dem Knox-Server einen Wächter für das Eingangsportal des Hadoop- Zoos bereitstellt. Der Server fungiert dabei wie ein Mittelsmann und stellt Hadoop-Services wie Web,, Hive oder HBase über eine URL, einen Port und konsistente Pfade zur Verfügung. Dabei ist Knox architektonisch modular aufgebaut und bietet somit die Möglichkeit, im Laufe der Zeit noch mehr Dienste über den Knox-Server abzusichern. Damit er nicht selbst zum Engpass wird, ist er zustandslos implementiert und lässt sich dadurch etwa durch Vorschalten eines Load Balancer horizontal skalieren. Insgesamt erleichtert Knox damit das Leben für beide Seiten: Hadoop-Administratoren müssen etwa SSL nur noch auf einem Server konfigurieren, durch die integrierte Anbindung von Identity-Management-Systemen entfällt das Anlegen von Benutzern, und das Verschleiern der Infrastruktur bietet weniger Angriffsfläche. Hadoop-Benutzer hingegen müssen sich nur noch eine URL und einen Login merken, um ohne Wissen um die Komplexität des Hadoop-Clusters hinter dem Portal direkt loszulegen. Die zweite Säule des Geheges ist die Frage nach dem Was darf ich machen?, also der Autorisierung. Die Frage haben schon viele Bewohner des Hadoop-Zoos für sich beantwortet und bieten unterschiedliche Konzepte und Granularitäten der Absicherung von Daten an. So unterstützt etwa vollumfängliche POSIX-kompatible Berechtigungen und ACLs. In lassen sich hingegen lediglich die Administratoren und berechtigten Benutzer für die Queues angeben. Pig unterstützt durch den fehlenden eigenen Server gar keine zusätzliche Berechtigungen, und Hive erlaubt wiederum die Vergabe von Berechtigungen auf Tabellen- bis hin zu Spaltenebene. Das hat die Rufe laut werden lassen, die eine einheitliche Definition und Durchsetzung von Regeln zum Datenzugriff gefordert haben. Diese Lücke zu schließen, sind gleich zwei Bewohner des Hadoop-Zoos angetreten Apache Sentry (wörtlich der Wachposten) und Apache Ranger (der Parkaufseher). Dabei ist Sentry der deutlich ältere der beiden Bewohner, während Ranger erst kürzlich in den Zoo aufgenommen wurde. Und doch Hadoop Cluster bietet Sentry trotz modularer Architektur derzeit lediglich Ambari Unterstützung für, Hive Ganglia sowie Impala und scheint damit eine Einzelanwendung für Nagios Hive den Cloudera-Stack zu bleiben. Das noch junge Projekt Tez Spark Ranger baut ebenfalls auf einer modularen Architektur auf, unterstützt bereits, Hive, HBase, Storm sowie Solr ZooKeeper Journal Nodes Oozie Knox Ranger Apache Knox als Wächter des Eingangsportals zum Hadoop-Zooˇ(Abb.ˇ4) 42 ix Developer 2015 Big Data

8 Knox und schickt sich so an, die leistungsfähigere Variante für den gemeinen Zoo-Besucher zu werden. Dabei bietet Ranger eine einheitliche Weboberfläche für das übergreifende Administrieren von Policies an sowie einen Policy Manager, der diese speichert und durchsetzt. Als zusätzliche Komponente bringt Ranger noch einen Audit-Server mit und wird dadurch zur dritten Säule des Geheges und beantwortet zusätzlich die Frage nach dem Wer hat was gemacht?. Die vierte Säule des Geheges bildet die Verschlüsselung der Daten. Hierbei unterscheidet man zum einen die Verschlüsselung während der Übertragung von Daten, die direkt in Hadoop eingebaut ist und es erlaubt, den kompletten Intra- und Inter- Verkehrs mit SSL zu verschlüsseln. Zum anderen ist damit die eigentliche Verschlüsselung der Daten gemeint, die sich bisher nur über Drittanbieter wie Gazzang bewerkstelligen ließ, nun aber Stück für Stück direkt in Hadoop eingebaut wird. Gehege 11: Die Lichtgestalten Im letzten Gehege befinden sich hilfsbereite Zeitgenossen, die angetreten sind, Licht in die Benutzung und den Betrieb des Hadoop-Zoos zu bringen. Der erste Bewohner ist Apache Hue (Hadoop User Experience), eine Web-Oberfläche für den Hadoop-Zoo. Hue richtet sich an Endanwender, die sich auf der Kommandozeile nicht heimisch fühlen und nur Daten bearbeiten und visualisieren wollen. Dafür stellt der Hue-Server eine einheitliche Weboberfläche zur Verfügung, die modular aufgebaut ist und es mittels SDK jedem Zoo-Bewohner erlaubt, sich nach außen hin von seiner besten Seite zu zeigen. So existieren zahlreiche Hue-Applikationen wie ein interaktiver Dateibrowser für, ein Job-Browser für und verschiedene Abfrage- Editoren für Pig, Hive, Impala oder Spark. Diese vereinfachen nicht nur das Formulieren und Absenden von Abfragen, sondern können die Ergebnisse auch direkt grafisch aufbereiten. Ebenfalls praktisch ist der Workflow-Editor für Oozie, der das manuelle Erstellen von Workflows in XML obsolet macht und stattdessen ermöglicht, sie per Dragˇ&ˇDrop zu entwickeln und dann direkt oder zeitgesteuert über den Oozie-Server ausführen zu lassen. Weiterhin lassen sich mit Solr ebenfalls mit wenigen Mausklicks dynamische Dashboards entwickeln, die aus einem reichhaltigen Pool an Widgets zur Visualisierung schöpfen und Daten visualisieren können. Der zweite Bewohner, Apache Ambari (der Name bezeichnet in Hindi den meist stoffbedeckten Reitersitz auf einem Elefanten), ist das Installations- und Managementwerkzeug für Hadoop-Cluster. Es geht dem Hadoop-Administrator dabei während des gesamten Lebenszyklus des Clusters zur Hand und fasst viele manuelle Aufgaben unter einer einheitlichen Weboberfläche zusammen. Nach der Installation des Ambari-Servers wird man zuerst von einem Assistenten empfangen, der einen Schritt für Schritt durch die Installation des Clusters führt. Um dabei und während der weiteren Laufzeit keine Informationen zu verlieren, wird alles in einem relationalen Metastore persistiert. Ist der Hadoop-Cluster erfolgreich installiert, mutiert Ambari zum täglichen Werkzeug für Administratoren und stellt über seine dann veränderte Oberfläche Buttons zum Stoppen und Starten der einzelnen oder aller Komponenten, komponentenweise Konfigurations-Editoren mit automatischer Historisierung sowie diverse Assistenten, etwa zum Einrichten der Hochverfügbarkeit von und, zur Verfügung. Weiterhin werden auf einem Dashboard über Gadgets der Zustand des Zoos und seiner Bewohner dargestellt. Diese Dashboards lassen sich für Benutzer oder Gruppen individualisieren, sodass beispielhaft Endbenutzer lediglich den aktuellen Cluster-Status und alle Jobs angezeigt bekommen und deren Ausführungspläne grafisch und mit Metriken aufbereitet anschauen können. All diese Aufgaben schafft Ambari nicht allein und hat sich daher zwei mächtige Verbündete jenseits der Hadoop-Welt geholt die altbekannten Komponenten Ganglia zum Sammeln der Metriken und Nagios zur Konfiguration von Alarmen und zugehöriger Benachrichtigung. Diese universellen Bewohner fühlen sich zwar in so manch anderem Zoo zu Hause, harmonieren aber über entsprechende Module gut mit den Komponenten des Hadoop-Ökosystems. Zudem hat das den Vorteil, dass sich diese beiden alternativ zu Ambari gut in die bestehende Monitoring- Infrastruktur im Unternehmen integrieren lassen. Fazit Der Hadoop-Zoo und seine Bewohner ermöglichen Big Data für jedermann zu einem vernünftigen Eintrittspreis. Dabei ist das Ökosystem im Jahr 2015 erwachsen geworden und stellt rund um die Kernfunktionen Datenspeicherung und -verarbeitung mittlerweile viele weitere Funktionen zur Verfügung, die gerade in großen Installationen benötigt und erwartet werden. Dadurch führt an Hadoop fast kein Weg vorbei bei der Umsetzung der Vision eines großen Datensees, der es ermöglicht, bestehende und neu erschlossene Datenquellen im Unternehmen miteinander zu verknüpfen und durch die einheitliche Sicht und Verarbeitung der Daten neue Erkenntnisse und Geschäftsmodelle zu generieren. Allerdings ist der Einstieg in die Hadoop-Welt nicht einfach. Wie der Artikel zeigt, gibt es eine Vielfalt an possierlichen Tierchen, und der Zoo enthält durchaus noch einige andere spannende Artgenossen. Gerade die Vielfalt im Bereich der Arbeitstiere ist überwältigend und überfordert viele sogar am Anfang. Dabei darf man aber nicht übersehen, dass mit Hadoop die Vision vom Polyglott Processing Wirklichkeit wird und man eine ganze Plattform und nicht nur ein weiteres einzelnes oder gar proprietäres System hat. Daher muss man nicht von Anfang an die perfekten Antworten auf alle Fragen haben, sondern sich die richtigen Fragen stellen: Liegt ein konkreter Anwendungsfall vor, oder wird Hadoop nur eingesetzt, weil jeder sagt, dass man heutzutage Hadoop einsetzen muss? Lohnt sich der Aufbau eines Hadoop-Clusters und wie geht das richtig? Ist bewusst, dass die Reise mit dem Aufbau des Clusters lediglich begonnen hat und man damit eine Transformation angestoßen hat? Wie bekommt man Personal und Unternehmen fit für die Reise in das Zeitalter der Data Science? Hat man diese Fragen für sich po - sitiv beantwortet, dann ist die Komplexität des Hadoop-Zoos gemeinsam gut in den Griff zu bekommen und die Reise durch den Zoo wird viel Freude und Spaß bereiten. (ane) Uwe Seiler ist IT-Consultant und Trainer bei der codecentric AG. Seit dem ersten Kontakt mit verteilten Systemen lässt seine Begeisterung dafür nicht nach und derzeit tummelt er sich bevorzugt im Hadoop-Zoo. Ihm ist wichtig zu betonen, dass bei der Erstellung dieses Artikels keine Tiere zu Schaden gekommen sind. Alle Links: x ix Developer 2015 Big Data 43

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN

whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN whitepaper CLOUD-ENTWICKLUNG: BESTE METHODEN UND SUPPORT-ANWENDUNGEN CLOUD-ENTWICKLUNG: BESTE METHODEN 1 Cloud-basierte Lösungen sind auf dem IT-Markt immer weiter verbreitet und werden von immer mehr

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

CaseWare Monitor. ProduktNEWS CaseWare Monitor. Version 4.3. Mehr Informationen zu CaseWare Monitor und unseren anderen Produkten & Dienstleistungen

CaseWare Monitor. ProduktNEWS CaseWare Monitor. Version 4.3. Mehr Informationen zu CaseWare Monitor und unseren anderen Produkten & Dienstleistungen Mit der aktuellen Version hält eine komplett neu konzipierte webbasierte Anwendung Einzug, die sich neben innovativer Technik auch durch ein modernes Design und eine intuitive Bedienung auszeichnet. Angefangen

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015 Symbiose hybrider Architekturen im Zeitalter digitaler Transformation Hannover, 18.03.2015 Business Application Research Center (BARC) B (Analystengruppe Europas führendes IT-Analysten- und -Beratungshaus

Mehr

Die Laborjournalführungs-Software professionell - zuverlässig

Die Laborjournalführungs-Software professionell - zuverlässig Produktinformation Die Laborjournalführungs-Software professionell - zuverlässig Integration von InfoChem ICEdit, ensochemeditor, MDL ISIS / Draw und CS ChemDraw Optional mit Schnittstelle zu anderen Datenbanksystemen

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis Kommunikationsübersicht Inhaltsverzeichnis Kommunikation bei Einsatz eines MasterServer... 2 Installation im... 2 Installation in der... 3 Kommunikation bei Einsatz eines MasterServer und FrontendServer...

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

Check_MK. 11. Juni 2013

Check_MK. 11. Juni 2013 Check_MK 11. Juni 2013 Unsere Vision IT-Monitoring muss werden: 1. einfach 2. performant 2 / 25 Was macht IT-Monitoring? IT-Monitoring: Aktives Überwachen von Zuständen Verarbeiten von Fehlermeldungen

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Dunkel Cloud Storage. Der sichere Cloud-Speicher für Unternehmen

Dunkel Cloud Storage. Der sichere Cloud-Speicher für Unternehmen Dunkel Cloud Storage Der sichere Cloud-Speicher für Unternehmen Was ist Dunkel Cloud Storage? Dunkel Cloud Storage (DCS) stellt Ihnen Speicherplatz nach Bedarf zur Verfügung, auf den Sie jederzeit über

Mehr

Inhaltsverzeichnis. Teil 1 Node.js... 1

Inhaltsverzeichnis. Teil 1 Node.js... 1 xiii Teil 1 Node.js... 1 1 Was ist Node.js? 3 1.1 Die Zeitalter des Webs................................... 3 1.1.1 1990 bis 2000: Das Web 1.0....................... 3 1.1.2 2000 bis 2010: Das Web 2.0.......................

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

init.at informationstechnologie GmbH Tannhäuserplatz 2/5.OG 1150 Wien Austria

init.at informationstechnologie GmbH Tannhäuserplatz 2/5.OG 1150 Wien Austria init.at informationstechnologie GmbH Tannhäuserplatz 2/5.OG 1150 Wien Austria Seite 2 von 10 1 Inhaltsverzeichnis 2 Warum CORVUS by init.at... 3 3 Ihre Vorteile durch CORVUS... 3 4 CORVUS Features... 4

Mehr

vfabric-daten Big Data Schnell und flexibel

vfabric-daten Big Data Schnell und flexibel vfabric-daten Big Data Schnell und flexibel September 2012 2012 VMware Inc. All rights reserved Im Mittelpunkt: Daten Jeden Morgen wache ich auf und frage mich: Wie kann ich den Datenfluss optimieren,

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Module für eine Java-Administrationsschulung

Module für eine Java-Administrationsschulung Module für eine Java-Administrationsschulung Schulungsmodule 1 Java Administration allgemein...2 1.1 Java und die Virtual Machine...2 1.2 Java EE Bestandteile...2 1.3 Java Management Extensions...2 1.4

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Ein starkes Team: DocuWare und Microsoft Outlook

Ein starkes Team: DocuWare und Microsoft Outlook Connect to Outlook ProductInfo Ein starkes Team: DocuWare und Microsoft Outlook Mit Connect to Outlook archivieren Sie Ihre E-Mails direkt aus MS Outlook in DocuWare. Genauso leicht greifen Sie per Schnellsuche

Mehr

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Alternativen zur OpenText Suche 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Übersicht Allgemeines zur Suche Die OpenText Common Search Indexierung ohne DeliveryServer

Mehr

MSXFORUM - Exchange Server 2007 > Exchange 2007 - Architektur

MSXFORUM - Exchange Server 2007 > Exchange 2007 - Architektur Page 1 of 5 Exchange 2007 - Architektur Kategorie : Exchange Server 2007 Veröffentlicht von webmaster am 18.03.2007 Warum wurde die Architektur in der Exchange 2007 Version so überarbeitet? Der Grund liegt

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Mobile Application Development

Mobile Application Development Mobile Application Development Android: Einführung Jürg Luthiger University of Applied Sciences Northwestern Switzerland Institute for Mobile and Distributed Systems Lernziele Der/die Kursbesucher/in kann

Mehr

NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND

NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND init.at informationstechnologie GmbH - Tannhäuserplatz 2 - A-1150 Wien - www.init.at Dieses Dokument und alle Teile von ihm bilden ein geistiges Eigentum

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

E-Mail Integration 2. Neue Web-Oberfläche 3. Freigaben verwalten 4. Kontaktverwaltung 4. CargoLinks mit mehreren Empfängern 4.

E-Mail Integration 2. Neue Web-Oberfläche 3. Freigaben verwalten 4. Kontaktverwaltung 4. CargoLinks mit mehreren Empfängern 4. Neu in Version 3.0 Verfügbar ab Dezember 2013 Der CargoServer in der Version 3.0 hat zahlreiche neue Funktionen erhalten macht die Arbeit für den Benutzer und auch den Administrator einfacher und intuitiver.

Mehr

Ein starkes Team: DocuWare und Microsoft Outlook

Ein starkes Team: DocuWare und Microsoft Outlook Connect to Outlook Product Info Ein starkes Team: DocuWare und Microsoft Outlook Mit Connect to Outlook archivieren Sie Ihre E-Mails direkt aus MS Outlook in DocuWare. Genauso leicht greifen Sie per Schnellsuche

Mehr

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte DWH Projekt, Methodik, Stärken und Schwächen, Übersicht, Weg der Daten,

Mehr

Mobile Agenten am Beispiel JADE (Java Agent DEvelopment Framework) Vorstellung in der Übung zu Konzepte Verteilter Systeme

Mobile Agenten am Beispiel JADE (Java Agent DEvelopment Framework) Vorstellung in der Übung zu Konzepte Verteilter Systeme Mobile Agenten am Beispiel JADE (Java Agent DEvelopment Framework) Vorstellung in der Übung zu Konzepte Verteilter Systeme Agenda Mobile Agenten allgemein JADE - Java Agent DEvelopment Framework Anwendungsfall

Mehr

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee 2 10245 Berlin Tel.:+49(0) 30 2900 8639 Fax.:+49(0) 30 2900 8695 Database Exchange Manager Replication Service- schematische Darstellung Replication Service- allgemeines Replikation von Daten von bzw. in ein SAP-System und einer relationalen DMS-Datenbank Kombination

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Managed Services Zeitgewinn für die SAP Basis am Beispiel von EMCLink.net für SAP R/3

Managed Services Zeitgewinn für die SAP Basis am Beispiel von EMCLink.net für SAP R/3 Managed Services Zeitgewinn für die SAP Basis am Beispiel von EMCLink.net für SAP R/3 1 Wo liegt das Problem? Was jeder Basismanager wissen sollte... jedoch oft nicht weiß Wie sieht meine Infrastruktur

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

IT Storage Cluster Lösung

IT Storage Cluster Lösung @ EDV - Solution IT Storage Cluster Lösung Leistbar, Hochverfügbar, erprobtes System, Hersteller unabhängig @ EDV - Solution Kontakt Tel.: +43 (0)7612 / 62208-0 Fax: +43 (0)7612 / 62208-15 4810 Gmunden

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Heterogenes Speichermanagement mit V:DRIVE

Heterogenes Speichermanagement mit V:DRIVE Heterogenes Speichermanagement mit V:DRIVE V:DRIVE - Grundlage eines effizienten Speichermanagements Die Datenexplosion verlangt nach innovativem Speichermanagement Moderne Businessprozesse verlangen auf

Mehr

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0

Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014. Gültig für Release 1.0.0.0 Version 1.0 Erstellt am 12.12.2014 Zuletzt geändert am 17.12.2014 Gültig für Release 1.0.0.0 Inhalt 1 WebPart Site Informationen 3 1.1 Funktionalität 3 1.2 Bereitstellung und Konfiguration 4 2 WebPart

Mehr

Shibboleth Clustering und Loadbalancing

Shibboleth Clustering und Loadbalancing Shibboleth Clustering und Loadbalancing STEINBUCH CENTRE FOR COMPUTING - SCC KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Computercluster

Mehr

Der Cloud-Dienst Windows Azure

Der Cloud-Dienst Windows Azure Der Cloud-Dienst Windows Azure Master-Seminar Cloud Computing Wintersemester 2013/2014 Sven Friedrichs 07.02.2014 Sven Friedrichs Der Cloud-Dienst Windows Azure 2 Gliederung Einleitung Aufbau und Angebot

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Leistungsbeschreibung. PHOENIX Archiv. Oktober 2014 Version 1.0

Leistungsbeschreibung. PHOENIX Archiv. Oktober 2014 Version 1.0 Leistungsbeschreibung PHOENIX Archiv Oktober 2014 Version 1.0 PHOENIX Archiv Mit PHOENIX Archiv werden Dokumente aus beliebigen Anwendungen dauerhaft, sicher und gesetzeskonform archiviert. PHOENIX Archiv

Mehr

CLOUD APPS IM UNTERNEHMEN VERWALTEN. So meistern Sie die Herausforderungen. Whitepaper

CLOUD APPS IM UNTERNEHMEN VERWALTEN. So meistern Sie die Herausforderungen. Whitepaper CLOUD APPS IM UNTERNEHMEN VERWALTEN So meistern Sie die Herausforderungen Whitepaper 2 Die Herausforderungen bei der Verwaltung mehrerer Cloud Identitäten In den letzten zehn Jahren haben cloudbasierte

Mehr

Integration Services - Dienstarchitektur

Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Integration Services - Dienstarchitektur Dieser Artikel solle dabei unterstützen, Integration Services in Microsoft SQL Server be sser zu verstehen und damit die

Mehr

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten

Mehr

Systemmonitoring unter Linux

Systemmonitoring unter Linux Systemmonitoring unter Linux CPU-Counter B.Sc. Wirtsch.-Inform. Arno Sagawe, 29.06.10 Department of Informatics Scientifics Computing 1 Gliederung Systemmonitoring Protokolle und Dateien für das Systemmonitoring

Mehr

Managed VPSv3 Was ist neu?

Managed VPSv3 Was ist neu? Managed VPSv3 Was ist neu? Copyright 2006 VERIO Europe Seite 1 1 EINFÜHRUNG 3 1.1 Inhalt 3 2 WAS IST NEU? 4 2.1 Speicherplatz 4 2.2 Betriebssystem 4 2.3 Dateisystem 4 2.4 Wichtige Services 5 2.5 Programme

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

ArcGIS for Server: Administration und Neuerungen in 10.2

ArcGIS for Server: Administration und Neuerungen in 10.2 2013 Europe, Middle East, and Africa User Conference October 23-25 Munich, Germany ArcGIS for Server: Administration und Neuerungen in 10.2 Matthias Schenker, Marcel Frehner Map Cache Status Windows and

Mehr

Ora Education GmbH. Lehrgang: Oracle Application Server 10g R2: Administration II

Ora Education GmbH. Lehrgang: Oracle Application Server 10g R2: Administration II Ora Education GmbH www.oraeducation.de info@oraeducation.de Lehrgang: Oracle Application Server 10g R2: Administration II Beschreibung: Die Teilnehmer lernen verschiedene Topologien des Oracle Application

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

WSUS 3.0 - Was ist neu in der nächsten WSUS-Generation?

WSUS 3.0 - Was ist neu in der nächsten WSUS-Generation? WSUS 3.0 - Was ist neu in der nächsten WSUS-Generation? Michael Kalbe Infrastructure Architect Microsoft Deutschland GmbH Agenda Rückblick auf WSUS 2.0 WSUS 3.0 Ziele Funktionen Demo Erweiterungen Weitere

Mehr

Mobile Backend in der

Mobile Backend in der Mobile Backend in der Cloud Azure Mobile Services / Websites / Active Directory / Kontext Auth Back-Office Mobile Users Push Data Website DevOps Social Networks Logic Others TFS online Windows Azure Mobile

Mehr

Technische Produktinformation: Active Directory- Management in bi-cube

Technische Produktinformation: Active Directory- Management in bi-cube Inhalt: 1 bi-cube -FEATURES ACTIVE DIRECTORY... 2 2 DAS SYSTEMKONZEPT... 3 3 WAS SIND ADOC UND ECDOC?... 3 4 DIE WICHTIGSTEN FUNKTIONEN IM ÜBERBLICK... 5 4.1 Verwaltung der Strukturdaten... 5 4.2 Verwaltung

Mehr

Universal Mobile Gateway V4

Universal Mobile Gateway V4 PV-Electronic, Lyss Universal Mobile Gateway V4 Autor: P.Groner Inhaltsverzeichnis Allgemeine Informationen... 3 Copyrightvermerk... 3 Support Informationen... 3 Produkte Support... 3 Allgemein... 4 Definition

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Aufbau von Cloud-Infrastrukturen mit Eucalyptus

Aufbau von Cloud-Infrastrukturen mit Eucalyptus Michael Stapelberg Cloud-Computing Seminar Universität Heidelberg SS2009 1/34 Aufbau von Cloud-Infrastrukturen mit Eucalyptus Michael Stapelberg Universität Heidelberg Stapelberg@stud.uni-heidelberg.de

Mehr

Technische Beschreibung: EPOD Server

Technische Beschreibung: EPOD Server EPOD Encrypted Private Online Disc Technische Beschreibung: EPOD Server Fördergeber Förderprogramm Fördernehmer Projektleitung Projekt Metadaten Internet Foundation Austria netidee JKU Linz Institut für

Mehr

Red Hat Cluster Suite

Red Hat Cluster Suite Red Hat Cluster Suite Building high-available Applications Thomas Grazer Linuxtage 2008 Outline 1 Clusterarten 2 3 Architektur Konfiguration 4 Clusterarten Was ist eigentlich ein Cluster? Wozu braucht

Mehr

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI Hanau, 25.02.2015 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Der Aufbau der Group BI Plattform

Mehr

MVB3. Einrichten eines Servers für MVB3 ab Version 3.5. Admin-Dokumentation. Inhalt V3.05.001

MVB3. Einrichten eines Servers für MVB3 ab Version 3.5. Admin-Dokumentation. Inhalt V3.05.001 V3.05.001 MVB3 Admin-Dokumentation Einrichten eines Servers für MVB3 ab Version 3.5 Inhalt Organisatorische Voraussetzungen... 1 Technische Voraussetzungen... 1 Konfiguration des Servers... 1 1. Komponenten

Mehr

Optimieren Sie Ihre Geschäftsprozesse!

Optimieren Sie Ihre Geschäftsprozesse! Optimieren Sie Ihre Geschäftsprozesse! Geschäftsprozess-Management (GPM) in der Cloud. Seite: 1 von 8 gallestro unterstützt mit... der Prozessmanagement-Methodik Unternehmen, sich prozessorientiert zu

Mehr

Die wichtigsten Vorteile von SEPPmail auf einen Blick

Die wichtigsten Vorteile von SEPPmail auf einen Blick Die wichtigsten Vorteile von SEPPmail auf einen Blick August 2008 Inhalt Die wichtigsten Vorteile von SEPPmail auf einen Blick... 3 Enhanced WebMail Technologie... 3 Domain Encryption... 5 Queue-less Betrieb...

Mehr

securemsp CloudShare Encrypted File Transfer & Collaboration Platform Secure-MSP GmbH 2013

securemsp CloudShare Encrypted File Transfer & Collaboration Platform Secure-MSP GmbH 2013 securemsp CloudShare Encrypted File Transfer & Collaboration Platform Secure-MSP GmbH 2013 Häufig gestellte Fragen... Wie geben wir unseren Zweigstellen Zugang zu sensiblen Daten? Wie komme ich unterwegs

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

Data Center. Oracle FS1 Flash-Speichersystem All-Flash Storage Array von Oracle. arrowecs.de

Data Center. Oracle FS1 Flash-Speichersystem All-Flash Storage Array von Oracle. arrowecs.de Data Center Oracle FS1 Flash-Speichersystem All-Flash Storage Array von Oracle arrowecs.de Kunden sehen sich heutzutage hauptsächlich drei Herausforderungen gegenüber, die eine höhere Leistung ihrer Speichersysteme

Mehr

Perzentile mit Hadoop ermitteln

Perzentile mit Hadoop ermitteln Perzentile mit Hadoop ermitteln Ausgangspunkt Ziel dieses Projektes war, einen Hadoop Job zu entwickeln, der mit Hilfe gegebener Parameter Simulationen durchführt und aus den Ergebnissen die Perzentile

Mehr