Big Data: Apache Hadoop Grundlagen

Größe: px
Ab Seite anzeigen:

Download "Big Data: Apache Hadoop Grundlagen"

Transkript

1 Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018

2 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen oder eingetragene Warenzeichen der jeweiligen Firmen und beziehen sich auf Eintragungen in den USA oder USA-Warenzeichen. Weitere Logos und Produkt- oder Handelsnamen sind eingetragene Warenzeichen oder Warenzeichen der jeweiligen Unternehmen. Kein Teil dieser Dokumentation darf ohne vorherige schriftliche Genehmigung der weitergegeben oder benutzt werden. Die besitzt folgende Geschäftsstellen Adressen der Karl-Schurz-Straße 19a D Paderborn Tel.: (+49) / An der alten Ziegelei 5 D Münster Tel.: (+49) / Welser Straße 9 D Gersthofen Tel.: (+49) / Kreuzberger Ring 13 D Wiesbaden Tel.: (+49) / Wikingerstraße D Köln Tel.: (+49) / Internet: seminare@ordix.de Seite 2 Version: 1.07

3 Inhaltsverzeichnis 1 Agenda Agenda Wie "big" ist Big Data? Agenda Wie "big" ist Big Data? V Modell Welche technischen Probleme sollen gelöst werden? Welche fachlichen Probleme sollen gelöst werden? Verteilte Datenhaltung im Cluster Verteilte Berechnung im Cluster Typische Probleme in verteilten Systemen Verfügbarkeit im Cluster Horizontale Skalierung mit Commodity Hardware PC Cluster Yahoo's Hadoop Cluster (2007) Zusammenfassung Hadoop Überblick Agenda Hadoop Hadoop Historie Hadoop Design Prinzipien "Data Locality Optimization" Hadoop Kernkomponenten HDFS - Hadoop Distributed File System File System Shell HDFS Schreiben HDFS Lesen Hadoop I/O YARN - Yet Another Resource Negotiator MapReduce Überblick MapReduce Beispiel MapReduce Phasen Unterschiede zwischen Hadoop 1 und Hadoop Neues in Hadoop Vergleich RDBMS mit Hadoop Das Apache Hadoop Ecosystem Hadoop Stärken und Schwächen HDFS Agenda HDFS Hadoop Distributed File System HDFS Dienste NameNode Secondary NameNode DataNode HDFS Schreiben HDFS Lesen Einige Besonderheiten vom HDFS Erasure Coding in Hadoop Erasure Coding - Policies Erasure Coding - Schreiben Erasure Coding - Lesen Erasure Coding - Limitierungen Arbeiten mit dem HDFS File System Shell File System Shell - Dateien kopieren Version: 1.07 Seite 3

4 4.18 File System Shell - Verzeichnismanagement File System Shell - Inhalt von Dateien anzeigen HDFS Kommandos Snapshots File System APIs Java API - FileSystem Java API - Daten schreiben Java API - Daten lesen Java API - Datei löschen HDFS Konfiguration core-site.xml hdfs-site.xml Trash hdfs dfsadmin MapReduce Word Count Hello World für Hadoop Warum sollten wir überhaupt Wörter zählen? MapReduce Überblick MapReduce MapReduce im Detail InputFormat & InputSplit InputFormat InputSplit RecordReader Mapper Partitioner Shuffle & Sort Reducer OutputFormat Combiner MapReduce im Detail Hive Agenda Was ist Apache Hive? Hive Architektur im Detail Hive Server Dienste Hive Clients und Interfaces HiveServer2 und Metastore Installation Hive Verteilung der Rollen Beeline Client Beeline Kommandozeilen Optionen Beeline Kommandos Beeline Hive Kommandos JDBC Interface Hive Datenbanken und Tabellen Tabellen anlegen und verwalten Location Managed Tables und External Tables Daten Laden Hive Datentypen Numerische Datentypen String Datentypen Datum / Zeit Datentypen Weitere primitive Datentypen Container Datentypen Partitionen Hive Partitionierung Statische Partitionierung Seite 4 Version: 1.07

5 6.27 Dynamische Partitionierung Funktionen Beispiele für Standard Hive Funktionen Weitere HiveQL Features im Überblick Weitere Hive Features im Überblick Hive Transaktionen Hive Execution Engines im Überblick Dateiformate für Hive und Hadoop Agenda Klassifizierung der Dateiformate Datei und Datensatz Formate in Hive Text Dateien (Delimiter Seperated Files) SequenceFile SequenceFile anlegen Avro Dateien Avro Schema Avro Datei anlegen Parquet Dateien Interne Struktur einer Parquet Datei Parquet Schema Parquet Datei anlegen ORC Dateien Interne Struktur einer ORC Datei ORC Datei anlegen Übersicht Dateiformate Spark Agenda Apache Spark Überblick Historie von Apache Spark Spark vs. MapReduce - Kein Entweder oder MapReduce I/O Spark I/O Spark vs. MapReduce - Zusammenfassung Apache Spark - Verteilung der Rollen Spark - Architektur Spark - Local Mode (Standalone) Spark - Client Mode (Master im Cluster) Spark - Cluster Mode Spark Modes mit YARN Spark - Interaktiv vs. Batch-Processing Ausführen von Skripten über die Spark-Shell RDD Grundlagen MaxTemperature mit Spark Erstellen von RDDs Operationen auf RDDs Anonyme Funktionen in Scala Operationen in Spark Transformations und Actions - Beispiele map() vs. flatmap() Umgang mit Ergebnissen Zwischenspeichern Zwischenspeichern Storage Level im Überblick Pair RDDs Transformations und Actions auf Pair RDDs Transformations auf Keys oder Values Beispiel: WordCount mit Spark Spark SQL Version: 1.07 Seite 5

6 8.33 Spark SQL Beispiel Spark Streaming YARN & Spark Agenda YARN - Yet Another Resource Negotiator Cluster Ressourcen YARN NodeManager Konfiguration YARN Scheduler Konfiguration YARN Web UI Spark Ressourcen Spark YARN Application Master Konfiguration Spark Executor Konfiguration Spark Driver Konfiguration Spark Deployment Konfiguration Spark on YARN - Beispiel Spark Speculation YARN Scheduler FIFO Scheduler Capacity Scheduler Fair Scheduler Fair Scheduler Konfiguration YARN Scheduler Web UI yarn Kommando Der Hadoop Zoo Agenda Pig Pig Verteilung der Rollen Pig Architektur Überblick Pig Latin Beispiel Pig Latin Befehle Hive vs. Pig vs. Spark SQL Sqoop Sqoop Verteilung der Rollen Sqoop 1 Architektur Überblick Sqoop Beispiele Sqoop Kommandos Sqoop Stärken und Einschränkungen ZooKeeper ZooKeeper Verteilung der Rollen ZooKeeper Architektur Überblick ZooKeeper Beispiele ZooKeeper Kommandos ZooKeeper Stärken und Einschränkungen Kafka Kafka Verteilung der Rollen Kafka Topics Partitionierung und Replikation Kafka als Datenquelle Topics verwalten Console Consumer und Producer Kafka Stärken und Einschränkungen HBase HBase Verteilung der Rollen HBase Datenmodellierung HBase Shell Beispiele HBase Stärken und Einschränkungen Architekturen und Anwendungsfälle Seite 6 Version: 1.07

7 11.1 Agenda Fraud Detection Zahlungsstrom Analyse Zahlungsstrom Analyse Analytic Workplace E-Commerce Lambda Architektur Kappa Architektur Cluster Planung Cluster Planung Workload Hochverfügbarkeit & Disaster Recovery - Risiken Hochverfügbarkeit & Disaster Recovery - Anforderungen Hadoop Hochverfügbarkeit Hadoop Core Hochverfügbarkeit Backup & Disaster Recovery Dienste und Abhängigkeiten Zuweisung von Rollen zu Hosts Cluster Hardware - HP ProLiant Cluster Hardware - Dell PowerEdge Cluster Hardware - Thomas Krenn Cluster Hardware - Erläuterungen Quellen Fazit Fazit Nächste Schritte? ORDIX News Literatur - Hadoop Literatur - Hadoop Zoo Literatur - Etc Links Version: 1.07 Seite 7

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

IBM DB2 UNIX/Linux/Windows Backup und Hochverfügbarkeit mit HADR

IBM DB2 UNIX/Linux/Windows Backup und Hochverfügbarkeit mit HADR IBM DB2 UNIX/Linux/Windows Backup und Hochverfügbarkeit mit HADR Seminarunterlage Version: 1.02 Copyright Version 1.02 vom 8. August 2017 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle

Mehr

Big Data in der Praxis

Big Data in der Praxis Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data

Mehr

Apache HTTP Server Administration

Apache HTTP Server Administration Seminarunterlage Version: 11.07 Copyright Version 11.07 vom 15. Februar 2017 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Oracle Golden Gate. Seminarunterlage. Version vom

Oracle Golden Gate. Seminarunterlage. Version vom Seminarunterlage Version: 12.02 Version 12.02 vom 20. Mai 2016 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Solaris Virtualisierung mit ZFS und Container (Zonen)

Solaris Virtualisierung mit ZFS und Container (Zonen) Solaris Virtualisierung mit ZFS und Container (Zonen) Seminarunterlage Version: 2.07 Version 2.07 vom 3. Januar 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt-

Mehr

IBM AIX Installation, Backup und Recovery mit NIM

IBM AIX Installation, Backup und Recovery mit NIM IBM AIX Installation, Backup und Recovery mit NIM Seminarunterlage Version: 2.03 Version 2.03 vom 16. Oktober 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt-

Mehr

Objektorientierung in Oracle

Objektorientierung in Oracle Seminarunterlage Version: 11.10 Version 11.10 vom 12. September 2013 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

PostgreSQL Administration

PostgreSQL Administration Seminarunterlage Version: 2.4 Version 2.4 vom 6. Februar 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Oracle Cloud Control. Seminarunterlage. Version vom

Oracle Cloud Control. Seminarunterlage. Version vom Seminarunterlage Version: 12.04 Version 12.04 vom 7. November 2016 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

IBM DB2 Unix/Linux/Windows Backup und Hochverfügbarkeit mit HADR

IBM DB2 Unix/Linux/Windows Backup und Hochverfügbarkeit mit HADR IBM DB2 Unix/Linux/Windows Backup und Hochverfügbarkeit mit HADR Seminarunterlage Version: 1.04 Version 1.04 vom 17. April 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten.

Mehr

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:

Mehr

Unix/Linux Grundlagen für Einsteiger

Unix/Linux Grundlagen für Einsteiger Unix/Linux Grundlagen für Einsteiger Seminarunterlage Version: 6.08 Version 6.08 vom 25. Juli 2016 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

PHP Programmierung. Seminarunterlage. Version 1.07 vom

PHP Programmierung. Seminarunterlage. Version 1.07 vom Seminarunterlage Version: 1.07 Version 1.07 vom 19. Dezember 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Perl Programmierung Grundlagen

Perl Programmierung Grundlagen Seminarunterlage Version: 4.06 Copyright Version 4.06 vom 17. Dezember 2018 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Einleitung Big Data... Hadoop...

Einleitung Big Data... Hadoop... 1 Einleitung 1 2 Big Data... 7 2.1 Historische Entstehung... 9 2.2 Big Data - ein passender Begriff?... 10 2.2.1 Die drei V... 11 2.2.2 Weitere V s... 14 2.2.3 Der Verarbeitungsaufwand ist big... 14 2.2.4

Mehr

Linux Hochverfügbarkeits-Cluster

Linux Hochverfügbarkeits-Cluster Seminarunterlage Version: 5.08 Version 5.08 vom 17. August 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

WildFly Application Server Administration

WildFly Application Server Administration WildFly Application Server Administration Seminarunterlage Version: 1.04 Version 1.04 vom 18. Januar 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Big Data Technologien

Big Data Technologien Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte

Mehr

Oracle Backup und Recovery mit RMAN

Oracle Backup und Recovery mit RMAN Oracle Backup und Recovery mit RMAN Seminarunterlage Version: 12.06 Version 12.06 vom 21. September 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Oracle Weblogic Administration Grundlagen

Oracle Weblogic Administration Grundlagen Oracle Weblogic Administration Grundlagen Seminarunterlage Version: 1.12 Version 1.12 vom 15. Juni 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Einführung in die objektorientierte Programmierung

Einführung in die objektorientierte Programmierung Einführung in die objektorientierte Programmierung Seminarunterlage Version: 4.04 Copyright Version 4.04 vom 17. Juni 2016 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten.

Mehr

MySQL Administration. Seminarunterlage. Version 3.02 vom

MySQL Administration. Seminarunterlage. Version 3.02 vom Seminarunterlage Version: 3.02 Version 3.02 vom 23. Oktober 2014 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Hadoop Hive OLH: Oracle Loader for

Mehr

WebSphere Application Server Installation

WebSphere Application Server Installation WebSphere Application Server Installation und Administration Seminarunterlage Version: 3.04 Copyright Version 3.04 vom 16. Mai 2013 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte

Mehr

Linux Hochverfügbarkeits-Cluster

Linux Hochverfügbarkeits-Cluster Seminarunterlage Version: 5.05 Version 5.05 vom 23. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Tomcat Konfiguration und Administration

Tomcat Konfiguration und Administration Tomcat Konfiguration und Administration Seminarunterlage Version: 8.01 Version 8.01 vom 4. Februar 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY 08.03.2017 REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer AGENDA 1 / Vorstellung REWE Systems GmbH und inovex

Mehr

Linux Cluster mit Pacemaker und Heartbeat 3

Linux Cluster mit Pacemaker und Heartbeat 3 Linux Cluster mit Pacemaker und Heartbeat 3 Seminarunterlage Version: 5.04 Copyright Version 5.04 vom 13. Juni 2012 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung

Mehr

IBM DB2 für Linux/Unix/Windows Monitoring und Tuning

IBM DB2 für Linux/Unix/Windows Monitoring und Tuning IBM DB2 für Linux/Unix/Windows Monitoring und Tuning Seminarunterlage Version: 4.05 Version 4.05 vom 9. Februar 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt-

Mehr

Apache HTTP Server Administration

Apache HTTP Server Administration Seminarunterlage Version: 11.04 Copyright Version 11.04 vom 9. Januar 2014 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Schneller als Hadoop?

Schneller als Hadoop? Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG

Mehr

Einführung in XML. Seminarunterlage. Version 3.05 vom

Einführung in XML. Seminarunterlage. Version 3.05 vom Seminarunterlage Version: 3.05 Version 3.05 vom 8. März 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen oder

Mehr

Big Data im Retail-Sektor am Beispiel Kassenbondaten

Big Data im Retail-Sektor am Beispiel Kassenbondaten Big Data im Retail-Sektor am Beispiel Kassenbondaten REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer Business Analytics Day, 08.03.2017 AGENDA 1. Vorstellung REWE Systems GmbH und inovex

Mehr

Big Data Konnektoren: Hadoop und die Oracle DB

Big Data Konnektoren: Hadoop und die Oracle DB Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache

Mehr

Fast Analytics on Fast Data

Fast Analytics on Fast Data Fast Analytics on Fast Data Digitalisierung von Kreditprozessen mit Kudu DOAG 2018 Big Data Days 20. und 21. September in Dresden Olaf Hein, ORDIX AG info@ordix.de www.ordix.de Problem Klassischer Kreditprozess

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

JSP und Servlet Programmierung

JSP und Servlet Programmierung Seminarunterlage Version: 5.02 Copyright Version 5.02 vom 1. März 2013 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Oracle Weblogic Administration Grundlagen

Oracle Weblogic Administration Grundlagen Oracle Weblogic Administration Grundlagen Seminarunterlage Version: 1.07 Version 1.07 vom 14. September 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Continuous Integration (CI) Workshop

Continuous Integration (CI) Workshop Continuous Integration (CI) Workshop Seminarunterlage Version: 1.05 Version 1.05 vom 28. Februar 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?)

BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?) THOMAS KALB BIG SQL FOR HORTONWORKS (MOGELPACKUNG ODER GENIALER SCHACHZUG?) Big SQL for Hortonworks (Mogelpackung oder genialer Schachzug) Copyright 2017 ITGAIN GmbH 1 AGENDA ITGAIN Big SQL Aktionen PoC

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement

Big Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick

Mehr

Oracle Backup und Recovery mit RMAN

Oracle Backup und Recovery mit RMAN Oracle Backup und Recovery mit RMAN Seminarunterlage Version: 12.04 Copyright Version 12.04 vom 16. Juli 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt-

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Oracle Backup und Recovery

Oracle Backup und Recovery Seminarunterlage Version: 11.05 Version 11.05 vom 27. Mai 2010 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Oracle 18c Real Application Cluster (RAC) und Grid Infrastructure

Oracle 18c Real Application Cluster (RAC) und Grid Infrastructure Oracle 18c Real Application Cluster (RAC) und Grid Infrastructure Seminarunterlage Version: 12.14 Version 12.14 vom 12. März 2019 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten.

Mehr

Java GUI Entwicklung mit Swing

Java GUI Entwicklung mit Swing Seminarunterlage Version: 5.03 Version 5.03 vom 13. Februar 2014 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

IBM Informix Dynamic Server Hochverfügbarkeits-Technologien unter Unix

IBM Informix Dynamic Server Hochverfügbarkeits-Technologien unter Unix 2 IBM Informix Dynamic Server Hochverfügbarkeits-Technologien unter Unix Version: 11.02 ORDIX Seminarunterlagen einfach. gut. geschult. Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte

Mehr

Java Performance Tuning

Java Performance Tuning Seminarunterlage Version: 5.04 Version 5.04 vom 16. Januar 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Oracle Big Data Discovery Ein Überblick

Oracle Big Data Discovery Ein Überblick Oracle Big Data Discovery Ein Überblick Hadoop Data Reservoir gewinnt weiter an Bedeutung Data Warehouse Bekannte Datenquellen Data Reservoir Entstehende Datenquellen Hadoop Umsatz und Forecast 49% CAGR,

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München

Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Datenaustausch Hadoop & Oracle DB Carsten Herbe metafinanz Informationssysteme GmbH München Schlüsselworte Hadoop, Sqoop, Sqoop 2, Hive, Oracle Big Data Konnektoren Einleitung Neben der klassischen Data

Mehr

PHP Programmierung. Seminarunterlage. Version 1.02 vom

PHP Programmierung. Seminarunterlage. Version 1.02 vom Seminarunterlage Version: 1.02 Version 1.02 vom 27. August 2013 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Web-Anwendungen mit JavaServer Faces

Web-Anwendungen mit JavaServer Faces Web-Anwendungen mit JavaServer Faces Seminarunterlage Version: 3.06 Version 3.06 vom 1. September 2016 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Java Persistence API mit Hibernate

Java Persistence API mit Hibernate Seminarunterlage Version: 6.02 Version 6.02 vom 4. April 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Administration und Konfiguration für JBoss 7

Administration und Konfiguration für JBoss 7 Administration und Konfiguration für JBoss 7 Seminarunterlage Version: 12.05 Copyright Version 12.05 vom 1. Juni 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten.

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Skalierbare Webanwendungen

Skalierbare Webanwendungen Skalierbare Webanwendungen Thomas Bachmann Lead Software Architect & CIO Mambu GmbH Twitter: @thobach Anwendungsbeispiel Hohe Nichtfunktionale Anforderungen Sicherheit Vertraulichkeit Integrität Verfügbarkeit

Mehr

IBM Informix SQL. Seminarunterlage. Version 11.04 vom

IBM Informix SQL. Seminarunterlage. Version 11.04 vom Seminarunterlage Version: 11.04 Version 11.04 vom 27. April 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Hadoop Administrator Training Viertägiges Intensivseminar

Hadoop Administrator Training Viertägiges Intensivseminar Hadoop Administrator Training Viertägiges Intensivseminar Die Referenten sind keine exklusiven Trainer, sondern Berater aus dem Projektgeschäft, die auch Trainings durchführen. Das kann man nicht hoch

Mehr

R.I.P Oracle-Datenbank. ggg

R.I.P Oracle-Datenbank. ggg R.I.P Oracle-Datenbank ggg DOAG Konferenz + Ausstellung - Nürnberg 16. November 2016 Jedes IT-Projekt benötigt eine Datenbank 2 Große Websites, aber... 3 Gartner Studie 4 DB-Engines Ranking 5 Anwendungsfall

Mehr

Solaris 11 Systemadministration Grundlagen

Solaris 11 Systemadministration Grundlagen Solaris 11 Systemadministration Grundlagen Seminarunterlage Version: 11.06 Version 11.06 vom 27. August 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.13 Version 2.13 vom 27. August 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Oracle Cloud Control. Seminarunterlage. Version 12.03 vom

Oracle Cloud Control. Seminarunterlage. Version 12.03 vom Seminarunterlage Version: 12.03 Version 12.03 vom 1. Oktober 2013 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Oracle Datenbankprogrammierung mit PL/SQL Aufbau

Oracle Datenbankprogrammierung mit PL/SQL Aufbau Oracle Datenbankprogrammierung mit PL/SQL Aufbau Seminarunterlage Version: 12.07 Version 12.07 vom 6. Januar 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt-

Mehr

Oracle PL/SQL für Experten - Performance Analyse und Laufzeitoptimierung

Oracle PL/SQL für Experten - Performance Analyse und Laufzeitoptimierung Oracle PL/SQL für Experten - Performance Analyse und Laufzeitoptimierung Seminarunterlage Version: 12.11 Copyright Version 12.11 vom 18. Juli 2018 Dieses Dokument wird durch die veröffentlicht. Copyright.

Mehr

RavenDB, schnell und skalierbar

RavenDB, schnell und skalierbar RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/

Mehr

MOC 6317A: SQL Server 2008 Database Administration (DBA) Kenntnisse auf den Stand von SQL Server 2008 bringen

MOC 6317A: SQL Server 2008 Database Administration (DBA) Kenntnisse auf den Stand von SQL Server 2008 bringen MOC 6317A: SQL Server 2008 Database Administration (DBA) Kenntnisse auf den Stand von SQL Server 2008 bringen Kompakt-Intensiv-Training Diese Schulung bereitet Sie optimal auf die MOC-Zertifzierung vor.

Mehr

IBM DB2 für Unix/Linux/Windows SQL Grundlagen

IBM DB2 für Unix/Linux/Windows SQL Grundlagen IBM DB2 für Unix/Linux/Windows SQL Grundlagen Seminarunterlage Version: 2.12 Version 2.12 vom 22. Mai 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

MATERNA GmbH

MATERNA GmbH MATERNA GmbH 2013 www.materna.de 1 MATERNA-Unternehmensgruppe Dr. Winfried Materna Helmut an de Meulen Bremen Hamburg Berlin FI Gesellschafter DK S Dortmund Düsseldorf Dresden GB NL CH D I CZ A PL SK RO

Mehr

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer Nutzung der Scientific Computing Cluster Lars-Peter Meyer Cluster Hardware Galaxy (shared nothing) 90 Worker mit jeweils 2 Cores (2x6 Cores, Intel Haswell E5 2620v3 @2,4 GHz) 28 GByte DDR4 ECC RAM RAM

Mehr

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG

SODA. Die Datenbank als Document Store. Rainer Willems. Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG SODA Die Datenbank als Document Store Rainer Willems Master Principal Sales Consultant Oracle Deutschland B.V. & Co. KG vs No Anforderungskonflikte Agile Entwicklung Häufige Schema-Änderungen Relationales

Mehr

!! Waldemar Reger Köln,

!! Waldemar Reger Köln, Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Oracle SQL. Seminarunterlage. Version vom

Oracle SQL. Seminarunterlage. Version vom Seminarunterlage Version: 12.16 Version 12.16 vom 12. Oktober 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Hadoop Eine Erweiterung für die Oracle DB?

Hadoop Eine Erweiterung für die Oracle DB? Hadoop Eine Erweiterung für die Oracle DB? Nürnberg, 18.11.2015, Matthias Fuchs Sensitive Über mich 10+ Jahre Erfahrung mit Oracle Oracle Certified Professional Exadata Certified Oracle Engineered Systems

Mehr

Administration und Konfiguration für JBOSS

Administration und Konfiguration für JBOSS Administration und Konfiguration für JBOSS Seminarunterlage Version: 2.03 Version 2.03 vom 7. Mai 2012 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Deep Dive in WebLogic Server und Multi- Tenancy

Deep Dive in WebLogic Server und Multi- Tenancy überraschend mehr Möglichkeiten! Deep Dive in WebLogic Server 12.2.2.1 und Multi- Tenancy Mohammad Esad-Djou, Solution Architect Borys Neselovskyi, Solution Architect OPITZ CONSULTING 2016 Agenda 1 2 3

Mehr

einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung , Nürnberg Philipp Loer

einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung , Nürnberg Philipp Loer einfach. gut. beraten. Big Data und SQL - das passt! DOAG Konferenz + Ausstellung 2015 19.11.2015, Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Einführung in Hadoop Big Data und SQL passt das

Mehr

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014

Überblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014 Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business

Mehr

Data Mart (Star Schema) Offload nach Hadoop

Data Mart (Star Schema) Offload nach Hadoop Data Mart (Star Schema) Offload nach Hadoop Carsten Herbe Metafinanz-Informationssysteme GmbH München Schlüsselworte Data Mart, Hadoop, HDFS, Hive, Impala, Parquet, Kompression, Snappy, Star Schema, Performance

Mehr

Oracle AWR und ASH Analyse und Interpretation

Oracle AWR und ASH Analyse und Interpretation Oracle AWR und ASH Analyse und Interpretation Seminarunterlage Version: 2.02 Version 2.02 vom 11. März 2013 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

IT-Projektcontrolling

IT-Projektcontrolling Seminarunterlage Version: 3.02 Version 3.02 vom 20. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge

Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit

Mehr

Websphere Application Server Installation und Administration

Websphere Application Server Installation und Administration Websphere Application Server Installation und Administration Seminarunterlage Version: 8.12 Version 8.12 vom 25. August 2016 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle

Mehr

Data Pipelines mit zentralem Kosmos Kafka. Markus Bente

Data Pipelines mit zentralem Kosmos Kafka. Markus Bente Data Pipelines mit zentralem Kosmos Kafka Markus Bente @trivadis doag2018 Mit über 650 IT- und Fachexperten bei Ihnen vor Ort. 16 Trivadis Niederlassungen mit über 650 Mitarbeitenden. Erfahrung aus mehr

Mehr

PL/SQL vs. Spark Umsteigertipps für's DWH

PL/SQL vs. Spark Umsteigertipps für's DWH PL/SQL vs. Spark Umsteigertipps für's DWH Christopher Thomsen Hamburg Jens Bleiholder Berlin Schlüsselworte Big Data, Spark, PL/SQL, SQL, ETL, Hadoop, DWH Einleitung Mit Hadoop 2.0 öffnete sich die Big

Mehr

Oracle 12c Real Application Cluster (RAC) und Grid Infrastructure

Oracle 12c Real Application Cluster (RAC) und Grid Infrastructure Oracle 12c Real Application Cluster (RAC) und Grid Infrastructure Seminarunterlage Version: 12.05 Version 12.05 vom 4. Februar 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten.

Mehr

Java Web Services. Seminarunterlage. Version 4.03 vom

Java Web Services. Seminarunterlage. Version 4.03 vom Seminarunterlage Version: 4.03 Version 4.03 vom 2. Januar 2017 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

IBM Informix Tuning und Monitoring

IBM Informix Tuning und Monitoring Seminarunterlage Version: 11.01 Copyright Version 11.01 vom 25. Juli 2012 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr