Schneller als Hadoop?
|
|
- Benjamin Armbruster
- vor 6 Jahren
- Abrufe
Transkript
1 Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann 1
2 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick Dirk Reinemann 2
3 EINFÜHRUNG Dirk Reinemann 3
4 Spark In-Memory Cluster Computing System Schnelle Analyse und Verarbeitung großer Datenmengen Unterstützung von Hadoop s Speichermodulen HBase, HDFS, SequenceFiles Scala, Python und Java API s Dirk Reinemann 4
5 Entstehung 2009 Projektstart an der University of California, Berkeley 2010 Freigabe als Open Source Projekt 2013 Apache Incubator Projekt 25 Firmen mit 90 Entwicklern unterstützen die Entwicklung Dirk Reinemann 5
6 1. MOTIVATION Dirk Reinemann 6
7 Warum ein neues Programmiermodell? MapReduce hat die Verarbeitung großer Datenmengen stark vereinfacht Ineffizient für Anwendungen die Daten bei parallelen Berechnungen wiederverwenden Iteratives maschinelles Lernen Graphalgorithmen (PageRank, Logistic Regression, K-Means) Interaktives Data Mining Dirk Reinemann 7
8 Datenzugriff bei Hadoop READ WRITE READ WRITE INPUT... ITERATION ITERATION HDFS HDFS READ QUERY QUERY RESULT RESULT INPUT QUERY RESULT Dirk Reinemann 8
9 Probleme bei Hadoop Serialisierung Replikation Festplattenzugriffe Langsame Ausführung Dirk Reinemann 9
10 Datenzugriff bei Spark READ WRITE READ WRITE INPUT ITERATION ITERATION... ONE TIME PROCESSING QUERY RESULT QUERY RESULT INPUT DISTRIBUTED MEMORY QUERY... RESULT Dirk Reinemann 10
11 Lösung bei Spark Speicherzugriffe Wiederverwendung Gemeinsamer Zugriff 10x 100x schnellere Ausführung Dirk Reinemann 11
12 2. INFRASTRUKTUR Dirk Reinemann 12
13 Resilient Distributed Datasets Schreibgeschützte und Partitionierte Datensätze Keine Veränderung einzelner Datensätze Veränderung durch Transformationen Verteilt über Clusterknoten im Arbeitsspeicher Fehlertolerant Pflege einer Art Erblinie (Transformationen) Wiederherstellung nach Ausfall eines Knotens Dirk Reinemann 13
14 Operationen Transformation Definition von RDD (lazy operations) Ergebnis = RDD filter(f : T => Bool) : RDD[T] => RDD[T] Aktion Ausführung von Berechnungen Ergebnis = Wert count() => RDD[T] => Long Dirk Reinemann 14
15 Fehlertoleranz Lineage Graph Transformationen werden automatisch protokolliert Wiederherstellung Abarbeitung der Abhängigkeiten einer Partition Parallel auf verschiedenen Clusterknoten RDD Transformation RDD Transformation RDD Dirk Reinemann 15
16 Fehlertoleranz Log Mining Quelltext // Einlesen der Textdatei (Stabiler Speicherbereich) lines = spark.textfile() // Filter>ung (Transformation) error = lines.filter(.startswith( ERROR )) // Speicherung (Checkpointing) error.persist() // Filterung (Transformation) merrors = errors.filter(_.contains( MySQL )) // Zählen (Aktion) merrors.count() Lineage Graph lines filter errors filter merrors Dirk Reinemann 16
17 Iteration time (s) Fehlertoleranz 75 Clusterknoten, 100 GB Daten, 10 Iterationen 140 K-Means No Failure Failure in the 6th Iteration Iteration Dirk Reinemann 17
18 Anhängigkeiten Narrow Dependencies Elternpartition von einer Kindpartition genutzt Wide Dependencies Mehrere Kindpartition von mehreren Elternpartitionen abhängig map, filter union groupbykey Dirk Reinemann 18
19 Feintuning Individuell kontrollierte Partitionierung Schlüssel (Wie) Platzierung (Wo) Individuell kontrollierte Persistierung RDD (Was) Zeitpunkt (Wann) Ort (Wo) In-Memory Disk Dirk Reinemann 19
20 3. PERFORMANCE Dirk Reinemann 20
21 Iteration time (s) PageRank GB Daten, 10 Iterationen 2,4x 7,4x Number of machines 14 Hadoop Basic Spark Spark + Controlled Partitioning Dirk Reinemann 21
22 Iteration time (s) Logistic Regression 100 GB Daten, 10 Iterationen ,3x 20,7x Hadoop HadoopBinMem Spark Number of machines Warum ist Spark 20,7x schneller als HadoopBinMem? Dirk Reinemann 22
23 Iteration time (s) 150 Logistic Regression 100 GB Daten, 10 Iterationen Logistic Regression Hadoop HadoopBM Spark First Iteration Later Iterations HadoopBinMem wandelt Eingabedaten bei der ersten Iteration in Binärformat um Dirk Reinemann 23
24 Iteration time (s) Logistic Regression 1 Machine, 256 MB Daten, 1 Iteration Iterations Logistic Regression ,4 13, ,4 6,9 2,9 2,9 Text Input Binary Input 0 In-mem HDFS in-mem local file Spark RDD 7 Sekunden Umwandlung in Binärformat 3 Sekunden Deserialisierung = Laufzeit der Logistic Regression Dirk Reinemann 24
25 Iteration time (s) Logistic Regression 75 Machinen, 100 GB Daten, 10 Iterationen ,80 58,1 40,7 29,7 11,5 0% 25% 50% 75% 100% Percent of dataset in memory Dirk Reinemann 25
26 4. AUSBLICK Dirk Reinemann 26
27 Spark Anwender 36 Firmen! Dirk Reinemann 27
28 Shark Data Warehouse System Hive mit Spark Effiziente Speicherung Spaltenorientiert mit Arrays aus primitiven Datentypen Datengröße fast wie bei Serialisierung und 5x schnellerer Datenzugriff Row Storage 1 john mike sally 6.4 Column Storage john mike sally Dirk Reinemann 28
29 Quellen Websites K/Wiki+Homepage Forschungsbericht nsdi_spark.pdf Dirk Reinemann 29
30 Vielen Dank für Ihre Aufmerksamkeit! Haben Sie noch Fragen? Dirk Reinemann 30
DduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrBig Data Anwendungen Chancen und Risiken
Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data
Mehron Azure mit HDInsight & Script Ac2ons
Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu
MehrErfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien
Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf
MehrNoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse
NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden
MehrBig Data Management Thema 14: Cassandra
Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read
MehrBig Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover
Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
Mehreinfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer
einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Hadoop Hive OLH: Oracle Loader for
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrHadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015
Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrCloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.
Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
MehrEXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution
EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität
MehrBig Data und Oracle bringen die Logistik in Bewegung
OPITZ CONSULTING Deutschland GmbH Dortmund, 07.05.2014 Bild-Quelle: Web-Seite von Pasta ZARA, Big Artikel Data So und entstehen Oracle bringen unsere die Nudeln Logistik in Bewegung http://de.pastazara.com/so-entstehen-unsere-nudeln
MehrAlgorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1
Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrPersönlichkeiten bei bluehands
Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrÜberblick und Vergleich von NoSQL. Datenbanksystemen
Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von
MehrÜberblick. Einführung Graphentheorie
Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten
MehrHochverfügbarkeit mit MySQL: Eine Kartographie der Lösungen
Erkan Yanar (linsenraum.de) Hochverfügbarkeit mit MySQL: Eine Kartographie der Lösungen 20. November DOAG 2012 20121 / 24 Hochverfügbarkeit mit MySQL: Eine Kartographie der Lösungen DOAG 2012 Erkan Yanar
MehrAgenda. Anwendungsfälle. Integration in Java
Florian Hopf @fhopf Agenda Anwendungsfälle Integration in Java Agenda Vorbereitung Installation # download archive wget https://download.elastic.co/ elasticsearch/elasticsearch/elasticsearch-1.7.1.zip
MehrHadoop I/O. Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen. 14.02.2012 Prof. Dr. Christian Herta 1/29
Hadoop I/O Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen 14.02.2012 Prof. Dr. Christian Herta 1/29 Data I/O und Hadoop Allgemeine Techniken Data I/O Datenintegrität Kompression
MehrBig Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn
Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge
MehrEHCache und Terracotta. Jochen Wiedmann, Software AG
EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software
MehrMapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012
MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce
MehrSeminar Cloud Data Management WS09/10. Tabelle1 Tabelle2
Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es
MehrCloud Computing mit mathematischen Anwendungen
Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum
MehrData Mining in der Cloud
Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur
MehrTobias Flohre / Dennis Schulte codecentric AG. Spring Batch Performance und Skalierbarkeit
Tobias Flohre / Dennis Schulte Spring Batch Performance und Skalierbarkeit Dennis Schulte Düsseldorf @denschu www.github.com/denschu blog.codecentric.de/author/dsc tel +49 (0) 1515 _ 288 2395 dennis.schulte@codecentric.de
MehrSQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?
MehrData Mining und Machine Learning
Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende
MehrWide column-stores für Architekten
Wide column-stores für Architekten Andreas Buckenhofer Daimler TSS GmbH Ulm Schlüsselworte Big Data, Hadoop, HBase, Cassandra, Use Cases, Row Key, Hash Table NoSQL Datenbanken In den letzten Jahren wurden
Mehr!"#$"%&'()*$+()',!-+.'/',
Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook
MehrGrid Computing in. komplexen Systemen. mit Blick auf RFID. Günther Stürner Vice President Business Unit Database & STCCs ORACLE Deutschland GmbH
Grid Computing in komplexen Systemen mit Blick auf RFID Günther Stürner Vice President Business Unit Database & STCCs ORCLE Deutschland GmbH 2 Datenbanken sind die Basis für jede denkbare IT Lösung Infrastruktur
MehrMapReduce-Konzept. Thomas Findling, Thomas König
MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrBig Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de
Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrSeminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP
Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrDatenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim
Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com
MehrTeamprojekt & Projekt
18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden
MehrBig Data in der Forschung
Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die
MehrBig Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer
Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrJava Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de
NoSQL für Java-Entwickler Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de 23.06.2013 Agenda Datengröße Key-value Stores 1. Wide Column 2. Cassandra Document
MehrHadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014
Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die
MehrHans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?
Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian
MehrProzessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013
Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrGerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2
Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer
MehrBig-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht
Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik
MehrOracle Big Data Technologien Ein Überblick
Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"
MehrDas SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek
Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische
MehrCassandra Query Language (CQL)
Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrHadoop Eine Erweiterung für die Oracle DB?
Hadoop Eine Erweiterung für die Oracle DB? Nürnberg, 18.11.2015, Matthias Fuchs Sensitive Über mich 10+ Jahre Erfahrung mit Oracle Oracle Certified Professional Exadata Certified Oracle Engineered Systems
MehrBig Data - Datenquellen und Anwendungen
Big Data - Datenquellen und Anwendungen AW1 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 18. November 2013 Outline 1 Einleitung 2 Datenquellen 3 Data Science
MehrThink Big. Skalierbare Anwendungen mit Azure. Aydin Mir Mohammadi Bluehands GmbH & co.mmunication KG
Skalierbare Anwendungen mit Azure Bluehands GmbH & co.mmunication KG 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/
MehrBig Data Mythen und Fakten
Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher
MehrProjektpraktikum: Verteilte Datenverarbeitung mit MapReduce
Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität
MehrHadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrXEN Performance. Projektpraktikum Informatik. Arne Klein 2008-02-26. Arne Klein () XEN Performance 2008-02-26 1 / 25
XEN Performance Projektpraktikum Informatik Arne Klein 2008-02-26 Arne Klein () XEN Performance 2008-02-26 1 / 25 1 Virtualisierung mit XEN 2 Performance von XEN Allgemeines Netzwerk-Performance IO-Performance
MehrDokumentenorientierte Datenbanken - MongoDB
Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell
MehrFakten statt Bauchgefühl: RAID Mathematik für Admins
Fakten statt Bauchgefühl: RAID Mathematik für Admins Heinlein Professional Linux Support GmbH Holger Uhlig h.uhlig@heinlein support.de Agenda: Was will ich? MB/s vs. IOPS Berechnung von Durchsatz und IOPS
MehrOracle BI&W Referenz Architektur Big Data und High Performance Analytics
DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen
MehrBig Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH
Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes
MehrSpark das neue MapReduce?
Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrGrundlagen der Rechnerarchitektur
Grundlagen der Rechnerarchitektur Speicher Übersicht Speicherhierarchie Cache Grundlagen Verbessern der Cache Performance Virtueller Speicher SS 2012 Grundlagen der Rechnerarchitektur Speicher 2 Speicherhierarchie
MehrBig Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen
Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien
MehrCopyright 2014, Oracle and/or its affiliates. All rights reserved.
1 Oracle Fusion Middleware Ordnung im Ganzen Matthias Weiss Direktor Mittelstand Technologie ORACLE Deutschland B.V. & Co. KG 2 Agenda Begriffe & Ordnung Fusion Middleware Wann, was, warum Beispiel für
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
MehrDie IBM Netezza Architektur für fortgeschrittene Analysen
Michael Sebald IT Architect Netezza Die IBM Netezza Architektur für fortgeschrittene Analysen 2011 IBM Corporation Was ist das Problem aller Data Warehouse Lösungen? I / O Transaktionaler und analytischer
MehrDominik Wagenknecht Accenture. Der No Frills Big Data Workshop -Teil3
Dominik Wagenknecht Accenture Der No Frills Big Data Workshop -Teil3 Der no frills BigData Workshop JAX 2012, 16.4.2012, Mainz Teil 3 Google ist ein Pionier von BigData und hat mit MapReduce und BigTable
MehrEntwurf und Prototypische Implementierung einer Data Mashup Plattform. Abschlussvortrag Projekt-INF
Entwurf und Prototypische Implementierung einer Data Mashup Plattform Abschlussvortrag Projekt-INF Daniel Del Gaudio, Johannes Bohn, Nikolas Paparoditis Gliederung Data Mashups Einführung Motivationsszenario
MehrDatenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie
Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Prof. Dr. Peter Chamoni Mercator School of Management Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence Prof. Dr. Peter
MehrDATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle
DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell
MehrGPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop
am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten
MehrCaching. Hintergründe, Patterns &" Best Practices" für Business Anwendungen
Caching Hintergründe, Patterns &" Best Practices" für Business Anwendungen Michael Plöd" Senacor Technologies AG @bitboss Business-Anwendung!= Twitter / Facebook & co. " / kæʃ /" bezeichnet in der EDV
MehrFlorian Hopf www.florian-hopf.de @fhopf. elasticsearch. Bern 07.10.2015
Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Bern 07.10.2015 Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Installation # download archive wget https://download.elastic.co/elasticsearch
MehrBig Data Hype und Wirklichkeit Bringtmehrauchmehr?
Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or
MehrOracle Big Data Technologien Ein Überblick
Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der
MehrBig Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.
Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen
Mehr