Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
|
|
- Kai Lang
- vor 8 Jahren
- Abrufe
Transkript
1 Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München,
2 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2
3 Worum geht es? 1. Framework zur verteilten Speicherung und Verarbeitung von Daten 2. hochskalierbar: TBs und PBs 3. Konzept entstand bei Google 4. Open-Source-Implementierung: Apache Hadoop 3
4 Warum? 1. vertikale vs. horizontale Skalierbarkeit 2. zu viele Daten für eine Maschine 3. Verarbeitungsgeschwindigkeit Photo by Flo P. 4
5 The Big Picture Webserver-Farm Hadoop-Cluster logs 5
6 The Big Picture Webserver-Farm Hadoop-Cluster logs logs logs 5
7 The Big Picture Webserver-Farm Hadoop-Cluster logs logs logs 5
8 Agenda 1. HDFS (Hadoop Distributed File System) 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 6
9 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
10 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
11 HDFS-Architektur name node (standby NN for failover) data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
12 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? data nodes 03, 05, 08 data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 data node 02 data node 06 data node 10 data node 03 data node 07 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
13 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? data nodes 03, 05, 08 data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 blk 1 (03, 05, 08) data node 02 data node 03 blk 1 (03, 05, 08) blk 1 (03, 05, 08) data node 06 data node 07 data node 10 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
14 HDFS-Architektur name node (standby NN for failover) Where do I store block 1? Done! Done! data nodes 03, 05, 08 Done! data node 01 data node 05 data node 09 client blk 1 blk 2 blk 3 blk 4 blk 1 (03, 05, 08) data node 02 data node 03 blk 1 (03, 05, 08) blk 1 (03, 05, 08) data node 06 data node 07 data node 10 data node 11 data node 04 data node 08 data node 12 rack 1 rack 2 rack 3 7
15 Fehlertoleranz 1. Clusterknoten fallen aus 2. MTBF sinkt 3. unvermeidbar 8
16 Fehlererkennung 1. Herzschlag-Protokol 2. Namenode setzt nicht antwortende Knoten auf Blacklist 3. automatische Replikation auf anderem Datanode 9
17 Verfügbarkeit 1. Client erfragt Speicherort bei Namenode 2. Client holt Daten direkt von Datanodes 3. hochverfügbares HDFS: 1. Standby-Namenode 2. gemeinsamer Zustandsspeicher 10
18 Dauerhaftigkeit 1. Datanodes: Replikation 2. Namenode: Edit-Log 1. schnelle Append-Operationen 2. Replay bei Neustart 3. Sekundärer Namenode: Synchronisation von FS-Image mit Edit-Log ( Standby!) 11
19 Hauptmerkmale 1. Replikation 2. Fehlererkennung 3. Hochverfügbarkeit 4. Dauerhaftigkeit... in hochgradig verteilter, skalierbarer Umgebung 12
20 Agenda 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 13
21 Wie? input 14
22 Wie? 14
23 Wie? 14
24 Wie? 14
25 Wie? shuffle reduce reduce reduce 14
26 Wie? reduce shuffle reduce reduce 14
27 Wie? auf Datanodes reduce shuffle reduce reduce 14
28 Embarrassingly parallel 1. reine Map-Jobs z.b. Filterung, Extraktion 2. keinerlei Synchronisation 3. Beispiel Spaltenauswahl: " ";" ";" :26: ";"prosieben.de";"sendungen";"0"; "null";"other ; prerollad_start";"galileo"; "/sendungen/galileo/vplayer/full/ /pageplayer/ Dienstag: Sparfuchs online(1b01wissvfg A)";"full";"0" 15
29 Embarrassingly parallel 1. reine Map-Jobs z.b. Filterung, Extraktion 2. keinerlei Synchronisation 3. Beispiel Spaltenauswahl: Player-Event " ";" ";" :26: ";"prosieben.de";"sendungen";"0"; "null";"other ; prerollad_start";"galileo"; "/sendungen/galileo/vplayer/full/ /pageplayer/ Dienstag: Sparfuchs online(1b01wissvfg A)";"full";"0" 15
30 Die Shuffle-Phase task buffer in memory partition, sort and spill to disk copy phase fetch sort phase merge merge reduce task input split partitions merge on disk merge reduce mixture of in-memory and on-disk data output Other reduces Other s 16
31 Aggregation durch Reducer m m prerollad contentstart prerollad reduce prerollad, 4 midrollad3, 1 m m m m midrollad1 midrollad2 contentstart prerollad contentstart midrollad3 contentstart prerollad reduce reduce midrollad2, 1 contentstart, 4 midrollad1, 1 1. Aggregation der Map-Ausgaben 2. Synchronisation in Shuffle-Phase 17
32 Fehlertoleranz 1. auch hier: Knoten fallen aus 2. Jobtracker überwacht MR- Prozesse (Herzschlag) 3. fehlgeschlagene Prozesse werden auf anderen Knoten wiederholt 18
33 Agenda 1. MapReduce 2. HDFS 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 19
34 MapReduce-APIs 1. Java 2. C++ (Pipes) 3. Python (Dumbo) 4. Streaming (sprachunabhängig) 20
35 Java: Mapper und Reducer public class WebtrekkEventMapper extends Mapper<Text, Text, Text, IntWritable> protected void ( Text key, Text value, Context context )! throws IOException, InterruptedException {! // key contains entire record! String[] fields = key.tostring().split( ";" );! // extract relevant information! String eventname = fields[12];! // emit output key and count! context.write( new Text( eventname ),!! new IntWritable( 1 )); } } public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> protected void reduce( Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException {! int sum = 0;! for ( IntWritable partialcount : values ) {! sum += partialcount.get();! }! context.write( key, new IntWritable( sum ) ); } } 21
36 Java: Mapper und Reducer Mapper Reducer public class WebtrekkEventMapper extends Mapper<Text, Text, Text, IntWritable> protected void ( Text key, Text value, Context context )! throws IOException, InterruptedException {! // key contains entire record! String[] fields = key.tostring().split( ";" );! // extract relevant information! String eventname = fields[12];! // emit output key and count! context.write( new Text( eventname ),!! new IntWritable( 1 )); } } public class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> protected void reduce( Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException {! int sum = 0;! for ( IntWritable partialcount : values ) {! sum += partialcount.get();! }! context.write( key, new IntWritable( sum ) ); } } 21
37 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) 2. Apache Hive (SQL-artige Sprache) Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22
38 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) FOREACH logdata GENERATE playerevent; 2. Apache Hive (SQL-artige Sprache) Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22
39 Höhere Skriptsprachen 1. Apache Pig ( Datenfluss -Sprache) FOREACH logdata GENERATE playerevent; 2. Apache Hive (SQL-artige Sprache) SELECT playerevent FROM logdata; Alternative: graphische ETL-Tools, z.b. Pentaho Data Integration (PDI, aka Kettle) 22
40 PDI: Main, Mapper und Reducer Main Mapper Reducer 23
41 Agenda 1. MapReduce 2. HDFS 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 24
42 Hive & Pig 1. keine Map- und Reduce-Primitive 2. stattdessen Manipulation von Relationen 3. SQL-artige Operationen 4. Hive/Pig-Code kompiliert zu (optimierten) MapReduce-Job-Ketten 25
43 Pig-Beispiel -- load input data A = LOAD '$input1' AS ( a1, a2, a3, a4:int ); B = LOAD '$input2' AS ( b1, b2, b3 ); -- keep relevant portions of relation A A_filtered = FILTER A BY a4 > 5; A_selected = FOREACH A_filtered GENERATE a1, a4; -- join A with B joined = JOIN A_selected BY a1, B BY b2 PARALLEL 10; -- group and aggregate grouped = GROUP joined BY b3 PARALLEL 10; result = FOREACH grouped GENERATE group, SUM( a4 ) AS count:long; STORE result INTO $outdir USING PigStorage( ; ); 26
44 Agenda 1. MapReduce 2. HDFS 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 27
45 Mahout 1. Machine learning-algorithmen mit MapReduce 2. predictive analysis 3. Recommendations 4. Clustering 5. Klassifikation 28
46 Recommendations 29
47 Clustering y x 30
48 Clustering y x 30
49 Klassifikation 31
50 Agenda 1. MapReduce 2. HDFS 3. APIs 4. Hive & Pig 5. Mahout 6. HBase 32
51 HBase 1. NoSQL-Datenbank 2. wahlfreier Zugriff auf Daten im HDFS 3. Antwortzeiten im (Sub-)Sekundenbereich bei gutem Schema-Design 5. Datenmodell 33
52 HBase-Datenmodell inbox (RF=3): accounts: billy: alice: john: keyspace column families s (compression=snappy, comparator=...): billy: columns bob: row indices 34
53 Offene Trainings Android Developer Training (3 Tage, Karlsruhe/München) Certified Scrum Developer Training (5 Tage, Köln) Hadoop Developer Training (3 Tage, Karlsruhe/Köln) Liferay Portal-Developer Training (4 Tage, Karlsruhe) Liferay Portal-Admin Training (3 Tage, Karlsruhe) Pentaho Data Integration Training (4 Tage, München/Köln) Infos und Anmeldung: 35
54 Vielen Dank für Ihre Aufmerksamkeit. Fragen? 36
Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrHadoop. Simon Prewo. Simon Prewo
Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
MehrHadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern
MehrMapReduce mit Hadoop 08.11.12 1
MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung
MehrHadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014
Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die
MehrHadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015
Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt
MehrLessons learned in Big Data Projekten mit Hadoop. Dominik Benz, Inovex GmbH 2014/09/25, Java User Group Hessen
Lessons learned in Big Data Projekten mit Hadoop Dominik Benz, Inovex GmbH 2014/09/25, Java User Group Hessen Motivation Big is beautiful! Class A extends Mapper ROI, $$, Big Data is like Teenagesex: Everyone
MehrHadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen
Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrÜberblick und Vergleich von NoSQL. Datenbanksystemen
Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von
MehrDatenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim
Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com
MehrHadoop I/O. Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen. 14.02.2012 Prof. Dr. Christian Herta 1/29
Hadoop I/O Datenintegrität Kompression Serialisierung Datei-basierte Datenstrukturen 14.02.2012 Prof. Dr. Christian Herta 1/29 Data I/O und Hadoop Allgemeine Techniken Data I/O Datenintegrität Kompression
MehrAPACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER
APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied
MehrÜberblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014
Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrHadoop-as-a-Service (HDaaS)
Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrPostgreSQL in großen Installationen
PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrDduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrBig-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht
Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik
MehrDie wichtigsten Hadoop-Komponenten für Big Data mit SAS
Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrSchneller als Hadoop?
Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrÜberblick. Einführung Graphentheorie
Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten
MehrErfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien
Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf
MehrÜberleben im Funkloch
Überleben im Funkloch Offlinefähige Apps für Android entwickeln Christian Janz (@c_janz ) christian.janz@bridging-it.de Christian Janz Consultant im Bereich Softwareentwicklung Java/JEE bei Bridging IT
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrMap Reduce. Programmiermodell. Prof. Dr. Ingo Claÿen. Motivation. Modell. Verarbeitungsablauf. Algorithmen-Entwurf. Map-Reduce in Java
Map Reduce Programmiermodell Prof. Dr. Ingo Claÿen Hochschule für Technik und Wirtschaft Berlin Motivation Modell Verarbeitungsablauf Algorithmen-Entwurf Map-Reduce in Java Motivation Was ist Map-Reduce
MehrPeter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr
Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
MehrEHCache und Terracotta. Jochen Wiedmann, Software AG
EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software
MehrOracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen
DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension
MehrOracle Big Data Technologien Ein Überblick
Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"
MehrNoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse
NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und
MehrDatenanalyse mit Hadoop
Gideon Zenz Frankfurter Entwicklertag 2014 19.02.2014 Datenanalyse mit Hadoop Quelle: Apache Software Foundation Agenda Hadoop Intro Map/Reduce Parallelisierung des Datenflows Exkurs: M/R mit Java, Python,
MehrSQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh
SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?
MehrJava Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de
NoSQL für Java-Entwickler Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de 23.06.2013 Agenda Datengröße Key-value Stores 1. Wide Column 2. Cassandra Document
MehrEXCHANGE 2013. Neuerungen und Praxis
EXCHANGE 2013 Neuerungen und Praxis EXCHANGE 2013 EXCHANGE 2013 NEUERUNGEN UND PRAXIS Kevin Momber-Zemanek seit September 2011 bei der PROFI Engineering Systems AG Cisco Spezialisierung Cisco Data Center
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrBig Data: Apache Hadoop Grundlagen
Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen
MehrUniversität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov. 2006 M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5
Universität Augsburg, Institut für Informatik WS 2006/2007 Dr. W.-T. Balke 27. Nov. 2006 M. Endres, A. Huhn, T. Preisinger Lösungsblatt 5 Aufgabe 1: Projektion Datenbanksysteme I π A1,...,A n (π B1,...,B
MehrHadoop in a Nutshell HDFS, MapReduce & Ecosystem. Oracle DWH Konferenz 2014 Carsten Herbe
Hadoop in a Nutshell HDFS, MapReduce & Ecosystem Oracle DWH Konferenz 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence
MehrSeminar Map/Reduce Algorithms on Hadoop. Topics. Alex, Christoph
Seminar Map/Reduce Algorithms on Hadoop Topics Alex, Christoph Organisatorisches Prioritisierte Liste mit allen vorgestellten Themen bis heute 23:59 an Alexander.Albrecht@hpi.uni-potsdam.de Vergabe der
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrSolaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008
Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank
MehrProzessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013
Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company
MehrDer SAS DataStep und die Prozedur SQL. 2014 Cellent Finance Solutions GmbH 05.06.2014 Seite: 1
Der SAS DataStep und die Prozedur SQL 2014 Cellent Finance Solutions GmbH 05.06.2014 Seite: 1 Zahlen und Fakten auf einen Blick Firmensitz: Geschäftsstellen: Branchenerfahrung: Umsatz: Anzahl Mitarbeiter:
MehrPL/SQL vs. Spark Umsteigertipps für's DWH
PL/SQL vs. Spark Umsteigertipps für's DWH Christopher Thomsen Hamburg Jens Bleiholder Berlin Schlüsselworte Big Data, Spark, PL/SQL, SQL, ETL, Hadoop, DWH Einleitung Mit Hadoop 2.0 öffnete sich die Big
MehrCloud-Provider im Vergleich. Markus Knittig @mknittig
Cloud-Provider im Vergleich Markus Knittig @mknittig As Amazon accumulated more and more services, the productivity levels in producing innovation and value were dropping primarily because the engineers
MehrUniversität Karlsruhe (TH)
Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Cluster-Praktikum Sommersemester 2007 Transparent Replizierte Objekte in JavaParty Institut für Programmstrukturen und Datenorganisation
Mehron Azure mit HDInsight & Script Ac2ons
Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu
MehrZugriff auf Firebird-Datenbanken mit PHP. Daniel de West DB-Campus-Treffen 15. Januar 2004
Zugriff auf Firebird-Datenbanken mit PHP Daniel de West DB-Campus-Treffen 15. Januar 2004 Inhalt PHP und Firebird Die wichtigsten Befehle Verbindungsaufbau Übermitteln von Abfragen Beenden von Verbindungen
MehrSpark das neue MapReduce?
Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrWas ist Windows Azure? (Stand Juni 2012)
Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,
MehrHadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen
Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich
MehrMöglichkeiten für bestehende Systeme
Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-
MehrSemantik und konzeptionelle Modellierung
Semantik und konzeptionelle Modellierung Verteilte Datenbanken Christoph Walesch Fachbereich MNI der FH Gieÿen-Friedberg 18.1.2011 1 / 40 Inhaltsverzeichnis 1 Verteiltes Rechnen MapReduce MapReduce Beispiel
MehrBig Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer
Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs
MehrDatensicherheit und Hochverfügbarkeit
Datensicherheit und Hochverfügbarkeit 1. Instanzfehler Aussage: Instanzfehler werden durch Crash Recovery vom DBS automatisch behandelt. Recovery Zeiten? Ausfall von Speichersubsystem, Rechner,...? Ausfall
MehrNoSQL mit Postgres 15. Juni 2015
Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste
MehrEinführung in die Hadoop-Welt HDFS, MapReduce & Ökosystem. Big Data für Oracle Entwickler September 2014 Carsten Herbe
HDFS, MapReduce & Ökosystem Big Data für Oracle Entwickler September 2014 Carsten Herbe Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business Intelligence
MehrNoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010
NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)
MehrInnere Klassen in Java
Innere Klassen in Java SS 2012 Prof. Dr. Margarita Esponda Innere Klassen Klassen- oder Interfacedefinitionen können zur besseren Strukturierung von Programmen verschachtelt werden Eine "Inner Class" wird
MehrBig Data in der Praxis
Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data
MehrSQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar
Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-
MehrWebService in Java SE und EE
Schlüsselworte Java, JAX-WS, JAX-RS, JAXB, XML. Einleitung WebService in Java SE und EE Wolfgang Nast MT AG Ratingen Es werden die Mölichkeiten von WebServices in Java SE und EE, mit SOAP und REST gezeigt.
MehrAlgorithmen und Datenstrukturen
Algorithmen und Datenstrukturen Tafelübung 04 Referenzen, Overloading, Klassen(hierarchien) Clemens Lang T2 18. Mai 2010 14:00 16:00, 00.152 Tafelübung zu AuD 1/13 Organisatorisches Nächster Übungstermin
MehrVerteilte Systeme CS5001
Verteilte Systeme CS5001 Th. Letschert TH Mittelhessen Gießen University of Applied Sciences Client-Server-Anwendungen: Vom passiven (shared state) Monitor zum aktiven Monitor Monitor (Hoare, Brinch-Hansen,
Mehr25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz
1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)
MehrCloud Data Management Kapitel 4: MapReduce(Teil3)
Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung
MehrJava Einführung Collections
Java Einführung Collections Inhalt dieser Einheit Behälterklassen, die in der Java API bereitgestellt werden Wiederholung Array Collections (Vector, List, Set) Map 2 Wiederholung Array a[0] a[1] a[2] a[3]...
MehrProjektpraktikum: Verteilte Datenverarbeitung mit MapReduce
Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität
MehrMapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce
MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:
MehrJava: Vererbung. Teil 3: super() www.informatikzentrale.de
Java: Vererbung Teil 3: super() Konstruktor und Vererbung Kindklasse ruft SELBSTSTÄNDIG und IMMER zuerst den Konstruktor der Elternklasse auf! Konstruktor und Vererbung Kindklasse ruft SELBSTSTÄNDIG und
MehrAnalyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria
Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards
MehrPragmatik von Programmiersprachen
Pragmatik von Programmiersprachen Im Kontext der Notation von Quelltexten Mike Becker, 11. Dezember 2014 Szenario: IT Dienstleister Unternehmen: Produkte: Kunden: IT Dienstleistung Beratung und Software
MehrCassandra Query Language (CQL)
Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für
MehrÜbungen zur Softwaretechnik
Technische Universität München Fakultät für Informatik Lehrstuhl IV: Software & Systems Engineering Markus Pister, Dr. Bernhard Rumpe WS 2002/2003 Lösungsblatt 9 17. Dezember 2002 www4.in.tum.de/~rumpe/se
MehrVerteilte Systeme. Map Reduce. Secure Identity Research Group
Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das
MehrMapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung
MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce
MehrJava Einführung Abstrakte Klassen und Interfaces
Java Einführung Abstrakte Klassen und Interfaces Interface Interface bieten in Java ist die Möglichkeit, einheitliche Schnittstelle für Klassen zu definieren, die später oder/und durch andere Programmierer
MehrETL in den Zeiten von Big Data
ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse
MehrBig Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH
Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes
Mehrpeer-to-peer Dateisystem Synchronisation
Ziel Realisierungen Coda Ideen Fazit Literatur peer-to-peer Dateisystem Synchronisation Studiendepartment Informatik Hochschule für Angewandte Wissenschaften Hamburg 30. November 2007 Ziel Realisierungen
MehrStruts 2 Das Imperium schlägt zurück?
Struts 2 Das Imperium schlägt zurück? Orientation in Objects GmbH Weinheimer Str. 68 68309 Mannheim Tobias Kieninger www.oio.de info@oio.de Java, XML und Open Source seit 1998 ) Software
MehrFlorian Hopf www.florian-hopf.de @fhopf. elasticsearch. Bern 07.10.2015
Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Bern 07.10.2015 Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Installation # download archive wget https://download.elastic.co/elasticsearch
MehrComplex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH
Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting
Mehr