Cloud Data Management

Größe: px
Ab Seite anzeigen:

Download "Cloud Data Management"

Transkript

1 Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Sommersemester 2015 Universität Leipzig Institut für Informatik 1

2 Einführung Hadoop (und darauf aufbauende Frameworks) Einfache Parallelisierung von Berechnungen in Cluster-Umgebungen Fehlertoleranz Frei verfügbar Große Community Viele Optimierungsansätze aus Forschung ( letztes Kapitel) Design-Schwächen SPOF, begrenzte horizontale Skalierbarkeit ( Hadoop 2.x.x) Nicht optimal für alle Anwendungsfälle Echtzeit-Anwendungen Ad-hoc Aggregation großer Datenmengen ( Dremel) Iterative Anwendungen Maschinelle Lernverfahren ( Spark) 2

3 Inhaltsverzeichnis Hadoop 2.x.x YARN (= MRv2= MapReduce 2.0) HDFS Federation ( Kap. 3) HDFS High Availability ( Kap. 3) Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen 3

4 Hadoop: Versionen und Features (02/2010-bis 05/2012) 0.23 Alpha - HDFS append/sync - HDFS Symlinks - Distributed RAID FS - Kerberos - YARN (MRv2) - HDFS Federation 0.21 Alpha - HDFS append/sync, - HDFS Symlinks - Distributed RAID FS - Kein Kerberos Stable 0.22 Beta - HDFS append/sync - HDFS Symlinks - Distributed RAID FS - Kerberos (nur für HDFS nicht für MapReduce) - Veröffentlicht nach Alpha HDFS HA Beta - HDFS append/sync - Kerberos - Keine Symlinks - kein Distr. RAID FS - Ohne Verbesserungen/ Bugfixes aus Umbenannt in Quelle:

5 Hadoop: Versionen und Features (aktuell) Hadoop 1.0 reicherte um HDFS append/sync und Kerberos an Aktuell stabile Apache Hadoop Version: Hadoop 0.23 führte Features verschiedener Zweige zusammen HDFS Federation, Kerberos, HDFS append/sync, HDFS Symlinks, RAID FS, YARN Fortgeführt in alpha (aktuell: beta) HDFS High Availability (HDFS HA) Cloudera s Distribution Including Apache Hadoop (CDH) Vorkonfigurierte stabile Open Source Distribution für Produktivbetrieb Cloudera Manager, Hadoop, HBase, Hive, Pig, Impala, Mahout, Flume, Oozie, Sqoop, Regelmäßige Update- und Releasezyklen Support, Lizensierung und Consulting, Paketierung für verschiedene Plattformen Aktuell (basiert auf Hadoop 2.0.0) YARN (MRv2) oder klassische Jobtracker/Tasktracker-Implementierung (MRv1) Jobtracker High Availability für MRv1 5

6 YARN (=MRv2=MapReduce 2.0): Motivation Schlechte Auslastung der Cluster-Ressourcen Statische Konfiguration der Slots für Map-/Reduce-Tasks pro Tasktracker Map-Slots können nicht für Reduce-Tasks genutzt werden (und umgekehrt) Engpass Jobtracker - Skalierbarkeit nur bis zu paralleler Tasks Ressource Management Überwachung Trasktracker (Heartbeats, Blacklisting, Cluster Capacity) Zuteilung von Slots zu Tasks Job Scheduling und Monitoring Ausführen von MapReduce Jobs Quelle: [YARN] Überwachen laufender und ausstehender Tasks (Speculative Execution, Neustart fehlgeschlagener Tasks, Aggregieren der Counter) Kein Support für andere Programmiermodelle als MapReduce 6

7 YARN: Grundidee Dezentralisierung Quelle: 7

8 YARN: Dezentralisierung Globaler Ressource Manager (RM) Applications Manager (AsM) Submission von Anwendungen Start/Monitoring/Neustart von Application masters Überwachen des Fortschritt aller Anwendungen Scheduler: Zuteilung von Ressourcen zu Anwendungen Application Master (AM) Mini-Jobtracker für eine Anwendung (z.b. 1 MapReduce Job) Leichtgewichtiger Prozess auf Slave-Node Task Scheduling und Monitoring Anforderung der benötigten Ressourcen (RAM, CPU, Bandbreite, Disk) vom RM Allokation und Monitoring aller gewährten Container auf zugewiesenen NMs Fortschrittsbericht an AsM Node Manager (NM) Slave-Prozess, Ausführung und Überwachen von abstrakten Containern Fortschrittsbericht an AM Bericht über belegte Ressourcen an RM 8

9 YARN: Application Submission Priority,Hostname,Ressources,#Containers 1, host1, 1GB, 1 1, host2, 2GB, 1 host1 host2 Quelle:[YARN] RM kann neugestartet werden ohne dass laufende Anwendungen neugestartet werden müssen Abstraktion (Ressourcen, Container) erlaubt Implementierung verschiedener verteilter Frameworks auf Basis von HDFS und YARN MapReduce, Apache HAMA, Apache Giraph, Open MPI, Apache Spark 9

10 ResourceManager - High Availability ZKRMStateStore (alternativ FileSystem- RMStateStore ) Active/Standby Architektur (immer nur ein RM aktiv) Automatic Failover : Zookeeper-based ActiveStandbyElector automatische Wahl, welcher RM der neue aktive wird, falls aktiver RM ausfällt Client, AM, NMs verbinden zu RMs in round-robin fashion bis aktiver RM erreicht Wiederherstellen des Zustands von aktivem RM: neuer aktiver lädt internen RM-Status und arbeitet weiter, wo vorheriger aufgehört hat - soweit möglich; regelmäßige Checkpoints von Applikationen, um Wiederholen der Arbeit zu vermeiden ZKRMStateStore: WriteAccess nur FÜR EINEN 10 RM (kein split brain scenario )

11 Inhaltsverzeichnis Hadoop 2.x.x YARN (= MRv2= MapReduce 2.0) Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen 11

12 Google Dremel Skalierbares System für verteilte Ausführung von Leseanfragen auf riesigen Mengen geschachtelter Daten Effizientere Bearbeitung im Vgl. zur Ausführung einer Menge von MapReduce Jobs Building Blocks Spaltenbasierte Speicherung geschachtelter Datensätze SQL-ähnliche Anfragesprache Multi-level execution trees Open Source-Implementierung: Apache Drill Quellen für die folgenden Folien: [Dremel1], [Dremel2] 12

13 Google Dremel : Datenmodell Attribute können Werte sein oder ein bis mehrere Unterattribute haben Pflichtattribute sein [1,1] required optional sein [0,1] optional wiederholt auftreten (Reihenfolge relevant) [0,*] repeated A A B B E:e 1 E:e 2 E:e 3 C:c 1 D:d 1 D:d 2 C:c 2 D:d 3 D:d 4 A.B.C=c 1 A.B.C=c 2 A.B.D=d 1 A.B.D=d 2 record-oriented A.B.D=d 3 A.B.D=d 4 13 vs. column-oriented A.E=e 1 A.E=e 2 A.E=e 3 - Bei Projektion Lesen weniger Daten - Bessere (De)kompressionseigenschaften

14 Google Dremel : Spaltenbasierte Zerlegung Sequentielle Speicherung aller Werte eines Attributes Zusätzliche Information (r,d) für jeden Wert um Datensätze rekonstruieren zu können r 2 r 1 Repetition level r: At what repeated field in the field's path the value has repeated Anzahl repeated fields im Pfadpräfix, der mit Vorgänger übereinstimmt (inkl. Element, das Record identifiziert) r 1.Name 1.Language 1.Code: en-us (r=0) r 1.Name 1.Language 2.Code: en (r=2) r 1.Name 2 (r=1) r 1.Name 3.Language 1.Code: en-gb (r=1) r 14 2.Name 1 (r=0) Definition level d: How many fields in paths that could be undefined are actually present Anzahl optionaler und repeated fields im Pfad (ohne Element, das Record identifiziert): r 1.Links.Forward 2 : 40 (d=2) NULL: wenn d kleiner als max. mögliche Anzahl optionaler und repeated fields im Pfad

15 Google Dremel : Rekonstruktion Notwendig für Interoperabilität mit satzorientierten Tools (z.b. MapReduce) Gegeben: Teilmenge der benötigten Attribute Gesucht: Ausgangsdatensätze mit originaler Schachtelung und Reihenfolge (nicht benötigte Attribute fallen weg) Endlicher Automat (Finite State Machine) Zustand entspricht einem Field Reader für entsprechendes Attribut Bei Übergang in einen Zustand liest der Field Reader den nächsten Wert und fügt diesen zum aktuellem Datensatz hinzu Anschließend wird r des darauffolgenden Wertes gelesen Entspricht Zustandsübergang 15

16 Google Dremel : Rekonstruktion (2) Wird nur eine Teilmenge der Attribute benötigt, kann ein einfacherer Automat konstruiert/verwendet werden 16

17 Google Dremel : SQL-ähnliche Anfragesprache Optimiert für select-project-aggregate auf einer Tabelle Single scan Intra-Record und Inter-Record Aggregation 17

18 Google Dremel: Anfrageausführung Serving Tree Hierarchische Anfrageausführung Jeder Knoten schreibt Anfrage in Menge von Teilanfragen um und aggregiert die resultierenden Teilergebnisse Blattknoten kommunizieren mit Storage Layer Fehlertoleranz durch Mehrfachvergabe einer Teilanfrage 18

19 Google Dremel: Evaluierung SELECT SUM(CountWords(field)) / COUNT(*) FROM T1 T1: 85 Mrd. Datensätze / 87 TB Zugriff nur auf ein Attribut MR Overhead Starten des/der Job/s Task Scheduling Lesen vollständiger Datensätze execution time (sec) on 3000 nodes (87 TB) (0.5 TB) Tiefe der Serving Tree-Topologie Q2: SELECT country, SUM(item.amount) FROM T2 GROUP BY country Q3: SELECT domain, SUM(item.amount) FROM T2 WHERE domain CONTAINS.net GROUP BY domain T2: 24 Mrd. Datensätze/ 13TB 19 (60GB, 100s of records) (180GB, 1.1 Mio records)

20 Inhaltsverzeichnis Hadoop 2.x.x YARN (= MRv2= MapReduce 2.0) Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen 20

21 Apache Spark: Motivation MapReduce ist ungeeignet für iterative und interaktive Anwendungen Materialisierung von Map-Ergebnissen im lokalen FS Materialisierung und Replikation von Reduce-Ergebnissen im HDFS Ansatz: Caching im Hauptspeicher Eine Größenordnung schneller als Externspeicherzugriff 95% aller Anfragen an Facebooks Hive Cluster könnten komplett aus HS beantwortet werden [Spark] Quelle: [Spark2] Bisherige Ansätze (z.b. RAMCloud) erfordern Replikation und verteilte Speicherung, um Fehlertoleranz gewährleisten zu können 21 Quelle: [Spark2]

22 Apache Spark: Übersicht Ursprünglich Forschungsprojekt der UC Berkely zur parallelen Analyse großer Datenmengen in Cluster-Umgebungen [Spark] Apache Top Level-Projekt (seit ) Auf Datensätze eines Datasets können verschiedene Funktionen (höherer Ordnung) angewendet werden Erzeugen neues Dataset map, flatmap, filter, groupbykey, reducebykey, join, cogroup, mapvalues, partition, In-memory Caching von Datasets für effiziente Multi-pass-Operationen Iterative Algorithmen (Machine Learning, PageRank, K-means, ) Interaktive Datenanalyse (z.b. SQL) Fehlertoleranz Keine Replikation gecacheter Daten sondern Neuberechnung verlorener Partitionen APIs: Scala, Java, Python (Lambda-Ausdrücke) Run Spark: Standalone Mode / on YARN 22 / on Mesos

23 Apache Spark: Resilient Distributed Datasets Verteilte Kollektion von Datensätzen Read-only Generiert durch Anwendung bestimmter Transformationen auf Basisdatenquelle (HDFS) oder Existierendem RDD Nutzer kann RDDs im Hauptspeicher der Worker-Nodes cachen Erlaubt Wiederverwendung in späteren Operationen Ausschreiben auf Sekundärspeicher bei HS-Mangel Lineage-Information RDD kennt seine Vater-RDDs sowie die Berechnungsvorschrift, mit welcher es aus diesen abgeleitet wurde Verlorene Partitionen können bei Bedarf neuberechnet werden 23

24 Apache Spark: Beispiel Zeitstempel (=vierte Spalte) der Log-Einträge die mit ERROR starten und HDFS enthalten 24

25 Apache Spark: Transformationen & Aktionen Beispiele: pets = sc.parallelize([(cat, 1), (dog, 1), (cat, 2)]) => [(cat,1), (dog,1), (cat,2)] //verteilt pets.sortbykey().collect() => [(cat,1), (cat,2), (dog,1)] pets.groupbykey().collect() => [(cat,[1,2]), (dog,[1])] pets.reducebykey(f(x,y)=x+y).collect(); => [(cat,3), (dog,1)] pets.mapvalues(f(x)=x+1).collect() => [(cat,2), (dog,2), (cat,3)] 25 Quelle: [Spark]

26 Apache Spark: K-means Clustering Analog zu Beispiel aus Kapitel 4 S.25 Lokale Ausführung 26

27 Apache Spark: K-means Clustering (2) 27

28 Apache Spark: Architektur BlockManager Write-once Key-Value Store pro Worker Caching von RDDs Bereitstellen eines Shuffle-Services Verwalten eines StorageLevels pro Block Externspeicher, RAM Auslagern gecacheter Daten auf Externspeicher bei HS-Mangel Quelle: [Spark3] 28

29 Apache Spark: Scheduling DAGScheduler: Kind-Partition hängt von einer konst. Anzahl von Partitionen der Vater-RDDs ab Pipelining mehrerer Transformationen in 1 Task Shuffle-Operationen markieren Stage-Grenzen Parallele Ausführung der Tasks eines Stages Keine Neuberechnung von Stages, deren Ergebnis bereits im Cache vorliegt (Stage 1) TaskScheduler Berücksichtigen Datenlokalität (Cache, HDFS Blöcke) Task-Failure Neuberechnung auf anderen Knoten solange abhängige Partitionen verfügbar sind sonst: parallele RDD-Recovery 29

30 Apache Spark: RDD Recovery Lineage-Information eines RDDs Menge von Partitionen (z.b. HDFS Blöcke, Reduce-Tasks, ) Menge von Abhängigkeiten zu Vater-RDDs Funktion um eine Partition ausgehend von Vater-RDD zu berechnen Bevorzugte Knoten zur Berechnung einer Partition (HDFS block location, Knoten welcher Partition eines RDDs cached, shuffle on each parent, ) Information über Partitionierung Fehlertoleranz für Shuffle-Transformationen Join, groupbykey, reducebykey, Pufferung der Zwischenergebnisse im Haupt- bzw. Externspeicher der Erzeuger 30 Quelle: [Spark2]

31 Apache Spark: Evaluation [Spark] Logistic Regression (1Mrd Punkte, 100GB) K-Means (1Mrd. Punkte, 100GB, 10 Cluster) Knoten

32 Zusammenfassung Hadoop 2.x.x YARN: Generisches Management von Cluster-Ressourcen HDFS Federation: Echte horizontale Skalierbarkeit des Clusters (Kap. 3) HDFS HA: Namenode SPOF (Kap. 3) Google Dremel Spaltenorientierte Speicherung geschachtelter Daten Interaktive Analyse von read-only Daten Scan & Aggregate (auf Teilmenge der Spalten) Hierarchische Anfragebearbeitung: Multi-level aggregation tree Apache Spark Parallele, fehlertolerante Datenanalyse mit In-memory Caching von Datensätzen Ausführungsumgebung für Erweiterungen Spark SQL Graph-Analyse - GraphX Machine Learning - MLlib Analyse auf kontinuierlichen Datenströmen: Spark Streaming R on Spark - SparkR 32

33 Quellen & Literatur [YARN]: [YARN2]: [Dremel1] Melnik et. al.: Dremel: Interactive Analysis of Web-Scale Datasets. Commun. ACM 2011 [Dremel2] [Spark] Zaharia et. al.: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In- Memory Cluster Computing. NSDI 2012 [Spark2]: [Spark3]: 33

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Large-Scale Datenanalyse Lars Kolb Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2 Gerrit Thede Big and Fast Data - Verarbeitung von Streaming Data Grundlagen Vertiefung und Anwendungen 2 Fakultät Technik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Red Hat Cluster Suite

Red Hat Cluster Suite Red Hat Cluster Suite Building high-available Applications Thomas Grazer Linuxtage 2008 Outline 1 Clusterarten 2 3 Architektur Konfiguration 4 Clusterarten Was ist eigentlich ein Cluster? Wozu braucht

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

GSCC General Storage Cluster Controller. TSM Verfügbarkeit

GSCC General Storage Cluster Controller. TSM Verfügbarkeit GSCC General Storage Cluster Controller TSM Verfügbarkeit Skyloft 17.06.2015 Karsten Boll GSCC Themen Historie und Überblick Design und Architektur IP Cluster (DB2 HADR) GSCCAD das GUI Trends GSCC Neuigkeiten

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

AS 7 / EAP 6 - Clustering. heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de

AS 7 / EAP 6 - Clustering. heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de AS 7 / EAP 6 - Clustering heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de Was ist die EAP 6? EAP6!= EAP5 +1 JBoss Enterprise ApplicaBon PlaCorm 6 Stabile und unterstützte Pla>orm Basiert auf

Mehr

Caching. Hintergründe, Patterns &" Best Practices" für Business Anwendungen

Caching. Hintergründe, Patterns & Best Practices für Business Anwendungen Caching Hintergründe, Patterns &" Best Practices" für Business Anwendungen Michael Plöd" Senacor Technologies AG @bitboss Business-Anwendung!= Twitter / Facebook & co. " / kæʃ /" bezeichnet in der EDV

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Open Source Data Center Virtualisierung mit OpenNebula. 22.05.2013 LinuxTag Berlin. Bernd Erk www.netways.de

Open Source Data Center Virtualisierung mit OpenNebula. 22.05.2013 LinuxTag Berlin. Bernd Erk www.netways.de Open Source Data Center Virtualisierung mit OpenNebula 22.05.2013 LinuxTag Berlin Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 38 Mitarbeiter! Spezialisierung

Mehr

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de Open Source Data Center Virtualisierung mit OpenNebula 05.03.2013 CeBIT 2013 Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 35 Mitarbeiter! Spezialisierung

Mehr

The Unbreakable Database System

The Unbreakable Database System The Unbreakable Database System Real Application Cluster auf Sun Cluster 3.0 Unterföhring, 11.2002 M. Beeck, M. Kühn 1 Comparisson HA - HA Ziele, DataGuard, HA Oracle, RAC Sun Cluster 3.0 Key Features

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

Windows Server 2012 R2

Windows Server 2012 R2 Windows Server 2012 R2 Eine Übersicht Raúl B. Heiduk (rh@pobox.com) www.digicomp.ch 1 Inhalt der Präsentation Die wichtigsten Neuerungen Active Directory PowerShell 4.0 Hyper-V Demos Fragen und Antworten

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr

Solaris Cluster. Dipl. Inform. Torsten Kasch 8. Januar 2008

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008 Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

OpenStack bei der SAP SE

OpenStack bei der SAP SE OpenStack bei der SAP SE Integration bestehender Dienste in OpenStack dank Workflow Engine und angepasstem Webinterface 23. Juni 2015 Christian Wolter Linux Consultant B1 Systems GmbH wolter@b1-systems.de

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

The Unbreakable Database System

The Unbreakable Database System The Unbreakable Database System Real Application Cluster Unterföhring, 04.2005 M. Kühn 1 Comparisson HA - HA Ziele, DataGuard, HA Oracle, RAC RAC Features - Cache Fusion, TAF, Load Balancing RAC on Solaris

Mehr

Oracle Database 10g Die RAC Evolution

Oracle Database 10g Die RAC Evolution Oracle Database 10g Die RAC Evolution Markus Michalewicz BU Database Technologies ORACLE Deutschland GmbH 2 Page 1 www.decus.de 1 RAC-Revolution, RAC-Evolution & Computing Oracle8i mit OPS Oracle9i Rel.

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

ein verteiltes und repliziertes Dateisystem XtreemOS IP project is funded by the European Commission under contract IST-FP6-033576

ein verteiltes und repliziertes Dateisystem XtreemOS IP project is funded by the European Commission under contract IST-FP6-033576 ein verteiltes und repliziertes Dateisystem is funded by the European Commission XtreemOS IPunder project contract IST-FP6-033576 1 Das XtreemOS Projekt Europäisches Forschungsprojekt gefördert von der

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Adam Stambulski Project Manager Viessmann R&D Center Wroclaw Dr. Moritz Gomm Business Development Manager Zühlke Engineering

Mehr

R im Enterprise-Modus

R im Enterprise-Modus R im Enterprise-Modus Skalierbarkeit, Support und unternehmensweiter Einsatz Dr. Eike Nicklas HMS Konferenz 2014 Was ist R? R is a free software environment for statistical computing and graphics - www.r-project.org

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

RAC auf Sun Cluster 3.0

RAC auf Sun Cluster 3.0 RAC auf Sun Cluster 3.0 Schlüsselworte RAC, OPS, Sun Cluster, Performance, Availability Zusammenfassung Oracle hat mit dem Real Application Cluster (RAC) aus einer Hochverfügbarkeitslösung eine Höchstverfügbarkeitslösung

Mehr

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 2: Anwendungsfälle an der Nationalbibliothek Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

NoSQL-Databases. Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de

NoSQL-Databases. Präsentation für Advanced Seminar Computer Engineering, Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de NoSQL-Databases Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de Klassische SQL-Datenbanken Anwendungsgebiet: Geschäftsanwendungen Behördenanwendungen

Mehr

Performance Tuning & Scale-Out mit MySQL

Performance Tuning & Scale-Out mit MySQL Performance Tuning & Scale-Out mit MySQL Erfa-Gruppe Internet Briefing 2. März 2010 Oli Sennhauser Senior MySQL Consultant, FromDual oli.sennhauser@fromdual.com www.fromdual.com 1 Inhalt Allgemeines zu

Mehr

Monitoring der GEO600-Jobs Beispiel für Applikations- Monitoring

Monitoring der GEO600-Jobs Beispiel für Applikations- Monitoring Monitoring der GEO600-Jobs Beispiel für Applikations- Monitoring Alexander Beck-Ratzka Monitoring-WS, 28.11.2008 Alexander Beck-Ratzka Monitoring GEO600 Monitoring Workshop Agenda Was ist GEO600 und einstein@home?

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 2. November 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Alexander Schätzle, Martin Przjyaciel-Zablocki, Thomas Hornung dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

MapReduce in der Praxis

MapReduce in der Praxis Universität Passau Fakultät für Informatik und Mathematik Ausarbeitung MapReduce in der Praxis Verfasser: Rolf Daniel 09.12.2010 Zusammenfassung MapReduce ist ein von Google eingeführtes Framework, das

Mehr

Linux Cluster in Theorie und Praxis

Linux Cluster in Theorie und Praxis Foliensatz Center for Information Services and High Performance Computing (ZIH) Linux Cluster in Theorie und Praxis Monitoring 30. November 2009 Verfügbarkeit der Folien Vorlesungswebseite: http://tu-dresden.de/die_tu_dresden/zentrale_einrichtungen/

Mehr

Virtualisierung: Neues aus 2010 und Trends 2011

Virtualisierung: Neues aus 2010 und Trends 2011 Virtualisierung: Neues aus 2010 und Trends 2011 Werner Fischer, Technology Specialist Thomas-Krenn.AG Thomas Krenn Herbstworkshop 2010 Freyung, 24. September 2010 Agenda 1) Virtualisierungs-Software VMware

Mehr

PVFS (Parallel Virtual File System)

PVFS (Parallel Virtual File System) Management grosser Datenmengen PVFS (Parallel Virtual File System) Thorsten Schütt thorsten.schuett@zib.de Management grosser Datenmengen p.1/?? Inhalt Einführung in verteilte Dateisysteme Architektur

Mehr

LINUX 4 AIX Ein Überblick. 1 17.03.2014 AIX 2 LINUX Webcast

LINUX 4 AIX Ein Überblick. 1 17.03.2014 AIX 2 LINUX Webcast LINUX 4 AIX Ein Überblick 1 17.03.2014 AIX 2 LINUX Webcast Agenda 00 Voraussetzungen und Vorbereitung 01 Virtualisierung 02 HA High Availability und Cluster 03 System Management Deployment Monitoring 04

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

GIS in der Cloud: Beispiele von ESRI und con terra

GIS in der Cloud: Beispiele von ESRI und con terra GIS in der Cloud: Beispiele von ESRI und con terra Dr. Matthias Bluhm ESRI Deutschland GmbH 9. März 2011, Darmstadt 2 ESRI Deutschland GmbH, 2011 GmbH 2010 ESRI Unternehmensgruppe (in Deutschland und der

Mehr

Logical Data Warehouse SQL mit Oracle DB und Hadoop

Logical Data Warehouse SQL mit Oracle DB und Hadoop Logical Data Warehouse SQL mit Oracle DB und Hadoop Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH Ingo Reisky Senior Consultant Opitz Consulting Deutschland GmbH ISE Information

Mehr