Cloud Data Management
|
|
- Til Falk
- vor 5 Jahren
- Abrufe
Transkript
1 Cloud Data Management Kapitel 7: Large-Scale Datenanalyse Dr. Anika Groß Wintersemester 2016 Universität Leipzig Institut für Informatik 1
2 Einführung Hadoop (und darauf aufbauende Frameworks) Einfache Parallelisierung von Berechnungen in Cluster-Umgebungen Fehlertoleranz Frei verfügbar Große Community Viele Optimierungsansätze aus Forschung ( letztes Kapitel) Design-Schwächen SPOF, begrenzte horizontale Skalierbarkeit ( Hadoop 2.x.x) Nicht optimal für alle Anwendungsfälle Iterative Anwendungen z.b. maschinelle Lernverfahren ( Spark) Echtzeit-Anwendungen Ad-hoc Aggregation großer Datenmengen ( Dremel) 2
3 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 3
4 Apache Spark: Motivation MapReduce ist ungeeignet für iterative und interaktive Anwendungen Materialisierung von Map-Ergebnissen im lokalen FS Materialisierung und Replikation von Reduce-Ergebnissen im HDFS Quelle: [Spark2] Ansatz: Caching im Hauptspeicher Eine Größenordnung schneller als Externspeicherzugriff 95% aller Anfragen an Facebooks Hive Cluster könnten komplett aus HS beantwortet werden [Spark] Quelle: [Spark2] 4
5 Apache Spark: Übersicht Ursprünglich Forschungsprojekt der UC Berkely zur parallelen Analyse großer Datenmengen in Cluster-Umgebungen [Spark] Apache Top Level-Projekt (seit ) Auf Datensätze eines Datasets können verschiedene Funktionen (höherer Ordnung) angewendet werden Erzeugen neues Dataset map, flatmap, filter, groupbykey, reducebykey, join, cogroup, mapvalues, partition, In-memory Caching von Datasets für effiziente Multi-pass-Operationen Iterative Algorithmen (Machine Learning, PageRank, K-means, ) Interaktive Datenanalyse (z.b. SQL) Fehlertoleranz Keine Replikation gecacheter Daten sondern Neuberechnung verlorener Partitionen 5
6 Spark Überblick + SparkR (R on Spark) Bildquelle: APIs: Scala, Java, Python, R (Lambda-Ausdrücke) Run Spark: Standalone Mode / on YARN / on Mesos 6
7 Apache Spark: Resilient Distributed Datasets Verteilte Kollektion von Datensätzen Read-only Generiert durch Anwendung bestimmter Transformationen auf Basisdatenquelle (HDFS) oder Existierendem RDD Nutzer kann RDDs im Hauptspeicher der Worker-Nodes cachen Erlaubt Wiederverwendung in späteren Operationen Ausschreiben auf Sekundärspeicher bei HS-Mangel Lineage-Information RDD kennt seine Vater-RDDs sowie die Berechnungsvorschrift, mit welcher es aus diesen abgeleitet wurde Verlorene Partitionen können bei Bedarf neuberechnet werden 7
8 Apache Spark: Beispiel (1) In Scala: val sc = new SparkContext( spark://..., MyJob, home, jars) Resilient distributed datasets (RDDs) val file = sc.textfile( hdfs://... ) val errors = file.filter(_.contains( ERROR )) errors.cache() errors.count() Action Quelle: [Spark3] 8
9 Apache Spark: Beispiel (2) Zeitstempel (=vierte Spalte) der Log-Einträge die mit ERROR starten und HDFS enthalten 9
10 Apache Spark: Transformationen & Aktionen Beispiele: pets = sc.parallelize([(cat, 1), (dog, 1), (cat, 2)]) => [(cat,1), (dog,1), (cat,2)] //verteilt pets.sortbykey().collect() => [(cat,1), (cat,2), (dog,1)] pets.groupbykey().collect() => [(cat,[1,2]), (dog,[1])] pets.reducebykey(f(x,y)=x+y).collect(); => [(cat,3), (dog,1)] pets.mapvalues(f(x)=x+1).collect() => [(cat,2), (dog,2), (cat,3)] 10 Quelle: [Spark]
11 Apache Spark: K-means Clustering Analog zu Beispiel aus Kapitel 4 S.24/25 Lokale Ausführung 11
12 Apache Spark: K-means Clustering (2) 12
13 Apache Spark: Architektur BlockManager Write-once Key-Value Store pro Worker Caching von RDDs Bereitstellen eines Shuffle-Services Verwalten eines StorageLevels pro Block Externspeicher, RAM Auslagern gecacheter Daten auf Externspeicher 13 bei HS-Mangel Quelle: [Spark3]
14 Apache Spark: Scheduling DAGScheduler: Kind-Partition hängt von einer konst. Anzahl von Partitionen der Vater-RDDs ab Pipelining mehrerer Transformationen in 1 Task Shuffle-Operationen markieren Stage-Grenzen Parallele Ausführung der Tasks eines Stages Keine Neuberechnung von Stages, deren Ergebnis bereits im Cache vorliegt (Stage 1) TaskScheduler Berücksichtigen Datenlokalität (Cache, HDFS Blöcke) Task-Failure Neuberechnung auf anderen Knoten solange abhängige Partitionen verfügbar sind sonst: parallele RDD-Recovery 14
15 Apache Spark: RDD Recovery Lineage-Information eines RDDs Menge von Partitionen (z.b. HDFS Blöcke, Reduce-Tasks, ) Menge von Abhängigkeiten zu Vater-RDDs Funktion um eine Partition ausgehend von Vater-RDD zu berechnen Bevorzugte Knoten zur Berechnung einer Partition (HDFS block location, Knoten welcher Partition eines RDDs cached, shuffle on each parent, ) Information über Partitionierung Fehlertoleranz für Shuffle-Transformationen Join, groupbykey, reducebykey, Pufferung der Zwischenergebnisse im Haupt- bzw. Externspeicher der Erzeuger 15 Quelle: [Spark2]
16 Apache Spark: Evaluation [Spark] Logistic Regression (1Mrd Punkte, 100GB) K-Means (1Mrd. Punkte, 100GB, 10 Cluster) Knoten
17 Inhaltsverzeichnis Apache Spark Parallele In-memory Datenanalyse in Cloud-Umgebungen Google Dremel Hierarchisches, spaltenorientiertes Echtzeit-Anfragesystem zur Aggregation verteilter, geschachtelter Datensätze 17
18 Google Dremel Skalierbares System für verteilte Ausführung von Leseanfragen auf riesigen Mengen geschachtelter Daten Effizientere Bearbeitung im Vgl. zur Ausführung einer Menge von MapReduce Jobs Building Blocks Spaltenbasierte Speicherung geschachtelter Datensätze SQL-ähnliche Anfragesprache Multi-level execution trees Open Source-Implementierung: Apache Drill Quellen für die folgenden Folien: [Dremel1], [Dremel2] 18
19 Google Dremel : Datenmodell Attribute können Werte sein oder ein bis mehrere Unterattribute haben Pflichtattribute sein [1,1] required optional sein [0,1] optional wiederholt auftreten (Reihenfolge relevant) [0,*] repeated A A B B E:e 1 E:e 2 E:e 3 C:c 1 D:d 1 D:d 2 C:c 2 D:d 3 D:d 4 A.B.C=c 1 A.B.C=c 2 A.B.D=d 1 A.B.D=d 2 record-oriented A.B.D=d 3 A.B.D=d 4 19 vs. column-oriented A.E=e 1 A.E=e 2 A.E=e 3 - Bei Projektion Lesen weniger Daten - Bessere (De)kompressionseigenschaften
20 Google Dremel : Spaltenbasierte Zerlegung Sequentielle Speicherung aller Werte eines Attributes Zusätzliche Information (r,d) für jeden Wert um Datensätze rekonstruieren zu können r 2 r 1 Repetition level r: At what repeated field in the field's path the value has repeated Anzahl repeated fields im Pfadpräfix, der mit Vorgänger übereinstimmt (inkl. Element, das Record identifiziert) r 1.Name 1.Language 1.Code: en-us (r=0) r 1.Name 1.Language 2.Code: en (r=2) r 1.Name 2 (r=1) r 1.Name 3.Language 1.Code: en-gb (r=1) r 20 2.Name 1 (r=0) Definition level d: How many fields in paths that could be undefined are actually present Anzahl optionaler und repeated fields im Pfad (ohne Element, das Record identifiziert): r 1.Links.Forward 2 : 40 (d=2) NULL: wenn d kleiner als max. mögliche Anzahl optionaler und repeated fields im Pfad
21 Google Dremel : Rekonstruktion Notwendig für Interoperabilität mit satzorientierten Tools (z.b. MapReduce) Gegeben: Teilmenge der benötigten Attribute Gesucht: Ausgangsdatensätze mit originaler Schachtelung und Reihenfolge (nicht benötigte Attribute fallen weg) Endlicher Automat (Finite State Machine) Zustand entspricht einem Field Reader für entsprechendes Attribut Bei Übergang in einen Zustand liest der Field Reader den nächsten Wert und fügt diesen zum aktuellem Datensatz hinzu Anschließend wird r des darauffolgenden Wertes gelesen Entspricht Zustandsübergang 21
22 Google Dremel : Rekonstruktion (2) Wird nur eine Teilmenge der Attribute benötigt, kann ein einfacherer Automat konstruiert/verwendet werden 22
23 Google Dremel : SQL-ähnliche Anfragesprache Optimiert für select-project-aggregate auf einer Tabelle Single scan Intra-Record und Inter-Record Aggregation 23
24 Google Dremel: Anfrageausführung Serving Tree Hierarchische Anfrageausführung Jeder Knoten schreibt Anfrage in Menge von Teilanfragen um und aggregiert die resultierenden Teilergebnisse Blattknoten kommunizieren mit Storage Layer Fehlertoleranz durch Mehrfachvergabe einer Teilanfrage 24
25 Google Dremel: Evaluierung SELECT SUM(CountWords(field)) / COUNT(*) FROM T1 T1: 85 Mrd. Datensätze / 87 TB Zugriff nur auf ein Attribut MR Overhead Starten des/der Job/s Task Scheduling Lesen vollständiger Datensätze execution time (sec) on 3000 nodes (87 TB) (0.5 TB) Tiefe der Serving Tree-Topologie Q2: SELECT country, SUM(item.amount) FROM T2 GROUP BY country Q3: SELECT domain, SUM(item.amount) FROM T2 WHERE domain CONTAINS.net GROUP BY domain T2: 24 Mrd. Datensätze/ 13TB 25 (60GB, 100s of records) (180GB, 1.1 Mio records)
26 Zusammenfassung Apache Spark Parallele, fehlertolerante Datenanalyse mit In-memory Caching von Datensätzen Ausführungsumgebung für Erweiterungen Spark SQL Graph-Analyse - GraphX Machine Learning - MLlib Analyse auf kontinuierlichen Datenströmen: Spark Streaming R on Spark - SparkR Google Dremel Spaltenorientierte Speicherung geschachtelter Daten Interaktive Analyse von read-only Daten Scan & Aggregate (auf Teilmenge der Spalten) Hierarchische Anfragebearbeitung: Multi-level aggregation tree 26
27 Quellen & Literatur [Spark] Zaharia et. al.: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In- Memory Cluster Computing. NSDI 2012 [Spark2]: [Spark3]: [Dremel1] Melnik et. al.: Dremel: Interactive Analysis of Web-Scale Datasets. Commun. ACM 2011 [Dremel2] 27
Schneller als Hadoop?
Schneller als Hadoop? Einführung in Spark Cluster Computing 19.11.2013 Dirk Reinemann 1 Agenda 1. Einführung 2. Motivation 3. Infrastruktur 4. Performance 5. Ausblick 19.11.2013 Dirk Reinemann 2 EINFÜHRUNG
MehrDduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrCloud Data Management
Cloud Data Management Kapitel 6: Large-Scale Datenanalyse Lars Kolb Sommersemester 2014 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Einführung Hadoop (und darauf aufbauende
MehrFast Analytics on Fast Data
Fast Analytics on Fast Data Kudu als Storage Layer für Banking Applikationen Problem Klassischer Kreditprozess Beantragung in der Filiale Aufwendiger Prozess Nachweis durch Dokumente Manuelle Bewilligung
MehrSchneller als Hadoop? Einführung in Spark Cluster Computing
Schneller als Hadoop? Einführung in Spark Cluster Computing Dirk Reinemann Oracle Deutschland B.V. & Co. KG Potsdam Schlüsselworte Big Data, Cluster Computing, Spark, Shark, Resilient Distributed Datasets,
MehrBig and Fast Data - Verarbeitung von Streaming Data
Big and Fast Data - Verarbeitung von Streaming Data AW2 Präsentation Gerrit Thede Fakultät Technik und Informatik Department Informatik HAW Hamburg 17. April 2014 Outline 1 Einleitung 2 Incoop: MapReduce
MehrEinführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer
Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum
MehrBig Data: Apache Hadoop Grundlagen
Seminarunterlage Version: 1.07 Version 1.07 vom 5. September 2018 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen
MehrPL/SQL vs. Spark Umsteigertipps für's DWH
PL/SQL vs. Spark Umsteigertipps für's DWH Christopher Thomsen Hamburg Jens Bleiholder Berlin Schlüsselworte Big Data, Spark, PL/SQL, SQL, ETL, Hadoop, DWH Einleitung Mit Hadoop 2.0 öffnete sich die Big
MehrDie wichtigsten Hadoop-Komponenten für Big Data mit SAS
Webinar@Lunchtime Die wichtigsten Hadoop-Komponenten für Big Data mit SAS Herzlich Willkommen bei Webinar@Lunchtime Moderation Anne K. Bogner-Hamleh SAS Institute GmbH Education Consultant Xing-Profil:
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrBig Data Technologien
Big Data Technologien - Ein Überblick - Prof. Dr. Jens Albrecht jens.albrecht@th-nuernberg.de Big Data Landscape 2016 Prof. Dr. Jens Albrecht Big Data 3 Systemarchitektur im Wandel Gestern und heute Strukturierte
MehrEinführung in Hadoop
Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian
Mehron Azure mit HDInsight & Script Ac2ons
Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu
MehrSkalierbare Webanwendungen
Skalierbare Webanwendungen Thomas Bachmann Lead Software Architect & CIO Mambu GmbH Twitter: @thobach Anwendungsbeispiel Hohe Nichtfunktionale Anforderungen Sicherheit Vertraulichkeit Integrität Verfügbarkeit
MehrMapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung
MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce
MehrBig Data. Professional IT Master. Prof. Dr. Ingo Claßen. Überblick. Verarbeitungsmodell. Verarbeitungsablauf. Verteilte Daten. Ressourcenmanagement
Big Data Professional IT Master Prof. Dr. Ingo Claßen Hochschule für Technik und Wirtschaft Berlin Überblick Verarbeitungsmodell Verarbeitungsablauf Verteilte Daten Ressourcenmanagement Koordination Überblick
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrEinführung in Hauptspeicherdatenbanken
Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation
Mehr1 Einführung Ziele der Vorlesung Die Idee Lernkarte Selbsttest-Frage 3 Literaturhinweise 3
1 Einführung 1 1.1 Ziele der Vorlesung 1 1.2 Die Idee 1 1.3 Lernkarte 2 1.4 Selbsttest-Frage 3 Literaturhinweise 3 Teilt Die Zukunft von Enterprise-Computing 5 2 Neue Anforderungen an Enterprise Computing
MehrHadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015
Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt
MehrBig Data in der Praxis
Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren HANSER Vorwort XI 1 Einleitung 1 2 Big-Data 7 2.1 Historische Entstehung 8 2.2 Big-Data
MehrBeratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting
Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis
MehrSpark, Impala und Hadoop in der Kreditrisikoberechnung
Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort
MehrTensorFlow Open-Source Bibliothek für maschinelles Lernen. Matthias Täschner Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig
TensorFlow Open-Source Bibliothek für maschinelles Lernen Seminar Deep Learning WS1718 Abteilung Datenbanken Universität Leipzig Motivation Renaissance bei ML und KNN Forschung bei DNN fortgeschrittene
MehrÜberblick. Verarbeitung großer Datenmengen Motivation MapReduce. c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1
Überblick Verarbeitung großer Datenmengen Motivation MapReduce c td MWCC (WS18/19) Verarbeitung großer Datenmengen 8 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung des World
MehrMapReduce: Simplified Data Processing on Large Clusters
MapReduce: Simplified Data Processing on Large Clusters Hardware-Software-Co-Design Universität Erlangen-Nürnberg Tobias.Schwarzer@e-technik.stud.uni-erlangen.de Michael.Theil@mathe.stud.uni-erlangen.de
MehrBIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY
BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY 08.03.2017 REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer AGENDA 1 / Vorstellung REWE Systems GmbH und inovex
Mehr!"#$"%&'()*$+()',!-+.'/',
Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook
MehrWide Column Stores. Felix Bruckner Mannheim, 15.06.2012
Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing
MehrÜberblick. Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark. c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1
Überblick Verarbeitung großer Datenmengen Motivation MapReduce Pig Spark c td MWCC (WS16/17) Verarbeitung großer Datenmengen 7 1 Verarbeitung großer Datenmengen Problemstellungen (Beispiele) Indexierung
MehrData Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.
MehrMapReduce in der Praxis
MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation
MehrOracle Big Data Technologien Ein Überblick
Oracle Big Data Technologien Ein Überblick Jürgen Vester Oracle Deutschland B.V. & Co KG Um was geht es bei Big Data? Bei Big Data sprechen wir eine Klasse von Daten an, die in der
MehrCloud Data Management Kapitel 4: MapReduce(Teil3)
Cloud Data Management Kapitel 4: MapReduce(Teil3) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Inhaltsverzeichnis MapReduce MapReduce-Umsetzung
MehrErfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien
Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf
MehrData Cubes PG Wissensmangement Seminarphase
PG 402 - Wissensmangement Seminarphase 23.10.2001-25.10.2001 Hanna Köpcke Lehrstuhl für Künstliche Intelligenz Universität Dortmund Übersicht 1. Einführung 2. Aggregation in SQL, GROUP BY 3. Probleme mit
Mehr!! Waldemar Reger Köln,
Analyse und Evaluierung von Parameterabhängigkeiten anhand der Laufzeit von MapReduce-Jobs zur Konzeptionierung von Hadoop-Clustern Waldemar Reger Köln, 23.07.2014 Agenda 1. Hadoop Grundlagen 2. Cluster
MehrANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik
ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten
MehrInformationssysteme für Ingenieure
Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrLarge-scale Incremental Processing Using Distributed Transactions and Notifications
Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1 Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2 MapReduce Batch-Job
MehrBerechnung von Kennzahlen mit der SQL Model Clause
Berechnung von Kennzahlen mit der Thomas Mauch 12.07.2018 DOAG BASEL BERN LAUSANNE ZÜRICH DÜSSELDORF FRANKFURT A.M. FREIBURG I.BR. HAMBURG MÜNCHEN STUTTGART WIEN 1 AGENDA 1. Einführung 2. Syntax 3. Performance
MehrExadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)
Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team Inhalt Thematik (Einordnung
MehrNoSQL Datenbanken am Beispiel von HBase. Daniel Georg
NoSQL Datenbanken am Beispiel von HBase Daniel Georg No to SQL at all sondern Not only SQL Open- Source Community Erst im Jahr 2009 gestartet Community bietet verschiede Lösungen: Casandra, CouchDD, HBase,
MehrNutzung der Scientific Computing Cluster. Lars-Peter Meyer
Nutzung der Scientific Computing Cluster Lars-Peter Meyer Cluster Hardware Galaxy (shared nothing) 90 Worker mit jeweils 2 Cores (2x6 Cores, Intel Haswell E5 2620v3 @2,4 GHz) 28 GByte DDR4 ECC RAM RAM
MehrÜberblick und Vergleich von NoSQL. Datenbanksystemen
Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von
MehrCloud Data Management Kapitel 7: Big Data Streaming -Apache Flink- (Teil 2)
Cloud Data Management Kapitel 7: Big Data Streaming -Apache Flink- (Teil 2) Dr. Eric Peukert Wintersemester 2017 Universität Leipzig, Institut für Informatik http://dbs.uni-leipzig.de Spark - Streaming
MehrNeues aus der nicht-, semi- und relationalen Welt
Neues aus der nicht-, semi- und relationalen Welt Information Management Thomas Klughardt Senior System Consultant Das Big Data Problem Was bedeutet Big Data? Performancekritisch Echtzeit Cold Storage
MehrBig Data Konnektoren: Hadoop und die Oracle DB
Big Data Konnektoren: Hadoop und die Oracle DB Philipp Loer ORDIX AG, Paderborn Schlüsselwörter Hadoop, Hive, OLH, OSCH Einleitung Der Vortrag beginnt mit einer Einführung in die Big Data Welt mit Apache
MehrBIG UNIVERSITÄTSRECHENZENTRUM
UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga
MehrApache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.
Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und
Mehrvolume velocity variety cost-effective innovative enhanced insight and decision making
BIG DATA Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. -- Gartner
MehrMapReduce. Julia Bergbauer - Ferienakademie 2009
1 MapReduce 1) Grundlegendes 2) Map & Reduce 3) MapReduce 4) Anwendungsgebiete 5) Beispiele 6) Fehlerbehandlung 7) Ausblick 2 1) Grundlegendes = von Google eingeführtes Framework Ausnutzen der MulticoreProzessoren
MehrAbgabe am
Anwendungsspezifische proaktive Behandlung von Prozessen im Bereich Big Data Im Rahmen des Grundseminars im Studiengang Master Informatik am Department Informatik der Fakultät Technik und Informatik der
MehrLaptop A location aware peer-to-peer overlay network
Laptop A location aware peer-to-peer overlay network Chi-Jen Wu, De-Kai Liu and Ren-Hung Hwang Seminar peer-to-peer Netzwerke Prof. Dr. Christian Schindelhauer 29. Juli 2009 Überblick Was ist Laptop? Aufbau
MehrEinleitung Big Data... Hadoop...
1 Einleitung 1 2 Big Data... 7 2.1 Historische Entstehung... 9 2.2 Big Data - ein passender Begriff?... 10 2.2.1 Die drei V... 11 2.2.2 Weitere V s... 14 2.2.3 Der Verarbeitungsaufwand ist big... 14 2.2.4
MehrOO Programmiersprache vs relationales Model. DBIS/Dr. Karsten Tolle
OO Programmiersprache vs relationales Model Vorgehen bisher Erstellen eines ER-Diagramms Übersetzen in das relationale Datenmodell Zugriff auf das relationale Datenmodell aus z.b. Java ER rel. Modell OO
MehrInhaltsverzeichnis. Teil I Die Zukunft von Enterprise-Computing... 1 I I 2 3 3
Inhaltsverzeichnis 1 Einführung... 1.1 Ziele der Vorlesung. 1.2 Die Idee 1.3 Lemkarte... 1.4 Selbsttest-Frage. Literaturhinweise.. 1 I I 2 3 3 Teil I Die Zukunft von Enterprise-Computing... 2 Neue Anforderungen
MehrBig Data Management Thema 14: Cassandra
Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read
MehrBig Data im Retail-Sektor am Beispiel Kassenbondaten
Big Data im Retail-Sektor am Beispiel Kassenbondaten REWE Systems GmbH Jonas Freiknecht inovex GmbH Bernhard Schäfer Business Analytics Day, 08.03.2017 AGENDA 1. Vorstellung REWE Systems GmbH und inovex
MehrAnalytic im Einsatz! Betrugserkennung auf Basis von Big Data. Karol Sobiech
Analytic im Einsatz! Betrugserkennung auf Basis von Big Data Karol Sobiech 2 ACCENTURE GLOBAL DELIVERY NETWORK 3 4 AGENDA 1 MOTIVATION & ZIEL 2 METHODEN FRAUD MANAGEMENT SYSTEM 4 ARCHITEKTUR & TOOLS 3
MehrÜberblick. Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) c td MWCC (WS16/17) Multi-Cloud Computing 13 1
Überblick Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) c td MWCC (WS16/17) Multi-Cloud Computing 13 1 Vendor Lock-In -Problem Typische Vorgehensweise bei der Migration eines
MehrBig Data Anwendungen Chancen und Risiken
Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data
MehrCharakteristika von Unternehmensanwendungen
Charakteristika von Unternehmensanwendungen Wozu werden Unternehmensanwendungen genutzt? Enterprise applications are about the display, manipulation, and storage of large amounts of often complex data
MehrA Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht
A Big Data Change Detection System Carsten Lanquillon und Sigurd Schacht Digitale Transformation in Unternehmen u Umfassende Erfassung, Speicherung und Verfügbarkeit von Daten à Big Data Quelle: Rolland
MehrSeminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP
Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,
MehrHANA Solution Manager als Einstieg
Markus Stockhausen HANA Solution Manager als Einstieg Collogia Solution Day Hamburg 28.04.2016 Agenda HANA Solution Manager als Einstieg 1 Überblick 2 Techniken 3 Sizing Collogia Unternehmensberatung AG,
MehrInhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken
12. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme
MehrRavenDB, schnell und skalierbar
RavenDB, schnell und skalierbar Big Data & NoSQL, Aydin Mir Mohammadi bluehands GmbH & Co.mmunication KG am@bluehands.de Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit Skalierung http://www.flickr.com/photos/39901968@n04/4864698533/
MehrData Pipelines mit zentralem Kosmos Kafka. Markus Bente
Data Pipelines mit zentralem Kosmos Kafka Markus Bente @trivadis doag2018 Mit über 650 IT- und Fachexperten bei Ihnen vor Ort. 16 Trivadis Niederlassungen mit über 650 Mitarbeitenden. Erfahrung aus mehr
MehrDynamische Datenstrukturen
Dynamische Datenstrukturen B-Bäume größere Datenmengen verwalten Extern speichern Art der Speicherung berücksichtigen sonst kein optimaler Datenzugriff möglich Art der Speicherung großer Datenmengen Magnetplatten
MehrGoogle's BigTable: Ein verteiltes Speichersystem für strukturierte Daten. von Florian Eiteljörge
Google's BigTable: Ein verteiltes Speichersystem für strukturierte Daten von Florian Eiteljörge 1. Was ist Bigtable? 2. Datenmodell Übersicht 3. Implementierung/Architektur von Bigtable 4. Vergleich mit
MehrBigTable. 11.12.2012 Else
BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012
MehrSQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database
SQL oder NoSQL: Das ist die Frage! Oracle NoSQL Database Carsten Czarski Oracle Deutschland B.V. & Co KG Agenda NoSQL: Was ist das und wozu ist das gut? Anwendungsbereiche für NoSQL-Technologien,
MehrNoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE
NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE Was bedeutet NoSQL? Ein Sammelbegriff für alternative Datenbanklösungen, die
MehrEXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution
EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität
MehrODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover
ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover Schlüsselworte Oracle Data Integrator ODI, Big Data, Hadoop, MapReduce,, HDFS, PIG,
MehrInhalt NoSQL? 12.2 MapReduce & Co Key-Value Stores Extensible Record Stores Dokumentorientierte Datenbanken
7. NoSQL Inhalt 12.1 NoSQL? 12.2 MapReduce & Co 12.3 Key-Value Stores 12.4 Extensible Record Stores 12.5 Dokumentorientierte Datenbanken 12.6 Graphdatenbanken 2 12.1 NoSQL? Relationale Datenbanksysteme
MehrDATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle
DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell
MehrÜberblick Hadoop Einführung HDFS und MapReduce. DOAG Regionaltreffen München/Südbayern Februar 2014
Überblick Hadoop Einführung HDFS und MapReduce DOAG Regionaltreffen München/Südbayern Februar 2014 Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT. Business
MehrÜberraschend mehr Möglichkeiten. Lambda-Architektur in der Praxis. Das wichtigste Architektur-Konzept für Big Data am konkreten Beispiel.
Überraschend mehr Möglichkeiten Lambda-Architektur in der Praxis Das wichtigste Architektur-Konzept für Big Data am konkreten Beispiel Whitepaper OPITZ CONSULTING Deutschland GmbH 2017 WHITEPAPER Lambda-Architektur
MehrAPACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER
APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied
MehrSpark das neue MapReduce?
Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche
MehrVorlesung Wissensentdeckung in Datenbanken
Vorlesung Wissensentdeckung in Datenbanken Data Cube Katharina Morik, Uwe Ligges Informatik LS 8 22.04.2010 1 von 26 Gliederung 1 Einführung 2 Aggregation in SQL, GROUP BY 3 Probleme mit GROUP BY 4 Der
MehrTU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D.
TU München, Fakultät für Informatik Lehrstuhl III: Datenbanksysteme Prof. Alfons Kemper, Ph.D. Blatt Nr. 07 Übung zur Vorlesung Einsatz und Realisierung von Datenbanksystemen im SoSe16 Moritz Kaufmann
MehrGrundlagen der Künstlichen Intelligenz
Grundlagen der Künstlichen Intelligenz 6. Klassische Suche: Datenstrukturen für Suchalgorithmen Malte Helmert Universität Basel 7. März 2014 Klassische Suche: Überblick Kapitelüberblick klassische Suche:
MehrML Deployment. Vom Prototyp zur Produktion
ML Deployment Vom Prototyp zur Produktion Marcel Spitzer Karlsruhe, 15.3.2018 Marcel Spitzer Big Data Scientist @ inovex Wi.-Mathematik (B.Sc.), Wi.-Informatik (M.Sc.) Data Science mit Python und R Deployment
MehrGridMate The Grid Matlab Extension
GridMate The Grid Matlab Extension Forschungszentrum Karlsruhe, Institute for Data Processing and Electronics T. Jejkal, R. Stotzka, M. Sutter, H. Gemmeke 1 What is the Motivation? Graphical development
MehrMATCHING VON PRODUKTDATEN IN DER CLOUD
MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's
MehrVisualizing multiple Last.fm listening histories
Visualizing multiple Last.fm listening histories Abschlussvortrag Bachelorarbeit - 14.09.2010 Roman Graebsch www.lastloop.de LFE Medieninformatik Betreuer: Dominikus Baur Verantwortlicher Hochschullehrer:
MehrEinführung in Hauptspeicherdatenbanken
Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation
MehrHadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011
High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrDatenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie
Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Prof. Dr. Peter Chamoni Mercator School of Management Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence Prof. Dr. Peter
Mehr