Data Mining und Machine Learning

Größe: px
Ab Seite anzeigen:

Download "Data Mining und Machine Learning"

Transkript

1 Data Mining und Machine Learning Teil 7: Verteiltes Rechnen mit Map Reduce Dr. Harald König, FHDW Hannover 30. November 2015

2 Inhalt 1 Verteiltes Rechnen 2 Map Reduce 3 Anwendungen 4 Map Reduce: Weiterführende Betrachtungen

3 Verteiltes Rechnen Paralleles Rechnen Ziel: Effizientes Mining auf Datenmengen im TB-Bereich, z.b. Klassifizierung von Web Seiten Web Page Ranking Communities in sozialen Netzwerken Computercluster (mit konventionellen Prozessoren) statt Supercomputer Distributed File Systems (DFS): Massendatenspeicherung Map Reduce Anwendungsverbund: Framework zur Verteilung gängiger Algorithmen Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

4 Verteiltes Rechnen Ausfallsicheres paralleles Rechnen Ziel: Ausfall einer Komponente in einem parallelen Verbund darf nicht zum Abbruch des gesamten Algorithmus führen. 1 DFS: Racks mit Nodes Annahme: Datensätze ab 1 TB, nur Lesezugriff Scatter-Gather-Technik Rohdateienpartitionen: 3-fach replizierte 64 MB- Chunks 2 auf verschiedenen Racks zzgl. Master Node Konfigurierbarer Replikationsgrad Implementierungen: Hadoop, Google File System, etc 1 Ggf. würden lang andauernde Algorithmen nie erfolgreich beendet 2 Dt.: Stücke Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

5 Map Reduce Allgemeine Sicht Quelldatei partitioniert in 64MB- Portionen Chunk 1 Chunk 2 Chunk n m Map Tasks parallel Key -Value- Paare x1 x2 x3 x1 x4 x5 x2 x3 x6 x2 v1 v2 v3 v4 v5 v6 v7 v3 v4 v1 Nach Keys gruppieren und in Buckets einordnen x1 x4 x7 x10 x2 x5 X8 x11 x3 x6 x9 x12 r Buckets mit Key-Values- Paaren [v1,v4] [v5] [] [] [v2,v7,v1] [v6] [] [] [v3,v3] [v4] [] [] r Reduce Tasks parallel x1 x4 x7 x10 x2 x5 X8 x11 x3 x6 x9 x12 Key- Value- Paar- Blöcke s1 s4 s7 s10 s2 s5 s8 s11 s3 s6 s9 s12 Zusammen -fassen x1 x2 x3 x4 x5 x6 Key- Value- Paare s1 s2 s3 s4 s5 s6 Legende: Blau: Durchgeführt vom Framework Rot: Algorithmusspezifische Implementierung Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

6 Map Reduce Map Reduce Prozess Eingabe: Eine Datei mit Elementen 3 beliebigen Typs evtl. partitioniert in Chunks. Ausgabe: eine Ergebnis-Repräsentation des Algorithmus als Liste von Schlüssel-Wert-Paaren Algorithmusunabhängige Aktionen (im Framework) Verwalten von m nebenläufigen individuellen Map Tasks Gruppieren u. Hashen der Key -Value-Paare in r Buckets ( Intermediate Data ) Verwalten von r nebenläufigen individuellen Reduce Tasks Fehlerbehandlung bei abgebrochenen Tasks durch Restart Vom Algorithmiker zu implementieren: Map-Methode: Input = Ein Chunk. Output eine Liste von Schlüssel -Wert-Paaren Reduce-Methode: Input = Eine Liste von Paaren aus (wirklichem) Schlüssel und Datenliste. Output: Diese Liste, in der die zweite Komponente der Paare ausgerechnet ist 3 Elemente = Atomare Bestandteile der Eingabe-Datei, z.b. Worte eines Dokumentes, Zahlen einer Tabelle, etc. r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

7 Map Reduce Beispiel Gegeben: Textdokument d. Gefragt: Wie oft kommt jedes Wort in d vor? Lösungsidee: 1 Partitioniere d in n Chunks c 1,..., c n 2 Map Task m i zählt Worte in c i. Ausgabe: Liste von Paaren (w, h w i ) (hw i : Häufigkeit von w in c i) 3 Reduce Tasks: Für jedes w bilde die Gesamthäufigkeit h w = n i=0 hw i und gib Liste mit Eingträgen (w, h w ) aus. Vereinfachung: Da in der Map Task Ausgabe ein Wort w (noch) mehrfach vorkommen darf, kann man statt (w, 3) auch (w, 1), (w, 1), (w, 1) ausgeben. Java Demo r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

8 Map Reduce Exkurs Hashfunktion Eine surjektive Funktion heißt Hashfunktion. h K {0,..., r 1} Ziel: Partitioniere (eine große Menge) K in eine begrenzte Anzahl r von Buckets, so dass die Buckets ungefähr gleichgroß sind Beispiele: K = N, h(n) = (n mod r) K = String, h(w) = w.firstcharacter.asciicode Aufgabe: K = {2n n N}. Welche r verteilen gleichmäßig auf r Buckets, wenn man mod r rechnet? Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

9 Map Reduce Typische Größenordnungen und Ablauf Chunkgröße: 64 MB historisch entstanden, konfigurierbar Google-Implementation: Cluster-Topologie mit handelsüblichen PCs als Nodes, s. [DG04] 4 : w Workers (Nodes), m Map Tasks, r Reduce Tasks, 1 Master-Task: Eine typische Gesamtgröße der Eingabe ist 10 TB, damit etwa Chunks m = Map Tasks, Geht man davon aus, dass 20 GB lokale Festplatte (Platz für 100 Chunks in dreifacher Kopie) zur Verfügung stehen, ergibt sich w = m/100 = 2000 Damit auch dynamisches Load Balancing gut möglich Schnelles Wiederaufsetzen bei Worker-Ausfall: Viele kleine Tasks können auf andere Worker gleichmäßig verteilt werden r sollte kleines Vielfaches von w sein (fast vollständige Verteilung), z.b. r = 5000 Worker übernehmen sowohl Map- als auch Reduce-Tasks 4 [DG04]: J.Dean, S.Ghemamat: MapReduce: Simplified data processing on large clusters. In Proc. of the 6th conf. on Operating Systems Design and Implementation, Vol. 6, San Francisco, CA, 2004 Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

10 Map Reduce Ablauf Master verteilt Tasks auf Worker, verwaltet Task-Zustände (idle, in-progress, completed) und für jeden Map Task Speicherort, Dateiname, Größe der Reduce-Inputs Ergebnis der Map-Methode eines Map-Tasks im Hauptspeicher des Workers Regelmäßiges Speichern auf lokaler Festplatte (dabei Erzeugen der Listen pro Key) partitioniert gemäß Hash-Funktion Übermittlung dieser Speicherinfos an den Master bei Map-Task-Terminierung Jedem Reduce-Job werden die Speicherorte seiner Daten durch Master mitgeteilt Lesen dieser Daten erzeugt einzigen nennenswerten Netzverkehr Reducer-Output: r Dateien, die von einem Requester zu Gesamtergebnis zusammengesetzt werden Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

11 Anwendungen Entstehung und Einsatz Ursprung: Google s PageRank für Berechnungen auf sehr großen Matrizen (Zeilenzahl > ) Später: Operationen auf relationalen Datenbanken, z.b. Berechnung von Joins Keine Lösung für Anwendungen... mit geringer Datenmenge, wenn wenig gerechnet wird, wenn Daten manipuliert werden Grundidee: Wenn verschiedene MapTasks für ein- und denselben Ergebnisteil des Gesamtalgorithmus arbeiten, müssen Keys diese Ergebnisteile berücksichtigen. Bsp.: Ein Ergebnisteil ist ein Paar (w, h w ) Ein Key ist ein einzelnes Wort r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

12 Anwendungen Erinnerung: Matrix-Vektor Multiplikation m 11 m 12 m 1n n j=1 m 1jv j m M v = 21 m 22 m 2n v 2 = n j=1 m 2jv j m n1 m n2 m nn v n n j=1 m njv j v 1 Bsp.: 0 1/ / /2 1/ /2 1/3 1/ /4 1/4 1/4 1/4 = 3/8 5/24 5/24 5/24 Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

13 Anwendungen Matrix-Vektor-Multiplikation M v mit Map Reduce Gesamtmatrix M ist zerlegt in Chunks, z.b. quadratische Matrizen C 1,..., C p Input für Map Task: (C k, v) C 1 C 2... M = C p Die Ergebnisteile von w = M v sind die Einträge w i von w. Da w i = (i.te Zeile von M) v, arbeiten an der Berechnung von w i mehrere Map Tasks. Um deren Ergebnisse zu w i zu kombinieren, muss i im Key sein. Map Task berechnet Paare (i, m ij v j ), Reduce Task summiert für jedes i die Produkte (zweiten Komponenten) Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

14 Anwendungen Operationen auf Relationen... Typische DB-Queries: Selektion, Projektion, Vereinigung, Join, Gruppieren, Aggregieren. Abstraktion: R T 1 T n heißt n-stellige Relation. Schreibweise mit Attributen (Projektionsnamen): R(A 1,..., A n ) Beispiele: Projektion: Sei S = {i 1,... i r } {1,..., n}. π S (R) = {(x i1, x i2,..., x ir ) (y 1,..., y n ) R mit j x ij = y ij } (Natürlicher) Join: R(A 1,..., A n ), R (A 1,..., A m). A 1 = A 1,... A k = A k für ein k min{n, m}. R R = {(x 1,..., x k, x k+1,..., x n, y k+1,... y m ) (x 1,..., x n ) R, (x 1,..., x k, y k+1,..., y m ) R } r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

15 Anwendungen Projektion mit Map Reduce A 1 A 2 A 3 1 a b R(A 1, A 2, A 3 ) = 1 c b 2 c b 2 a d A 1 A 3 1 b mit S = {1, 3}. π S (R) =? 2 b 2 d Map-Reduce-Implementierung? Map: Für Zeile (x 1, x 2, x 3 ) R erzeuge ((x 1, x 3 ), (x 1, x 3 )). Reduce: Für jeden Input (k, [v,..., v]) erzeuge (k, v). Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

16 Anwendungen Join mit Map Reduce R(A, B, C) = A B C 1 a b 1 c b 2 c b 2 a d, R (A, B, D) = A B D 1 b b 2 c g 2 a f 2 a h R R =? A B C D 2 c b g 2 a d f 2 a d h Map-Reduce-Implementierung? Map-Outputs: ((x A, x B ), (R, x C )) bzw. ((x A, x B ), (R, x D )) Reduce: Für alle ((x A, x B ), L = [(R ( ), y 1 ),..., (R ( ), y k )]) erzeuge alle Kombinationen (x A, x B, y, y ), wenn (R, y) und (R, y ) in L waren. r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

17 Map Reduce: Weiterführende Betrachtungen Varianten Combiners: Map-Erweiterung zur Reduktion des Netzverkehrs (z.b. (w, n) statt n mal (w, 1)) Combiner-Code im Reducer wiederverwenden Reducer-Operation muss für Combiner assoziativ und kommutativ sein (e.g. Addition) Map-Ausgaben über Queues in Reducer-Eingaben Vorgefertigte Ein- und Ausgabetypen Fortschrittsanzeigen / Analysen durch Master z.b. auf Web-Server (Überwachung, Finden performanzkritischer Bereiche) r. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

18 Map Reduce: Weiterführende Betrachtungen Workflows Klassisch: Map Reduce Verallgemeinerung a3 a1 a5 a4 Beispiel (transitiver Abschluss): MapJoin ReduceJoin Ergebnis verändert? Nein Ja Freiere Modellierung, z.b. Optimierung von Map-Reduce-Kaskaden in flexiblere Prozessmodelle (s. [RU], 2.4) Beispiel: Trans(R(X, Y )), R A A R 0 = R, R k+1 = π X,Z (R k (X, Y ) R(Y, Z)) R k (X, Z) Zusätzliche Tasks: Abbruchbedingung, Relationenaufbereitung Dr. Harald König, FHDW Hannover ()Data Mining und Machine Learning 30. November / 22

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

MapReduce mit Hadoop 08.11.12 1

MapReduce mit Hadoop 08.11.12 1 MapReduce mit Hadoop 08.11.12 1 Lernziele / Inhalt Wiederholung MapReduce Map in Hadoop Reduce in Hadoop Datenfluss Erste Schritte Alte vs. neue API Combiner Functions mehr als Java 08.11.12 2 Wiederholung

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

MapReduce-Konzept. Thomas Findling, Thomas König

MapReduce-Konzept. Thomas Findling, Thomas König MapReduce - Konzept 1 Inhalt 1. Motivation 2. Einführung MapReduce Google Rechenzentren Vergleich MapReduce und Relationale DBS 3. Hadoop Funktionsweise Input / Output Fehlerbehandlung 4. Praxis-Beispiel

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012

MapReduce. Vereinfachte Datenverarbeitung in großen Rechnerverbünden. Igor Marijanovic 794894. Fachvortrag WAR 19.12.2012 MapReduce Vereinfachte Datenverarbeitung in großen Rechnerverbünden Igor Marijanovic 794894 Fachvortrag WAR 19.12.2012 Beuth Hochschule für Technik Berlin Inhalt Einleitung Hauptteil Abschluss MapReduce

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce?

Bernd Fondermann brainlounge. Blaue oder rote Pille: SQL oder MapReduce? Bernd Fondermann brainlounge Blaue oder rote Pille: SQL oder MapReduce? TODOs pills on all pages upd source code 1 Blaue oder rote Pille - SQL oder MapReduce? Bernd Fondermann, BigDataCon/JAX 2012 2 Rote

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN

IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN Joins 1 IMPLEMENTIERUNG VON OPERATIONEN AUF RELATIONEN Literatur Priti Mishara, Maragaret H. Eich, Join Processing in Relational Databases, ACM Computing Surveys, Vol. 24, No. 1, March 1992 Goetz Graefe,

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 6: Optimierungs- Dr. Anika Groß Sommersemester 2015 techniken für MapReduce Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de Optimierungstechniken (MR-Job-Parametrisierung)

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Fachpraktikum Erweiterbare Datenbanksysteme im WS 2015/16. Aufgabe 4 der Phase 2. Anfrageoptimierung für verteilte Datenbanken

Fachpraktikum Erweiterbare Datenbanksysteme im WS 2015/16. Aufgabe 4 der Phase 2. Anfrageoptimierung für verteilte Datenbanken Fachpraktiku Erweiterbare Datenbanksystee i WS 2015/16 Aufgabe 4 der Phase 2 Anfrageoptiierung für verteilte Datenbanken auf Basis der Distributed Algebra Ralf Hartut Güting, Thoas Behr, Fabio Valdés,

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Effiziente Algorithmen und Datenstrukturen I. Kapitel 10: Lineare Algebra

Effiziente Algorithmen und Datenstrukturen I. Kapitel 10: Lineare Algebra Effiziente Algorithmen und Datenstrukturen I Kapitel 10: Lineare Algebra Christian Scheideler WS 2008 19.02.2009 Kapitel 10 1 Überblick Notation Arithmetik auf großen Zahlen (Addition und Multiplikation)

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 9 (28.5.2014) Hashtabellen III Algorithmen und Komplexität Offene Adressierung : Zusammenfassung Offene Adressierung: Alle Schlüssel/Werte

Mehr

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung

MapReduce. Jens Dörre. Universität Passau Projekt MAPREDUCEFOUNDATION. Funktionale Programmierung MapReduce Jens Dörre Universität Passau Projekt MAPREDUCEFOUNDATION Funktionale Programmierung Jens Dörre (Uni Passau) MapReduce Funktionale Programmierung 1 / 25 Gliederung 1 MapReduce allgemein 2 MapReduce

Mehr

BIF/SWE 1 - Übungsbeispiel

BIF/SWE 1 - Übungsbeispiel Arthur Zaczek Sep 2015 1 Übungsbeispiel embedded sensor cloud 1.1 Aufgabenstellung Auf einem [[tragen Sie bitte hier Ihr Embedded System Ihrer Wahl ein]] soll ein Messdaten Erfassungssystem implementiert

Mehr

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce Timo Bingmann, Peter Sanders und Sebastian Schlag 21. Oktober 2014 @ PdF Vorstellung INSTITUTE OF THEORETICAL INFORMATICS ALGORITHMICS KIT Universität

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn

Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Schlüsselworte Hadoop, Hive, Sqoop, SQL Big Data und SQL - das passt! Philipp Loer ORDIX AG Paderborn Einleitung In diesem Vortrag werden, nach einer kurzen Einführung in Apache Hadoop, die beiden Werkzeuge

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de , NoSQL source:dilbert.com Inhalte der nächsten Vorlesungen ˆ Methoden große Datenmengen

Mehr

Universität Karlsruhe (TH)

Universität Karlsruhe (TH) Universität Karlsruhe (TH) Forschungsuniversität gegründet 1825 Software Engineering für moderne, parallele Plattformen 10. MapReduce Dr. Victor Pankratius Agenda Motivation Der MapReduce-Ansatz Map- und

Mehr

Unterrichtseinheit 7

Unterrichtseinheit 7 Unterrichtseinheit 7 Freigegebene Ordner: Durch freigegebene Ordnern können Benutzer Zugriff auf Dateien und Ordner innerhalb eines Netzwerkes (auch bei verstreut gespeicherten Daten, mit Hilfe des Distributed

Mehr

Teamprojekt & Projekt

Teamprojekt & Projekt 18. Oktober 2010 Teamprojekt & Projekt Veranstalter: Betreuer: Prof. Dr. Georg Lausen Thomas Hordnung, Alexander Schätzle, Martin Przjyaciel-Zablocki dbis Studienordnung Master: 16 ECTS 480 Semesterstunden

Mehr

Dominik Wagenknecht Accenture. Der No Frills Big Data Workshop -Teil3

Dominik Wagenknecht Accenture. Der No Frills Big Data Workshop -Teil3 Dominik Wagenknecht Accenture Der No Frills Big Data Workshop -Teil3 Der no frills BigData Workshop JAX 2012, 16.4.2012, Mainz Teil 3 Google ist ein Pionier von BigData und hat mit MapReduce und BigTable

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud

Ausarbeitung AW2 SS2012. Jan-Christoph Meier Data Mining in der Cloud Ausarbeitung AW2 SS2012 Jan-Christoph Meier Data Mining in der Cloud Fakultät Technik und Informatik Department Informatik Faculty of Engineering and Computer Science Department of Computer Science Inhaltsverzeichnis

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Cloud Data Management

Cloud Data Management Cloud Data Management Kapitel 5: MapReduce Dr. Michael Hartung Sommersemester 2012 Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 1 Inhaltsverzeichnis MapReduce MapReduce-Umsetzung

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04. CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

Thema: Das MapReduce-Framework

Thema: Das MapReduce-Framework Software as a Service Cloud Computing und aktuelle Entwicklungen Seminararbeit Thema: Das MapReduce-Framework Betreuer: Prof. Dr. Klaus Küspert Dipl.-Inf. Andreas Göbel Nicky Kuhnt Friedrich-Schiller-Universität

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

Überblick. Einführung Graphentheorie

Überblick. Einführung Graphentheorie Überblick Einführung Graphentheorie Graph-Algorithmen mit Map Kurzeinführung Graphentheorie Algorithmus zum Finden von Cliquen Graphen bestehen aus Knoten (englisch: Node, Vertex, Mehrzahl Vertices) Kanten

Mehr

Cloud Data Management

Cloud Data Management 1 Cloud Data Management Dr. Martin Grund 2 Die Evolution des Web Web 1.0: Entstehung des World Wide Web 1989 (CERN) Tim Berners-Lee. 1991 weltweite Verbreitung Navigation zwischen statischen Seiten Keine

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk ACCESS das Datenbankprogramm Vom Microsoft (Einführung) DI (FH) Levent Öztürk Inhalt Grundlagen einer Datenbank Planung einer Datenbank Programm starten Datenbank Anlegen Tabellen anlegen Tabellen Verknüpfen

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Die Java Stream API. Funktionale Programmierung mit der Stream API des JDK 1.8. Prof. Dr. Nikolaus Wulff

Die Java Stream API. Funktionale Programmierung mit der Stream API des JDK 1.8. Prof. Dr. Nikolaus Wulff Die Java Stream API Funktionale Programmierung mit der Stream API des JDK 1.8 Prof. Dr. Nikolaus Wulff Funktionale Programmierung Neben der Collection API mit default Methoden ist als weitere Neuerung

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Knasmüller.book Seite vii Mittwoch, 28. März 2001 11:11 11. vii. Inhaltsverzeichnis

Knasmüller.book Seite vii Mittwoch, 28. März 2001 11:11 11. vii. Inhaltsverzeichnis Knasmüller.book Seite vii Mittwoch, 28. März 2001 11:11 11 vii 1 Einführung 1 1.1 Motivation.................................... 1 1.2 Vorteile der neuen Techniken...................... 3 1.3 Aufbau des

Mehr

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes

1. Einleitung. 1 1Exabyte=10 18 Bytes = Bytes 1. Einleitung Das aktuelle Jahrzehnt wird als Zeitalter der Daten bezeichnet [Whi09, S. 1]. Die Menge der weltweit existierenden Daten ist in den letzten Jahren stark angewachsen. Eine Studie des amerikanischen

Mehr

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop

Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Bachelorarbeit am Institut für Informatik der Freien Universität Berlin, Arbeitsgruppe Technische Informatik, Zuverlässige Systeme Leistungsanalyse von XtreemFS als Ersatz für HDFS in Hadoop Lukas Kairies

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Anfragebearbeitung 2. Vorlesung Datenbanksysteme vom

Anfragebearbeitung 2. Vorlesung Datenbanksysteme vom Vorlesung Datenbanksysteme vom 21.11.2016 Anfragebearbeitung 2 Architektur eines DBMS Logische Optimierung Physische Optimierung Kostenmodelle + Tuning Physische Optimierung Iterator: einheitliche Schnittstelle

Mehr

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen

Überblick. Verarbeitung großer Datenmengen. MapReduce. Herausforderungen Überblick Verarbeitung großer Datenmengen Verarbeitung großer Datenmengen Motivation MapReduce Zusammenfassung Problemstellungen (e) Indexierung des World Wide Web PageRank-Berechnungen für Web-Seiten

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

High Performance Computing Cluster-Lösung mit MOSIX im Einsatz bei VA-TECH HYDRO

High Performance Computing Cluster-Lösung mit MOSIX im Einsatz bei VA-TECH HYDRO High Performance Computing Cluster-Lösung mit MOSIX im Einsatz bei VA-TECH HYDRO Anastasios Stomas SFI Technology Services AG 12. März 2003 anastasios.stomas@sfi.ch Seite 1 Hintergrund INHALT Cluster-

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner

3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner 3. Stud.IP-Entwickler-Workshop 2. Juni 2006 Workshop 3c: Stud.IP-Enterprise-Edition André Noack, Frank Elsner Gliederung Das Problem: Skalierbarkeit LAMP Tuning Mehr als ein Server Stud.IP und shared nothing

Mehr

Tobias Flohre / Dennis Schulte codecentric AG. Spring Batch Performance und Skalierbarkeit

Tobias Flohre / Dennis Schulte codecentric AG. Spring Batch Performance und Skalierbarkeit Tobias Flohre / Dennis Schulte Spring Batch Performance und Skalierbarkeit Dennis Schulte Düsseldorf @denschu www.github.com/denschu blog.codecentric.de/author/dsc tel +49 (0) 1515 _ 288 2395 dennis.schulte@codecentric.de

Mehr

Java Generics & Collections

Java Generics & Collections Java Praktikum Effizientes Programmieren (Sommersemester 2015) Dennis Reuling Agenda 1 2 3 1 / 30 Praktikum Effizientes Programmieren (Sommersemester 2015) Java Subtyping Teil 1 2 / 30 Praktikum Effizientes

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Entwurf von Algorithmen - Kontrollstrukturen

Entwurf von Algorithmen - Kontrollstrukturen Entwurf von Algorithmen - Kontrollstrukturen Eine wichtige Phase in der Entwicklung von Computerprogrammen ist der Entwurf von Algorithmen. Dieser Arbeitsschritt vor dem Schreiben des Programmes in einer

Mehr

Betriebssysteme K_Kap11B: Files, Filesysteme Datenstrukturen

Betriebssysteme K_Kap11B: Files, Filesysteme Datenstrukturen Betriebssysteme K_Kap11B: Files, Filesysteme Datenstrukturen 1 Files als lineare Liste File angeordnet als verkette Liste von Blöcken Jeder Block enthält Zeiger zum Nachfolger Zeiger = Adresse des Blocks

Mehr

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz

Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Vorlesung 04.12.2006: Binäre Entscheidungsdiagramme (BDDs) Dr. Carsten Sinz Datenstruktur BDD 1986 von R. Bryant vorgeschlagen zur Darstellung von aussagenlogischen Formeln (genauer: Booleschen Funktionen)

Mehr

Kapitel 14 Verteilte DBMS

Kapitel 14 Verteilte DBMS Kapitel 14 Verteilte DBMS 14 Verteilte DBMS 14 Verteilte DBMS...1 14.1 Begriff, Architektur und Ziele verteilter Datenbanksysteme...2 14.2 Verteilungsarten...5 14.2.1 Verteilung der Daten...5 14.2.2 Verteilung

Mehr

Abschluss Einblick und Ausblick

Abschluss Einblick und Ausblick Abschluss Einblick und Ausblick Prof. Dr. T. Kudraß 1 Benutzer Komponenten eines DBMS (Überblick) I/O-Prozessor Output-Generierung Parser für selbst. oder eingebettete Kommandos Precompiler Autorisierungs-Kontrolle

Mehr

Raumbezogene Datenbanken (Spatial Databases)

Raumbezogene Datenbanken (Spatial Databases) Raumbezogene Datenbanken (Spatial Databases) Ein Vortrag von Dominik Trinter Alexander Christian 1 Inhalte Was ist ein raumbezogenes DBMS? Modellierung Abfragen Werkzeuge zur Implementierung Systemarchitektur

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015. Vorlesung 5, Donnerstag, 20.

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015. Vorlesung 5, Donnerstag, 20. Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / 2015 Vorlesung 5, Donnerstag, 20. November 2014 (Wie baut man eine Hash Map, Universelles Hashing)

Mehr

Distributed Space Partitioning Trees

Distributed Space Partitioning Trees Distributed Space Partitioning Trees Management von ortsbezogenen Diensten Fachbereich Informatik FernUniversität Hagen Ortsbezogene Dienste Ein ortsbezogener Dienst ist eine Anwendung, die: - auf geographischen

Mehr

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer

einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer einfach. gut. beraten. Oracle Big Data Konnektoren: Hadoop und die Oracle DB DOAG Konferenz + Ausstellung 2016 Nürnberg Philipp Loer info@ordix.de www.ordix.de Agenda Hadoop Hive OLH: Oracle Loader for

Mehr

Semantic Web: Resource Description Framework (RDF)

Semantic Web: Resource Description Framework (RDF) Big Data Semantic Web: RDF Information Retrieval Map Reduce: Massiv parallele Verarbeitung Datenströme Peer to Peer Informationssysteme No SQL Systeme Multi-Tenancy/Cloud-Datenbanken Semantic Web: Resource

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15. smichel@cs.uni-kl.de Datenbankanwendung Wintersemester 2014/15 Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern smichel@cs.uni-kl.de MapReduce MapReduce - Veranschaulichung der Phasen Prof. Dr.-Ing. S. Michel TU Kaiserslautern

Mehr

Zweite Möglichkeit: Ausgabe direkt auf dem Bildschirm durchführen:

Zweite Möglichkeit: Ausgabe direkt auf dem Bildschirm durchführen: Ein- und Ausgabe Zweite Möglichkeit: Ausgabe direkt auf dem Bildschirm durchführen: fun p r i n t T r e e printa t = c a s e t o f Leaf a => ( p r i n t Leaf ; printa a ) Node ( l, a, r ) => ( p r i n

Mehr

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER AGENDA 01 File Server Lösungen mit Windows Server 2012 R2 02 Scale-out File Server 03 SMB 3.0 04 Neue File Server Features mit Windows Server 2016 05 Storage

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr