Large-scale Incremental Processing Using Distributed Transactions and Notifications

Ähnliche Dokumente
Einführung in Hadoop

Markus Weise. Parallele Cloud-DBS: Aufbau und Implementierung. Parallele Cloud-DBS. Abteilung Datenbanken am Institut für Informatik

BigTable Else

NoSQL-Databases. Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck,

Google Spanner. Proseminar Ein-/Ausgabe Stand der Wissenschaft. Hanno Harte. Betreuer: Julian Kunkel

Dominik Wagenknecht Accenture. Der No Frills Big Data Workshop -Teil3

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Verteiltes Persistenz-System. Mykhaylo Kabalkin

Datenverwaltung in der Cloud. Überblick. Google File System. Anforderungen der Anwendungen an das Dateisystem

Verteilte Dateisysteme in der Cloud

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt

BigTable vs. HBase. Iman Gharib. Schriftliche Ausarbeitung angefertigt im Rahmen des Seminars NOSQL

Ontologiegestützte Suche in unstrukturierten Daten

Apache HBase. A BigTable Column Store on top of Hadoop

Persönlichkeiten bei bluehands

Oracle Big Data Technologien Ein Überblick

Wide Column Stores. Felix Bruckner Mannheim,

Think Big. Skalierbare Anwendungen mit Azure. Aydin Mir Mohammadi Bluehands GmbH & co.mmunication KG

Detecting Near Duplicates for Web Crawling

Data Mining in der Cloud

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

SharePoint Provider for Oracle

Internet Briefing. Real-Time Web. Technische Standards und Herausforderungen. Namics. Jürg Stuker. CEO. Partner. 7. April 2010

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Gerrit Thede. Big and Fast Data - Verarbeitung von Streaming Data. Grundlagen Vertiefung und Anwendungen 2

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Deep Web. Timo Mika Gläßer

Redundanz und Replikation

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

Uni Duisburg-Essen Fachgebiet Informationssysteme Prof. Dr. N. Fuhr

Sozio- Technische Systeme

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Transaktionsverwaltung

MICROSOFT WINDOWS AZURE

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom Mai 2013 in Prag

SQL (Structured Query Language) Schemata Datentypen

Titelmasterformat durch Klicken bearbeiten

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Microsoft System Center Data Protection Manager Hatim SAOUDI Senior IT Consultant

Big Data Management Thema 14: Cassandra

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Innovative Architekturansätze

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester Universität Leipzig 1-1

MS SQL Server: Index Management. Stephan Arenswald 10. Juli 2008

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

PostgreSQL im praktischen Einsatz. Stefan Schumacher

PrimeBase XT. PBXT - ein Storage Engine Plugin für MySQL, Fachhochschule Wedel Paul McCullagh SNAP Innovation GmbH

ETL in den Zeiten von Big Data

XQuery Implementation in a Relational Database System

dsmisi Storage Lars Henningsen General Storage

Proseminar - Data Mining

Microsoft Lizenzierung SQL Server Bernd Löschner

Proseminar - Data Mining

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

NoSQL Databases and Big Data

Aktuelle SE Praktiken für das WWW

Next Generation Cloud

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Darüber hinaus wird das Training dazu beitragen, das Verständnis für die neuen Möglichkeiten zu erlangen.

Einführung in z/os und OS/390

Big Data und Oracle bringen die Logistik in Bewegung

Inhalt. Ein Einführung in die Nutzung von SQL-Datenbanken am Beispiel Oracle. Daten und Tabellen - ein Beispiel. Daten und Tabellen - Normalisierung

1. Einführung. Datenbanken Grundlagen

Das perfekte Rechenzentrum mit PernixData Architect & FVP

Seminar SS 09 Amdahl`s Law and Cloud-Computing

Testing for and fixing common security issues

SHAREPOINT NEXT GENERATION EIN AUSBLICK

11. Backup & Recovery. Datenbankadministration

Amazon s database in the Cloud. Ralf Westphal, ralfw@ralfw.de, Freier Autor, Berater, Entwickler und Trainer

HANA Solution Manager als Einstieg

Caching. Hintergründe, Patterns &" Best Practices" für Business Anwendungen

Was darf das Grid kosten?

Tobias Flohre / Dennis Schulte codecentric AG. Spring Batch Performance und Skalierbarkeit

Big Data Anwendungen Chancen und Risiken

Hauptspeicher- Datenbanksysteme. Hardware-Entwicklungen Column- versus Row-Store...

Configuration Management mit Verbosy OSDC Eric Lippmann

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

Neo4J & Sones GraphDB. Graph-Datenbanken. Von Toni Fröschke. Problemseminar NoSQL-Datenbanken (WS 2011/12)

5.4 Benchmarks für Data Warehouses

Dateisysteme und Datenverwaltung in der Cloud

Big Data Grundlagen. Univ.-Prof. Dr.-Ing. Wolfgang Maass. Chair in Information and Service Systems Department of Law and Economics

Mainframe Praxis Effizienter Umgang mit TSO, ISPF, JCL und SDSF für

Änderungen erkennen Schneller handeln Stefan Panek. Senior Consultant Christoph Jansen. Consultant

Datenbanken. Proseminar Objektorientiertes Programmieren mit.net und C# Sebastian Pintea. Institut für Informatik Software & Systems Engineering

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

DATA MINING FÜR BIG DATA. Department Informatik Anwendungen 1 WiSe 2013/14 Anton Romanov

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Datenbankadministration

Verteilte Dateisysteme. Mykhaylo Kabalkin

Neue Ansätze der Softwarequalitätssicherung

Datenbanken Konsistenz und Mehrnutzerbetrieb III

MySQL Replikation. Erkan Yanar linsenraum.de linsenraum.de

Teil II: Architektur und Entwicklung (verteilter) Informationssysteme, Information Retrieval

CentricStor FS. Scale out File Services

Wie verwende ich Twitter in MAGIC THipPro

Transkript:

Percolator Large-scale Incremental Processing Using Distributed Transactions and Notifications Daniel Peng and Frank Dabek 1

Ausgangslage 10 12 10 16 10 9 Webseiten Byte Daten Updates/Tag 2

MapReduce Batch-Job über gesamte Daten Ein Schritt nach dem anderen 3

Aktualität ist wichtig Quelle: http://commons.wikimedia.org/ 4

Benötigt Verwaltung großer Datenmengen Random-Access Nebenläufigkeit 5

Bigtable Quelle: Chang, Fay, et al. "Bigtable: A distributed storage system for structured data." ACM Transactions on Computer Systems (TOCS) 26.2 (2008): 4. 6

Percolator-Features Multi-Row-Transaktionen ACID-Transaktionen Snapshot Isolation Observer 7

Observer Ausgelöst duch eine Änderung an der beobachteten Tabelle Observer lösen weitere Observer aus 8

Percolator 9

Spezielle Spalten Spalte c:lock c:write c:data c:notify c:ack_o Verwendung Eine noch nicht committete Transaktion schreibt hier den Ort des primären Locks rein Speichert den Zeitstempel von committeten Daten Enthält die Daten Hinweis darauf, dass ein Observer ausgeführt werden sollte Observer O wurde ausgeführt. Enthält Zeitstemplel der letzten erfolgreichen Ausführung 10

Ablauf Phase 1 key bal:data bal:lock bal:write Bob $10 data @ 5 Joe $2 data @ 5 11

Ablauf Phase 1 key bal:data bal:lock bal:write Bob 7: $3 $10 7: I am primary 7: data @ 5 Joe $2 data @ 5 12

Ablauf Phase 1 key bal:data bal:lock bal:write Bob 7: $3 $10 7: I am primary 7: data @ 5 Joe 7: $9 $2 7: primary @ Bob.bal 7: data @ 5 13

Ablauf Phase 2 key bal:data bal:lock bal:write Bob 8: 7: $3 $10 8: 7: 8: data @ 7 7: data @ 5 Joe 7: $9 $2 7: primary @ Bob.bal 7: data @ 5 14

Ablauf Phase 2 key bal:data bal:lock bal:write Bob 8: 7: $3 $10 8: 7: 8: data @ 7 7: data @ 5 Joe 8: 7: $9 $2 8: 7: 8: data @ 7 7: data @ 5 15

Abgeschlossene Transaktion key bal:data bal:lock bal:write Bob 8: 7: $3 $10 8: 7: 8: data @ 7 7: data @ 5 Joe 8: 7: $9 $2 8: 7: 8: data @ 7 7: data @ 5 16

Fehlerbehandlung Roll-Forward Nach Commit Sekundäre Locks durch Writes ersetzen Roll-Back Vor Commit Locks löschen 17

Änderungen Finden Worker scannen notify-spalte Pro Änderung wird maximal ein Observer erfolgreich durchlaufen 18

Platooning 19

Platooning 20

Performance MapReduce Percolator DBMS 21

Evaluation 22

Benchmark TPC-E Vergleich: IBM System x3850 X5 mit Microsoft SQL Server 2012 mit 8 Prozessoren / 80 Cores / 160 Threads 23

Fehlerrecovery 24

Abgrenzung Keine Query-Language Keine relationalen Operationen Mehr Aufwand wegen Nebenläufigkeit Nicht systemnah Aber: extrem Skalierbar 25

Erfolge Percolator 100x schneller im einbringen von Suchergebnissen Nur 10 Observer 26

Andere Systeme Earlybird: Twitters Echtzeitsuche Incoop: MapReduce für inkrementelle Berechnungen 27

Quellen Peng, Daniel, and Frank Dabek. "Large-scale Incremental Processing Using Distributed Transactions and Notifications." OSDI. Vol. 10. 2010. Chang, Fay, et al. "Bigtable: A distributed storage system for structured data." ACM Transactions on Computer Systems (TOCS) 26.2 (2008): 4. Ghemawat, Sanjay, Howard Gobioff, and Shun-Tak Leung. "The Google file system." ACM SIGOPS Operating Systems Review. Vol. 37. No. 5. ACM, 2003. http://www.tpc.org/4063 (abgerufen am 12.11.2013) Busch, Michael, et al. "Earlybird: Real-time search at twitter." Data Engineering (ICDE), 2012 IEEE 28th International Conference on. IEEE, 2012. Bhatotia, Pramod, et al. "Incoop: MapReduce for incremental computations." Proceedings of the 2nd ACM Symposium on Cloud Computing. ACM, 2011. 28

Vergleichbarkeit? Ressourcenverbrauch DBMS > MapReduce > Percolator Latenz DBMS > Percolator > MapReduce Datenmenge MapReduce Percolator > DBMS 29