8. Big Data und NoSQL-Datenbanken



Ähnliche Dokumente
8. Big Data und NoSQL-Datenbanken

7. Big Data und NoSQL-Datenbanken

7. Big Data und NoSQL-Datenbanken

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm.

6. Big Data und NoSQL-Datenbanken

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Massives Wachstum an Daten

Überblick und Vergleich von NoSQL. Datenbanksystemen

7. Big Data und NoSQL-Datenbanken

Stefan Edlich Achim Friedland Jens Rampe Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER

Forschung und Entwicklung am

NoSQL HANSER. Einstieg in die Web 2.0 Datenbanken. Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner

Apache HBase. A BigTable Column Store on top of Hadoop

ISBN: Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Big Data Mythen und Fakten

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester Universität Leipzig 1-1

EXASOL Anwendertreffen 2012

Prof. Dr.-Ing. Rainer Schmidt 1

Sinn (und Unsinn) für Informix Benutzer

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Stefan Edlich, Achim Friedland, Jens Hampe, Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken ISBN:

Objektrelationale Datenbanken

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Charakteristika und Vergleich von SQL- und NoSQL- Datenbanken

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland

Was ist Windows Azure? (Stand Juni 2012)

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Positionspapier Big Data

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Big & Smart Data. bernard.bekavac@htwchur.ch

Kurzanweisung für Google Analytics

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

Neue Ansätze der Softwarequalitätssicherung

Neue Studie zum digitalen Universum entdeckt Big Data Gap

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Storage Summit Zellescher Weg 14 Willers-Bau A206 Tel

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Datenbanken. Prof. Dr. Bernhard Schiefer.

SOA im Zeitalter von Industrie 4.0

MapReduce. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

Internet of things. Copyright 2016 FUJITSU

Möglichkeiten für bestehende Systeme

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. SEACON 2012 Hamburg

Tutorium Algorithmen & Datenstrukturen

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS

Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie

Big Data in der Forschung

Copyright 2014 Delta Software Technology GmbH. All Rights reserved.

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Big Data Informationen neu gelebt

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

iphone Apps vs. Mobile Web

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Dr. Klaus Körmeier BlueBridge Technologies AG

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Sozio- Technische Systeme

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

5. Programmierschnittstellen für XML

Einführung in CouchDB

vinsight BIG DATA Solution

NoSQL mit Postgres 15. Juni 2015

Open Source als de-facto Standard bei Swisscom Cloud Services

Next Generation CMS. API zu ihrem Content

5. Programmierschnittstellen für XML

Allgemeines zu Datenbanken

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Dateisysteme und Datenverwaltung in der Cloud

Grundzüge und Vorteile von XML-Datenbanken am Beispiel der Oracle XML DB

Inhaltsverzeichnis. Stefan Edlich, Achim Friedland, Jens Hampe, Benjamin Brauer, Markus Brückner. NoSQL

ETL in den Zeiten von Big Data

Neues aus der nicht-, semi- und relationalen Welt

SAP Enterprise Asset Management Maintenance Worker Role

Definition Informationssystem

4. Hierarchische und netzwerkartige Datenbankmodelle

Architektur des agimatec-validation Frameworks

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Dokumentenorientierte Datenbanken - MongoDB

Wie findet das Navi den Weg?

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

Web Data Management Systeme

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. s werden jeden Tag versendet. 30 Mrd.

Datenintegration für Big Data. Prof. Dr. Erhard Rahm.

Synergien des Energiemanagements mit der Heimvernetzung

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Property-Graph-Databases. 20 Jahre praktische Erfahrung

OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

NoSQL Datenbanken EIN ÜBERBLICK ÜBER NICHT-RELATIONALE DATENBANKEN UND DEREN POTENTIALE IM ALLGEMEINEN UND IN DER INDUSTRIE

Nachtrag: Farben. Farbblindheit. (Light und Bartlein 2004)

1. Erstellung, aus einer Idee wird ein digitaler Bestandteil einer Website.

6.4 Nicht-Relationale Datenbanksysteme

PostgreSQL in großen Installationen

Transkript:

8. Big Data und NoSQL-Datenbanken Motivation Big Data wachsende Mengen und Vielfalt an Daten Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Hadoop, MapReduce NoSQL-Datenbanken Eigenschaften Document Stores (MongoDB) Graph-Datenbanken (neo4j) Big Data Kompetenzzentrum ScaDS Dresden/Leipzig SS14, Prof. Dr. E. Rahm 8-1 Big Data SS14, Prof. Dr. E. Rahm 8-2

Big wandelt sich schnell Gigabytes, Terabytes (10 12 ) Wie groß ist Big Data? Petabytes (10 15 ), Exabytes (10 18 ), Zettabytes (10 21 ), ca 1.8 ZB wurden in 2011 erzeugt; ~8 ZB in 2015 D a t a s i z e E x a b y t e s Source: IDC s Digital Universe study, sponsored by EMC, June 2011 SS14, Prof. Dr. E. Rahm 8-3 Datenproduzenten: Web, Soziale Netze, Smartphones, Sensoren 12+ TBs of tweet data every day 30 billion RFID tags today (1.3B in 2005) 4.6 billion camera phones world wide? TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of log data every day 76 million smart meters in 2009 200M by 2014 2+ billion people on the Web by end 2011 SS14, Prof. Dr. E. Rahm 8-4

Stark zunehmende Erfassung von Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt. SS14, Prof. Dr. E. Rahm 8-5 Big Data Challenges VolumeSkalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) Variety variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Velocity: Near-Realtime, Streaming Veracity: Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen SS14, Prof. Dr. E. Rahm 8-6

Potentiale für Big Data-Technologien Analyse von Website-Navigation Analyse und Optimierung von Web-Advertizing und Recommendations personalisierte Medizin auf Basis erfolgter Behandlungen (anonymisiert) in Abhängigekit klinischer und genetischer Merkmalen Energieversorgung: Verbrauchsanalysen, Überwachung Windstrom-Erzeugung Industrie 4.0 ( Internet der Dinge ) Kriminalitätsbekämpfung missbräuchliche Kreditkartennutzung Fake-Angebote/Plagiate in Auktionsplattformen oder Shops unwahre ärztliche Abrechnungen SS14, Prof. Dr. E. Rahm 8-7 Anwendungsdomänen für Big Data Analytics Smarter Healthcare Multi-channel sales Finance Log Analysis Homeland Security Traffic Control Telecom Search Quality Manufacturing Trading Analytics Fraud and Risk Retail: Churn, NBO SS14, Prof. Dr. E. Rahm 8-8

Big Data Analyse-Pipeline Quelle: Agrawal et al: Big Data: Challenges and Opportunities, 2011 SS14, Prof. Dr. E. Rahm 8-9 Technologie-Trends Massiv skalierbare Cloud-Architekturen mehrere Daten-Center (Cluster) mit Tausenden von Server-Rechnern und replizierter Datenhaltung Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben Hadoop und Ansätze wie Map/Reduce und Pregel/Giraph (parallele Graphverarbeitung) Nutzung von NoSQL-DBS v.a. für weniger strukturierte Daten Effizientere SQL-Systeme ( NewSQL ) In-Memory Datenbanken / Data Warehouses Column Stores (statt bzw zusätzlich zu Record Stores) schnellere Externspeicher (SSD) SS14, Prof. Dr. E. Rahm 8-10

MapReduce Framework zur automatischen Parallelisierung von Auswertungen auf großen Datenmengen Entwicklung bei Google Populäre Open-Source-Implementierung im Rahmen von Hadoop Nutzung v.a. zur Verarbeitung riesiger Mengen teilstrukturierter Daten in einem verteilten Dateisystem Konstruktion Suchmaschinenindex Clusterung von News-Artikeln Spam-Erkennung SS14, Prof. Dr. E. Rahm 8-11 MapReduce Verwendung zweier Funktionen: Map und Reduce Map-Anwendung pro Eingabeobjekt zur Erzeugung von Key-value Paaren Jedes Key-Value-Paar wird einem Reduce-Task zugeordnet Reduce-Anwendung für jede Objektgruppe mit gleichem Key Map Phase Reduce Phase Partitioning Grouping Grouping Grouping SS14, Prof. Dr. E. Rahm 8-12

MR-Beispiel: Generierung Text-Index hamlet.txt to be or not to be 12th.txt be not afraid of greatness to, hamlet.txt be, hamlet.txt or, hamlet.txt not, hamlet.txt be, 12th.txt not, 12th.txt afraid, 12th.txt of, 12th.txt greatness, 12th.txt afraid, (12th.txt) be, (12th.txt, hamlet.txt) greatness, (12th.txt) not, (12th.txt, hamlet.txt) of, (12th.txt) or, (hamlet.txt) to, (hamlet.txt) SS14, Prof. Dr. E. Rahm 8-13 NoSQL-Datenbanken SS14, Prof. Dr. E. Rahm 8-14

universelle Verbreitung und auf absehbare Zeit ungefährdet für die meisten DB-Anwendungen SQL = mächtige, deklarative Query-Sprache Standardisierung Breite Programmierunterstützung (JDBC, Hibernate, ) ACID reife Technologie automatische Parallelisierung Relationale Datenbanken SS14, Prof. Dr. E. Rahm 8-15 Probleme (objekt-)relationaler Datenbanken Schema-getrieben weniger geeignet für semi-strukturierte Daten zu starr für irreguläre Daten, häufige Änderungen relativ hohe Kosten, v.a. für Parallele DBS (kein Open-Source System) Skalierbarkeitsprobleme für Big Data (Web Scale) Milliarden von Webseiten Milliarden von Nutzern von Websites und sozialen Netzen ACID / strenge Konsistenz nicht immer erforderlich SS14, Prof. Dr. E. Rahm 8-16

NoSQL-Datenbanken nach www.nosql-database.org neuartige DBS die meist nicht-relational, open-source, verteilt und horizontal (auf große Datenmengen) skalierbar sind ursprünglicher Fokus: moderne web-scale Datenbanken Entwicklung seit ca. 2009 weitere Charakteristika: schema-frei, Datenreplikation, einfache API, meist kein ACID (-> eventually consistent ) zunehmende Koexistenz mit SQL NoSql" wird als Not only Sql interpretiert SS14, Prof. Dr. E. Rahm 8-17 Arten von NoSQL-Systemen Key Value Stores Amazon Dynamo, Voldemort, Membase, Redis Speicherung eines Werts (z.b. BLOB) pro nutzer-definiertem Schlüssel bzw. Speicherung von Attribut/Wert-Paaren nur einfache key-basierte Lookup/Änderungs-Zugriffe (get, put) Erweiterte Record-Stores / Wide Column Store Google BigData / Hbase, Hypertable, Cassandra Tabellen-basierte Speicherung mit flexibler Erweiterung um neue Attribute Dokument-Datenbanken CouchDB, MongoDB Speicherung semistrukturierter Daten als Dokument (z.b. JSON) Graph-Datenbanken Neo4J, Titan, OrientDB Speicherung / Auswertung großer Graph-Strukturen SS14, Prof. Dr. E. Rahm 8-18

Grobeinordnung NoSQL-Systeme SS14, Prof. Dr. E. Rahm 8-19 Key-Value Stores Speicherung von Schlüssel-Werte-Paare im einfachsten Fall bleiben Werte systemseitig uninterpretiert (BLOBs) flexibel, kein Schema günstig für wenig strukturierte Inhalte bzw stark variable Inhalte, z.b. Twitter- Nachrichten, Webseiten etc. keine Verwaltung von Beziehungen schnelle Lese/Schreibzugriffe über Schlüssel put (key, value) get (key) keine komplexen Queries (z.b. Bereichsabfragen) SS14, Prof. Dr. E. Rahm 8-20

Dokumenten-Datenbanken Schemalose Speicherung von Dokumenten, v.a. im JSON-Format JSON (JavaScript Object Notation) geschachtelte Objekt-Notation Datentypen: String, Zahl, Array [...], Boolean, Nullwert Objekt {.} umfasst Menge von Key-Value (Attribut/Wert-) Paaren JSON einfacher als XML, leicht lesbar / schreibbar Beispiel (JSON vs. XML) { "Herausgeber": "Mastercard", "Nummer": "1234-5678-9012-3456", "Währung": "EURO", "Inhaber": { "Name": "Mustermann", "Vorname": "Max", "männlich": true, "Hobbys": [ "Reiten", "Golfen", "Lesen" ], "Kinder": [], "Partner": null } } <Kreditkarte Herausgeber="Mastercard" Nummer="1234-5678-9012-3456" Waehrung="EURO"> <Inhaber Name="Mustermann" Vorname="Max" maennlich=true Partner="null"> <Hobbys> <Hobby>Reiten</Hobby> <Hobby>Golfen</Hobby> <Hobby>Lesen</Hobby> </Hobbys> <Kinder /> </Inhaber> </Kreditkarte> SS14, Prof. Dr. E. Rahm 8-21 MongoDB zunehmend Verbreitung findender Dokumenten-Store Fa. 10 Gen; open source-version verfügbar JSON-Dokumente, gespeichert als BSON (Binary JSON) DB besteht aus Kollektionen von Dokumenten Einfache Anfragesprache Indexierung von Attributen möglich Map/Reduce-Unterstützung Skalierbarkeit und Fehlertoleranz Skalierbarkeit durch horizontale Partitionierung der Dokumentenkollektionen unter vielen Knoten ( Sharding ) Automatische Replikation mit Konsistenzwahrung kein ACID, z.b. bzgl Synchronisation Änderungen nur bzgl einzelner Dokumente atomar SS14, Prof. Dr. E. Rahm 8-22

Beispiel: relational vs. dokumentenorientiert Keine Beziehungen zwischen Dokumenten (-> keine Joins) sondern geschachtelte Komponenten (ähnlich NF2, jedoch ohne Schemazwang) Redundanz bei n:m-beziehungen SS14, Prof. Dr. E. Rahm 8-23 MongoDB: Operationen Beispiele: SS14, Prof. Dr. E. Rahm 8-24

MongoDB: Operationen (2) SS14, Prof. Dr. E. Rahm 8-25 Graph-Datenbanken Bessere Unterstützung stark vernetzter Daten als mit Relationenmodell Soziale Netzwerke Protein-Netzwerke stark vernetzte Webdaten / Unternehmensdaten / Graph-Verwaltung im Relationenmodell oft nicht ausreichend schnell viele Tabellen, viele Joins langsame Traversierung von Kanten langsame Umsetzung von Graph-Algorithmen Graph-Datenbanken Graph-Datenmodell mit Gleichbehandlung von Entities und Relationships Graph-Anfragesprachen Optimierte Graph-Operationen (z.b. finde friends of friends ) SS14, Prof. Dr. E. Rahm 8-26

Neo4J Native Graph-Datenbank von Neo Technology Community Edition (open-source) + kommerzielle Varianten in Java realisiert, Unterstützung weiterer Sprachen (Ruby, Python) ACID-Unterstützung Skalierbarkeit durch Datenreplikation Zentrale Datenstruktur: Property-Graphen Knoten/Kanten haben einen Typ (Label) Knoten und Kanten können Properties (Attribute) haben Property: Key-Value-Paar (Attributname + Wert) gerichtete Kanten SS14, Prof. Dr. E. Rahm 8-27 Property-Graphen Mehrere, gerichtete Kanten zwischen zwei Knoten möglich (gerichteter Multigraph ) Labels für Knoten/Kanten Properties für Knoten/Kanten Konstanter Aufwand zur Traversierung zu Nachbarknoten (statt Join im RM) SS14, Prof. Dr. E. Rahm 8-28

Merkmale Query-Sprache Cypher Pattern Matching OLTP-artige Lese/Änderungsoperationen schnelle Traversierungen ACID-basierte Updates Klauseln: SS14, Prof. Dr. E. Rahm 8-29 Beispiel 1 Beispiel-Graph Beispielanfrage (Friend Of Friend) Ergebnis: Quelle: Neo4J Tutorial, http://docs.neo4j.org SS14, Prof. Dr. E. Rahm 8-30

Beispiel 2 Finde Personen mit ähnlichen Interessen (Recommendations) SS14, Prof. Dr. E. Rahm 8-31 Big Data Kompetenzzentrum BMBF-Ausschreibung 2013 zur Einrichtung von 2 Kompetenzzentren in Deutschland für Big Data mehrstufiges Auswahlverfahren Ankündigung der Gewinner auf der CeBIT 2014 ScaDS Dresden/Leipzig Berlin Big Data Center (BBDC) ScaDS Dresden/Leipzig (Competence Center for Scalable Data Services and Solutions Dresden/Leipzig) wissenschaftliche Koordinatoren: Nagel (TUD), Rahm (UL) offizieller Start: Okt. 2014 Förderumfang: ca. 5 Mill. Euro UL: Masterstudium Informatik mit Schwerpunkt Big Data Analytics SS14, Prof. Dr. E. Rahm 8-32

ScaDS Dresden/Leipzig: Struktur Lebenswissenschaften Materialwissenschaft Umwelt- /Verkehrswissenschaften Servicezentrum Digital Humanities Business Data Big Data Life Cycle Management und Workflows Datenqualität / Datenintegration Wissensextraktion Visuelle Analyse Effiziente Big Data Architekturen SS14, Prof. Dr. E. Rahm 8-33 Big Data Herausforderungen Zusammenfassung Volume, Variety, Velocity, Veracity, Skalierbare Analysen / Machine Learning Unterschiedliche Architekturen: Cloud/Hadoop-Cluster, In-Memory Warehouses, Kombinationen NoSQL Auslöser: webskalierbares Data Management semistrukturierte schemafreie Daten meist Verzicht auf SQL/ACID Unterschiedliche Systemarten Key/Value-Stores, erweiterte Record-Stores (Spaltenfamilien) Dokumenten Stores Graph-Datenbanken Hauptproblem: fehlende Standards SS14, Prof. Dr. E. Rahm 8-34