Big Data NoSQL - Datenbanken Motivation, Konzepte & Einsatzszenarien

Größe: px
Ab Seite anzeigen:

Download "Big Data NoSQL - Datenbanken Motivation, Konzepte & Einsatzszenarien"

Transkript

1 White Paper saracus Big Data NoSQL - Datenbanken Motivation, Konzepte & Einsatzszenarien

2 NoSQL-Datenbanken treten im Zuge der Big Data Initiative zunehmend in den Vordergrund. Sie streben mit neuen Konzepten an, die klassischen Datenbanken mit ihrem relationalen Ansatz in dezidierten Anwendungsbereichen zu ergänzen und insbesondere den veränderten Herausforderungen datenbankgetriebener Systemlandschaften gerecht zu werden. Hierbei spielen insbesondere neue Datenstrukturen und Konsistenzmodelle in einer stetig wachsenden Verteilung von Informationen eine bedeutende Rolle. NoSQL steht für Not only SQL, also eine Ergänzung zu bestehenden Paradigmen, keine Substitution. Die Anwendungsfelder dieser neuen Datenbanken fokussieren auf Bereiche, in denen Kompromisse bzgl. Verfügbarkeit, Konsistenz und Ausfallsicherheit eingegangen werden können. Beispielsweise in der Missbrauchserkennung, in Netzwerkanalysen oder Risiko- und Kundenanalysen können sie durch neue Ansätze effizienter eingesetzt werden. Bereiche, in denen unbedingte Transaktionssicherheit unabdingbar ist, liegen derzeit nicht im Fokus der NoSQL-Datenbanken; operative, unternehmenskritische Anwendungen werden auch weiterhin mit klassischen Datenbanksystemen betrieben. Analytische Systeme hingegen bieten enormes Potenzial für alternative Datenbankkonzepte. Gerade im Bereich der Analytik findet zur Zeit ein Wandel der Informationsnutzung statt, der die klassischen DB- Systeme an ihre Grenzen führt. Flexible Datenstrukturen, neuartige Datenformate und -quellen im Web sowie ein rasantes Anwachsen der verfügbaren Informationen zur Analyse sind nur noch schwer und nur mit hohen Investitionen mit den Klassikern der Datenbanktechnologie umzusetzen. Big Data setzt hier als Lösungsansatz mit einer Verteilungsstrategie auf Commodity-Infrastrukturen an. D.h. auch auf der Schicht der Datenhaltung mit verteilten Datenbanken, bzw. mit Datenbankmanagement-Systemen auf einer verteilten Datenhaltung, dessen bekannteste Implementierung aktuell Hadoop ist. Scale-out heißt hierbei das Schlüsselwort, also massiv parallele Infrastrukturen. Damit schließt sich der Kreis des Anwendungsportfolios wiederum, denn gerade in verteilten Systemen ist die Transaktionssicherheit ein komplexes Unterfangen und i.d.r. nur auf Kosten der Konsistenz und Verfügbarkeit umsetzbar. Dieser Artikel beschreibt die neuen Konzepte der NoSQL-Datenbanken im Vergleich zum klassischen relationalen Ansatz und grenzt die Einsatzmöglichkeiten mit konkreten Anwendungsfällen ab. Klassische, relationale Datenbank als Referenzmodell saracus consulting GmbH Hafenweg 46 D Münster Fon Fax saracus consulting AG Täfernstrasse 4 CH-5405 Baden-Dättwil Fon Fax saracus consulting DOO Vizantijski Bulevar 78 SRB Nis Seit dem Codd in den achtziger Jahren sein Relationenmodell aufgestellt hat, spielen die relationalen Datenbanken in der Informationstechnologie die führende Rolle als Datenspeichertechnologie. Zwischenzeitliche Konkurrenzattacken, wie z.b. objektorientierte Datenbanken als Persistenzschicht in der objekt-orientierten Programmierung in den Neunzigern blieben ohne nachhaltige Wirkung. Relationale Datenbanken sind mit ihrem strikten Schema aus Tabellen und Spalten hervorragend geeignet, Unternehmensstrukturen und -prozesse abzubilden und mittels Normalisierung und der Bildung echter Beziehungen untereinander Integrität sicherzustellen. Durch die zeilenbasierte Speicherung von Daten-Tupeln lässt sich auch die Konsistenz i.s. der ACID-Eigenschaft effizient umsetzen. Diese Eigenschaften führten dazu, dass die meisten operativen Systeme in den Unternehmen auf dieser Technologie basieren. In den Neunzigern kam die Anforderung an analytische Komponenten, die zu Beginn zunächst die operativen Systeme um einfache Berichtsfunktionalitäten ohne eigenständige Datenhaltung erweiterten. Die Anforderungen wuchsen jedoch rasant und mit zunehmender analytischer Funktionalität wurde auch die dezidierte Datenhaltung notwendig. Diese wurde zwar mit einer anderen Art der Datenmodellierung (dimensionale Modellierung) umgesetzt, es wurde und wird heute immer noch das relationale Konzept dafür genutzt. Dieses Vorgehen eignet sich solange, wie die zu analysierenden Informationsstrukturen starr sind und die Volumina durch die Datenbank (DB) bewältigt werden können. In der Vergangenheit wurden hierbei die natürlichen Grenzen aus Sicht der RDBMS (Relational Database Management System) durch analytische Zusatzfunktionalitäten und -komponenten oder der Integration von Fremdprodukten in die DB immer wieder verschoben. Im Zuge von Big Data bekommt diese Methodik durch neue Konzepte Konkurrenz; die NoSQL- Datenbanken. Seite 2

3 NoSQL-Datenbanken Den Begriff NoSQL-Datenbank gibt es schon seit ca quasi als Sammelbegriff für Datenbanken undtechnologien, die vom relationalen Ansatz abweichen. Es existiert aber weder eine Definition noch eine genaue Klassifizierung der Vertreter. Es sei auch erwähnt, dass schon lange vor Aufkommen des Begriffes derartige Datenbanktechnologien und produkte im Einsatz waren, z.b. Sybase IQ als spaltenbasierte Datenbank. Diese Lösungen haben allerdings nicht die Verbreitung erlangt, um als ernsthafte Konkurrenz zu den relationalen Produkten am Markt aufzutreten. Der Markt an NoSQL-Datenbanken ist im Gegensatz zu den klassischen DB-Produkten mit einer überschaubaren Anzahl an Herstellern extrem umfang- und facettenreich, wie folgende Übersicht zeigt. Quelle: NoSQL-Datenbanken werden heute häufig auch als Web-Datenbanken bezeichnet. Der Grund hierfür liegt wohl in der bisherigen Anwendung dieser Datenbanken, die sich auf Web-Applikationen (Blogs, CMS, etc.) fokussiert. Typisch für diese Anwendungen sind die relativ stark vordefinierten Zugriffspfade auf die Daten. Im Gegensatz zu klassischen RDBMS mit standardisiertem SQL-Zugriff verfügen NoSQL-Datenbanken mehrheitlich über eigene Zugriffsschnittstellen, die auf Kommandozeilenebene ausgeführt oder in Programmiersprachen wie JavaScript eingebunden werden. Statt der bekannten SELECT- oder DELETE-Statements finden sich dann Methoden wie z.b. find({},{}) oder remove({}) in Code-Fragmenten wieder. Mittlerweile gibt es diverse Entwicklungen der NoSQL-Datenbanken in Richtung Schnittstellen. So bietet bspw. Cassandra sowohl high level clients für die gängigen Programmiersprachen wie auch eine eigene Abfragesprache die Cassandra Query Language (CQL) mit hoher Anlehnung an SQL an. Gleiches gilt für die ETL-Tools, die immer mehr Schnittstellen zu NoSQL-Datenbanken anbieten. Seite 3

4 Kategorisierung und Abgrenzung zu RDBMS NoSQL-Datenbanken lassen sich nach zwei Dimensionen kategorisieren.: 1. Basistechnologie Wie in der vorherigen Übersicht erkennbar, unterscheiden sich die NoSQL-DB hinsichtlich ihrer Speicherstrukturen. Die übliche Klassifizierung ist hier die Einteilung in spaltenorientierte DB, Graphen-DB, Key-Value-DB und Document-DB. An dieser Klassifizierung ist schon unmittelbar erkennbar, das NoSQL-DB anwendungsbezogen sind, ganz im Gegenteil zu den one-size-fits-all Datenbanken aus dem klassischen Lager. So sind bspw. Graphen-DB prädestiniert zur Verwaltung und Analyse von Beziehungsgeflechten und Transversalen. 2. CAP-Theorem Das CAP-Theorem, welches 2002 durch Gilbert und Lynch bewiesen wurde, besagt, dass verteilte Datenbanksysteme nur zwei der drei Basisanforderungen (Consistency, Availability und Partition Tolerance) gemeinsam erfüllen können. Die meisten RDBMS erfüllen hierbei Konsistenz und Verfügbarkeit (CA) zu Lasten der Ausfallsicherheit (P). NoSQL-Datenbanken positionieren sich hierzu diametral, so dass der Einsatzzweck eine entscheidende Rolle bei der Auswahl spielt. Nathan Hurst hat hierzu eine Entscheidungspyramide zu NoSQL aufgestellt, welche diese Problematik visuell verdeutlicht. Quelle: Eine implizite Aussage der Entscheidungspyramide ist die Unabhängigkeit der Datenmodelle, welche farblich gekennzeichnet sind, von der Ausrichtung bzgl. des CAP-Theorems. Auch hier zeigt sich sehr deutlich das immense Portfolio an NoSQL-Datenbanken, die überwiegend die Ausfallsicherheit adressieren und dabei zwischen der Verfügbarkeit und Konsistenz fokussieren. Diese Orientierung unterstreicht den ergänzenden Einsatz zu klassischen RDBMS. Seite 4

5 Bevor auf die einzelnen NoSQL Datenbanken eingegangen wird, sei mit folgender Gegenüberstellung die grundsätzliche Verschiedenheit der RDBMS und NoSQL-Datenbanken verdeutlicht. Kriterium RDBMS NoSQL-DB Datenmodell Zeilenbasiert Spaltenbasiert, Key-Value, Document, Graph, Datenstruktur Starr Flexibel Datenscope Big Datasets Huge Datasets Skalierungsfokus Möglich, vertikal Einfach, horizontal Integritätsfokus ACID, Schwerpunkt hohe Konsistenz BASE, Schwerpunkt hohe Verfügbarkeit Datencontainer Tabelle Collection, Primärschlüssel Primary Key Object ID, Key, Referentielle Integrität Foreign Key Nein Transaktionen Ja Meistens nein Trigger Ja Nein Cursor Ja Häufig ja Views Ja Selten Volltextsuche Meistens ja Nicht immer Replikation Meistens Master/Slave Standard, über verschiedene Verfahren Map/Reduce Nein Ja SQL Ja Nein NoSQL Datenbanken lassen sich zusammenfassend mit folgenden Aussagen umschreiben: Sie sind für Cluster entwickelt, d.h. sie stellen die Verfügbarkeit durch Replikationen bei Hardwareausfall sicher Sie operieren schemafrei auf unstrukturierten Daten und erlauben daher dynamische Strukturänderungen Abfragen werden über Map-Reduce parallel direkt an den Daten ausgeführt Sie sind auf Antwortzeitverhalten optimiert, unter Einschränkung der Konsistenz Sie bieten individuelle, einfache APIs und Schnittstellen Sie basieren auf dem Konzept der verteilten Datenbanken Die verschiedenen Ausprägungen von NoSQL-Datenbanken inklusive ihrer Motivation orientieren sich an den neuen Anforderungen der vernetzten Kommunikationsstrukturen über das Web, d.h. an Online-Aktivitäten, Netzwerken und Prozessen. Seite 5

6 Wie schon mehrfach betont, umfasst der Begriff NoSQL-Datenbank eine Menge an verschiedenen, unterschiedlichen Typen, Architekturen und Produkten, so dass eine Kategorisierung nur schwer möglich und teilweise auch nicht scharf abgrenzbar ist. Das liegt einerseits daran, dass in Einzelfällen die Datenbanken doch spezielle Funktionalitäten wie Beziehungen kennen, und andererseits RDBMS-fremde Datenbanken wie z.b. XMLoder objektorientierte Datenbanken nicht in die NoSQL-Rubrik eingeordnet werden. Es hat sich aber im Laufe der Zeit eine Kategorisierung etabliert, welche vier Klassen von NoSQL-Datenbanken kennt. Diese Klassen umfassen Schlüssel-Wert Datenbanken (Key/Value-Store) Hierbei werden Schlüssel-Wert-Tupel abgelegt. Der Schlüssel referenziert auf einen beliebigen String. Dieser kann ein beliebiges Objekt sein, z.b. ein XML-String oder ein anderes beliebiges Objekt, dass aber serialisierbar sein muss. Der Inhalt des Objektes ist der Datenbank dabei völlig unbekannt, d.h. die Interpretation der Struktur und des Inhaltes des gelieferten Wertes bleibt der Anwendung überlassen. Diese Art der Speicherung wird häufig bei RAM-Caches (z.b. Memcached) eingesetzt. Schlüssel-Wert Konstruckte stellen das Grundprinzip der Datenspeicherung für die meisten NoSQL-Datenbanken dar. Schlüssel Wert Bekannte Vertreter dieser Art sind Voldemort, Redis und Riak. Dokument Datenbank (Document Store) Stellt eine Erweiterung der Schlüssel-Wert Datenbank dar, in der die Werte mit einer Struktur versehen werden, die von der Datenbank verarbeitet werden kann. Zudem besteht häufig die Möglichkeit, Objekte (Dokumente) geschachtelt abzulegen. Bekannte Vertreter dieser Art sind CouchDB, MongoDB und Redis. Spalten orientierte Datenbank (Column based store oder Column family store) Spalten orientierte Datenbanken (CF) organisieren die Daten nach Spalten. Jeder Eintrag in einer Spalte besteht dabei aus dem Namen der Spalte, dem Wert und einem Zeitstempel, über den die Version und Aktualität verwaltet wird. Es können mehrere Spalten zu einer Spaltenfamilie (column-family) gruppiert werden. Dieses Konstrukt ähnelt dem einer Tabelle in einem RDBMS, die Struktur der Spaltenfamilie ist aber dynamisch und wird über einen Schlüssel referenziert. Column family: Benutzer Key Spalte TS Wert K1 Name V1 John K1 Name V2 Jonny K2 Tel V1 021 Bekannte Vertreter dieser Art sind HBase, Cassandra und Hypertable. Graphen Datenbank Graphen Datenbanken bieten eine Form optimaler Speicherung von Beziehungen, wie sie aus der Graphentheorie bekannt ist und damit eine Form zu speziellen Problemen aus der theoretischen Informatik. Die Lösung von Beziehungs- und Routing-Fragestellungen basieren auf Graphen und deren Traversierung. Graphen Datenbanken bestehen daher aus Knoten und Kanten und dazugehörige Routinen, um Suchen effizient auszuführen.. Bekannte Vertreter dieser Art sind Sones, Neo4j und InfoGrid. Seite 6

7 Key-Value Store Key-Value Stores (Schlüssel-Wert-Speicherung oder kurz KV-DB) brechen mit dem Paradigma der zeilenweisen Speicherung von Datensätzen klassischer RDBMS und speichern die Informationen spaltenweise. Sie bilden das Grundprinzip für weitere Entwicklungen wie die spaltenbasierten Datenbanken oder Dokument-Datenbanken, welche über zusätzliche Möglichkeiten der Modellierung und Interpretation der Daten zulassen. In ihrer einfachsten Form jedoch besteht jede spaltenorientierte Datenbank aus den Schlüssel-Wert-Paaren. Ihren Ursprung findet diese Form der Datenspeicherung im Zuge der OLAP-Entwicklung, also der Analytik. In analytischen Systemen finden häufig Auswertungen und Berechnungen auf dezidierte Spalten statt und hier liegt es nahe, den Overhead einer zeilenbasierten Speicherung mit seinen weiteren Attributen zu umgehen und sich auf einzelne Spalten zu konzentrieren. Name Vorname Gehalt Name Vorname Gehalt Müller Manfred n/a 40 Müller Manfred n/a 40 Meier Bodo 50 Meier Bodo 50 Schmid Bernd 20 Schmid Bernd 20 Huf Jahn n/a 100 Huf Jahn n/a 100 Zeilenbasierte DB partitionieren die Daten zeilenweise, d.h. es wird immer ein ganzer Datensatz verarbeitet, auch wenn nur einzelne Spalten abgefragt werden. Dieser I/O- Overhead ist für analytische Abfragen ungünstig, unterstützt jedoch die Transaktionssicherheit und Konsistenz, die unabdingbar für OLTP-Systeme sind. Key/Value-Stores skalieren gut, erlauben dynamische Schemaänderungen, eignen sich für schnelle Datenmanipulationen und bieten hohe Performance bei einfachen Abfragen. Sie haben Nachteile bei komplexen Strukturen und lagern die Semantik in die Anwendung aus. KV-DB partitionieren die Tupel spaltenweise, d.h. sie speichern die Werte einer Spalte sequentiell und sortiert. Damit können sehr schnell Berechnungen und Aggregationen auf einzelnen Spalten durchgeführt werden. Es werden jeweils nur die relevanten Daten verarbeitet. Die Berechnung des Durchschnittsgehalts bspw. erfordert nur die Werte der Spalte Gehalt. Natürlich ist bei dieser Variante jeder Wert mit einem Schlüssel zu versehen, d.h. es wird immer das Schlüssel-Wert-Paar verarbeitet und der Schlüssel bei n Spalten (n-1)-mal abgelegt. Diese Redundanz wird jedoch durch Kompressionsmöglichkeiten egalisiert. Ein zentrales Unterscheidungsmerkmal der beiden DB-Konzepte liegt in den Kompressionsmöglichkeiten. Relationale DB komprimieren i.d.r. über Relationen oder Partitionen, d.h. sie müssen bei der Kompression unterschiedliche Datentypen einbeziehen, was die Auswahl des geeigneten Kompressionsalgorithmus erheblich einschränkt. RDBMS liegen normalerweise bei einem Komprimierungsfaktor von 1:2 bis 1:5. KV-DB hingegen haben die Möglichkeit, für jede Spalte und damit für jeden Datentyp die optimale Komprimierungstechnik einzusetzen und erzielen Kompressionsraten von 1:10 bis 1:40. Damit reduzieren KV-DB neben dem I/O-Overhead auch beträchtlich das Datenvolumen; zwei Kernkriterien, welche eine bessere Ausnutzung des Hauptspeichers erlauben und diese Speicherform für speicherbasierte Datenbanken (Stichwort In- Memory-DB) prädestinieren. Zusätzlich zu den Komprimierungsmöglichkeiten kommt noch der Faktor, dass bei vielen Abfragen die Komprimierung nicht einmal rückgängig gemacht werden muss, da gleiche Werte auch komprimiert gleich dargestellt werden und für Vergleiche in Abfragen teilweise die komprimierten Darstellungen verwendet werden können. Seite 7

8 So vorteilhaft sich Operationen auf einzelnen Spalten in KV-DB auswirken, beeinträchtigt die Menge an gleichzeitig abgefragten Spalten zunehmend die Performance. Der Grund dafür ist die notwendige Zusammenstellung des logischen Datensatzes aus mehreren Spalten, dies verursacht Kosten. Diese Tupelrekonstruktion kann dabei auf unterschiedliche Arten erfolgen, wobei stets das Ziel ist, möglichst viele Operationen auf den einzelnen Spalten durchzuführen und den Verbund zum Datentupel zum Ende des Ausführungsplanes zu generieren. Die Problematik der Tupelrekonstruktion betrifft auch das Einfügen und Aktualisieren von Datentupeln. Die Tupel müssen hierfür auf Spalten aufgebrochen werden bzw. für Aktualisierungen vorab zusammengestellt werden. Insert- und Update-Operationen sind somit aufwändiger als in RDBMS. Im OLAP-Bereich unterstützen hierzu auch ETL-Werkzeuge. Document Store Dokumentenorientierte Datenbanken stellen eine Erweiterung der KV-DB dar. Die Werte werden mit einer losen Struktur versehen, die von der Datenbank interpretiert werden kann und somit Zugriff auf einzelne Felder bietet. Darüberhinaus ist teilweise auch eine Referenzierung der Dokumente untereinander (Verschachtelung) möglich. Die Struktur ist i.d.r. ein JSON- oder BSON-Dokument. JSON (JavaScript Object Notation) ist ein einfaches Datenformat für den Datenaustausch zwischen Anwendungen (ähnlich dem bekannten XML-Format, jedoch wesentlich einfacher strukturiert). JSON stellt verschiedene Datentypen, wie z.b. Zahlen, Zeichenketten, Arrays oder Objekte, bereit und eine Syntax für den Dokumentaufbau. Laut der Webseite bsonspec.org erweitert BSON (Binary JSON) die JSON Dokumente nochmals um weitere Datentypen und diverse Ergänzungen für effizienteres Scannen und weniger Speicherbedarf. Diese Dokumenttypen stellen das Grundprinzip von dokument-orientierten Datenbanken dar. Das Schema, d.h. das konzeptionelle Datenmodell besteht aus folgenden Schichten: Ein Dokumenten-DB Server besteht aus einer Menge von Datenbanken. Eine Datenbank enthält eine Menge an Collections oder direkt Dokumente. Eine Collection enthält eine Menge an Dokumenten (i.d.r. JSON- oder BSON-Dokumente. Dokumente können in der gleichen Collection unterschiedliche Strukturen, d.h. Felder haben. Ein Dokument kann auf andere Dokumente referenzieren und damit eine Verschachtelung abbilden.). Eine Collection ist damit vergleichbar mit einer Tabelle eines RDBMS, allerdings ist die Collection dynamisch und schemafrei. Ein Dokument ist eine Liste von Feldern (ein Feld repräsentiert ein Schlüssel-Wert-Paar, wobei der Schlüssel ein Name bzw. eine Zeichenkette ist und der Wert eine Ausprägung eines bestimmten Basistyps wie String, Float, Binary,..). Dokumente stellen sinnvolle Informationseinheiten dar, die häufig eine Entsprechung in der Praxis haben, wie etwa Rechnungen, Blogs oder Formulare und weisen selten leere Felder auf. Sie sind schemafrei und stellen keine echten Beziehungen (i.s. der Relationen in RDBMS) dar. Dokumente erhalten standardmäßig eine Dokumenten-ID und eine Versions-ID und können teilweise Anhänge haben. Als Beispiel eines CouchDB Dokumentes im JSON-Format dient: { _id: 88c de2233e12a3f777012, _rev: 3-e6ea33b2876b2c5a56325ee4ba22c124, Name: Bernd Bach, - [ ], Tel: } Seite 8

9 Spaltenorientierte Datenbanken Spaltenorientierte Datenbanken (CF-DB) erinnern von ihrem Datenmodell her an die dimensionalen Würfelstrukturen aus dem Business Intelligence. Nicht umsonst wird die Struktur häufig als sparse, distributed multidimensional map bezeichnet. Die höchste Ebene der Struktur stellt der Keyspace dar. Er ist vergleichbar mit einer Datenbankinstanz aus der relationalen Welt und ordnet die Datenhaltung anwendungsbezogen. In einem Keyspace können Column Families (CF) definiert und mit einem Namen versehen werden (ähnlich einer Tabelle im RDBMS). CF wiederum bestehen aus Columns (Tabellenspalten) oder Super Columns (verschachtelte Tabellenspalten). Während die normalen Columns wie herkömmliche Tabellenfelder wirken und einem Datentyp unterliegen, können Super Columns wiederum aus einer Menge von Columns bestehen. Diese Verschachtelung erlaubt eine effiziente Definition und Verwaltung von 1:n-Strukturen, die in der klassischen relationalen Modellierung i.d.r. über Fremdschlüsselbeziehungen ausmodelliert werden. Beispielsweise würden Adressen (privat, geschäftlich, etc.) zu einem Kunden relational als eigene Tabelle modelliert; in CF- Strukturen wäre die Adresse eine Super Column in der CF Kunde mit ihren Feldern Anschrift, PLZ usw. und könnte n-mal innerhalb eines Kunden abgelegt werden. Da in CF-DB nicht belegte Felder zu keiner Materialisierung führen, entsteht durch diesen Ansatz keinerlei Overhead in der Datenspeicherung im Gegensatz zu einer redundanten-relationalen Modellierung. Weiterhin ist durch die Möglichkeit der flexiblen Modelländerung auch keinerlei Nachteil bei zukünftig benötigten zusätzlichen Attributen vorhanden. Damit jeder Dateneintrag eindeutig referenziert werden kann, wird jeder Eintrag innerhalb einer CF mit einem Key versehen. Er ist i.d.r. der einzige und eindeutige Schlüssel. Das eigentliche Datum wird in einem Value innerhalb einer Column abgelegt und einem Key zugeordnet. Zusätzlich zum Value wird ein Zeitstempel gesetzt, der zu Versionierungszwecken dient. Für den schnellen Zugriff werden Daten einer CF direkt sortiert abgelegt. Key User_42 Key User_47 Column Column Time Value family name Column Column Time Value Nutzer family GebDat name T Nutzer Nutzer Name GebDat T4 T1 John Foo Nutzer Nutzer Position Name T7 T4 Entwickler John Foo Nutzer Position T7 Entwickler Nutzer Position T8 Manager Nutzer Sex t3 M CF-DB bieten im Vergleich der NoSQL-Modelle das größte Einsatzpotenzial und sind nicht auf spezielle Anwendungsfälle beschränkt. Sein bieten alle Vorteile der KV-DB (Skalierbarkeit, schnelle Datenmanipulation, dynamische Schemaänderung) und sind performant durch die Reduktion auf die benötigten Spalten. Ihr Modell lässt zudem auch komplexere Datenstrukturen zu, wenngleich hier die Graph Datenbanken noch höhere Komplexitätsstufen zulassen. Seite 9

10 Graph Datenbanken (Graphen-orientierte Datenbank) Graphendatenbanken sind von der Graphentheorie motiviert und darauf spezialisiert, komplexe Beziehungsgeflechte abzubilden und möglichst effizient durchlaufen zu können (Traversierung). Gerade in Zeiten der Web-Kommunikation mit sozialen Netzwerken, aber auch in technischen Netzwerken der Logistik beispielsweise werden diese Beziehungs-/Routing-Fragestellungen immer interessanter. Graphen-orientierte Datenbanken (GoDB) eignen sich besonders für diese Fragestellungen, da sie implizit Beziehungen als wesentlichen Bestandteil des Datenmodells umsetzen. Neben diesen Beziehungen mit optionalen Eigenschaften gibt es als weiteres Element des Datenmodells Knoten, ebenfalls mit optionalen Eigenschaften. Die Eigenschaften beider Modellelemente werden dabei Schlüssel-Wert Paare abgelegt, womit Graphen-orientierte Datenbanken ebenfalls schemafrei sind. Folgende Abbildung zeigt ein Beispiel eines GoDB-Modells. Quelle: Die Anwendungsfälle für Graphen orientierte Probleme sind trotz der geringen praktischen Durchdringung der GoDB erstaunlich vielfältig. Neben den bekannten logistischen Fragestellungen betreffen sie genauso Management-Aufgaben im IT-Systembetrieb sowie Netzwerken jeder Art aus dem social computing. Aber auch recommendation engines sind ebenso elegant über Pfadanalysen umzusetzen wie tiefergehende Analysen im BI-Umfeld über Entscheidungsbäume. Es sind jedoch sehr spezielle Fragestellungen, die theoretisch auch mit klassischen RDBMS (z.b. über rekursive Strukturen) umgesetzt werden können. Legt man Vielfältigkeit an verfügbaren Produkten im NoSQL-Bereich als Maßstab zu Grunde, fallen Graph Datenbanken in ihrer Bedeutung weit hinter den anderen Datenbanktypen zurück. Seite 10

11 NoSQL und BI? Die typische Aufgabenstellung im Business Intelligence (B) ist die Aufbereitung von Informationen nach vielen Dimensionen und die Ableitung von Kennzahlen mit statistischen Mitteln. Es mag einen Teil innerhalb dieser Aufgabenstellung geben, der mit stark vordefinierten Zugriffspfaden gelöst werden kann (also einfaches und parametrisiertes Reporting), die Hauptfunktionalität des freien Navigierens und Kombinierens innerhalb von Datenstrukturen allerdings widerspricht noch dem NoSQL-Ansatz. Zukünftig werden sich jedoch auch NoSQL-Datenbanken an Standardisierungen, Konnektoren oder Business Layern orientieren, um die Lücken zwischen operativen Systemen, Nischenthemen und BI zu schließen. Das Hadoop Ecosystem stellt mit HBase, Hive und weiteren Komponenten bereits eine Lösung dieser Art bereit. Fasst man BI weiträumiger auf und zählt auch Anwendungsgebiete wie recommendation engines, business process (rule)engines oder allgemein Anwendungen des business process management hinzu, bieten sich NoSQL-Datenbanken förmlich als Lösungsalternativen an. Gleiches gilt für den Bereich des data mining. Hält man diese Einsatzfelder gegen die vier definierten Typen von NoSQL-Datenbanken, passen die CF- Datenbanken und die Graph Datenbanken auf die Anforderungen. CF-Datenbanken bieten die notwendige Flexibilität in den Datenstrukturen, sind hoch skalierbar und versprechen eine hohe Performance bei Sparsity durch die Reduktion auf notwendige Spalten in der Verarbeitung. Der Nachteil von erhöhtem Aufwand bei Schreiboperationen über viele Spalten ist in den allermeisten BI- Infrastrukturen vernachlässigbar. Hierbei dürfte auch die gefühlte Nähe zum Konzept der RDBMS unterstützend wirken. Anders sieht es bei den Graph Datenbanken aus. Obwohl sie sich für sehr spezielle Aufgabenstellungen extrem gut eignen und den klassischen RDBMS weit voraus sind (Stichworte Beziehungen und Traversierung) wird die erste große Hürde sein, Sensibilität der alternativen Strukturen und Akzeptanz der Vorgehensweise zu erwirken und diese durch akzeptable Schnittstellen breit einsetzbar zu gestalten. Unbestreitbar besitzen diese beiden Datenbanktypen das Potenzial, die BI-Welt mit neuen analytischen Möglichkeiten zu bereichern. Zugriffs-API In NoSQL-Datenbanken gibt es keine klassischen SQL-Queries. Es werden auch keine Abfragen im eigentlichen Sinne durchgeführt, sondern eine Implementierung des MapReduce-Algorithmus verwendet, der strenggenommen eine parallel ausgeführte Reduktion des verteilten Gesamtdatenbestandes auf eine Teilmenge unter Anwendung einfacher Aggregationsvorschriften darstellt. Um diese Reduktion durchzuführen, stellen die NoSQL-Datenbanken unterschiedliche Schnittstellen und APIs bereit. Häufig werden weitere Komponenten angeboten, mit denen ein einfaches Datenselektieren interaktiv möglich ist, wobei die MapReduce-Funktionalität automatisch im Hintergrund ausgeführt wird. Sicherheit und Replikation Ausfallsicherheit ist eine zentrale Funktionalität von NoSQL- und verteilten Datenbanken und wird im wesentlichen durch Replikationsmechanismen erzielt. Insbesondere die hierbei eingesetzte horizontale Skalierung über viele Datenknoten (Sharding) ermöglicht eine extreme Verfügbarkeit gegenüber klassischen Systemen, die fokussiert über wenige, aber sehr leistungsfähige Knoten-Replikate verfügt (bedingt durch den Scale-Up Ansatz). Bezüglich der Datensicherheit haben NoSQL-Datenbanken noch wesentlichen Nachholbedarf, um ähnliche Sicherheitsmechanismen wir die klassischen RDBMS zu bieten. Hier findet man noch häufig sehr rudimentäre Funktionalitäten zur Authentifizierung, Benutzerund Rollenkonstrukten sowie zur Rechtevergabe und Monitoring. Seite 11

12 Die Basisstruktur von NoSQL-Datenbanken aus technischer Sicht lässt sich anhand zentraler Merkmale beschreiben. Diese stellen gleichzeitig die wesentlichen Unterscheidungsmerkmale der Datenbanken untereinander dar und lassen sich für Evaluierungsprozesse verwenden. Einige Merkmale finden sich auch in der Abschlussübersicht zu NoSQL-Datenbanken wider. Map/Reduce MapReduce ist ein Framework für nebenläufige, d.h. parallele Berechnungen über große Datenmengen in Clustern. Es dient dazu, Anfragen auf mehrere Rechner aufzuteilen, diese auf den Knoten parallel auszuführen und die Teilergebnisse anschließend zu aggregieren und zusammenzuführen. Da es sich um einen nicht trivialen Vorgang handelt, sind die Datenbanken bestrebt, die Umsetzung von Anfragen in entsprechende MapReduce-Jobs zu automatisieren. CAP-Theorem/Eventually Consistent (BASE) Das CAP-Theorem besagt, dass verteilte Datenbanken nicht gleichzeitig die Kriterien Konsistenz, Verfügbarkeit und Ausfalltoleranz optimal erfüllen können und daher Kompromisse eingegangen werden müssen. Für NoSQL-Datenbanken hat sich daher der Ansatz eventually consistent etabliert, der einen Kompromiss zur Konsistenz eingeht (d.h. vorübergehende Inkonsistenz akzeptiert), dafür aber optimierte Verfügbarkeit und Ausfallsicherheit bietet. Dies steht im Gegensatz zu RDBMS, die mit ihrer ACID-Eigenschaft auf Konsistenz fokussiert sind. Consistent Hashing Hash-Verfahren dienen zum möglichst gleichmäßigen Verteilen von Daten auf verschiedene Knoten. Nun ist die Grundidee bei NoSQL-Infrastrukturen allerdings das Einbinden von vielen, sehr unterschiedlichen Knoten, was die Speicherkapazität und Performance angeht. Um diese Unterschiede bei der Datenverteilung zu berücksichtigen, braucht es verfahren, welche die Ressourcenkapazitäten der Knoten berücksichtigt (z.b. durch Definition von zwei logischen Datenknoten auf einem Rechner mit enormer Kapazität. Verfahren, welche diese Situation berücksichtigen, nennt man consistent hashing. MVCC-Protokoll Durch das MultiVersion Concurrency Protokoll (MVCC) werden Änderungen immer auf einer neuen Kopie eines Datensatzes durchgeführt. Da keine Sperre (wie bei transaktionalen RDBMS) gesetzt wird, steht immer eine aktuelle Version eines Datensatze zur Verfügung. Dieses Verfahren generiert zwar einen Overhead durch das Vorhalten von Versionen, die auch noch in bestimmten Abständen aufgeräumt werden müssen. Dies wird aber zugunsten der Abfragemöglichkeit zu jedem Zeitpunkt ohne Wartezeit in Kauf genommen. Paxos Paxos ist ein fehlertolerantes, skalierbares Agreement-Protokoll, das in vielen KV-Stores eingesetzt wird. Es unterstützt Replikationsmechanismen auch in Situationen, in denen ein Knotenrechner nicht verfügbar ist. REST Representational State Transfer (REST) definiert die zustandslose Kommunikation über das Web. Es werden bei dieser Kommunikationsform immer sämtliche, für die Anfragebearbeitung benötigten Parameter (Login, Abfrage, Filter, etc.) übermittelt. Damit erzielt man eine lose Kopplung der Kommunikationsteilnehmer. Viele NoSQL-Datenbanken bieten eine REST-API als Interaktionsschnittstelle über das Web an. Diese sind dann RESTful. Seite 12

13 Anwendungsfelder von NoSQL-Datenbanken Die Anwendungsfälle von NoSQL-Datenbanken sind sehr vielschichtig. Grundsätzlich eignen sie sich für Szenarien, in denen flexible Datenstrukturen (unstrukturiert und semi-strukturiert) verarbeitet werden, der Fokus auf der Analyse komplexer Beziehungen liegt, eine hohe horizontale Skalierbarkeit und hohe Performance kleiner Reads/Writes und Ausfallsicherheit gefordert ist. Nicht geeignet hingegen sind sie für Transaktionssysteme oder Fragestellungen der traditionellen BI, insbesondere wenn Ad hoc Analytik oder SQL benötigt wird. NoSQL-Datenbanken verfügen noch nicht über die Standardisierungen, wie sie von den RDBMS mit SQL oder (J)(O)DBC bekannt sind und erfordern daher individuelle Kenntnisse zu speziellen APIs, um die Daten manipulieren zu können, bspw. die Notwendigkeit Map/Reduce-Jobs zu schreiben. Sind diese Skills vorhanden, lassen sich hoch performante Anwendungen realisieren; dazu gehören u.a. Event logging und realtime statistics/analytics für Missbrauchserkennung und Risikoanalysen (Transaktionsmonitoring) Kundenanalysen (Verhaltensanalytik) Echtzeit POS Transaktionsanalysen Überwachungsanalysen Netzwerkanalysen Realtime Datenmanipulation Recommendation engines Werbeplatzierungen Beziehungsanalysen und Stimmungsbarometer Wissenschaftliche Analysen An den Anwendungsfällen ist direkt erkennbar, dass es sich weder um unternehmenskritische Systeme (OLTP) noch um klassische OLAP-Anwendungen handelt, sondern um sehr spezielle analytische Funktionalitäten, welche mit RDBMS nur schwer umsetzbar sind. Um die weitere Eignung von NoSQL-Datenbanktypen einzuschätzen, kann anhand der Kriterien Datenvolumen (size) und Datenmodellkomplexität (complexity) eine erste Klassifizierung vorgenommen werden, wie in folgender Darstellung abgebildet. Quelle: Data_size_versus_data_complexity.jpg Seite 13

14 Fazit NoSQL-Datenbanken bieten vielfältige Möglichkeiten, die bestehenden RDBMS zu ergänzen. Insbesondere die flexiblen Datenstrukturen und horizontale Skalierbarkeit sind Treiber, welche diese Datenbanken für dezidierte Einsatzzwecke prädestinieren. In der Praxis haben sie den Durchbruch noch nicht geschafft, werden aber im Zuge der Big Data Entwicklung zunehmend an Bedeutung gewinnen. Abschließend finden Sie eine Übersicht mit zentralen Eigenschaften bekannter NoSQL-Datenbanken. NoSQL Datenbank Typ CAP Skalierung, Performance Modellkomplexität API Cassandra CF AP Java, C#, C++, PHP Ruby, Python, Erlang, Thrift CouchDB Doc AP RESTful JSON, JavaScript, PHP, Perl, Ruby HBase CF CP Java, REST, Thrift Hypertable CF CP Java, C#, C++, PHP Ruby, Python Membase KV CP C, C++, PHP, Java, Python, Ruby,.net MongoDB Doc CP C, C#, C++, Erlang, Java, JavaScript, PHP, Perl, Python, Ruby, ColdF Neo4J Graph Java, REST, Jruby, Ruby, Scala, C#, Jython Redis KV CP Ruby, Python, PHP Erlang, Perl, C, C++ C#, JavaScript Riak Doc AP REST JSON Voldemort KV AP HTTP, Python, Ruby, Java, C++ NoSQL-Datenbanken bieten eine Fülle von alternativen Ansätzen zu den klassischen relationalen Datenbanken. Diese Ansätze stellen derzeit ein Ergänzungspotenzial dar, sehr speziell in Szenarien, die sich erst in jüngster Zeit entwickelt haben. Bleiben Sie neugierig! Technologie Programmierung / Customizing Hadoopbasierter Systeme Integration BI-Tools und Customizing von ETL- Tools in Big Data Umgebungen Strategie- & Architekturberatung zu Big Data BI Anwendung v. Appliances Werkzeugevaluation Warum saracus consulting? Die folgenden Faktoren sprechen für die Wahl der saracus consulting als Beratungs- und Integrationspartner: Seit 1991 zu 100% fokussiert auf DWH, BI, CPM und acrm Spezifische Vorgehensmethodik Große Erfahrung mit wichtigen Technologien Kombination von Business- und IT-Know-how Umfangreiche Anzahl an ausgebildeten und erfahrenen Beratern, um auch große Projekte zeitgerecht fertig zu stellen Full Service von der Analyse, Konzeption über Systemintegration bis zum Betrieb Seite 14

Überblick und Vergleich von NoSQL. Datenbanksystemen

Überblick und Vergleich von NoSQL. Datenbanksystemen Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Stefan Edlich Achim Friedland Jens Rampe Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER

Stefan Edlich Achim Friedland Jens Rampe Benjamin Brauer. NoSQL. Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER Stefan Edlich Achim Friedland Jens Rampe Benjamin Brauer NoSQL Einstieg in die Welt nichtrelationaler Web 2.0 Datenbanken HANSER Geleitwort 1 Vorwort 1 1 Einführung 1 1.1 Historie 1 1.2 Definition und

Mehr

NoSQL HANSER. Einstieg in die Web 2.0 Datenbanken. Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner

NoSQL HANSER. Einstieg in die Web 2.0 Datenbanken. Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner Stefan Edlich Achim Friedland Jens Hampe Benjamin Brauer Markus Brückner NoSQL Einstieg in die Web 2.0 Datenbanken 2., akutalisierte und erweiterte Auflage HANSER Geleitwort Vorwort Vorwort zur 2. Auflage

Mehr

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten

Mehr

Charakteristika und Vergleich von SQL- und NoSQL- Datenbanken

Charakteristika und Vergleich von SQL- und NoSQL- Datenbanken Universität Leipzig Fakultät für Mathematik und Informatik Abteilung Datenbanken Dozent: Prof. Dr. Erhard Rahm Betreuer: Stefan Endrullis Problemseminar NoSQL-Datenbanken Semester: WS 11/12 Charakteristika

Mehr

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1 NoSQL-Datenbanken Kapitel 1: Einführung Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 1-1 Inhaltsverzeichnis NoSQL-Datenbanken Motivation und Definition Kategorisierung, Eigenschaften

Mehr

Einführung in CouchDB

Einführung in CouchDB Einführung in CouchDB Zurücklehnen und entspannen! http://slog.io Thomas Schrader (@slogmen) 12/2010 Übersicht Bestandsaufnahme Ansatz Geschichte Technologien Features Skalierbarkeit Kurz & Gut Fazit Relationale

Mehr

Institut für Verteilte Systeme

Institut für Verteilte Systeme Institut für Verteilte Systeme Prof. Dr. Franz Hauck Seminar: Multimedia- und Internetsysteme, Wintersemester 2010/11 Betreuer: Jörg Domaschka Bericht zur Seminarssitzung am 2011-01-31 Bearbeitet von :

Mehr

Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie

Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Datenbanksysteme Kapitel 6: Neue Konzepte der Datenbanktechnologie Prof. Dr. Peter Chamoni Mercator School of Management Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence Prof. Dr. Peter

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL XAMPP-Systeme Teil 3: My SQL Daten Eine Wesenseigenschaft von Menschen ist es, Informationen, in welcher Form sie auch immer auftreten, zu ordnen, zu klassifizieren und in strukturierter Form abzulegen.

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

Kapitel 4 Teil 2 NoSQL-Datenbanksysteme

Kapitel 4 Teil 2 NoSQL-Datenbanksysteme Kapitel 4 Teil 2 NoSQL-Datenbanksysteme Inhalt: CAP (Consistency/Availability/Partition-Tolerance); BASE (Basically Available, Soft State, Eventually Consistent); Datenmodelle: Key-Value-Stores, Spaltenbasierte

Mehr

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS10 17.06.2010 NoSQL Einblick in die Welt nicht-relationaler Datenbanken Christoph Föhrdes UnFUG, SS10 17.06.2010 About me Christoph Föhrdes AIB Semester 7 IRC: cfo #unfug@irc.ghb.fh-furtwangen.de netblox GbR (http://netblox.de)

Mehr

NoSQL-Databases. Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de

NoSQL-Databases. Präsentation für Advanced Seminar Computer Engineering, Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de NoSQL-Databases Präsentation für Advanced Seminar "Computer Engineering", Matthias Hauck, matthias.hauck@stud.uni-heidelberg.de Klassische SQL-Datenbanken Anwendungsgebiet: Geschäftsanwendungen Behördenanwendungen

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Soziotechnische Informationssysteme

Soziotechnische Informationssysteme Soziotechnische Informationssysteme 8. NoSQL Relationale Datenbank NoSQL Datenbank Relationale Datenbank? NoSQL Datenbank RDBM 2 Warum? Skalierbarkeit Riesige Datenmengen Performanz und Elastizität Auslastung

Mehr

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015

Abstrakt zum Vortrag im Oberseminar. Graphdatenbanken. Gero Kraus HTWK Leipzig 14. Juli 2015 Abstrakt zum Vortrag im Oberseminar Graphdatenbanken Gero Kraus HTWK Leipzig 14. Juli 2015 1 Motivation Zur Darstellung komplexer Beziehungen bzw. Graphen sind sowohl relationale als auch NoSQL-Datenbanken

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt

NoSQL & Big Data. NoSQL Databases and Big Data. NoSQL vs SQL DBs. NoSQL DBs - Überblick. Datenorientierte Systemanalyse. Gerhard Wohlgenannt NoSQL & Big Data Datenorientierte Systemanalyse NoSQL Databases and Big Data Gerhard Wohlgenannt Die besprochenen Systeme haben nicht den Anspruch und das Ziel DBS zu ersetzen, sondern für gewisse Anwendungsfälle

Mehr

NoSQL Databases and Big Data

NoSQL Databases and Big Data Datenorientierte Systemanalyse NoSQL Databases and Big Data Gerhard Wohlgenannt NoSQL & Big Data Die besprochenen Systeme haben nicht den Anspruch und das Ziel DBS zu ersetzen, sondern für gewisse Anwendungsfälle

Mehr

The R(E)volution of Data Stores

The R(E)volution of Data Stores The R(E)volution of Data Stores Willkommen Schön, dass sie in diese Session kommen, ich bin Dominik Wagenknecht NoSQL Initiative Lead Technology Architect Accenture Wien Mobil: +43 676 8720 33921 dominik.wagenknecht@accenture.com

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

ISBN: 978-3-8428-0679-5 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Nils Petersohn Vergleich und Evaluation zwischen modernen und traditionellen Datenbankkonzepten unter den Gesichtspunkten Skalierung, Abfragemöglichkeit und Konsistenz Diplomica Verlag Nils Petersohn Vergleich

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung

Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Asklepius-DA Die intelligente Technologie für die umfassende Analyse medizinischer Daten Leistungsbeschreibung Datei: Asklepius DA Flyer_Leistung_2 Seite: 1 von:5 1 Umfassende Datenanalyse Mit Asklepius-DA

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Web Technologien NoSQL Datenbanken

Web Technologien NoSQL Datenbanken Web Technologien NoSQL Datenbanken Univ.-Prof. Dr.-Ing. Wolfgang Maass Chair in Information and Service Systems Department of Law and Economics WS 2011/2012 Wednesdays, 8:00 10:00 a.m. Room HS 021, B4

Mehr

Vorlesung 30.03.2009 1) Einführung

Vorlesung 30.03.2009 1) Einführung Vorlesung 30.03.2009 1) Einführung Was versteht man unter dem Begriff Datenbank? - Eine Datenbank ist eine Struktur zur Speicherung von Daten mit lesendem und schreibendem Zugriff - Allgemein meint man

Mehr

Einführung. Kapitel 1 2 / 508

Einführung. Kapitel 1 2 / 508 Kapitel 1 Einführung 2 / 508 Einführung Was ist ein Datenbanksystem (DBS)? Ein System zum Speichern und Verwalten von Daten. Warum kein herkömmliches Dateisystem verwenden? Ausfallsicherheit und Skalierbarkeit

Mehr

Aktuelle SE Praktiken für das WWW

Aktuelle SE Praktiken für das WWW Aktuelle SE Praktiken für das WWW SQL vs. NoSQL W. Mark Kubacki 23.06.2010 Gliederung Zusammenfassung Entstehungsgeschichte SQL vs. NoSQL Systemarchitekturen und Wachstumsmuster SQL NoSQL Überblick und

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

SimpleVOC-Yetanother. Bausteine für eine Key/Value- Datenbank

SimpleVOC-Yetanother. Bausteine für eine Key/Value- Datenbank SimpleVOC-Yetanother Memcached? Bausteine für eine Key/Value- Datenbank SimpleVOC Yet another memcached? Bausteine für eine Key/Value Datenbank. Theorie (Martin Schönert) Praxis (Frank Celler) Eine Weisheit

Mehr

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023

Kapitel 33. Der xml-datentyp. In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 Kapitel 33 Der xml-datentyp In diesem Kapitel: Der xml-datentyp 996 Abfragen aus xml-datentypen 1001 XML-Indizierung 1017 Zusammenfassung 1023 995 996 Kapitel 33: Der xml-datentyp Eine der wichtigsten

Mehr

Projektgruppe. Knowledge Representation Persistence and Reasoning

Projektgruppe. Knowledge Representation Persistence and Reasoning Projektgruppe Seminarvortrag von Stefan Middeke Knowledge Representation Persistence and Reasoning 4. Juni 2010 Überblick Motivation Repräsentation der Daten Speicherung und Abfrage von Daten Folgerungen

Mehr

Einführung in NoSql-Datenbanken und der Vergleich zu relationalen Datenbanken

Einführung in NoSql-Datenbanken und der Vergleich zu relationalen Datenbanken Fachhochschule Aachen Fachbereich 9 Medizintechnik und Technomathematik Seminararbeit im Studiengang Scientific Programming Einführung in NoSql-Datenbanken und der Vergleich zu relationalen Datenbanken

Mehr

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de

Configuration Management mit Verbosy 17.04.2013 OSDC 2013. Eric Lippmann www.netways.de Configuration Management mit Verbosy 17.04.2013 OSDC 2013 Eric Lippmann Kurzvorstellung NETWAYS Expertise OPEN SOURCE SYSTEMS MANAGEMENT OPEN SOURCE DATA CENTER Monitoring & Reporting Configuration Management

Mehr

Relationale Datenbanken Datenbankgrundlagen

Relationale Datenbanken Datenbankgrundlagen Datenbanksystem Ein Datenbanksystem (DBS) 1 ist ein System zur elektronischen Datenverwaltung. Die wesentliche Aufgabe eines DBS ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern

Mehr

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER

DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER DATENBANKEN SQL UND SQLITE VON MELANIE SCHLIEBENER INHALTSVERZEICHNIS 1. Datenbanken 2. SQL 1.1 Sinn und Zweck 1.2 Definition 1.3 Modelle 1.4 Relationales Datenbankmodell 2.1 Definition 2.2 Befehle 3.

Mehr

Eine Einführung in Apache CouchDB. Java-Forum Stuttgart 2011

Eine Einführung in Apache CouchDB. Java-Forum Stuttgart 2011 Eine Einführung in Apache CouchDB Java-Forum Stuttgart 2011 Johannes Schneider, cedarsoft GmbH js@cedarsoft.com http://blog.cedarsoft.com http://cedarsoft.com Vielen Dank CouchDB The VERY Basics Vorerfahrung?

Mehr

NoSQL für Anwendungen

NoSQL für Anwendungen NoSQL für Anwendungen Hochschule Mannheim Fakultät für Informatik Cluster Grid Computing Seminar SS 2012 Lemmy Tauer (729400) lemmy.coldlemonade.tauer@gmail.com NoSQL CAP / ACID / Kompromisse Key-Value

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1)

Datenbanken und SQL. Kapitel 1. Übersicht über Datenbanken. Edwin Schicker: Datenbanken und SQL (1) Datenbanken und SQL Kapitel 1 Übersicht über Datenbanken Übersicht über Datenbanken Vergleich: Datenorganisation versus Datenbank Definition einer Datenbank Bierdepot: Eine Mini-Beispiel-Datenbank Anforderungen

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt:

Datenbanken 16.1.2008. Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: Datenbanksysteme Entwicklung der Datenbanksysteme Die Entwicklung der Datenbanksysteme ist eng an die der Hardware gekoppelt und wird wie jene in Generationen eingeteilt: 1. Generation: In den fünfziger

Mehr

NoSQL Please! Wie Web2.0, Big Data und die Cloud neue Datenbanksysteme erfordern und hervorbringen. Datenbank-Stammtisch, 8.

NoSQL Please! Wie Web2.0, Big Data und die Cloud neue Datenbanksysteme erfordern und hervorbringen. Datenbank-Stammtisch, 8. A Database Administrator walks into a NoSQL bar, but turns and leaves because he cannot find a table. NoSQL Please! Wie Web2.0, Big Data und die Cloud neue Datenbanksysteme erfordern und hervorbringen.

Mehr

1 Einleitung. Betriebswirtschaftlich administrative Systeme

1 Einleitung. Betriebswirtschaftlich administrative Systeme 1 1 Einleitung Data Warehousing hat sich in den letzten Jahren zu einem der zentralen Themen der Informationstechnologie entwickelt. Es wird als strategisches Werkzeug zur Bereitstellung von Informationen

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Curriculum des Wahlfaches Informatik für das Gymnasium Dialog

Curriculum des Wahlfaches Informatik für das Gymnasium Dialog 10.Klasse: Themenschwerpunkt I: Datenbanken Datenbanken o Einsatzbereiche von Datenbanken o Verwaltung von großen Datenmengen o Probleme aus dem Alltag in Datenbanken abbilden o Relationale Datenbanksysteme

Mehr

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen

Mehr

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008 Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Andreas Glaser, 23. September 2008 Teufenerstrasse 19 CH 9001 St.Gallen t [+41] 71 228 67 77 f [+41] 71 228 67 88 info@namics.com

Mehr

Die Grundbegriffe Die Daten Die Informationen

Die Grundbegriffe Die Daten Die Informationen Die Grundbegriffe Die Daten sind diejenigen Elemente, die vom Computer verarbeitet werden. Die Informationen sind Wissenselemente, welche durch die Analyse von Daten erhalten werden können. Die Daten haben

Mehr

Datenbanken (WS 2015/2016)

Datenbanken (WS 2015/2016) Datenbanken (WS 2015/2016) Klaus Berberich (klaus.berberich@htwsaar.de) Wolfgang Braun (wolfgang.braun@htwsaar.de) 0. Organisatorisches Dozenten Klaus Berberich (klaus.berberich@htwsaar.de) Sprechstunde

Mehr

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator Agenda Was ist Business Intelligence? Was ist OLAP? Unterschied zwischen OLAP und OLTP? Bestandteile

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

Seminar C02 - Praxisvergleich OLAP Tools

Seminar C02 - Praxisvergleich OLAP Tools C02: Praxisvergleich OLAP Tools Ein Seminar der DWH academy Seminar C02 - Praxisvergleich OLAP Tools Das Seminar "Praxisvergleich OLAP-Tools" bietet den Teilnehmern eine neutrale Einführung in die Technologien

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken - Speichern und Analysen von großen Datenmengen Lennart Leist Inhaltsverzeichnis 1 Einführung 2 1.1 Aufgaben einer Datenbank...................... 2 1.2 Geschichtliche Entwicklung

Mehr

fbi h_da Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Bachelor) Kapitel 1-1

fbi h_da Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Bachelor) Kapitel 1-1 Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Bachelor) Kapitel 1-1 Einführung Inhalte des Kapitels Einsatzgebiete von Datenbanken Datenbank Datenbanksystem Datenbankmanagementsystem Historische

Mehr

Vorwort zur 5. Auflage... 15 Über den Autor... 16

Vorwort zur 5. Auflage... 15 Über den Autor... 16 Vorwort zur 5. Auflage...................................... 15 Über den Autor............................................ 16 Teil I Grundlagen.............................................. 17 1 Einführung

Mehr

Wann nutze ich welchen semantischen Layer im Kontext von SAP HANA? [B3] Francis Fink Uetliberg, 16.09.2014 www.boak.ch

Wann nutze ich welchen semantischen Layer im Kontext von SAP HANA? [B3] Francis Fink Uetliberg, 16.09.2014 www.boak.ch Wann nutze ich welchen semantischen Layer im Kontext von SAP HANA? [B3] Francis Fink Uetliberg, 16.09.2014 www.boak.ch Obwohl mit der Verwendung von SAP HANA ein neuer semantischer Layer zum Einsatz kommt,

Mehr

Cassandra Query Language (CQL)

Cassandra Query Language (CQL) Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

White Paper saracus. Big Data und Business Intelligence

White Paper saracus. Big Data und Business Intelligence White Paper saracus Big Data und Business Intelligence Big Data ist aktuell auf jeder Agenda im IT-Bereich zu finden und jeder Anbieter gibt seinem Produktportfolio diese Prägung. Eine genaue Definition

Mehr

SQL structured query language

SQL structured query language Umfangreiche Datenmengen werden üblicherweise in relationalen Datenbank-Systemen (RDBMS) gespeichert Logische Struktur der Datenbank wird mittels Entity/Realtionship-Diagrammen dargestellt structured query

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching

1 Einleitung. 1.1 Caching von Webanwendungen. 1.1.1 Clientseites Caching 1.1 Caching von Webanwendungen In den vergangenen Jahren hat sich das Webumfeld sehr verändert. Nicht nur eine zunehmend größere Zahl an Benutzern sondern auch die Anforderungen in Bezug auf dynamischere

Mehr

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen:

In die Zeilen würden die Daten einer Adresse geschrieben werden. Das Ganze könnte in etwa folgendermaßen aussehen: 1 Einführung in Datenbanksysteme Fast jeder kennt Excel und hat damit in seinem Leben schon einmal gearbeitet. In Excel gibt es Arbeitsblätter, die aus vielen Zellen bestehen, in die man verschiedene Werte

Mehr

Carl-Engler-Schule Karlsruhe Datenbank 1 (5)

Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Carl-Engler-Schule Karlsruhe Datenbank 1 (5) Informationen zur Datenbank 1. Definition 1.1 Datenbank-Basis Eine Datenbank-Basis ist eine Sammlung von Informationen über Objekte (z.b Musikstücke, Einwohner,

Mehr

Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de

Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de NoSQL für Java-Entwickler Java Forum Stuttgart 2013 Kai.Spichale@adesso.de twitter.com/kspichale spichale.blogspot.de 23.06.2013 Agenda Datengröße Key-value Stores 1. Wide Column 2. Cassandra Document

Mehr

Themen. M. Duffner: Datenbanksysteme

Themen. M. Duffner: Datenbanksysteme Datenbanksysteme Themen Theorie Einführung Datenbank, Datenbankmanagementsystem (DBMS), Aufgaben eines DBMS Relationale Datenbanken Daten als Tabellen Datenbankentwurf im Entity-Relationship-Modell Abfragesprache

Mehr

5. Programmierschnittstellen für XML

5. Programmierschnittstellen für XML 5. Programmierschnittstellen für für Medientechnologen Dr. E. Schön Wintersemester 2015/16 Seite 146 Notwendigkeit: Programmierschnittstelle Zugriff auf -Daten durch Applikationen wiederverwendbare Schnittstellen

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

Datenbanken. NoSQL-Datenbank MongoDB. von Maximilian Weber. Listing 1. Artikelserie

Datenbanken. NoSQL-Datenbank MongoDB. von Maximilian Weber. Listing 1. Artikelserie Gigantische Datenbank Die humongous database oder kurz MongoDB hat einen einprägsamen Namen und ist eine vielversprechende NoSQL-Datenbank. MongoDB möchte die Lücke zwischen Key-Value-Stores (die schnell

Mehr

Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig

Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig Einsatz der open-source XML-Datenbank exist zur Verarbeitung von grossen XML Datenmengen 2009-10-06, Siemens, Braunschweig Peter K. Brandt Senior Software Engineer Ergon Informatik AG Inhalt Hintergrund

Mehr

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen

SQL- & NoSQL-Datenbanken. Speichern und Analysen von großen Datenmengen SQL- & NoSQL-Datenbanken Speichern und Analysen von großen Datenmengen 1 04.07.14 Zitat von Eric Schmidt (Google CEO): There was 5 exabytes of information created between the dawn of civilization through

Mehr

Data Warehouse Grundlagen

Data Warehouse Grundlagen Seminarunterlage Version: 2.10 Version 2.10 vom 24. Juli 2015 Dieses Dokument wird durch die veröffentlicht.. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen sind Warenzeichen

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr

fbi h_da Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Cnam) Kapitel 1-1

fbi h_da Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Cnam) Kapitel 1-1 Datenbanken Kapitel 1: Einführung Schestag Datenbanken (Cnam) Kapitel 1-1 Einführung Inhalte des Kapitels Einsatzgebiete von Datenbanken Datenbank Datenbanksystem Datenbankmanagementsystem Historische

Mehr

Datenbanken. Ein DBS besteht aus zwei Teilen:

Datenbanken. Ein DBS besteht aus zwei Teilen: Datenbanken Wikipedia gibt unter http://de.wikipedia.org/wiki/datenbank einen kompakten Einblick in die Welt der Datenbanken, Datenbanksysteme, Datenbankmanagementsysteme & Co: Ein Datenbanksystem (DBS)

Mehr

Groovy und CouchDB. Ein traumhaftes Paar. Thomas Westphal

Groovy und CouchDB. Ein traumhaftes Paar. Thomas Westphal Groovy und CouchDB Ein traumhaftes Paar Thomas Westphal 18.04.2011 Herzlich Willkommen Thomas Westphal Software Engineer @ adesso AG Projekte, Beratung, Schulung www.adesso.de thomas.westphal@adesso.de

Mehr

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann

Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Data Lineage goes Traceability - oder was Requirements Engineering von Business Intelligence lernen kann Andreas Ditze MID GmbH Kressengartenstraße 10 90402 Nürnberg a.ditze@mid.de Abstract: Data Lineage

Mehr

DATENBANK LÖSUNGEN. mit Azure. Peter Schneider Trainer und Consultant. Lernen und Entwickeln. www.egos.co.at

DATENBANK LÖSUNGEN. mit Azure. Peter Schneider Trainer und Consultant. Lernen und Entwickeln. www.egos.co.at DATENBANK LÖSUNGEN mit Azure Peter Schneider Trainer und Consultant Agenda Cloud Services, Data Platform, Azure Portal Datenbanken in Virtuelle Maschinen Azure SQL Datenbanken und Elastic Database Pools

Mehr

Konzeption eines Master-Data-Management-Systems. Sven Schilling

Konzeption eines Master-Data-Management-Systems. Sven Schilling Konzeption eines Master-Data-Management-Systems Sven Schilling Gliederung Teil I Vorstellung des Unternehmens Thema der Diplomarbeit Teil II Master Data Management Seite 2 Teil I Das Unternehmen Vorstellung

Mehr

Datenbanktechnologien für Big Data

Datenbanktechnologien für Big Data Datenbanktechnologien für Big Data Oktober 2013 Prof. Dr. Uta Störl Hochschule Darmstadt Big Data Technologien Motivation Big Data Technologien NoSQL-Datenbanksysteme Spaltenorientierte Datenbanksysteme

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk

ACCESS das Datenbankprogramm. (Einführung) DI (FH) Levent Öztürk ACCESS das Datenbankprogramm Vom Microsoft (Einführung) DI (FH) Levent Öztürk Inhalt Grundlagen einer Datenbank Planung einer Datenbank Programm starten Datenbank Anlegen Tabellen anlegen Tabellen Verknüpfen

Mehr

Seminar C16 - Datenmodellierung für SAP BW

Seminar C16 - Datenmodellierung für SAP BW C16: Datenmodellierung für SAP BW Ein Seminar der DWH academy Seminar C16 - Datenmodellierung für SAP BW Dieses Seminar soll einen umfassenden Einblick in die Datenmodellierung beim Einsatz von SAP BW

Mehr

3. Das Relationale Datenmodell

3. Das Relationale Datenmodell 3. Das Relationale Datenmodell Das Relationale Datenmodell geht zurück auf Codd (1970): E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Comm. of the ACM 13(6): 377-387(1970) DBMS wie

Mehr

Online Analytical Processing

Online Analytical Processing Online Analytical Processing Online Analytical Processing Online Analytical Processing (OLAP) ermöglicht die multidimensionale Betrachtung von Daten zwecks E rmittlung eines entscheidungsunterstützenden

Mehr