immer keine wichtige Basis analytischer Funktionen. Grund für die

Größe: px
Ab Seite anzeigen:

Download "immer keine wichtige Basis analytischer Funktionen. Grund für die"

Transkript

1 Inhalt Reifegrad Apache Google... Analytics... Access von Framework auf MapReduce Logs verteiltem in MySQL mit Filesystem einer verteilten (Beispiel Datenspeicherung? Hadoop) 4315 vor Reifegrad Das MapReduce Datenmanagement 15 Datenvolumen Jahren in >2GB von (MPP) und DataWarehouses MapReduce Datenbanken die Analysetiefe zu mit großen der einer Datenbestände Installationen, verteilten nimmt sind Datenspeicherung? in heute allen 1 Branchen TB große zu. Zählten 87 Vorratsdatenspeicherung nach sämtliche DataWarehouses produktiven Provider Lösungen durchaus dem oder unterschiedlich; eher Daten Urteil Einsatz. Telekommunikationsunternehmen, klein. des zur üblich Vorratsspeicherung Bundesverfassungsgerichtes Heute Der Wachstum zu sind erste Branchen Größen Systeme mit zwischen Datenaufkommens löschen mit großen einem vom 100 auch Wachstumsraten sind. Datenvolumen bis wenn Zudem 300GB ist eine verfassungswidrig liefern von den Datenvorratsspeicherung zählen DataWarehhouse von einzelnen PB Internet sind der Branchen im ist Service und immer keine wichtige Basis analytischer Funktionen. Grund für die aus, Zunahme Trend, Ereignisse Die Rechenkapazität technische die Daten noch gestiegenen des oder gültige immer Datenvolumens Reaktion Veränderungen und Mooresches zeitnaher Kapazitätsanforderungen Datenspeicherkapazitäten. auf diese sind nach zu Gesetz) Anforderungen reduzieren. zunehmende Ihrer und Entstehung Speichermedien zu Die kompensieren. ist Leistungssteuerung zunehmend auszuwerten, Aktivitäten. reichen Seit der um Einsatz dem nicht Reaktionszeiten von Ferner von in verteilter Rechnern allen Google besteht Bereichen in (z.b. auf ein 2004 gegenüber Serverclustern Datenspeicherung Datenbanken Massendaten dem vorgestellten MapReduce Ansatz zur Parallelisierung von Analysen und Ergebnisspeicherung auf und Ansatz haben Google und Internetdienste vergleichbare Lösungen mit diesem DataWarehouse im produktiven Einsatz. Hierbei werden mitunter hunderte von Servern zur Analyse und möglich (shared-nothing-architecture) vornehmen verbunden. zu können, In anderen die derzeit Bereichen eingesetzt, mehr werden funktionale um ähnliche Massiv Rechenleistung Auswertung Parallel Prozessing auf gegenüber (MPP) Heise Apache von Google vorgestellten Ansatz aufweisen. Welchen Reifegrad haben MapReduce Ansätze MySQL MPP Datenbanken; welche Alternativen bestehen, wenn mit commodity Hadware Gemeinde vergleichsweise einfachen Datenbanken wie beispielsweise MySQL als Massenmarkt Kunden Lösung das Wachstum auch solcher kleiner DataWarehouse Lösungen liefern. Installationen Auch sein soll? Consulting Auswertungen eine Access die wichtige Soziale-Netzwerke, Services Logs spielen über Rolle. GmbH das in Ein als MySQL Nutzerverhalten Serviceangebot Open 2010 Web-Shops/Auftritte Source Produkt der von von Internet - Ihnen bei oder Unternehmen Portale Dienstleistern gehosteten etc. nutzen Webseites der ist Internet es, Log-Dateien Seite ihren etc. 1 von zu 8

2 ihrer jedoch Mit analysieren Log Kunden gegenwärtige WebServer Analysezwecken. Die Ansätze der Auswertung und Datenerhebung können Tabelle voneinander abweichen. Es sind hierzu Daten mit mehreren Datenzeilen zu MySQL und zumindest kurzfristig zu speichern. sind variierende MySQL DBMS ist eine Herausforderung, detail log records von Access- Betrieb Dateien auszuwerten. Service Anbieter hosten nicht selten tausende Web-Sites ihrer Maßnahmen Domains Limitierungen entsprechenden von MySQL analytischen 5.1 Installationen Serviceangeboten. für Millionen In der Literatur Zeilen pro werden Analytische und für mehr als 50 Abfragen/Sec. angegeben, wobei die jeweils zugrunde liegenden Konfiguration. Storage Engine und Abfragekomplexität nicht immer benannt wird. Eigene Erfahrungen MySQL eher konservativ insbesondere dann, wenn wie im DataWarehouse Umfeld komplexe und Verbindung SQL Statements auf MySQL mit gemischten Workload ausgeführt werden. Der Partitionierung von DBMS und die Ausführung von SQL Statements kommt nicht ohne geeignete Tuning den Auswertungen aus. von vielen Millionen Datenzeilen übersteigen MySQL Limits üblicher Lesevorgänge/Abfragen. Eine Skalierung (Datenmenge + Workload) durch den Einsatz einer Vielzahl von möglich, RDBMS zur jeweiligen Speicherung weniger Domain Log-Dateien (Shading) in Auswertung mit der Replikationsmechanismen Daten auf unterschiedliche ist ein MySQL Lösungsansatz. Installation Das Shading ein übliches oder Vorgehen bei können. vorliegenden Mengengerüsten. Der Einsatz zusätzlicher Replikationsmechanismen dient der erhöht Verteilung Master Knoten von Schreib- dient im und wesentlichen Lesezugriffen für Schreibvorgänge auf unterschiedliche und der Slave Installationen. Knoten dient Der für Jeder relative Dieses Shading (Partionierung) Daten ist prinzipiell nur dann und wenn keine Joins mit Datenbanken anderer verteilter MySQL Server für jeweilige 7 für Datenbewirtschaftung, diesen dieser den unabhängige Eine Aufwand Anwendungsfall benötigt MySQL solche Server Konfiguration für werden. DBAs, bedarf auf Die der Datenmanagement, den einer fachlichen möglich ist Einsatz jeweiligen eine eigenen eines Herausforderung ist: Voraussetzungen MySQL MySQL wenn Anwendungslogik Installationen auch Clusters logisch für müssen die mit gesamte einheitlichen der ausgewertet und hier MySQL Betriebsteam. geprüft Architektur Storage Verwaltung werden, Engine und ob Dies Bewirtschaftung 1. MySQL benötigt für ein Cluster die NDB clustered engine Jobsteuerung bedeutet, lesende Die diese NDB gesamte Databasengine Das eine Zugriffe einer ist Workload für Cluster-Option NDB MySQL lesende optimiert, Datenbank Management nicht Installation Zugriffe optimiert. ist unterstützt muss in optimiert. Millionen ist ist Aufgabe InnoDB eine Arbeitsspeicher jedoch Für Zeilen stetige ist der gegenwärtig für Umgebungen Anwendungslogik Aufgabe konkurrierende gehalten sowie keine schreibende nicht werden Cluster die schreibende und anwendbar. Durchführung können. der Zugriffe und Die ist Heise stehen Kapazitätsanforderungen Ebenso notwendiger Changes und wird durch die Datenbank nur in geringem Umfang unterstützt. Netzwerksegmente MySQL Apache und zu sind bietet laden. die Möglichkeit Umweg Access-Logs Log-Dateien direkt über MySQL einen Datenmanagement Datenbanken zu scheiben Prozess in eine Consulting die Sicherheitsaspekte Analytischen Hierdurch können Batch Ladevorgänge von Log-Dateien reduziert werden, Services befinden. zur GmbH DBMS Anreicherung zu beachten, 2010 idr. sich und innerhalb da Analyse Web-Server von dieser Firewalls idr. außerhalb und sind anderer damit einer nicht Firewall Seite gelöst. 2 von 8 (mod_log_sql), ohne

3 Soll so beispielsweise Datenbanken bedarf eine Farm (es einer) eingerichtet von mit anderen MySQL weiteren Installationen werden, DBMS Software, oder um Daten da Middleware MySQL einer logisch logischen Verlinkungen zusammen Funktionalität Instanz zu verteilter zusammengeführt führen. nicht Einfache MySQL enthält. Abfragen So werden, können ausgeführt mit Alternative geringen Shading Datenrückgabemengen zusammenzufügen können auf ist diese der Einsatz Weise von ausgeführt Sphinx (Open-Source) werden. Eine weitere als eine Anmerkung: Full-Text verknüpften unbefriedigende variierende Index Engine mit MySQL Schnittstellen. Auch hier gilt, die Operationen auf diese Daten dürfen nicht komplex sein. Der Einsatz dieser federated databases Aufwand ist mindestens für (Architektur, DataWarehouses werden Abfragen Der aus Einsatz Maßnahme. Performancegesichtspunkten sollen. möglicherweise Design heutiger mittlerer Auch und MySQL Ressourcen) caching bis mit großer Umgebungen abweichenden Maßnahmen realisierbar. Historie im DataWarehouse ist nur sind Datenzugriffsbeschränkungen für Goolge, mit nur einem begrenzet Einsatz YouToube, Umfeld deutlich granularer einsetzbar, eine Facebook, erhöhtem Log-Access wenn Flickr, werden, Metacafe oder Netlog nutzen MySQL Installation in Millionen Zeilen Konfiguration. MySQL Datenmigration installationen bieten sich eher für eine Hybrid-Strategie an, indem Analysen und Datenspeicher Hardware für granulare Daten außerhalb einer MySQL vorgenommen werden: MySQL Installationen spaltenorientierten enthalten Aggregate externer granularer mittlerer Historie. Zahlreiche Anbieter von MySQL DataWarehouse Frontends Schnittstellen zu MySQL bereit, so dass mitunter die einen Speicherung dieser externen granularen proprietären Lösungen erfolgen kann. können Steigen Kapazitätsanforderungen da Anpassungen vermieden an werden Schnittstellen, und soll, soll so MySQL kann der Einsatz der nicht Einsatz neuer durch einer DBA anders für Werkzeuge MySQL DBMS optimierten oder ausgetauscht eine (Kickfire) oder Einsatz von Datenbanken eine Option sein, die MySQL zu MapReduce Treiber oder (Infobright, Schnittstellen Calpont) können bis weiterhin zu MPP verwendet Datenbanken werden, erweitern sie besitzen (Calpont). jedoch Paare Verarbeitung geänderten Optimizer und Indexstrategie. Diese kapazitiven Beschränkungen von MySQL auch auf DBMS anderer Single-Server Installationen übertragen werden. Funktionen Berechnungen sind Framework werden parallelisierbar einer können. integriert können Eingabeliste ist großer gespeichert ein MapReduce funktionaler diese aufgrund Datenmengen. Sequenzen verarbeiten Zwischenergebnisse werden umfasst der Programmieransatz Key/Value angewendet können. Anwender und zwei wiederum Technologiebereiche: Programme, Paare mit werden, definieren gleichen die Key/Value und so wird Clustern die eine dass Key/Value mit in Paare Map Zwischenergebnisse Verbindung diesem von Funktion erzeugen. Paaren. Servern Ansatz gebracht Map-/Reduce die ausgeführt Eine erstellt Key/Value für mit wurden weitere der Timestemp 1. Parallele Programmierung Funktionen eine Access-Log MapReduce 2. Verteiltes Datenmanagement Heise 1. Anreicherung Funktionen Textzerlegungen, muss nicht können immer Zähler, für eine Summen Reduktion oder andere Datensätze Aggregationen sorgen, implementieren. sondern kann auch Consulting Files und lassen einem formatierte sich dieser Services mindestens neuem sein. Indizierung, GmbH Key/Value Beispielsweise liefern drei Suchfunktionen Listen Classen In Verbindung möglicherweise wird von die Anwendungen mit der mit Funktionalität anhängendem von formulieren: MapReduce der SessionID Map- Seite auf Apache 3 von und 8

4 Invertierte MapReduce eine problematisch 2. Erstellung von Datenstrukturen (z.b. Graphen) URLs 3. Data Mining und maschinelles Lernen Die überlegen Text-Listen erzeugt Listen, sind jedoch diese Key/Value nicht unbedingt Paare können wieder sinnvoll Tabellen in Tabellen dargestellt darstellbar werden. z.b. auch mit invertierter Repräsentation hoher bestimmte ohne aller sparsity verfügbaren sein. den abzubilden Einsatz Klickstream Die Seite). bleibt von Problematik von Graphen URLs Klickstreams jedoch (sparse SQL in Graph einer aus erhalten. von der tables); diesen statistischen (welche Klickstreams Kette in um Analytische Listen von Seiten zu kann einer bereit Auswertung sind zeigen durch daher Funktionalitäten URL gestellt in -mit relationalen zu die einer gelangen hochdimensionaler Webanwender ein werden. relationalen oder Strukturen können oder mehreren Beispielsweise Berichte genutzt idr. Speicherung Informationen Links- nur werden. können wenige auf Berichte als Ergebnis Ausgabe-Listen der Reduce Funktion enthalten. Visualisierungswerkzeuge aus Datenstrukturen nicht Es (http://en.wikipedia.org/wiki/mapreduce gibt dem klassischen oder DataWarehouse relationale Datenbanken Umfeld, die darstellen, Ergebnisse sind von für Abfragen die Darstellung multidimensionaler dieser Listen 1. geeignet, zahlreiche Die Implementierung es unterschiedliche sei denn, diese des Listen Datenmanagements Implementierungen werden Exemplarisch zuvor in kann von sind geeignete MapReduce auf dies: Anforderungen Datenstrukturen verteilter exportiert. eigene Google Viele 2. gemeinsamer Filesysteme (Cluster) Speicher (Google, (Stanford Hadoop) Phoenix) oder paralleler Datenbanken (Greenplum) zugeschnitten sein Projekte Infrastruktur Analytics (http://labs.google.com/papers/bigtable.html) Google MapReduce: BigTabe: (http://labs.google.com/papers/mapreduce.html) von File A Google Distributed System geschaffen Simplified speichern (GFS) Storage Data zu 10/2003 haben: Daten Processing System großen for on Structured Large Tabellen. Clusters Data Google 12/ /2006 gibt an, hierfür eine wesentlichen Zu dieser zählt auch das Google File System (GFS) zum speichern von Log-Files und Daten-Files. Funktionen Goolges Engineers entwickelten eine BigTable als eigenständigen indizierten Datenspeicher datenintensiven basierend auf dem GFS, um große und verteilte Datenmengen, die wie Apache-Log auf Finance. über Ressourceneinsatz Anforderungen Wiederherstellung hunderte Maschinen paralleler zu oder analysieren. Datenverteilung Programmierung, verteilt sind Das Framework in kapseln, einer Fehlertoleranz, vertretbaren so soll dass gleichzeitig Anwender Skalierbarkeit, Zeit und die (Engineers) mit gesonderte einem Lastverteilung, wirtschaftlichen im besitzt Mit Engine Heise seiner typed Anwender erstellen. Algorithmen Google für nutzt die Transformationen den verteilten Datenspeicher von Key/Value Paaren für zahlreiche Map- und Reduce Consulting Für Datastore diese properties, Produkte können Anwendungsfälle Services API ermöglicht Abfragen wie wie GmbH Google StringProperty 2010 auf Google ist Search, die Entitäten BigTable den Gmail, oder Zugriff im BooleanProperty. eine Google Datenspeicher auf Alternative den Maps, BigTable Google zu ausführen. Es RDBMS. gibt Datenspeicher. Earth zwei oder Eine Schnittstellen Seite Entität Google App 4 von 8

5 Weiterhin Anwendungsfälle Logfiles Datastore um Abfragen auszuführen: Query Class (Prozedurale Abfrage) und GqlQuery Class (SQL ähnliche Umfeld deklarative Abfrage Sprache). Performance Anmerkung: Google im hat Petabyte gezeigt, (PB) mit Umfeld der BigTable eine Alternative und MapReduce zu (MPP) für Datenbanken analytische zu besitzen. MapReduce dient Google der MapReduce Ansatz dem Datenmanagement semi-strukturierte Hadoop in strukturierte zu transformieren, die einer BigTable gespeichert werden. Die verteilten API und der MapReduce Ansatz bieten Engineers die bislang weniger im RDBMS Implementierung gearbeitet große haben Datenmengen die Möglichkeit, zu analysieren. in für sie bislang nicht bekanntem Umfang und Hadop distributed Master/Slave ein bedeutender auf verteiltem Vertreter des Filesystem Implementierungsansatzes (Beispiel Hadoop) von MapReduce in unterschiedlichen Filesystemen. entworfen. Hadoop Hadoop wurde enthält in Anlehnung zwei Hauptkomponenten: die Google MapReduce Speicherung gepuffert) file system (HDFS): DataNode(s). die Architekture: Der Master NameNode enthält Informationen über den Ort sukzessive von Datenblöcken (Typischerweise 64MB). Datenblock kann auf einem Replikationsslave Knoten (Server) liegen. Jeder Slave DataNode verwaltet seine von Datenblöcke auf dem lokalen Filesystem, ohne Kenntnis der HDFS Dateien. nicht Slave Schecksummen bekannt, DataNodes. sendet in von das Der so Dateien lokale dass der Master zu zur schreibende Die durch am Filesystem Prüfung NamedNode im Slave Ende den HDFS: DataNodes einer Master der Dateien und Jeder Datenintegrität Übertragung koordiniert senden NamedNode Client empfangen kleinen die (zuvor die Datenblöcke von ist Datenpaketen benannt Verteilung im und Dateien für Temp-files diese schreiben wurde. in weiter kleinen der das (4K) auf Datenblöcke die Die HDFS an dem Datenpakete Datenpakte Verwendung den die festgestellt Client Slave nächsten auf neueste synchronisieren Übertragung Die Der wird, ob Integritätsbedingungen erfüllt sind (Schecksummen Prüfung erfolgen nach der Ein von Dateien das Schreiben von großen Tabellen ist kein Prozess von beschriebener wenigen Cluster. Absturz Replikation Master FsImage Minuten). des NameNode und Master (FsImage, verwendet. Re-Replikation Files NameNode kann (open EditLog). mehrere Files). von führt Beim Kopien Datenblöcken zum Start Verlust seiner des Master Medatadaten aller erfolgt zu NameNode über diesem unterschiedliche verwalten Zeitpunkt wird jeweils und das Heise Hadoop Auslastung Die Snapshots Batch Master/Slave Verteilung der der Cluster Daten auf balancieren. einzelne Cluster erfolgt automatisch, um die Built-in Consulting MapReduce Verarbeitung binding des Architektur HDFS zum Rollback im Fehlerfall sind nicht möglich. Services für Java bei der ist der nicht Master für Realtime Node die Abfragen Jobsteuerung ausgelegt; übernimmt. sondern für eine GmbH und ermöglicht 2010 C gewöhnlich kein Random Accesss auf das HDFS. Seite 5 von 8

6 Die die Map HDFS auf Ausgabe Funktionen ist dem in der gleichen dieser Lage, sollten Map Datenblöcke Slave auf Funktionen DataNode den verfügbaren von sollte ablaufen, einer mit Replikation Datenblöcken um Netzwerk-Bandbreiten zu lesen, des Slave so bearbeitet dass DataNode auch zu schonen. werden, laufen. Replikationen auf dem SlaveNode durch die Map/Reducer-Funktionen genutzt können. Es gibt bereits zahlreiche Implementierungen von HDFS (Yahoo, Last.fm, Google, Facebook, HBase enthalten weiterführende in Amazon s Elastic Compute Cloud (EC2) computing infrastructure). Yahoo ist BigTable der Hauptsponsor ist Artikel von Hadoop. zur Architektur, Es gibt viele Performance Foren- Blog- Stabilität Beitrage sind zu Hadoop. finden unter Ein paar kann. entwickelt: eine Java-basierte Erweiterung für Hadoop und wurde in Anlehnung an Googles koordiniert Tabellen HBase keine Query Engine Spezialtabellen bietet Googles BigTable ähnliche Funktionalitäten auf Hadoop (HDFS). Regionserver ist spaltenbasiert Datenspeicher aber kein Ersatz für RDBMS TableInput/Table bestehen aus Regionen wobei jede Region auf unterschiedlichen Servern liegen Native Tabellen besteht Java die Client/API aus werden Regionserver. ROOT- Output zwei (get(byte[] im und Typen Format HDFS.META. von Filesystem für row, Knoten: speichern Hadoop byte[] Master gespeichert. MapReduce column, Schemainformationen und long Regionserver. ts, int versions) und Der den Masterserver Ort der Content Beispiele Es Scalierung: Reliability: Version für HBase Externsions: Hive, Pig, Cascading, Pigi, Hbase-Writer Einfaches Anwendungsebene; besteht die Radom Gefahr access eines (Ab Datenverlustes, Release 0.20). im Skalierung Fehlerfall durch des Master Verwendung Server von mehr HDFS. Gegenwärtig Regionservern. verändert Schreibvorgänge werden ohne Indizes über das HDFS verteilt. Der performante, zu Datenbank werden Verwendung , schreiben. ist das reliable ist von Datenstrukturen Schema: Hierdurch möglich der den und HDFS Entwicklern Datenkonsistenz fehlertolerante HDFS wird Replikation; können der Files Redo erneut HBase dafür Lese/Schreibzugriff Backups Logfile zwischen zu durch gesteckte öffnen von sind Tabellen den HBase möglich. und Entwickler Ziel am reliable. auf noch erfolgt Endes Mit Tabellen nicht der einfach auf des HDFS erreicht: mit Files Heise Anmerkung: >>Millionen von Zeilen >>tausenden von Spalten mit commodity Servern. Unternehmen Gegenüber der BigTable von Google wird über konzeptionelle Performancenachteile von (u.a. wegen Java Code-Basis) berichtet. Gegenwärtig werden Gesichtspunkte von deutlich Robustheit, Skalierung und Korrektheit in der Entwicklung von HBase Algorithmen Lizenzkosten Jobs fokussiert. Consulting reduziert. im HDFS Hadoop für wie kommerzielle Dateisystem Yahoo, Das Services und HBase HBase Facebook GmbH Projekt (MPP) wurde sind 2010 oder weiterhin RDBMS ist mit für Amazon der die Produkte Version im Unternehmungen produktiv Status 0.20 scheuen, der gegenüber genutzt. Entwicklung affin interessant, Die für Vorgängerversionen berichtete Open-Source aber die werden hohe Seite Fehlerrate Produkte bereits 6 von in 8

7 sind oder vergleichbarem Hadoop/HBase PostgresSQL-Datenbanken und Single-Server Aufgrund umfassen Datenvolumen DMS von Millionen Installationen weitaus über und das von mehr Analysebedarf. HDFS Zeilen Probleme Server Cluster in Tabellen als bereiten. zu beispielsweise Gegenwärtig verteilen. die Konfigurationen bestehenden Mit wird MPP PostgresSQL von Installationen MySQL Aktivitäten auf der steht Installationen Basis mit dann berichtet, verteilen. RDBMS auf einem HDFS Cluster zur Verfügung. Greenplum hat ebenfalls PostgresSQL für seine durch. MPP erweitert und gute Erfolge erzielt. auf DBMS vorgenommen Eigenschaften MapReduce Zur in (MPP) Datenbanken (Teradata, Bewältigung hoher Kapazitätsanforderungen zeichnet sich ein Trend ab, die Software des MicroSoft/DataAllegro, und Hardware aufeinander abzustimmen und die Daten über mehrerer Rechnerknoten zu Analytische Für Installationen hoher Kapazitäten setzt sich diese shared-nothing-architecture RDBMS SMP Auch Architekturen Sybase, Anbieter, hatten, ihren HP Neoview, die Top-Produkten. vollziehen gesetzt ParAcell, hatten Oracle Vergangenheit Greenplum, einen und Gegenwärtig Exadata, Schwenk für Vertica, den in IBM zu ihren Einsatz DataWarehouse ist InfosphereBalancedWarehouse, Dataupia, eine transaktionsorientierten komplexer Vielzahl Aster MPP Abfragen Data Applicances DBMS oder Optimierungen Calpont...) verfügbar Datenbanken mit Netezza, MPP Funktionalitäten datengetriebener auszuführen integriert Funktionalitäten und Anwendungen. und bieten schaffen werden die Möglichkeit, die Diese technischen von Lösungen einer externe Vielzahl Voraussetzungen sind analytische individuell kommerzieller und Funktionen für können DBMS zukünftige Anbieter innerhalb nicht von in einem des ihre (Bsp. Anbieter Greenplum mit RDBMS des auf den anderen übertragen werden. ggf. MapReduce Teradata zu verknüpfen. und Sessionalization Aster Funktionen Ansatzes. in ihre Data Netezza Produkte So Systems zur löst von verarbeiten und integriert Teradata Access-Logs, waren die MapReduce haben. und ersten (Zwischen-) die Die in beispielsweise Datenbank dem Anbieter Funktionen RDBMS Ergebnisse bietet Anbieter, auch eigene strukturiert die mit Möglichkeit, die Implementierungen Daten SQL MapReduce gespeichert Statements aus dem Flatfiles sind besteht Anmerkung: Architektur fehlertolerant unter nicht. Anwendung um MPP Insbesondere und Prozesse Datenbank reliabel von z.b. zu externen Teradata SQL Anbieter speichern. Statements user besitzt wie defined Teradata Gefahr durch zu parallelisieren funtions seine von oder Datenverlusten über Greenplum (UDF) Jahre und gereifte nutzen wie perfomant, bei Architektur, ihre Hadoop/HBase MPP Query- Umgebungen Engine und Administrationswerkzeugen technologische Eigenschaften die Hadoop/HBase oder Heise Darstellung auch Googles BigTable nicht aufweisen. Die großen MPP Datenbankanbieter werden in Bezug Datenbanken. für auf DataWarehouse Skalierbarkeit oder Applicances Wirtschaftlichkeit (vergl. durch Gartner) Googles wie Teradata, BigTable Oracle, herausgefordert. IBM, Netezza Marktführer oder MapReplace MicroSoft/DataAllegro Skalierbarkeit Petabyte sind stand-alone MPP DBMS für DataWarehousing. Sie haben ihre DataWarehouse. produktiven Umgebungen mit hunderten von Terabytes und intern mit und der Datenvolumina demonstriert. Sie sind gleichsam gemischten Workload Consulting Analysefunktionalität von bewährt. Verbindung Abfragen Es Visualisierungswerkzeuge aus dem klassischen DWH Umfeld zur Services handelt und mit GmbH sich von Reporting, Googles um DBMS eine BigTable Ergänzung haben Funktionalitäten stabile ist aus im Schnittstellen Bereich Datenbanksicht von MapReduce Datenmanagement zu kein diesen werden Ersatz MPP bzw. für Seite zum ein ETL 7 von 8

8 offensichtlich, Portfolio Kollegen Datenmanagement Mit kann: von zukünftigen DBMS gehören. DBAs, DataWarehouse Anhänger und ihre Engieering Datenanalyse. werden die für ihr Fachgebiet nutzbringenden Einsatzgebiete auswählen. Funktionen Transformationen/Mappings Funktionalitäten der Einführung von durch Google im Whitepaper von 2004, wurde Einfachheit beispielsweise dass auch große Teile eines Datenmanagement Prozesses abdecken Datenbewirtschaftungsprozesse von der verleiht Extraktion, Die in gehen einfachen Möglichkeit MapReduce weit der Hadoop über sogar Transformation, des eine Filter/Grep/RegExpression Einsatzes Beispielen hohe externe Flexibilität von Libraries dem auf externen Web-Sites Laden, und auszulagern. Programmen bietet der Techniken dargestellt Datenbereinigung die MapReduce Möglichkeit, hinaus, werden. Map- wie und bis komplexe Die sie hin Reduce zur Wird werden Anmerkung: eingesetzt, aufgrund der Parallelisierung durch Key/Value Paare ist überzeugend aber File-Servern enthalten sehr häufig Datenabhängigkeiten, die berücksichtigt Tabellen müssen. mit Wird anstelle von MySQL oder BigTable/HBase Datenspeicher MPP Datenbank Option Datenmanagement so sollte das Datenmanagement vermehrt in Datenbank verlegt werden, die Source ihrer MPP Architektur zur Parallelisierung von Bewirtschaftungsprozessen beiträgt. Ansätzen eine Hadoop/HBase die das HDFS Umgebung Cluster aufspannen gewählt, bestünde und den die Datenspeicher Architektur in aus Form einer von Farm HBase von bereitstellen und ebenso die Rechenkapazität für MapReduce Prozesse. Mischformen Parallelisierung Hadoop/HBase Umgebungen für die Speicherung großer Tabellen und dem Datenmanagement und MySQL Installationen zum speichern von Aggregationen sind eine Version für Unternehmungen, die beispielsweise Softwarelizenzen scheuen und lieber auf Openhinsichtlich Lösungen setzen. Neben den Ansätzen, das Datenmanagement mit MapReduce werden ihrem 3.1 oder kann. Produktportfolio zu möglich der lösen auch Parallelisierung weist stehen als Prozessen und unterschiedliche Opens-Source weist Tools enthalten bei Limitierungen von zur dem Datenintegration Datenbewirtschaftungen sind verfügbar Reifegrade Open oder im Source von sind. Prozessdesign auf. spezialisierten Die Produkt bereit, Eignung ist die eine PDI als auf. bei dieser sehr (ehemals parallele Softwarefirmen Hingegen einigen ausgereift Produkte Ausführung Kettle) Anbietern kann bezeichnet zur angeboten erst AbInitio von ab von DBMS Heise Consulting Services GmbH 2010 Seite 8 von 8

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce)

SEMT. Prof. G. Bengel. Searching as a Service (Programming Model: MapReduce) Hochschule Mannheim Fakultät für Informatik SEMT Prof. G. Bengel Sommersemester 2009 Semester 8I Searching as a Service (Programming Model: MapReduce) Michel Schmitt (520361) 1.06.2009 Inhalt 1. Einführung...

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Möglichkeiten für bestehende Systeme

Möglichkeiten für bestehende Systeme Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

HDFS als schneller und günstiger Storage?

HDFS als schneller und günstiger Storage? HDFS als schneller und günstiger Storage? Das Hadoop Distributed File System (HDFS) verwaltet spielend riesige Datenmengen, lässt sich im laufenden Betrieb bequem skalieren und ist komfortabel zu administrieren.

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

In Memory DataBase (IMDB) ein Paradigmenwechsel im DataWarehousing?

In Memory DataBase (IMDB) ein Paradigmenwechsel im DataWarehousing? In Memory DataBase (IMDB) ein Paradigmenwechsel im DataWarehousing? Von Dr. Thomas Heise In Memory DataBase (IMDB) werden Performance-Vorteile bei der Analyse von großen Datenmengen mit iterativen analytischen

Mehr

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce MapReduce Jan Kristof Nidzwetzki MapReduce 1 / 17 Übersicht 1 Begriffe 2 Verschiedene Arbeiten 3 Ziele 4 DEDUCE: at the intersection of MapReduce and stream processing Beispiel 5 Beyond online aggregation:

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

vfabric-daten Big Data Schnell und flexibel

vfabric-daten Big Data Schnell und flexibel vfabric-daten Big Data Schnell und flexibel September 2012 2012 VMware Inc. All rights reserved Im Mittelpunkt: Daten Jeden Morgen wache ich auf und frage mich: Wie kann ich den Datenfluss optimieren,

Mehr

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle 10g revolutioniert Business Intelligence & Warehouse 10g revolutioniert Business Intelligence & Warehouse Marcus Bender Strategisch Technische Unterstützung (STU) Hamburg 1-1 BI&W Market Trends DWH werden zu VLDW Weniger Systeme, mehr Daten DWH werden konsolidiert

Mehr

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen Nahezu 70% aller Data Warehouse Anwendungen leiden unter Leistungseinschränkungen der unterschiedlichsten Art. - Gartner

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006

MySQL Cluster. Kai Voigt MySQL AB kai@mysql.com. Kiel, 17. Februar 2006 MySQL Cluster Kai Voigt MySQL AB kai@mysql.com Kiel, 17. Februar 2006 1 Agenda Warum? Wie? Wie genau? Was sonst? 2 Warum? 3 Kosten runter Hochverfügbarkeit (99,999%) Redundante Daten und Systeme Wiederherstellung

Mehr

Buildfrei skalieren für Big Data mit Z2

Buildfrei skalieren für Big Data mit Z2 Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN

Mehr

Definition Informationssystem

Definition Informationssystem Definition Informationssystem Informationssysteme (IS) sind soziotechnische Systeme, die menschliche und maschinelle Komponenten umfassen. Sie unterstützen die Sammlung, Verarbeitung, Bereitstellung, Kommunikation

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Was ist Windows Azure? (Stand Juni 2012)

Was ist Windows Azure? (Stand Juni 2012) Was ist Windows Azure? (Stand Juni 2012) Windows Azure Microsofts Cloud Plattform zu Erstellung, Betrieb und Skalierung eigener Cloud-basierter Anwendungen Cloud Services Laufzeitumgebung, Speicher, Datenbank,

Mehr

BARC-Studie Data Warehousing und Datenintegration

BARC-Studie Data Warehousing und Datenintegration Ergebnisse der BARC-Studie Data Warehouse Plattformen Dr. Carsten Bange BARC-Studie Data Warehousing und Datenintegration Data-Warehouse -Plattformen und Datenintegrationswerkzeuge im direkten Vergleich

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. Architekturtag @ SEACON 2012 Hamburg NoSQL Was Architekten beachten sollten Dr. Halil-Cem Gürsoy adesso AG Architekturtag @ SEACON 2012 Hamburg 06.06.2012 Agenda Ein Blick in die Welt der RDBMS Klassifizierung von NoSQL-Datenbanken Gemeinsamkeiten

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER

APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER APACHE PIG SEMINARARBEIT SSE - WS12/13 SEBASTIAN WALTHER INHALT Das Hadoop Framework Hadoop s Distributed File System (HDFS) MapReduce Apache Pig Was ist Apache Pig & Pig Latin Anwendungsumgebungen Unterschied

Mehr

Oracle Database 10g Die RAC Evolution

Oracle Database 10g Die RAC Evolution Oracle Database 10g Die RAC Evolution Markus Michalewicz BU Database Technologies ORACLE Deutschland GmbH 2 Page 1 www.decus.de 1 RAC-Revolution, RAC-Evolution & Computing Oracle8i mit OPS Oracle9i Rel.

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Verteilte Dateisysteme in der Cloud

Verteilte Dateisysteme in der Cloud Verteilte Dateisysteme in der Cloud Cloud Data Management Maria Moritz Seminar Cloud Data Management WS09/10 Universität Leipzig 1 Inhalt 1.) Anforderungen an verteilte Dateisysteme 2.) GoogleFS 3.) Hadoop

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1

Algorithmen. Consistent Hashing Bloom Filter MapReduce. Distributed Hash Tables. Einführung 1 Algorithmen Consistent Hashing Bloom Filter MapReduce Distributed Hash Tables Einführung 1 Consistent Hashing Problem: Wie finde ich den Speicherort für ein Objekt in einem verteilten System mit n Knoten?

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008

Whitepaper Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Server 2005 / 2008 Externe Speicherung von Binary Large Objects (BLOBs) mit SharePoint 2007 sowie SQL Andreas Glaser, 23. September 2008 Teufenerstrasse 19 CH 9001 St.Gallen t [+41] 71 228 67 77 f [+41] 71 228 67 88 info@namics.com

Mehr

Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce

Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce Sébastien Jelsch 1, Benedikt Kämpgen 1 und Stefan Igel 2 1 FZI Forschungszentrum Informatik sebastien.jelsch@fzi.de, kaempgen@fzi.de

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering

Azure und die Cloud. Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat. Institut für Informatik Software & Systems Engineering Azure und die Cloud Proseminar Objektorientiertes Programmieren mit.net und C# Simon Pigat Institut für Informatik Software & Systems Engineering Agenda Was heißt Cloud? IaaS? PaaS? SaaS? Woraus besteht

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

Kooperativer Speicher: Schwächen und Gegenmaßnahmen

Kooperativer Speicher: Schwächen und Gegenmaßnahmen Kooperativer Speicher: Schwächen und Gegenmaßnahmen Cooperative storage: weaknesses and countermeasures Lutz Behnke 2. Dezember 2005 2005 Lutz Behnke 1 /home/sage/texte/haw/master/seminar/coop_storage_failure.sxi

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Verteilte Systeme. Map Reduce. Secure Identity Research Group

Verteilte Systeme. Map Reduce. Secure Identity Research Group Verteilte Systeme Map Reduce Map Reduce Problem: Ein Rechen-Job (meist Datenanalyse/Data-Mining) soll auf einer riesigen Datenmenge ausgeführt werden. Teile der Aufgabe sind parallelisierbar, aber das

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr

EXASOL AG Zahlen & Fakten

EXASOL AG Zahlen & Fakten Big Data Management mit In-Memory-Technologie EXASOL AG Zahlen & Fakten Name: EXASOL AG Gründung: 2000 Tochterges.: Management: Produkte: Firmensitz: Niederlassung: EXASOL Cloud Computing GmbH Steffen

Mehr

Andreas Emhart Geschäftsführer Alegri International Group

Andreas Emhart Geschäftsführer Alegri International Group Andreas Emhart Geschäftsführer Alegri International Group Agenda Vorstellung Alegri International Überblick Microsoft Business Intelligence Sharepoint Standard Business Intelligence Tool Excel Service

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Das 1&1 Datawarehouse -Von Massendaten zu Prozesskennzahlen

Das 1&1 Datawarehouse -Von Massendaten zu Prozesskennzahlen Das 1&1 Datawarehouse -Von Massendaten zu Prozesskennzahlen Inhalt Das Unternehmen 1&1 Internet AG Ausgangssituation Projektziel Lösung Das 1&1 Datawarehouse 2 Zu meiner Person Volker Müller-Strunk Dipl.

Mehr

MySQL Replikationstechnologien

MySQL Replikationstechnologien MySQL Replikationstechnologien Lenz Grimmer MySQL Community Relations Specialist $ whoami 1998 2002 2008 2010 Agenda Replikation: Definition und Klassifizierung Anwendungsgebiete

Mehr

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1

NoSQL-Datenbanken. Kapitel 1: Einführung. Lars Kolb Sommersemester 2014. Universität Leipzig http://dbs.uni-leipzig.de 1-1 NoSQL-Datenbanken Kapitel 1: Einführung Lars Kolb Sommersemester 2014 Universität Leipzig http://dbs.uni-leipzig.de 1-1 Inhaltsverzeichnis NoSQL-Datenbanken Motivation und Definition Kategorisierung, Eigenschaften

Mehr

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015 Symbiose hybrider Architekturen im Zeitalter digitaler Transformation Hannover, 18.03.2015 Business Application Research Center (BARC) B (Analystengruppe Europas führendes IT-Analysten- und -Beratungshaus

Mehr

Cloud-Plattform: Appscale Hochschule Mannheim

Cloud-Plattform: Appscale Hochschule Mannheim Florian Weispfenning Cloud-Computing Seminar Hochschule Mannheim WS0910 1/28 Cloud-Plattform: Appscale Hochschule Mannheim Florian Weispfenning Fakultät für Informatik Hochschule Mannheim florian.weispfenning@stud.hs-mannheim.de

Mehr

Sind Cloud Apps der nächste Hype?

Sind Cloud Apps der nächste Hype? Java Forum Stuttgart 2012 Sind Cloud Apps der nächste Hype? Tillmann Schall Stuttgart, 5. Juli 2012 : Agenda Was sind Cloud Apps? Einordnung / Vergleich mit bestehenden Cloud Konzepten Live Demo Aufbau

Mehr

Verschiedene Arten des Datenbankeinsatzes

Verschiedene Arten des Datenbankeinsatzes 1 Beispiele kommerzieller DBMS: Kapitelinhalt Was charakterisiert und unterscheidet verschiedene Einsatzbereiche für. Welche prinzipiell unterschiedlichen Anforderungen ergeben sich für das DBMS bei Ein-

Mehr