BIG DATA. in der Praxis. Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren

Größe: px
Ab Seite anzeigen:

Download "BIG DATA. in der Praxis. Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren"

Transkript

1 jonas FREIKNECHT BIG DATA in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren Auf DVD: 18 fertige Beispielprojekte plus Videotutorials

2 Inhalt Vorwort XI 1 Einleitung Big-Data Historische Entstehung Big-Data ein passender Begriff? Die drei V Das vierte V Veracity Der Verarbeitungsaufwand ist big Sicht der Industrien auf Big-Data Eingliederung in BI und Data-Mining Hadoop Hadoop kurz vorgestellt HDFS das Hadoop Distributed File System Hadoop 2.x und YARN Hadoop als Single-Node-Cluster aufsetzen Falls etwas nicht funktioniert Map-Reduce Aufsetzen einer Entwicklungsumgebung Implementierung eines Map-Reduce-Jobs Ausführen eines Jobs über Kommandozeile Verarbeitung im Cluster Aufsetzen eines Hadoop-Clusters Starten eines Jobs via Hadoop-API Verketten von Map-Reduce-Jobs Verarbeitung anderer Dateitypen YARN-Anwendungen Logging und Log-Aggregation in YARN Eine einfache YARN-Anwendung

3 VIII Inhalt 3.15 Vor- und Nachteile der verteilten Verarbeitung Die Hadoop Java-API Ein einfacher HDFS-Explorer Cluster-Monitor Überwachen der Anwendungen im Cluster Gegenüberstellung zur traditionellen Verarbeitung Big-Data aufbereiten Optimieren der Algorithmen zur Datenauswertung Ausdünnung und Gruppierung Ausblick auf Apache Spark Markt der Big-Data-Lösungen Das Hadoop-Ecosystem Ambari Sqoop Flume HBase Hive Pig Zookeeper Mahout Spark Data Analytics und das Reporting NoSQL und HBase Historische Entstehung Das CAP-Theorem Typen von Datenbanken Umstieg von SQL und Dateisystemen auf NoSQL oder HDFS Methoden der Datenmigration HBase Das Datenmodell von HBase Aufbau von HBase Installation als Stand-alone Arbeiten mit der HBase Shell Verteilte Installation auf dem HDFS Laden von Daten HBase Bulk Loading über die Shell Datenextrakt aus einer Datenbank über Sqoop HBase Java-API Der Umstieg von einem RDBMS auf HBase

4 Inhalt IX Data-Warehousing mit Hive Installation von Hive Architektur von Hive Das Command Line Interface (CLI) HiveQL als Abfragesprache Anlegen von Datenbanken Primitive Datentypen Komplexe Datentypen Anlegen von Tabellen Partitionierung von Tabellen Externe und interne Tabellen Löschen und leeren von Tabellen Importieren von Daten Zählen von Zeilen via count Das SELECT-Statement Beschränken von SELECT über DISTINCT SELECT auf partitionierte Tabellen SELECT sortieren mit SORT BY und ORDER BY Partitionieren von Daten durch Bucketing Gruppieren von Daten mittels GROUP BY Subqueries verschachtelte Abfragen Ergebnismengen vereinigen mit UNION ALL Mathematische Funktionen String-Funktionen Aggregatfunktionen User-Defined Functions HAVING Datenstruktur im HDFS Verändern von Tabellen Erstellen von Views Löschen einer View Verändern einer View Tabellen zusammenführen mit JOINs Hive Security Implementieren eines Authentication-Providers Authentication-Provider für HiveServer Verwenden von PAM zur Benutzerauthentifizierung Hive und JDBC Datenimport mit Sqoop Datenexport mit Sqoop Hive und Impala Unterschied zu Pig Zusammenfassung

5 X Inhalt 7 Big-Data-Visualisierung Theorie der Datenvisualisierung Diagrammauswahl gemäß Datenstruktur Visualisieren von Big-Data erfordert ein Umdenken Aufmerksamkeit lenken Kontextsensitive Diagramme D-Diagramme Ansätze, um Big-Data zu visualisieren Neue Diagrammarten Werkzeuge zur Datenvisualisierung Entwicklung einer einfachen Visualisierungskomponente Auf dem Weg zu neuem Wissen aufbereiten, anreichern und empfehlen Eine Big-Data-Table als zentrale Datenstruktur Anreichern von Daten Anlegen einer Wissensdatenbank Passende Zuordnung von Daten Diagrammempfehlungen über Datentypanalyse Diagrammempfehlungen in der BDTable Textanalyse Verarbeitung u nstrukturierter Daten Erkennung von Sprachen Natural Language Processing Klassifizierung Sentiment-Analysis Mustererkennung mit Apache UIMA Zusammenfassung und Ausblick Häufige Fehler Anhang Installation und Verwendung von Sqoop Hadoop für Windows 7 kompilieren Literaturverzeichnis Index

6 1 Einleitung Der Begriff Big-Data ist in den letzten Jahren vom bloßen Buzz-Word hin zu einem greif baren technischen Begriff gereift. Hadoop und NoSQL-Technologien haben maßgeblich zu dieser Evolution beigetragen und bestimmen derzeit den Inhalt vieler Fachzeitschriften und -bücher. In den jeweiligen Texten werden meist generelle Beschreibungen des Mehrwerts, der durch den Einsatz besagter Technologien für Banken, Automobilhersteller, Forschungseinrichtungen, Versicherungen etc. entsteht, hervorgehoben und die Notwendigkeit betont, sich mit den hauseigenen und öffentlichen großen Datenmengen zu beschäftigen, um dem eigenen Unternehmen einen Wettbewerbsvorteil zu verschaffen, indem es durch die Auswertung besagter Daten neue, geschäftskritische Informationen gewinnt. Die Aufgabenstellung ist also klar: Beschäftigen Sie sich mit Big-Data und sehen Sie zu, dass Sie alle Ihnen zugängliche Datenquellen nutzen, um die Entscheidungsfindung in Ihrem Unternehmen positiv zu beeinflussen. Die Frage nach dem Wie bleibt jedoch weitestgehend unbeantwortet. Wie gewinne ich neue Informationen aus meinen Daten? Wie integriere ich denn Hadoop und Co. in unsere bisherige Business-Intelligence-Architektur? Und wie schaffe ich es, BigData in all seinen Ausprägungen aufzubereiten, zu visualisieren und den Fachabteilungen zugänglich zu machen? Wie und mit welchen Tools erstelle ich eine Big-Data-Architektur, um für neue, bisher unbekannte Herausforderungen optimal aufgestellt zu sein? Dieser Fragenkatalog ließe sich beliebig fortführen und erweitern, denn Sie haben vielleicht schon gemerkt, worauf ich hinaus möchte die technischen Aspekte des Big-DataTrends werden nur selten in ausreichendem Detailgrad diskutiert. Und wenn, dann nicht in Form von Gesamtlösungen, sondern in kleinen, gut verdaulichen Häppchen. Gründe dafür gibt es viele. Einerseits gibt es bisher wenige Referenzimplementierungen, außer vielleicht bei Branchengrößen wie Google, Facebook oder Yahoo. Zweitens entsteht die Big-Data-Bewegung nicht nur durch einen einzelnen neuen Technologientrend. Vielmehr basiert diese auf vielen verschiedenen Ansätzen, die erst im Zusammenspiel ihr ganzes Potenzial ent falten. Darunter fallen sicherlich neben Hadoop und Co. NoSQL-Datenbanken, DataWarehousing-Komponenten für große Datenmengen, die Map-Reduce-, YARN- und SparkProgrammiermodelle und all diejenigen Ansätze, die bereits etablierte Lösungen, etwa im Bereich des Data-Minings oder der ETL-Prozesse (Extract, Transform, Load), mit der Big- Data-Thematik verheiraten. Sie sehen, dass das Thema aus technischen Gesichtspunkten unglaublich umfangreich ist und viele neue Bereiche bietet, in denen es sich neues Wissen anzueignen gilt. Wichtig ist daher, dass Sie eine hohe Affinität zum Forschen und zum Experimentieren mitbringen,

7 2 1 Einleitung denn nicht immer ist die erste Wahl einer Software die richtige. Häufig wählt man diese erst in der zweiten oder dritten Iteration. Dazu kommt, dass viele Projekte, die Big-Data adressieren, noch recht jung sind, ständig wachsen und in jedem größeren Release neue Funk tionen integriert werden, die es wieder kennenzulernen und für einen Einsatz im Unter nehmen zu bewerten gilt. Was Sie in diesem Buch erwartet Ich möchte mich mit Ihnen den oben genannten Herausforderungen stellen und das Thema Big-Data aus einer technischen Sicht in Gänze und mit genügend Tiefgang beleuchten. Die folgenden Seiten sollen sich also nicht nur den fachlichen Neuerungen der Big-Data-Bewegung widmen, sondern vor allem einen praktischen Einstieg in sämtliche Bereiche bieten, die für die Verarbeitung von Daten aus sozialen Netzwerken, unstrukturierten Webseiten, umfangreichen Fließtextdokumenten und geografischen Daten nötig sind. Dabei wird nicht nur gezeigt werden, wie große Datenmengen in einem Cluster verarbeitet, sondern auch über ein Data-Warehouse bereitgestellt oder mit neuen, innovativen Diagrammen visualisiert werden können. Ich möchte mit Ihnen das Thema NoSQL besprechen und im praktischen Teil HBase als Vertreter dieser Kategorie aktiv einsetzen. Apache Hive wird als DataWarehouse-Software vorgestellt, um zu zeigen, inwiefern auf Big-Data mit Abfragesprachen ähnlich SQL zugegriffen werden kann. Sie werden lernen, welche neuen Diagrammarten dabei unterstützen, große Datenmengen mit komplexen Beziehungen untereinander zu visualisieren und zu verstehen. Diese versprochenen Erläuterungen möchte ich Ihnen nicht nur in Textform geben, sondern Sie aktiv in den Entwicklungsprozess mit einbeziehen und Ihnen, wo möglich, die theoretischen Hintergründe näher bringen. Neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase werden wir auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP besprechen, um gezielt die Verarbeitung unstrukturierter Daten zu behandeln. Dazu werden wir gemeinsam viele kleinere Projekte entwickeln, um die Kniffe bezüglich der Nutzung der neuen Software kennenzulernen und zu verstehen. Mein Ziel ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen. Voraussetzungen Wie im Vorwort erwähnt, ist die wichtigste Voraussetzung sicherlich die Experimentierfreude und die Bereitschaft, Neues zu erlernen und alte Gewohnheiten und Denkweisen kurze Zeit abzuschalten. Die technischen Vorkenntnisse, die Sie mitbringen sollten, um dieses Buch flüssig lesen und nachvollziehen zu können, lassen sich in die drei Bereiche Entwicklungsumgebungen, Entwicklung und Betrieb unterteilen. Sie sollten sich mit Eclipse, Java EE und dem Betrieb von Enterprise-Anwendungen auf einem Java Application-Server auskennen. Des Weiteren ist es von Vorteil, wenn Sie gängige Webtechnologien wie HTML und JavaScript verstehen, denn damit werden wir später die Datenvisualisierung erarbeiten. Da wir zusammen Hadoop, HBase, Hive, Sqoop etc. auf Ubuntu installieren werden, ist es ebenfalls hilfreich, sich in einer Unix-Umgebung bewegen zu können und die grundliegenden Befehle zu kennen, um etwa Verzeichnisse zu wechseln, anzulegen oder zu löschen. Zudem ist ein etwas stärkerer PC vonnöten, um alle Szenarien aus dem Buch zu Hause

8 1 Einleitung 3 konstruieren zu können. Ich rate daher zu einem Mehrkernprozessor mit einer Taktfrequenz von mindestens 3 GHz und mindestens 12 Gigabyte RAM. Die gute Nachricht ist, dass Sie für die Software, die wir einsetzen werden (Eclipse, Glassfish, Ubuntu...), kein Geld bezahlen müssen, denn alle Komponenten stehen in vollem Umfang kostenlos im Internet zur Verfügung. Wenn ich Sie mit diesen Anforderungen nun ein wenig abgeschreckt habe, möchte ich Sie auch gleich wieder beruhigen. Anstatt in diesem Buch zu erklären, wie eine Lösung aussehen könnte, möchte ich diese mit Ihnen ganz konkret Schritt für Schritt aufbauen und Sie so hin zu einer fertigen und funktionstüchtigen Implementierung führen. In meinem letzten Buch habe ich die Erfahrung gemacht, dass dieses Vorgehen sehr gut angenommen wird und dass es sich lohnt, lieber einen Teil zu detailliert zu erklären, als etwaige Fragen offenzulassen. Wenn Sie sich also nicht sicher sind, ob Ihnen dieses Buch zu viel abverlangt, dann seien Sie mutig. Das sage ich nicht, da ich hoffe, durch die Verkäufe meinen nächsten Urlaub finanzieren zu können, sondern da ich davon ausgehe, dass Sie mit einem technischen Interesse an Big-Data bereits über die eine oder andere Vorerfahrung im Bereich der Informationsverarbeitung verfügen und Sie sich somit getrost der vorliegenden Lektüre widmen können. Für wen ist dieses Buch geschrieben? Dieses Buch ist ganz klar für Menschen konzipiert, die sich in ihrem Beruf praktisch mit dem Thema Big-Data auseinandersetzen. Doch ich möchte ganz klar sagen, dass sich nun nicht nur studierte Informatiker angesprochen fühlen sollen, sondern auch solche, die aus anderen Disziplinen kommen und vielleicht eine tolle Idee (und jede Menge Daten) haben und damit z. B. planen, ein Start-up zu gründen. Ich hoffe ebenso, mit dieser Lektüre Studenten und Auszubildende begleiten zu dürfen, die das Buch als Ergänzung zu einer Vor lesung oder zum Schreiben einer Seminararbeit verwenden. Wenn Sie sich also zu einer Gruppe der in Bild 1.1 genannten Tätigkeitsfelder zählen oder sich mit einem der aufgeführten Themen beschäftigen, dann lohnt sich ein Blick in die folgenden Seiten. Informatiker Analysten BI-Verantwortliche Data-Scientists Consultants Studenten und Auszubildende Informatiker Mathematiker Physiker Chemiker Biologen Start-ups Daten auf mobilen Geräten Visualisierung Smarter-Cities IT-Interessierte Datenbewusstsein entwickeln Neuerungen entdecken Fachsimpeln Bild 1.1 Gruppen und Themen, die in Zusammenhang mit Big-Data genannt werden Neulich war ich in einer Buchhandlung in Hannover und habe zwei neue Werke mit dem Wort Big-Data im Titel entdeckt, die fernab der technischen Fachliteratur lagen. Da ich gerade begonnen hatte, dieses Buch zu schreiben, weckten sie natürlich mein Interesse und ich blätterte ein wenig darin. Der Inhalt bestand aus theoretischen Anwendungsfällen, rechtlichen Fragen zum Datenschutz und ein bisschen Panikmache durch Begriffe wie Prism, NSA und Gläserner Mensch. Für mich eine wunderbare Vorlage für einen Absatz über 1-1

9 4 1 Einleitung das Thema: Für wen dieses Buch nicht geschrieben ist. Denn so interessant die Diskussionen auch sind, möchte ich mich in diesem Buch ganz vorbehaltlos ausschließlich mit den technischen Details beschäftigen. Wenn Sie also ein wenig gehofft haben, nach dem Lesen dieses Buches auf der nächsten Familienfeier mit ein bisschen Insiderwissen über amerikanische Geheimdienste glänzen zu können, muss ich Sie enttäuschen. Ich verspreche Ihnen aber, dass Sie bei der nächsten Fachsimpelei mit Kollegen und Freunden bei einer Tasse Kaffee durchaus etwas zu erzählen haben werden. Warum Big-Data in der Praxis? Ich muss gestehen, dass ich, wenn ich selber Bücher oder Fachzeitschriften lese, gerne größere Theorieblöcke überspringe und mir zuerst die praktischen Teile anschaue. Vielleicht sind Sie, genau wie ich, ein Learning-by-Doing-Typ, dem es liegt, sich Wissen anhand von praktischen Erfahrungen anzueignen. Wenn ich Befehle auf der Tastatur eingebe, kann ich mir diese einfach besser merken und häufig entsteht auch dann ein tiefergehendes Interesse an der Materie, mit der ich mich gerade beschäftige, sodass ich dann bereit bin, die Theorie nachzuholen. Genau diesen Gedanken möchte ich in diesem Buch praktizieren, sodass fachliche mit technischen Erklärungen einhergehen und sich symbiotisch ergänzen. Dadurch erhoffe ich mir den Effekt, dass Sie die Verbindung zwischen Hintergrundwissen und der tatsächlichen Anwendung schnell herstellen und verinnerlichen und Ihnen dennoch beim Lesen nicht langweilig wird. Vorgehensweise und Struktur Dieses Buch ist so aufgebaut, dass ich zu Beginn eine theoretische Einführung in alle Themen rund um Big-Data gebe. Neben der historischen Entwicklung des Begriffs und der Diskussion einiger unterschiedlicher Definitionen, möchte ich Ihnen mithilfe von Studien und Umfragen zeigen, welche Industrien welche Themen mit dem Begriff Big-Data verbinden, und somit die Erwartungshaltung verschiedener Menschen in Bezug auf den Trend darlegen. Eine Gegenüberstellung der Begrifflichkeiten BI, Data-Mining und Big-Data soll dabei helfen, Zusammenhänge, Unterschiede und gegenseitige Ergänzung der drei Begrifflichkeiten zu erkennen, und Sie befähigen, diese gegeneinander abzugrenzen und an anderer Stelle Schnittpunkte zwischen ihnen zu finden. Im Anschluss folgt ein Kapitel über Hadoop, in dem ich dessen Installation, Konfiguration und Bedienung erkläre und dabei jeweils auf die Besonderheiten bei der Verwendung mit einem Single- oder Multi-Node-Cluster eingehe. Es schließt sich die Entwicklung von MapReduce-Jobs und YARN-Anwendungen an, gefolgt von einem ausführlichen Abschnitt zur Arbeit mit der Hadoop-API, um den Zugriff auf das HDFS, den Resource-Manager etc. zu erklären. Nachdem die Funktionsweise und die Idee hinter Hadoop bekannt sind, stelle ich in Kapitel 4 kurz vor, welche Projekte um Hadoop herum in dessen Eco-System existieren und welche Aufgaben diese haben. In Kapitel 5 wird das Thema NoSQL aufgegriffen, theoretisch erläutert und praktisch unter Zuhilfenahme von HBase umgesetzt. Dabei zeige ich nicht nur, wie HBase installiert und eingerichtet wird, sondern auch wie auf dessen Daten, entweder über das Terminal oder die Java-API, zugegriffen werden kann.

10 1 Einleitung 5 Analog dazu wird in Kapitel 6 das Thema Data-Warehousing mit Apache Hive besprochen und gezeigt, wie sich Hive in das Big-Data-Umfeld integrieren lässt. Elementarer Bestandteil dieses Kapitels ist die Abfragesprache HiveQL mit all ihren Ausprägungen und die Verwendung von Hive über einen herkömmlichen JDBC-Adapter, um aus einer Java-Anwendung Abfragen absetzen und auswerten zu können. Das Thema Datenvisualisierung beschäftigt uns dann in Kapitel 7, in dem ich zuerst einige Visualisierungsframeworks vorstelle und vergleiche und dann mit D3.js ein Set von Visualisierungskomponenten erarbeite, mit denen wir in einer Beispielanwendung ein paar ansehnliche Diagramme zeichnen werden. Im theoretischen Teil dieses Kapitels geht es darum, was man beachten muss, wenn Sie planen, große Datenmengen auf kleinem Raum unterzubringen, und welche Trends und Möglichkeiten es dabei gibt. In Kapitel 8 soll das Thema Informationsgewinnung nähergebracht werden, das zum einen einen Zusammenschnitt aller bisher kennengelernten Techniken in einer schicken Gesamtlösung vereint und des Weiteren auf die Besonderheiten bei der Verarbeitung von unstrukturierten Daten mit aktuellen Text-Mining-Frameworks eingeht, darunter Apache UIMA und Apache OpenNLP. Diese werden ebenfalls als Bestandteil in das hier zu entwickelnde Programm einfließen. Das Buch schließt in den letzten beiden Kapiteln mit einem Beiwerk ab, das einerseits Lösungen zu häufigen Fehlern bei der Arbeit mit Hadoop, Hive und HBase anbietet und zum anderen einige ergänzende Anleitungen bereitstellt, die den Inhalt des Buches ergänzen sollen. DVD zum Buch Auf der DVD, die diesem Buch beiliegt, finden Sie die fertigen Projekte, die wir gemeinsam in diesem Buch erarbeiten werden. Nutzen Sie diese gerne als Nachschlagewerk, um Vorgehensweisen und Verwendung der entsprechenden APIs im Detail zu verstehen. Des Weiteren stelle ich für einige Aufgaben Video-Tutorials bereit, die u. a. die Installation von Hadoop, Hive und HBase zeigen, sodass Sie jeden einzelnen Schritt der Erklärungen genau nachverfolgen können. Last but not least sind auf der DVD diverse Testdatensätze zu finden, die gerne während der Entwicklung und Erprobung der Anwendungen genutzt werden dürfen. Für die Daten in der Wissensdatenbank liegen im Ordner Lizenzdateien die Quellen der Daten vor. Die generierten Beispieldatensätze sind von mir zufällig gewählt bzw. generiert, sodass Übereinstimmungen von Namen, Adressen, Berufen oder anderen Eigenschaften mit denen von realen Personen nur zufällig sind. Wenn Sie Fragen oder Anregungen bezüglich dieses Buches haben, würde ich mich freuen, wenn Sie mich über meinen Blog kontaktieren. Nun wünsche ich Ihnen viel Spaß bei der vorliegenden Lektüre.

BIG DATA. in der Praxis. Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren

BIG DATA. in der Praxis. Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren jonas FREIKNECHT BIG DATA in der Praxis Lösungen mit Hadoop, HBase und Hive Daten speichern, aufbereiten, visualisieren Auf DVD: 18 fertige Beispielprojekte plus Videotutorials Freiknecht Big Data in der

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr.-Ing. Rainer Schmidt 1 Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2

Mehr

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015 Symbiose hybrider Architekturen im Zeitalter digitaler Transformation Hannover, 18.03.2015 Business Application Research Center (BARC) B (Analystengruppe Europas führendes IT-Analysten- und -Beratungshaus

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Big Data in der Praxis

Big Data in der Praxis Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive. Daten speichern, aufbereiten, visualisieren von Jonas Freiknecht 1. Auflage Hanser München 2014 Verlag C.H. Beck im Internet: www.beck.de ISBN

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Einführung in SQL Datenbanken bearbeiten

Einführung in SQL Datenbanken bearbeiten Einführung in SQL Datenbanken bearbeiten Jürgen Thomas Entstanden als Wiki-Buch Bibliografische Information Diese Publikation ist bei der Deutschen Nationalbibliothek registriert. Detaillierte Angaben

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Kapitel 6,»Objektorientierte Programmierung«, widmet sich der objektorientierten Programmierung mit Python.

Kapitel 6,»Objektorientierte Programmierung«, widmet sich der objektorientierten Programmierung mit Python. 1.3 Aufbau des Buchs lichkeiten offen. Auf die Unterschiede der beiden Versionen gehe ich besonders ein, sodass ein späterer Umstieg von der einen zur anderen Version leichtfällt. Erste Zusammenhänge werden

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Inhaltsverzeichnis. Teil 1 Node.js... 1

Inhaltsverzeichnis. Teil 1 Node.js... 1 xiii Teil 1 Node.js... 1 1 Was ist Node.js? 3 1.1 Die Zeitalter des Webs................................... 3 1.1.1 1990 bis 2000: Das Web 1.0....................... 3 1.1.2 2000 bis 2010: Das Web 2.0.......................

Mehr

Lehrgebiet Informationssysteme

Lehrgebiet Informationssysteme Lehrgebiet AG Datenbanken und (Prof. Michel, Prof. Härder) AG Heterogene (Prof. Deßloch) http://wwwlgis.informatik.uni-kl.de/ Was sind? Computergestützte Programmsysteme, die Informationen erfassen, dauerhaft

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch WANN REDEN WIR VON BIG DATA SCIENCE? Big Data ist der technische Teil von Big Data Science. Mehr Daten! Mehr Datenquellen(-änderungen)!

Mehr

Leseprobe. Jonas Freiknecht. Big Data in der Praxis. Lösungen mit Hadoop, HBase und Hive. Daten speichern, aufbereiten, visualisieren

Leseprobe. Jonas Freiknecht. Big Data in der Praxis. Lösungen mit Hadoop, HBase und Hive. Daten speichern, aufbereiten, visualisieren Leseprobe Jonas Freiknecht Big Data in der Praxis Lösungen mit Hadoop, HBase und Hive. Daten speichern, aufbereiten, visualisieren ISBN (Buch): 978-3-446-43959-7 ISBN (E-Book): 978-3-446-44177-4 Weitere

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Pentaho Business Analytics Datenintegration > Auswertung > Prognose

Pentaho Business Analytics Datenintegration > Auswertung > Prognose Pentaho Business Analytics Datenintegration > Auswertung > Prognose Pentaho verbindet Datenintegration und BI-Analysen in einer Plattform und ermöglicht es damit sowohl IT- als auch Geschäftsanwendern,

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Seminararbeit Ruby Uno Kartenspiel

Seminararbeit Ruby Uno Kartenspiel Seminararbeit Ruby Uno Kartenspiel Autor: Fabian Merki Fabian Merki 05.11.2006 1 von 10 Inhaltsverzeichnis Einleitung... 3 Die Idee... 4 Design und Implementierung in Ruby... 5 Testing... 7 Startbefehle...

Mehr

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER

Pavlo Baron. Big Data. für IT-Entscheider. Riesige Datenmengen. und moderne Technologien. gewinnbringend nutzen HANSER Pavlo Baron Big Data für IT-Entscheider Riesige Datenmengen und moderne Technologien gewinnbringend nutzen HANSER Inhalt Vorwort XI 1 Management Summary 1 2 Was? 7 2.1 Mein klassisches Business ist konkurrenzlos,

Mehr

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

MaxDB-Schulungsthemen

MaxDB-Schulungsthemen MaxDB-Schulungsthemen Ein Überblick über unser Angebot Allgemeine Hinweise zu unseren Schulungen Die Schulungen finden in der Regel als Inhouse Schulungen bei den interessierten Unternehmen statt. Die

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

Zeiterfassung-Konnektor Handbuch

Zeiterfassung-Konnektor Handbuch Zeiterfassung-Konnektor Handbuch Inhalt In diesem Handbuch werden Sie den Konnektor kennen sowie verstehen lernen. Es wird beschrieben wie Sie den Konnektor einstellen und wie das System funktioniert,

Mehr

Big Data für die Internet Sicherheit

Big Data für die Internet Sicherheit Big Data für die Internet Sicherheit Ralph Kemperdick Hans Wieser Microsoft 1 Mobile-first Data-driven Cloud-first 2 2 3 Messenger Wi nd ow s Liv e 4 5 Anwendung: Das Microsoft Cybercrime Center 6 Betrug

Mehr

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131

Architekturen. Von der DB basierten zur Multi-Tier Anwendung. DB/CRM (C) J.M.Joller 2002 131 Architekturen Von der DB basierten zur Multi-Tier Anwendung DB/CRM (C) J.M.Joller 2002 131 Lernziele Sie kennen Design und Architektur Patterns, welche beim Datenbankzugriff in verteilten Systemen verwendet

Mehr

SQL PASS Treffen RG KA. Überblick Microsoft Power BI Tools. Stefan Kirner Karlsruhe, 27.05.2014

SQL PASS Treffen RG KA. Überblick Microsoft Power BI Tools. Stefan Kirner Karlsruhe, 27.05.2014 SQL PASS Treffen RG KA Überblick Microsoft Power BI Tools Stefan Kirner Karlsruhe, 27.05.2014 Agenda Die wichtigsten Neuerungen in SQL 2012 und Power BI http://office.microsoft.com/en-us/office365-sharepoint-online-enterprise-help/power-bi-for-office-365-overview-andlearning-ha104103581.aspx

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Erste Schritte, um selber ConfigMgr Reports zu erstellen

Erste Schritte, um selber ConfigMgr Reports zu erstellen Thomas Kurth CONSULTANT/ MCSE Netree AG thomas.kurth@netree.ch netecm.ch/blog @ ThomasKurth_CH Erste Schritte, um selber ConfigMgr Reports zu erstellen Configuration Manager Ziel Jeder soll nach dieser

Mehr

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten

Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Projektarbeit/SHK-Tätigkeit: Entwicklung graphischer Visualisierungskomponenten Das Assistenzsystem proknows, das am Fraunhofer Institut in Lemgo entwickelt wird, ermöglicht neben der Durchführung verschiedener

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung

Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte Einleitung Adlerblick So gewinnen Sie einen Überblick über ein DWH Dr. Andrea Kennel InfoPunkt Kennel GmbH CH-8600 Dübendorf Schlüsselworte DWH Projekt, Methodik, Stärken und Schwächen, Übersicht, Weg der Daten,

Mehr

Sructred Query Language

Sructred Query Language Sructred Query Language Michael Dienert 11. November 2010 Inhaltsverzeichnis 1 Ein kurzer Versionsüberblick 1 2 SQL-1 mit einigen Erweiterungen aus SQL-92 2 3 Eine Sprache zur Beschreibung anderer Sprachen

Mehr

MySQL Queries on "Nmap Results"

MySQL Queries on Nmap Results MySQL Queries on "Nmap Results" SQL Abfragen auf Nmap Ergebnisse Ivan Bütler 31. August 2009 Wer den Portscanner "NMAP" häufig benutzt weiss, dass die Auswertung von grossen Scans mit vielen C- oder sogar

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014

Hadoop Projekte Besonderheiten & Vorgehensweise. Oracle/metafinanz Roadshow Februar 2014 Hadoop Projekte Besonderheiten & Vorgehensweise Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

NET.Compact Framework

NET.Compact Framework FRANZIS PROFESSIONAL SERIES Robert Panther Programmieren mit dem NET.Compact Framework Pocket PC - Smartphone - Handheld Mit 178 Abbildungen FRANZIS Vorwort 9 Einleitung 11 1.1 Warum dieses Buch? 11 1.2

Mehr

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013

Forschunsprojekte und Independent Coursework. Prof. Dr. Christian Herta 29. Januar 2013 Forschunsprojekte und Independent Coursework Prof. Dr. Christian Herta 29. Januar 2013 Forschungsgebiete Suchtechnologie, Text- und Webmining Verarbeitung unstrukturierter Daten, insbesondere Text Large

Mehr

Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce

Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce Optimierung von Analytischen Abfragen über Statistical Linked Data mit MapReduce Sébastien Jelsch 1, Benedikt Kämpgen 1 und Stefan Igel 2 1 FZI Forschungszentrum Informatik sebastien.jelsch@fzi.de, kaempgen@fzi.de

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

25.09.2014. Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz 1 2 Dies ist ein Vortrag über Zeit in verteilten Anwendungen Wir betrachten die diskrete "Anwendungszeit" in der nebenläufige Aktivitäten auftreten Aktivitäten in einer hochgradig skalierbaren (verteilten)

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Oracle BI Publisher in der Oracle Business Intelligence Enterprise Edition Plus. Eine Mehrwertdiskussion

Oracle BI Publisher in der Oracle Business Intelligence Enterprise Edition Plus. Eine Mehrwertdiskussion Oracle BI Publisher in der Oracle Business Intelligence Enterprise Edition Plus Eine Mehrwertdiskussion Der Oracle BI Publisher als Teil der Oracle BI Suite versus Oracle BI Publisher Standalone Der Oracle

Mehr

Einführung in git. Ben Oswald. 27. April 2014. Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen

Einführung in git. Ben Oswald. 27. April 2014. Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen Einführung in git Im Rahmen der Vorlesung Entwicklung mobiler Anwendungen Ben Oswald 27. April 2014 Inhaltsverzeichnis 1 Einleitung 1 1.1 Was ist git?..................................... 1 1.2 Warum sollten

Mehr

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar

SQL für Trolle. mag.e. Dienstag, 10.2.2009. Qt-Seminar Qt-Seminar Dienstag, 10.2.2009 SQL ist......die Abkürzung für Structured Query Language (früher sequel für Structured English Query Language )...ein ISO und ANSI Standard (aktuell SQL:2008)...eine Befehls-

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Fachbereich Informatik Praktikum 1

Fachbereich Informatik Praktikum 1 Hochschule Darmstadt DATA WAREHOUSE SS2015 Fachbereich Informatik Praktikum 1 Prof. Dr. S. Karczewski Dipl. Inf. Dipl. Math. Y. Orkunoglu Datum: 14.April.2015 1. Kurzbeschreibung In diesem Praktikum geht

Mehr

Anleitung Gen2VDR Installationsanleitung für REYCOM. Gen2VDR Installationsanleitung für REYCOM

Anleitung Gen2VDR Installationsanleitung für REYCOM. Gen2VDR Installationsanleitung für REYCOM 1 Gen2VDR Installationsanleitung für REYCOM 2 Anleitung Gen2VDR Installationsanleitung für REYCOM Inhaltsverzeichnis 1 Allgemein... 3 1.1 Systemvoraussetzungen... 3 2 Installation... 4 2.1 Download der

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse

Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Data Warehouse Definition (1) http://de.wikipedia.org/wiki/data-warehouse Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher

Mehr

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014

Hadoop Ecosystem Vorstellung der Komponenten. Oracle/metafinanz Roadshow Februar 2014 Hadoop Ecosystem Vorstellung der Komponenten Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die Herausforderungen

Mehr

Die Erkenntnis von gestern muss heute mit einem neuen. 19.06.2009 TEAM - Ihr Partner für IT 2

Die Erkenntnis von gestern muss heute mit einem neuen. 19.06.2009 TEAM - Ihr Partner für IT 2 Beratung Software Lösungen Integration von Reporting Tools in Oracle ADF 11g Applikation Der Inhalt dieses Vortrages beruht auf den Erfahrungen und Erkenntnissen zu einem bestimmten Zeitpunkt und unter

Mehr

DASHBOARDS REPORTS MOBILE BI GESCHÄFTSBERICHTE PRÄSENTATIONEN VISUAL ANALYTICS BERICHTE TEXTE. Weitere Informationen. Weitere Informationen

DASHBOARDS REPORTS MOBILE BI GESCHÄFTSBERICHTE PRÄSENTATIONEN VISUAL ANALYTICS BERICHTE TEXTE. Weitere Informationen. Weitere Informationen Gute Dashboards führen zu guten Entscheidungen Wir unterstützen Sie bei:» Dem Aufbau und der Strukturierung Ihrer Dashboards» Der geeigneten Visualisierung» Der technischen Umsetzung in allen gängigen

Mehr

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper

Advanced Analytics mit EXAPowerlytics. Technisches Whitepaper Advanced Analytics mit EXAPowerlytics Technisches Whitepaper Inhalt 1. Zusammenfassung... 3 2. Einführung... 4 3. Fachliche Einführung... 5 4. Beispiel: Zeichen zählen... 7 5. Fazit... 9 6. Anhang... 10-2

Mehr

SQL structured query language

SQL structured query language Umfangreiche Datenmengen werden üblicherweise in relationalen Datenbank-Systemen (RDBMS) gespeichert Logische Struktur der Datenbank wird mittels Entity/Realtionship-Diagrammen dargestellt structured query

Mehr

Sage 200 BI Installationsanleitung Cubes & Datawarehouses Manuelle Installation ohne SRSS/Sage Cockpit. Version 2014.0 11.11.2014

Sage 200 BI Installationsanleitung Cubes & Datawarehouses Manuelle Installation ohne SRSS/Sage Cockpit. Version 2014.0 11.11.2014 Sage 200 BI Installationsanleitung Cubes & Datawarehouses Manuelle Installation ohne SRSS/Sage Cockpit Version 2014.0 11.11.2014 Inhaltsverzeichnis Installationsanleitung Cubes & Datawarehouse Inhaltsverzeichnis

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Datenanalyse, die Sinn macht: Qlik Sense

Datenanalyse, die Sinn macht: Qlik Sense Datenanalyse, die Sinn macht: Qlik Sense Freiraum für Ihre Intuition Qlik Sense ist eine innovative Anwendung, mit der jeder Daten ganz einfach visualisieren kann. Die flexiblen, interaktiven Dashboards

Mehr

Buildfrei skalieren für Big Data mit Z2

Buildfrei skalieren für Big Data mit Z2 Buildfrei skalieren für Big Data mit Z2 Henning Blohm ZFabrik Software KG 5.6.2013 1 Teil 1: Buildfrei entwickeln und skalieren Teil 2: Big Data, Cloud, und wie es zusammenpasst 2 1. Teil BUILDFREI ENTWICKELN

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Relationale Datenbanken Kursziele

Relationale Datenbanken Kursziele Relationale Datenbanken Kursziele DB Grundlagen Daten-Modellierung Relationales Modell und DB => Praxis: Mit SQL als Anfragesprache Mit MySQL als DB RDB 1-1 Kursinhalt (Tage) 1. DB Einleitung / Entity-Relationship

Mehr

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung

Mehr

Einrichten des Follow Me -Drucksystems unter OS X

Einrichten des Follow Me -Drucksystems unter OS X Einrichten des Follow Me -Drucksystems unter OS X 1 Druckertreiber Herunterladen Von Hause aus bietet OS X keine Unterstützung für die professionellen Canon Drucker, welche hier an der Hochschule Albstadt-Sigmaringen

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Die altgriechische Schrift auf dem Computer

Die altgriechische Schrift auf dem Computer Die altgriechische Schrift auf dem Computer Stand: 02.11.09 Inhaltsverzeichnis 1. Altgriechische Texte mit Windows 7, Vista und XP schreiben... 1 1.1 Die altgriechische Tastatur anlegen... 2 1.1.1 Die

Mehr

big data @ work Chancen erkennen, Risiken verstehen von Thomas Davenport, Thomas H. Davenport, Péter Horváth 1. Auflage

big data @ work Chancen erkennen, Risiken verstehen von Thomas Davenport, Thomas H. Davenport, Péter Horváth 1. Auflage big data @ work Chancen erkennen, Risiken verstehen von Thomas Davenport, Thomas H. Davenport, Péter Horváth 1. Auflage Verlag Franz Vahlen München 2014 Verlag Franz Vahlen im Internet: www.vahlen.de ISBN

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06

Business Intelligence. Data Warehouse / Analyse Sven Elvers 2005-07-06 Business Intelligence Data Warehouse / Analyse Sven Elvers 2005-07-06 Einleitung Dieses Dokument beschreibt einen für das Verständnis relevanten Teil der Präsentation. Business Intelligence Motivation

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

Foto: violetkaipa - Fotolia

Foto: violetkaipa - Fotolia Die D kön Foto: violetkaipa - Fotolia 10 IT-Trend Big Data atenflut steigt wie nen wir sie nutzen? Ständig erhöht sich die Masse der uns umgebenden Daten, Informationen werden immer schneller generiert.

Mehr

Kurzanleitung zu. von Daniel Jettka 18.11.2008

Kurzanleitung zu. von Daniel Jettka 18.11.2008 Kurzanleitung zu Tigris.org Open Source Software Engineering Tools von Daniel Jettka 18.11.2008 Inhaltsverzeichnis 1.Einführung...1 2.Das Projektarchivs...3 2.1.Anlegen des Projektarchivs...3 2.2.Organisation

Mehr

Inhaltsverzeichnis VII

Inhaltsverzeichnis VII Inhaltsverzeichnis 1 Die Grundlagen zu CMS auch eine lange Reise beginnt mit dem ersten Schritt............................................ 1 1.1 Was behandeln wir in dem einleitenden Kapitel?....................

Mehr