Hadoop Fit für den Einsatz im Unternehmen



Ähnliche Dokumente
Test zur Bereitschaft für die Cloud

.. für Ihre Business-Lösung

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

EMC. Data Lake Foundation

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Integration mit. Wie AristaFlow Sie in Ihrem Unternehmen unterstützen kann, zeigen wir Ihnen am nachfolgenden Beispiel einer Support-Anfrage.

Virtual Roundtable: Business Intelligence - Trends

Kommunikationsübersicht XIMA FORMCYCLE Inhaltsverzeichnis

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Die Software für Visualisierung und Analyse von Strukturinformationen aus EDM- und PDM-Systemen.

Prof. Dr.-Ing. Rainer Schmidt 1

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

ANYWHERE Zugriff von externen Arbeitsplätzen

Adobe Photoshop. Lightroom 5 für Einsteiger Bilder verwalten und entwickeln. Sam Jost

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

OLXTeamOutlook 1.5 für Outlook 2003, 2002/XP, 2000 und 97/98

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Speicher in der Cloud

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

firstbird wird gefördert von Microsoft Ventures firstbird is part of Microsoft Ventures Accelerator Berlin

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anforderungen an die HIS

Grundlagen für den erfolgreichen Einstieg in das Business Process Management SHD Professional Service

MetaQuotes Empfehlungen zum Gebrauch von

mobilepoi 0.91 Demo Version Anleitung Das Software Studio Christian Efinger Erstellt am 21. Oktober 2005

Ein mobiler Electronic Program Guide für Android

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

Microsoft SharePoint 2013 Designer

SMART Newsletter Education Solutions April 2015

Tender Manager. Sparen Sie Zeit und Kosten durch eine optimierte Erstellung Ihrer individuellen IT-Ausschreibungen

Unsere Produkte. Wir automatisieren Ihren Waren- und Informationsfluss. Wir unterstützen Ihren Verkaufsaußendienst.

Ein mobiler Electronic Program Guide

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

Datenübernahme easyjob 3.0 zu easyjob 4.0

Upgrade auf die Standalone Editionen von Acronis Backup & Recovery 10. Technische Informationen (White Paper)

Skills-Management Investieren in Kompetenz

schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG mitp/bhv

Task: Nmap Skripte ausführen

ICS-Addin. Benutzerhandbuch. Version: 1.0

NEWSLETTER // AUGUST 2015

SCHULUNG MIT SYSTEM: E-LEARNING VON RAUM21

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Einfach wie noch nie. Der mypackage-ansatz. Ihre Lösung zur automatisierten Client-Bereitstellung. mypackage im Überblick

Autorisierung. Sicherheit und Zugriffskontrolle & Erstellen einer Berechtigungskomponente

Persönliche Einladung. Zur IT Managers Lounge am 4. November 2009 in Köln, Hotel im Wasserturm.

Installationsanleitung für CashPro im Mehrbenutzerzugriff/Netzwerkbetrieb

Der beste Plan für Office 365 Archivierung.

SMARTE LÖSUNGEN FÜR DIE VERNETZTE WELT

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

(1) Mit dem Administrator Modul werden die Datenbank, Gruppen, Benutzer, Projekte und sonstige Aufgaben verwaltet.

Leichte-Sprache-Bilder

15 Arten von QR-Code-Inhalten!

Professionelle Seminare im Bereich MS-Office

SSI WHITE PAPER Design einer mobilen App in wenigen Stunden

BUSINESS SOFTWARE. www. sage.at

Bacher Integrated Management

HANDBUCH LSM GRUNDLAGEN LSM

Unsere Produkte. Wir automatisieren Ihren Waren- und Informationsfluss. Wir unterstützen Ihren Verkaufsaußendienst.

sage Office Line und cobra: die ideale Kombination!

Bezugsquellen und Dokumentationen für LINUX und LibreOffice

Wo finde ich die Software? - Jedem ProLiant Server liegt eine Management CD bei. - Über die Internetseite

Worum geht es in diesem Projekt?

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

Microsoft PowerPoint Präsentationen in MP4 (H.264) umwandeln

Lokale Installation von DotNetNuke 4 ohne IIS

TTS - TinyTimeSystem. Unterrichtsprojekt BIBI

Verpasst der Mittelstand den Zug?

Installation SQL- Server 2012 Single Node

Barrierefreie Webseiten erstellen mit TYPO3

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Informationsmappe. deltatron GmbH. zum Thema VIRTUAL OFFICE

Projektmanagement in der Spieleentwicklung

Die richtigen Partner finden, Ressourcen finden und zusammenführen

TYPO3 CMS 6.2 LTS. Die neue TYPO3- Version mit Langzeit- Support

Content Management Datenbanken, Schnittstellen

d.3 starter kit Starterpaket für den einfachen Einstieg in die digitale Dokumentenverwaltung

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen. Wir bringen Qualität. Wir beraten Sie. Wir unterstützen Sie. Wir schaffen Lösungen

Interview zum Thema Management Reporting &Business Intelligence

Vodafone Conferencing Meeting erstellen

How to do? Projekte - Zeiterfassung

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Informationen zum neuen Studmail häufige Fragen

Informatik 12 Datenbanken SQL-Einführung

VARONIS DATADVANTAGE. für Directory Services

Inside. IT-Informatik. Die besseren IT-Lösungen.

360 - Der Weg zum gläsernen Unternehmen mit QlikView am Beispiel Einkauf

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

Mein eigener Homeserver mit Ubuntu LTS

Die Lernumgebung des Projekts Informationskompetenz

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Die App für Ihr erfolgreiches Training!

Intelligente Updateverwaltung Inventarisierung von Softwareprodukten Remoteunterstützung, mobile Endgeräte u.v.m.

Der Support für Windows Server 2003 endet endgültig alles was Ihnen dann noch bleibt ist diese Broschüre.

Transkript:

Stephan Reimann (stephan.reimann@de.ibm.com) ist Senior Client Technical Professional für Information Management bei der IBM Software Group. Er unterstützt Kunden bei der Erstellung von Konzepten für Big-Data-Lösungen mit IBM-Tools, von der Softwareauswahl bis zur Umsetzung von Pilotprojekten. Sein Fokus liegt auf Echtzeit-/Streaming-Analysen und Data Warehouse. Matthias Reiß (matthias.reiss@de.ibm.com) ist Senior Client Technical Professional im Bereich Information Management der IBM Software Group. Spezialisiert ist er hier auf Lösungen im Bereich Big Data und (Real-Time)-Datenintegration. Hadoop Fit für den Einsatz im Unternehmen Daten und Informationen spielen in Unternehmen eine immer größere Rolle und sind quasi neben Arbeit, Kapital und Umwelt der neue Produktionsfaktor. Aber was steckt eigentlich dahinter? Kaum ein Begriff hat diesen Bereich so geprägt wie Big Data. Dabei ist der Begriff selbst eigentlich irreführend, da es keineswegs nur um die reine Größe der zu verarbeitenden Datenmengen geht. Vielfach sind in den letzten Jahren neue Arten von Daten in Unternehmen angefallen, angefangen von einer zunehmenden Zahl an Sensordaten und technischen Log-Dateien bis hin zu Kundeninteraktions- und Social-Media-Daten. Diese enthalten häufig wertvolle Informationen, werden aber in klassischen Business-Intelligence-Systemen gewissermaßen ignoriert. Big Data bedeutet letztendlich, Nutzen aus einer Vielzahl oder allen Daten zu ziehen und sie zur Entscheidungsfindung zu verwenden. Immer mehr innovative Big-Data- Projekte in Deutschland Und dabei geht es um weit mehr als nur Technologie. In mehreren Diskussionsrunden haben deutsche Unternehmen verschiedener Branchen und Größen bekundet, dass sie Big Data primär als Kultur - wechsel und Basis neuer Geschäftsmodelle sehen, nur noch rund ein Zehntel der Unternehmen sind der Ansicht, dass es in erster Linie um Technologie geht (s. Abbildung 1). Dafür gibt es bereits eine Vielzahl erfolgreicher Beispiele in Europa. Stockholm [1] und Dublin [2] optimieren den Verkehr in Echtzeit, basierend auf GPS- Daten von Taxis und Bildinformationen aus Verkehrskameras. Sky Italia bietet seinen Kunden ein personalisiertes Fernsehprogramm [3]. Analysen sorgen für die Echtheit von italienischem Parmesan [4] oder empfehlen den passenden französischen Wein [5]. Auch in Deutschland finden sich immer mehr innovative Big-Data-Projekte jenseits der schon lange existierenden BI-Anwendungen. Das Wissenschaftliche Institut der AOK nutzt Analysen zur Opti - mierung der ambulanten und stationären Versorgung [6]. Der schweizerische Handelskonzern Migros steuert seinen Stromverbrauch intelligent. Daimler optimiert Produktionsprozesse, BMW erkennt Data- Mining-Probleme bevor sie entstehen [7]. Und die GfK nutzt Big Data für die Marktforschung der nächsten Generation [8]. Das zeigt, dass Big Data längst mehr als ein Trend oder Hype ist und das Potenzial nicht nur erkannt, sondern auch mehr und mehr genutzt wird. Der Einfluss von Technologie auf Geschäftsmodelle und die Wettbewerbsfähigkeit Gerade das Beispiel des dänischen Windradherstellers Vestas zeigt, wie Technologie ein Geschäftsmodell nachhaltig verändern kann. Angesichts des zunehmenden Preisdrucks und der aufgrund der Ferti- Abb. 1: Big Data ist in erster Linie ein Kulturwechsel und Basis neuer Geschäftsmodelle 1 www.objektspektrum.de

Online Themenspecial IT-Trends 2014: BigData/Hadoop und Internet der Dinge advertorial Abb. 2: Die IBM Big-Data-Plattform bietet die Grundlage für Big-Data-Projekte und -Initiativen gung in Europa eher hohen Kostenstruktur mussten neue Wege gefunden werden, sich im weltweiten Wettbewerb zu differenzieren. Um seinen Kunden nicht nur Anlagen zu liefern, sondern Komplettprojekte mit eingebauter Investitionssicherheit, entschied sich Vestas daher, Big Data zu nutzen, um optimale Standorte für Windkraftanlagen und ganze Windparks innerhalb weniger Minuten zu berechnen und zu optimieren und diese Ergebnisse Kunden und Vertriebsmitarbeitern zur Verfügung zu stellen. Dabei waren vor allem zwei Aspekte entscheidend: Die Genauigkeit der Berechnungen und die Art der genutzten Daten. Die Genauigkeit war vor allem vom Detaillierungsgrad der Basisdaten, also zum Beispiel der historischen Windinformationen, abhängig. Dank des Übergangs vom Wetterballon zu laserbasierter Messtechnologie stehen mittlerweile Werte mit deutlich höherer Präzision zur Verfügung. Während früher jeweils wenige Messwerte für einen 27 x 27 km-bereich je Tag zur Verfügung standen, stehen heute die Messwerte für einen 3 x 3 km großen Bereich zur Verfügung und zwar kontinuierlich. Diese Genauigkeit war mit entscheidend für die Qualität der Berechnungen und ermöglichte diesen Service erst, führte aber zu einer massiven Vervielfachung der Daten. Interessant war aber auch die Vielfalt der Daten, die kombiniert werden mussten: Angefangen von Sensordaten wie Wetterinformationen, über historische Informationen von Anlagen bis hin zu Masterdaten wie Karteninformationen. Diese technischen Herausforderungen wurden durch Hadoop adressiert. Big Data erfordert eine Kombination aus bewährten und neuen Technologien Hadoop ist in der Lage, beliebige Datenarten in großer Menge zu analysieren, wobei die Berechnungen über viele Knoten eines Clusters verteilt werden. Es ist aber nur eine der neuen Technologien im Big- Data-Umfeld. Eine weitere neue Technologie sind Echtzeit-Streaming-Analysen, bei denen große Datenströme wie zum Beispiel Sensordaten direkt analysiert werden ohne diese zu speichern. Aber auch Bewährtes wie klassische Datenbank und Data-Warehouse-Technologien haben nicht ausgedient. Allerdings rücken hier zunehmend Aspekte wie Einfachheit in den Vordergrund. So lässt sich z. B. dank spezialisierter Appliance- oder Cloud-Angebote der Tuning-Aufwand fast komplett eliminieren, was zu einer Reduzierung von IT-Aufwand und deutlich kürzeren und agileren Projekten führt. Die unterschiedlichen Anwendungsfälle erfordern häufig verschiedene Technologien oder eine Kombination aus diesen, was allerdings zu einer Integrationsherausforderung führt. Daher hat es sich, wie in anderen IT-Bereichen üblich, bewährt, einen Plattform-Ansatz zu nutzen. Die Big-Data-Plattform ist dabei eine Art Baukastensystem, aus dem die jeweils benötigten Komponenten ausgewählt werden. Diese Komponenten sind dabei so integriert, dass sie zum Beispiel gemeinsame Metadaten nutzen und Werkzeuge und Schnittstellen für den einfachen Datenaustausch zwischen Komponenten zur Verfügung stehen. Im Fall der IBM Big-Data-Plattform geht dies sogar soweit, dass Funktionen wie zum Beispiel Textanalysen einfach in verschiedenen Komponenten (z. B. in Hadoop und Streaming-Analyse-Anwendungen) ohne Änderung wiederverwendet werden können. Außerdem sind übergreifende Governance-Funktionen [9] notwendig, um zum Beispiel die Sicherheit global und komponentenübergreifend sicherzustellen und die Inhalte der Plattform einfach zu verwalten (siehe Abbildung 2). Als einen für Unternehmen besonders interessanten Anwendungsfall einer Big- Data-Plattform hat sich dabei der Data Lake herauskristallisiert. Im Vergleich zum klassischen Data Warehouse ist dies ein Paradigmenwechsel: Wurden traditionell die Daten zunächst mit komplexen Datenqualitäts- und integrationsverfahren in definierte Strukturen überführt, werden sie beim Data Lake direkt in ihrer Ursprungsform abgelegt. Damit können beliebige Daten schnell und einfach für Analysen nutzbar gemacht und beliebig verknüpft werden. Die so gewonnene Agilität ist allerdings eine große Herausforderung aus Governance- Sicht, vor allem die Verwaltung des Datenkatalogs und der Zugriffsrechte sind wesentlich für die Akzeptanz und Nutzbarkeit. Herzstück des Data Lakes ist dabei das Open Source Framework Hadoop. Hadoop Grundlagen für die erfolgreiche Implementierung Das Apache-Hadoop-Framework besteht auf den ersten Blick bereits im Kern aus einer verwirrenden Vielfalt an Komponenten. Eine große Menge an Open-Source- Projekten um diesen Kern herum, die Hadoop als Basis nutzen, mit zum Teil ähnlicher oder gleicher Funktionalität machen die Situation nicht übersichtlicher. Installation, Betrieb und Wartung eines Hadoop-Clusters erfordern eine nicht zu unterschätzende Menge an Know-how, Aufwand, Zeit und Kosten. Abhilfe versprechen hier, wie im Linux-Bereich seit vielen Jahren üblich, Distributionen, welche die einzelnen Hadoop-Bestandteile als Paket bündeln und um für den Unternehmenseinsatz wichtige Funktionalitäten und Support erweitern. InfoSphere BigInsights [10] ist ein solches Softwarepaket, welches den reinen Open-Source-Unterbau um sinnvolle, an der Praxis in Unternehmen orientierte Erweiterungen und Tools ergänzt. Diese Komponenten sind optimal aufeinander abgestimmt, reduzieren so die Komplexität und gewährleisten eine effiziente und Online Themenspecial IT-Trends 2014: BigData/Hadoop und Internet der Dinge 2

reibungslose Implementierung und Integration in die bestehende Infrastruktur. Die Erweiterungen ziehen sich durch alle Phasen eines Hadoop-Projektes von der Installation bis hin zur Analyse. Die Hürden bei der Installation und Verwaltung überwinden: Vielfältige Komponenten und Abhängigkeiten, und das auch noch in einem Cluster Der browserbasierte Installationsprozess zum Beispiel erleichtert das Setup des Hadoop-Clusters unabhängig von der Größe des Rechnerverbundes von einem zentralen Punkt aus. Der integrierte, umfangreiche Prerequisite Checker gewährleistet im Vorfeld, dass alle Voraussetzungen für eine erfolgreiche Installation erfüllt sind und verhindert Fehler somit zuverlässig von Anfang an. Die über Assistenten geführte Installation unterstützt dabei einzelne Komponenten sinnvoll auf die zur Verfügung stehenden Ressourcen des Clusters zu verteilen und so optimale Performance und Verfügbarkeit sicherzustellen. Nach der Installation bietet die Info- Sphere-BigInsights-Webkonsole einen zentralen Zugang aller Benutzergruppen im Unternehmen zu den Daten, Diensten und Funktionalitäten des Hadoop-Clusters. Über diese zentrale Oberfläche lässt sich der Cluster sehr einfach zentral überwachen, administrieren und erweitern. Aber auch Endanwender können über diese Webkonsole Zugriff auf Daten sowie Analyse- und Visualisierungswerkzeuge und Dashboards auf dem System erhalten. Die Authentifizierung erfolgt über ein Rollen- bzw. Gruppenkonzept. Die Integration in unternehmensweite Standards wie LDAP und/oder Kerberos ist hierbei selbstverständlich (siehe Abbildung 3). Daten und Analysen für alle Hadoop mit dem zentralen Filesystem kann zunächst Daten in jedweder Form entgegennehmen und effizient speichern. Im Gegensatz zu herkömmlichen Analysesystemen auf relationaler Basis muss man sich nicht schon bei der Speicherung der Daten Gedanken über ihre Struktur machen (Schema on Read vs. Schema on Write). Dies verlagert den Zeitpunkt, aber nicht die Notwendigkeit, die Daten für eine Analyse aufzubereiten. Welche Werkzeuge und Tools helfen mir aber mit multipel strukturierten oder unstrukturierten Daten in meinem neuen Data Lake umzu- Abb. 3: Die InfoSphere-BigInsights-Webkonsole erlaubt einen einfachen Zugriff auf alle wichtigen Funktionen versprechen hier High-Level-Sprachen wie zum Beispiel Pig Latin oder Jaql. Nichts desto weniger ist entsprechender Skill bislang nur begrenzt in Unternehmen vorhanden. Den größten, praktischen Nutzen für die Umsetzung von Big Data Use Cases auf Hadoop versprechen daher Tools, die es auch ohne spezielle Programmierkenntnisse ermöglichen, mit Daten explorativ zu arbeiten, diese aufzubereiten und zu visualisieren. InfoSphere BigInsights setzt hierbei auf Komponenten, welche auf seit vielen Jahren im Unternehmen vorhandenem Knowgehen? Wie schaffe ich mir nicht einfach ein weiteres Datensilo? Wie wird aus dem großen Datensee nicht in kürzester Zeit ein Sumpf? Eine Herausforderung im Hadoop-Umfeld stellt genau dieser Zugriff, die Aufbereitung dieser in vielfältigen Formen vorliegenden Rohdaten und deren Integration in bestehende Landschaften dar. Das Open-Source-Framework bietet hier den Zugriff mittels Java MapReduce API, welcher Programmierkenntnisse und ein tiefes Verständnis der zugrunde liegenden Algorithmen erfordert. Erleichterung Abb. 4: Der BigSheets Reader ermöglicht den einfachen Datenimport 3 www.objektspektrum.de

Online Themenspecial IT-Trends 2014: BigData/Hadoop und Internet der Dinge advertorial Abb. 5: BigSheets Dashboards fassen Analyseergebnisse visuell zusammen how aufsetzen, einen schnellen Einstieg in die Welt von Big Data bieten und die Umsetzung von Use Cases enorm beschleunigen. Diese ermöglichen einem breiten Anwenderkreis mit den Daten in einem Hadoop-System zu arbeiten. BigSheets [11] ist eine browserbasierte Spreadsheet-Anwendung, welche über die Web-Console bedient wird. Jeder, der bereits mit einschlägigen Tabellenkalkulations-Anwendungen gearbeitet hat, wird sich hier in kürzester Zeit in einem vertrauten Interface zurechtfinden. Vorgefertigte Reader ermöglichen es auf einfachste Weise, neben Standards wie CSV, TSV etc., häufig im Big-Data-Umfeld vorkommende Datenformate wie zum Beispiel JSON-Objekte oder Webcrawler-Daten einzulesen und für die weitere Analyse aufzubereiten (siehe Abbildung 4). Die explorative Analyse und Strukturierung der Daten läuft zunächst auf einer kleinen Untermenge der gesamten Datenmenge ab. Dadurch ist es möglich, ohne Wartezeiten die Daten weiter aufzubereiten, zu manipulieren, zu filtern, Spalten zu löschen oder hinzuzufügen und Funktionen von der Pivotierung bis hin zur Freitextanalyse anzuwenden. Ergebnisse können in Charts auf verschiedenste Art und Weise (Bar, Pie, Line, Tag Clouds, Maps etc.) visualisiert, zu Dashboards zusammengeführt und in Webseiten eingebunden werden (siehe Abbildung 5). Nach Abschluss des Analysedesigns kann per Klick die Verarbeitung an den Cluster übergeben werden. Im Hinter- grund werden dann die Analysen auf der vollen Datenmenge ausgeführt und die entsprechenden Workbooks, Sheets, Charts und Dashboards mit den endgültigen Ergebnissen aktualisiert. Dieser Prozess kann sogar automatisiert werden und die Ergebnisse können per SQL-Schnittstelle für andere Analyseanwendungen verfügbar gemacht werden. SQL als Brücke zur einfachen Erschließung von Big Data mit Hadoop Kaum ein Thema im Hadoop-Umfeld ist zurzeit so sehr in Bewegung wie der Zugriff mittels SQL. Dies ist mit dem Wunsch begründet, eine ohnehin im Unternehmen genutzte Technologie und das auf breiter Basis vorhandene Wissen auch auf Hadoop anzuwenden. Die vielfältigen Formate, in denen die Daten in Hadoop vorliegen können, machen den Zugriff per SQL allerdings nicht simpel. Hive, ursprünglich von Facebook entwickelt und 2008 der Open-Source-Gemeinde zur Verfügung gestellt, erweitert Hadoop um die Möglichkeit, einen relationalen Layer über Daten im Cluster zu legen und um die SQL-ähnliche Abfragesprache HiveQL. Die zentralen Ein - schränkungen von Hive bestehen auf der einen Seite aus dem im Vergleich zu Standard-SQL-limitierten nicht voll ANSI-SQLkompatiblen Sprachumfang von HiveQL sowie der vergleichsweisen hohen Latenz der Abfragen, da sie als MapReduce-Jobs auf dem Cluster ausgeführt werden. Nahezu täglich entstehen daher neue Projekte, die sich dieses Themas auf verschiedenste Art und Weise annehmen und versuchen die Limitierungen von Hive zu adressieren. Das in InfoSphere BigInsights integrierte Big SQL [12] basiert auf den langjährigen Erfahrungen im Bereich SQL Engines, ist ANSI-SQL kompatibel und bietet durch seine leistungsstarke parallele Query Engine (kein MapReduce) mit Costbased Optimizer, Query Rewrite-Fähigkeit usw. optimale Performance im Hadoop-Umfeld. Big SQL ist dabei voll in das Hadoop- Ökosystem integriert. In Big SQL erstellte Tabellen sind zum Beispiel direkt für Hive und Pig zugreifbar, da entsprechende Definitionen mit dem Hive Metastore (HCatalog) geteilt werden. Es werden alle gängigen Hadoop-Dateiformate wie zum Beispiel Delimited, Parquet Tables, ORC, RC, Sequence oder Avro unterstützt. Dies ermöglicht optimale Performance und Komprimierung der Daten für den jeweiligen Anwendungsfall. Außerdem lassen sich über die JDBC/ODBC-Schnittstelle bestehende Business-Intelligence-Werk - zeuge anbinden und somit Hadoop-Analysen für einen großen Nutzerkreis erschließen. Datenzugriff via SQL auch über Hadoop hinaus Föderation erlaubt die einfache Integration über Systemgrenzen Ein weiteres absolutes Alleinstellungsmerkmal ist die in Big SQL integrierte Föderation. Hier können innerhalb eines SQL-Statements Daten aus Hadoop sowie externen relationalen Datenbanksystemen, wie zum Beispiel DB2, PureData for Analytics, Oracle, Teradata etc. abgefragt und kombiniert werden. Dadurch, dass weniger Datenbewegungen benötigt werden, reduzieren sich die Zeit für Implementierung und Integration in die vorhandene Infrastruktur und somit auch die Kosten. Darüber hinaus erweitert InfoSphere BigInsights Hadoop um Möglichkeiten wie Multi-Tenancy, Workload-Management-Fähigkeiten und flexible Steuerung des Clusters. IBMs bewährtes General Parallel File System (GPFS) kann als Alternative zu HDFS eingesetzt werden und bietet entscheidende Vorteile bezüglich Performance, Hochverfügbarkeit, Desaster Recovery sowie Datenaustausch. Über den integrierten Appstore werden dem Anwender etliche vorgefertigte Anwendungen zur Verfügung gestellt, die Online Themenspecial IT-Trends 2014: BigData/Hadoop und Internet der Dinge 4

gängige Aufgaben wie zum Beispiel den Datenaustausch automatisieren. Diese Applikationen liegen zudem im Quellcode vor und können über die integrierte Eclipse-Entwicklungsumgebung angepasst und erweitert werden (siehe Abbildung 6). Die enthaltene IBM-Textanalyse Engine (Annotation Query Language - AQL) ermöglicht auch größte Freitextmengen in kurzer Zeit zu analysieren, die relevanten Informationen daraus zu extrahieren und in Kontext zu setzen. Für statistische Anwendung ermöglicht IBM BigR per Pushdown R-Code auf dem Cluster auszuführen. InfoSphere BigInsights wird aufgrund dieses kompletten Gesamtpaketes im aktuellen Forrester-Hadoop-Quadranten Wave 2014 als eine der führenden Hadoop Distributionen am Markt bewertet. Als Plattform dient Linux sowohl auf Intel-x86-Architekturen als auch auf den IBM-Power-Systemen. Für verschiedene Anforderungsprofile kann auf Referenzarchitekturen mit optimal vorkonfigurierten Systemen und vorinstalliertem InfoSphere BigInsights zurückgegriffen werden. Ein Cloud-Angebot Analytics for Hadoop [13] über IBMs PaaS-Plattform Bluemix [14] rundet das Angebot ab. Interessenten können hier den kompletten Funktionsumfang für 30 Tage in der Cloud kostenlos testen. Kostenlos für den nicht produktiven Einsatz zum Download verfügbar ist weiterhin die InfoSphere BigInsights Quick- Start-Edition [15] mit Beispielen und Übungen zu allen Modulen der Distribution. Die Quick-Start-Edition ist als fertig konfigurierte virtuelle Maschine als auch als Software zur Installation auf eigener Hardware verfügbar. Unabhängig davon, in welchem Status sich Ihre Big-Data-Aktivitäten befinden, bietet der kostenlose und unverbindliche Big Data Workshop [16] der IBM die Möglichkeit, die Potenziale von Big Data Abb. 6: InfoSphere BigInsights-Applikationen ermöglichen einfache Automatisierung und den Aufbau eines Appstore in Ihrem Unternehmen mit Experten gemeinsam zu diskutieren, die nächsten Links Schritte zu planen und Ihre eigene Big- Data-Erfolgsstory zu gestalten. n [1] https://www-03.ibm.com/press/us/en/pressrelease/29903.wss [2] https://www-03.ibm.com/press/us/en/pressrelease/41068.wss [3] http://www.ibm.com/smarterplanet/us/en/madewithibm/stories/#!story/5?ref=home [4] http://www.ibm.com/smarterplanet/us/en/madewithibm/stories/#!story/33?ref=home [5] http://www.ibm.com/smarterplanet/us/en/madewithibm/stories/#!story/14?ref=home [6] http://public.dhe.ibm.com/common/ssi/ecm/de/imc14788dede/imc14788dede.pdf [7] http://www-03.ibm.com/press/de/de/pressrelease/43387.wss [8] http://www-03.ibm.com/press/de/de/pressrelease/43350.wss [9] http://www.redbooks.ibm.com/redbooks.nsf/redbookabstracts/redp5120.html?open [10] http://www-01.ibm.com/software/data/infosphere/biginsights/ [11] https://developer.ibm.com/hadoop/videos/quickstart-tutorial-3-analyzing-big-data/ [12] http://de.slideshare.net/nicolasjmorales/big-sql3-datawarehousegradeperformance [13] https://ace.ng.bluemix.net/#/store/cloudoepaneid=store&serviceofferingguid=9d1411 ea-82cf-4ffb-af83-5b225c4c15ad [14] https://ace.ng.bluemix.net/ [15] http://www-01.ibm.com/software/data/infosphere/biginsights/quick-start/ [16] http://www-05.ibm.com/de/events/workshop/bigdata/ 5 www.objektspektrum.de