Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel

Größe: px
Ab Seite anzeigen:

Download "Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel"

Transkript

1 Hadoop im Unternehmenseinsatz Präsentation von Dirk Schmid und Dr. Stefan Igel

2 Dirk Internet affin seit 1997 durch, einem der zwei ersten Internetprovider Deutschlands. Softwarearchitekt bei der 1&1 Mediafactory Seit 2005 in der Software-Entwicklung im Internet- Portalbereich tätig Java, Hadoop, verteilte Systeme, Hochverfügbarkeit, SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung Synthesizer und Hammond-Orgeln 1&1 Internet AG

3 Stefan Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Erstkontakt mit Hadoop 09/2009 Mag spannende Projekte Tischtennis-Spieler und Häuslebauer 1&1 Internet AG

4 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

5 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

6 Beispiel 1: WEB.DE 1995 gestartet als Internet-Katalog Eines der größten deutschen Internet- Portale mit 16,44 Mio. Nutzern/Monat* WEB.DE Fre beliebtester deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures *Unique User / AGOF internet facts &1 Internet AG

7 Beispiel 2: GMX Fre Pionier mit leistungsstarken Mail- und Messaging-Lösungen 12,75 Mio. Nutzer/ Monat* Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com *Unique User / AGOF internet facts &1 Internet AG

8 5 Hochleistungs-Rechenzentren auf 2 Kontinenten Server 10,67 Mio. Kundenverträge 30,8 Mio. Free-Accounts Hosting von 18 Millionen Domains Rund 9 Milliarden Seitenabrufe im Monat Mehr als 5 Milliarden s pro Monat TByte monatliches Transfervolumen Doppelt sicher durch redundante Rechenzentren (Dual Hosting) Nahezu 100%ige Verfügbarkeit Mehrfach redundante Glasfaser-Anbindung Unterbrechungsfreie Stromversorgung (USV) Vollklimatisierte Sicherheitsräume bieten Schutz vor Gas, Wasser und Feuer Betreuung rund um die Uhr durch hochqualifizierte Spezialisten Betrieb mit grünem Strom 1&1 Internet AG

9 Hadoop bei 1&1 Development Romania Team Big Data Solutions Development Romania: Search mit Solr und Hadoop Organizer Development UIM Abteilung Target Group Planning: Mehrere produktive Hadoop-Cluster Schwerpunkt Data Mining und Machine Learning Abteilung Web.Intelligence: Produktives Hadoop-Cluster SYNAPSE Web-Analytics, Logfile-Processing und Datawarehousing 1&1 Internet AG

10 Hadoop bei Web.Intelligence Erste Evaluierung von Hadoop : Cluster-Ausbau auf 20 Knoten 06: Hadoop Projekt Log-Analytics geht live: Datensätze/Tag Web-Analytics mit spalten-orientiertem Vector-RDBMS : Hadoop Projekt Web-Analytics beginnt 08: Hadoop-Cluster mit 12 Knoten einsatzbereit 10: Hadoop verarbeitet im produktiven Einsatz ca Datensätze/Tag 1&1 Internet AG

11 Web Intelligence Das Prinzip Reporting Stammdaten BI Plattform Datenlieferungen Bewegungsdaten 1&1 Internet AG

12 aber die Menge macht s! BI Plattform Web-Analytics: 240 Files/d 200 GB/d * 90d = 18 TB Log-Analytics: Files/d 2000 GB/d * 30d = 60 TB 1&1 Internet AG

13 Die Aufgabenstellung Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle Informationen zu wandeln. Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und Speicherkapazität, um auf wachsende Anforderungen reagieren zu können. Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen unterschiedlicher Bedeutung und Herkunft. Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den Mitarbeitern und in der Open Source-Community. Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten. 1&1 Internet AG

14 Die Lösung: SYNAPSE SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann. Fileserver DWH SYNAPSE 1&1 Internet AG

15 Dougs Ratschlag Question: What advice would you give to enterprises considering Hadoop? Doug Cutting: I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop]. STRATA2012DougCuttingTheApacheHadoopEcosystem jpg 1&1 Internet AG

16 Einige Herausforderungen bleiben Geeignete Hardware finden und betreiben Geeignete Hadoop-Frameworks identifizieren MapReduce Algorithmen entwickeln und testen Verschiedene Daten-Eingangs- und Ausgangskanäle Unterschiedliche Dateiformate Mehrere konkurrierende Prozesse Mehrere Benutzer Konsistentes Verarbeiten vieler Eingangs-Files Prozess-Steuerung über einen heterogenen System-Stack 1&1 Internet AG

17 1&1 Best Practice Identifiziere dein BIG DATA Problem 1&1 Internet AG

18 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

19 Hardware-Sizing Hadoop-DataNodes Empfehlung Cloudera Support* 2 Quad Core CPUs Disk Drive Size 1 2 TByte Auswahl-Kriterien Kosten-Effizienz Stromverbrauch Platz im Rechenzentrum Standard-HW-Warenkorb * clouderas-support-team-shares-some-basic-hardware-recommendations 1&1 Internet AG

20 Sizing der SYNAPSE Unsere Szenarien sind Storage Heavy : Sizing ist bestimmt durch erforderliche Speicherkapazität: 480 TB 78 TB Nutzdaten (Web- + Log-Analytics) Faktor 2 für Zwischenergebnisse Replikationsfaktor 3 zur Datensicherung 480TB / 2TB / 12 = 20 Rechner! Google's first production server rack, circa &1 Internet AG

21 Unsere Definition von Commodity Hardware 4x 1GB Network 12 x 2TB as JBOD direct attached 20 x Worker-Node (Datanode, Tasktracker) 8 96 GB RAM 50GB local Storage 2x Namenode Server (Namenode, Sec.-Namenode, Jobtracker) 4 12 GB RAM 1&1 Internet AG

22 Best Practice: Laste deine Systeme nur zu 75% aus! Hauptspeicher Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht mehr den spill to disk durchzuführen => Out Of Memory Exception Plattenplatz Achtung: auch Zwischenergebnisse mit einrechnen Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz vorgesehen werden! 1&1 Internet AG

23 Das Fileserver Problem Problemstellung Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts (Import Rohdaten, Export von Aggregaten) Konkurrierende Zugriffe reduzieren den Durchsatz überproportional Lösung Reduktion der Zugriffslast Mit einem Prozess im/exportieren (hadoop fs copyfrom/tolocal) Z.B. via Fair-Scheduler Pools (fair-scheduler.xml: maxmaps and maxreduces) Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind: z.b. Flume für Import z.b. HBase für Export 1&1 Internet AG

24 Namenode Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse, ) Es gibt nur genau EINE Namenode im Cluster Fällt diese aus oder wird korrupt gibt es keine Daten mehr im Cluster! Namenode Server Hadoop Namenode FS Image FS Image Edit Logs 1&1 Internet AG

25 Namenode Running Datanodes Namenode Server Hadoop Namenode FS Image FS Image Edit Edit Logs Logs 1&1 Internet AG

26 Secondary Namenode!= Redundanz Die Secondary Namenode dient lediglich dem Verdichten der persistierten Änderungslogs Die Namenode ist ein SPOF und muss entsprechend abgesichert werden! Namenode Server Hadoop Namenode FS Image Sec. Namenode Server Hadoop Secondary Namenode New FS FS Image Edit New Edit Logs Edit Logs Edit Logs FS Image New FS Image Edit Logs 1&1 Internet AG

27 Namenode HA Redundanz für Namenode transparent für Cluster Crash Recovery möglich 1&1 Internet AG

28 Namenode HA Failover im Sekunden-Bereich Im Worst-Case minimaler Daten- Verlust während Failover möglich Im besten Falle keiner! 1&1 Internet AG

29 Netzwerk Die Knoten eines Hadoop-Clusters sollten möglichst nahe beieinander stehen und auch bei den Datenquellen dafür muss Platz im Rechenzentrum verfügbar sein Je Besser die Netzwerk-Anbindung des Clusters desto besser seine Performance 4GBit 1GBit 2GBit each 1&1 Internet AG

30 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! 1&1 Internet AG

31 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

32 Wir machen unsere Werkzeugkiste auf und schauen mal was wir darin finden 1&1 Internet AG

33 Aufgabenverteilung Transport kontinuierlich entstehender Massendaten Vorgänge koordinieren Aggregationen alle 3 Stunden >1000 Files/Tag ~ 3TB Aggregation Speicherung Suche AdHoc Anfragen ILM Integration mit DWH Nachvollziehbarkeit Wiederaufsetzbarkeit 1&1 Internet AG

34 Quelle: Unser Technologie-Stack (Reduced to the Max) 1&1 Internet AG

35 Lessons learned Stabilität Entwicklung ist immer noch im Fluss Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung Flankierende Projekte haben gefühlt oft noch Beta-Status im Handumdrehen ist man Committer eines OS-Projektes ;-) 1&1 Internet AG

36 Lessons learned Feature-Set Ähnliche Toolsets unterscheiden sich meist nur in Details Pig, Hive, Cascading HBase und Casandra Askaban vs. Oozie Aber gerade die können manchmal entscheidend sein! 1&1 Internet AG

37 Schön, dass es Distributionen gibt! Hadoop-Solution-Partner geben Sicherheit Beispiel: Cloudera Eigenes Hadoop-Release basierend auf den Apache Repositories bietet konsistente, in sich schlüssige Release-Stände und Bugfixes Möglichkeit des kommerziellen Supports 1&1 Internet AG

38 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! 1&1 Internet AG

39 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

40 Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG

41 Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) SYNAPSE Mass Data Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG

42 Importieren und Speichern Das Serialisierungs-Framework Unterstützt die Verarbeitung durch Header-Zeile pro File mit Typ-Information (JSON-Format) Versionsprüfung möglich IDL optional Effiziente Verarbeitung durch Speicher-effizientes Binärformat (De-)Serialisierung ok Zukunftssicher da Künftiger Hadoop-Standard Aktive Weiterentwicklung Sukzessive Integration in die Hadoop-Teilprojekte # avro textual representation {"type": "record", "name": "Point", "fields": [ {"name": "x", "type": "int"}, {"name": "y", "type": "int"} ] } &1 Internet AG

43 Importieren und Speichern FLIS - Flexibilität gefragt Plain csv Flexible Input Selector thrift 1&1 Internet AG

44 Transformieren Join in MapReduce Map Side Join Eingangsfiles müssen nach gleichem Schlüssel sortiert und partitioniert sein Sorted-Merged-Join noch vor dem Mapper Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat Reduce Side Join Klassischer MR-Join Hauptlast wird in der Shuffle/Sort-Phase getragen 1&1 Internet AG

45 Transformieren Join in MapReduce Join-Operationen können in MR als Hash Join implementiert werden Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt Kleine CPU, keine Netzwerk-Last während der Verarbeitung Die Grenze bildet das Volumen der Lookup-Daten Lookup- Data Lookup- Data Lookup- Data Lookup- Data Lookup- Data Data Data MR- Join Result Data Data MR- Join Result 1&1 Internet AG

46 Transformieren - oder doch mit HBase? Distributed Key-Value Stores f(k) = V Datenzugriff granular Antwortzeiten im Milli-Sekunden- Bereich Auf Lesezugriff optimiert 1&1 Internet AG

47 Transformieren mit PIG Ursprünglich von Yahoo entwickelt File basiertes High Level Daten-Manipulations-Framework SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs übersetzt und ausgeführt wird 1&1 Internet AG

48 Transformieren Ergebnisse aus Web-Analytics Projekt: Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance- Gewinn bringen! Monthly Aggregation Weekly Aggregation Daily Aggregation 0 Column-DB Hadoop (1:1 Migration) Hadoop (optimierte Algorithmen) 1&1 Internet AG

49 Lessons learned Know-how Muss oft erst aufgebaut werden. Hierfür passende Projekte einplanen. Am Anfang fehlt das Know-how an allen Fronten DEV: Best Practices sind nicht vorhanden. Oft funktionieren die Dinge in Dev und brechen dann im Live-Einsatz. QS: Herausforderung: verteiltes Testen - möglichst mit Echt- Daten (bzgl. Qualität und Quantität) LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning- Möglichkeiten mannigfaltig und oft nur mit DEV- Unterstützung durchführbar. 1&1 Internet AG

50 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! 1&1 Internet AG

51 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG

52 BI-Plattform Information Lifecycle Management Access Standard Reporting Adhoc Queries (Mass) Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) DWH als Langzeit- Archiv Kosten: 0,15 /MB Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer Hadoop als Kurzzeit-Archiv Kosten: 0,0005 /MB BI Source Systems Source Data WI Gateway Fileserver Replicated Source Data 1&1 Internet AG

53 Speichern: Gerne aber wie lange? Auch 500 TByte sind irgendwann einmal voll! IL separat für jede Verarbeitungsebene Je wertvoller die Daten, desto länger der IL Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.) System Ebene Begründung Aufbewahrung Fileserver Import Nachladen 5 Tage Export Fachliche Anforderung 40 Tage SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage Integration Fachliche Anforderung Tage Aggregation Nachladen 5 Tage DWH Acquisition Nachberechnen 30 Tage Integration Fachliche Anforderung 2-10 Jahre Reporting Fachliche Anforderung 2-10 Jahre 1&1 Internet AG

54 Mehrparteien-Betrieb: Wer darf wann? Hadoop Job Scheduler Gleichmäßige Lastverteilung über die Zeit nach Prioritäten Verschiedene Anwendungen können konkurrierend betrieben werden Mechanismus Default Capacity Fair Vergeben von Prioritäten pro Job Job-Queues mit festgelegten Prioritäten Funktionsfähig Ja Ja Ja Clusterauslastung Ja Nein Ja Gefahr von Starvation Ja Nein Nein Job-Queues und Pools mit Gewichten 1&1 Internet AG

55 Mehrparteien-Betrieb: Wer darf überhaupt? Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories Hadoop hat keine eigene Benutzer-Authentifizierung Hadoop übernimmt user name (whoami) und group name (bash -c groups) vom aufrufenden Client-Prozess Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder Überschreiben fremder Dateien. Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein Geeignetes Konzept für Tool -User oder Application Manager This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion. 1&1 Internet AG

56 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Sorge für geordnete Verhältnisse im Cluster! 1&1 Internet AG

57 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG

58 Azkaban (LinkedIn) PRO Workflows können graphisch dargestellt und gedrilled werden Einfache Handhabung (Komplexes wird in Scripts ausgelagert) Startet Hadoop-Jobs und Anderes einfach als Unix-Prozesse Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed Contra Minimaler Funktionsumfang Keine Rechte und Zugriffs-Verwaltung Jobausführung nur Zeit-basiert Keine Redundanz (Azkaban-Server wird zum SPOF) 1&1 Internet AG

59 Oozie (Yahoo!) PRO Enge Integration mit Hadoop and M/R Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc. Webservice- und Java-API Zeit- und Ereignis-basierte Job-Ausführung Contra WEB-Konsole ist Read-Only, keine graphische Aufbereitung von Abhängigkeiten Ressoucen (.jar files, pig scripts) müssen manuell vor der Jobausführung auf dem HDFS deployed werden Müsste um File-Registierung erweitert werden Requesting job status: sudo -u oozie oozie job -oozie -info oozie-oozi-C 1&1 Internet AG

60 Architektur BI-Plattform - Steuerung Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein! Das richtige Werkzeug für die jeweilige Aufgabe: GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung) FUNDI = eigens entwickelter verlängerter Arm für Hadoop-Spezifika 1&1 Internet AG

61 Das richtige Werkzeug für die jeweilige Aufgabe PDI (http://kettle.pentaho.com/) ETL-Jobs im DWH HDFS-Zugriff GEPPI = Workflow-Engine Übergreifende-Steuerung Functional Dependency Integrator Hadoop Job-Ausführung Data-Repository 1&1 Internet AG

62 FUNDI: Swahili für Der fleißige Handwerker FUNDI File-Registration Register File & Metadata Distributed or local File System File Registration Functional Dependency Integrator Search for matching files Data Files 1&1 Internet AG

63 FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Run get Jar/PIG Metadata Input-Filenames Register Output-Files & Metadata Hadoop-Cluster Inp. Data Files Run Job(name) Functional Dependency Integrator Start MR Job Outp Data Files 1&1 Internet AG

64 FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Ketten (Das EVA-Prinzip) Metadata for Job-Rung, Inp.-Files, Outp.-Files E V A Named-Input Fundi-JOB A Named-Output Fundi-JOB B Configuration e.g. Path, Filenames, Jar/PIG-Script, Settings 1&1 Internet AG

65 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Es geht auch ohne Skript-Wüste und cron-jobs! 1&1 Internet AG

66 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

67 Langer Rede kurzer Sinn: Die Aufgabe Hadoop verlangt ein neues Denken in allen IT- Bereichen: Operations, Entwicklung, QS, Binde alle Stakeholder möglichst früh in deine Planung ein! Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden! Identifiziere dein Pilotprojekt! Bleibe nicht zu lange im Spielbetrieb, evaluiere gegen echte Anforderungen! 1&1 Internet AG

68 Langer Rede kurzer Sinn: Die Belohnung Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme! 1&1 Internet AG

69 Langer Rede kurzer Sinn: Der Beweis Massendatenverarbeitung ist bei 1&1 für Web-Analytics, Logfile-Verarbeitung und Datawarehousing mit Hadoop messbar performanter, kostengünstiger, skalierbarer, flexibler und zukunftsfähiger geworden! 1&1 Internet AG

70 Vielen Dank für Ihre Aufmerksamkeit Zeit für Fragen

Big Data: Hadoop im Unternehmenseinsatz bei. TDWI Roundtable Frankfurt, 13.09.2012 Patrick Thoma, inovex GmbH

Big Data: Hadoop im Unternehmenseinsatz bei. TDWI Roundtable Frankfurt, 13.09.2012 Patrick Thoma, inovex GmbH Big Data: Hadoop im Unternehmenseinsatz bei TDWI Roundtable Frankfurt, 13.09.2012 Patrick Thoma, inovex GmbH inovex GmbH Profil inovex IT-Projekthaus individuelle IT-Dienstleistungen 1999 in Pforzheim

Mehr

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH Hadoop in modernen BI-Infrastrukturen Dr. Stefan Igel inovex GmbH Stefan Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Erstkontakt mit Hadoop

Mehr

Stefan Igel inovex GmbH. Hadoop in modern BI-Infrastrukturen

Stefan Igel inovex GmbH. Hadoop in modern BI-Infrastrukturen Stefan Igel inovex GmbH Hadoop in modern BI-Infrastrukturen BI-Plattform Access Standard Reporting Information Lifecycle Management Adhoc Queries /MB (SYNAPSE)

Mehr

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH Hadoop in modernen BI-Infrastrukturen Dr. Stefan Igel inovex GmbH Zur Person Dr. Stefan Igel Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Web.Intelligence

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI Hanau, 25.02.2015 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Der Aufbau der Group BI Plattform

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Business Intelligence, Big Data und Search. Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013

Business Intelligence, Big Data und Search. Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013 Business Intelligence, Big Data und Search Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013 Agenda 1. Business Intelligence Es wird Zeit für Intelligence. 2. Big Data größer, schneller,

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Red Hat Cluster Suite

Red Hat Cluster Suite Red Hat Cluster Suite Building high-available Applications Thomas Grazer Linuxtage 2008 Outline 1 Clusterarten 2 3 Architektur Konfiguration 4 Clusterarten Was ist eigentlich ein Cluster? Wozu braucht

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

Oracle Automatic Storage Management (ASM) Best Practices

Oracle Automatic Storage Management (ASM) Best Practices Oracle Automatic Storage Management (ASM) Best Practices Markus Michalewicz BU Database Technologies ORACLE Deutschland GmbH 2 Page 1 www.decus.de 1 Agenda ASM Funktionalität und Architektur Storage Management

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation Markus Feichtinger Power Systems Der Weg zu POWER! Agenda Motivation Lösung Beispiel Export / Import - Überblick - Migration Beispiel XenoBridge - Überblick - Migration Benefits 2 Motivation Strategisch

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

HANA Solution Manager als Einstieg

HANA Solution Manager als Einstieg Markus Stockhausen HANA Solution Manager als Einstieg Collogia Solution Day Hamburg 28.04.2016 Agenda HANA Solution Manager als Einstieg 1 Überblick 2 Techniken 3 Sizing Collogia Unternehmensberatung AG,

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Der Nutzen und die Entscheidung für die private Cloud. Martin Constam Rechenpower in der Private Cloud 12. Mai 2014

Der Nutzen und die Entscheidung für die private Cloud. Martin Constam Rechenpower in der Private Cloud 12. Mai 2014 Der Nutzen und die Entscheidung für die private Cloud Martin Constam Rechenpower in der Private Cloud 12. Mai 2014 1 Übersicht - Wer sind wir? - Was sind unsere Aufgaben? - Hosting - Anforderungen - Entscheidung

Mehr

AFS / OpenAFS. Bastian Steinert. Robert Schuppenies. Präsentiert von. Und

AFS / OpenAFS. Bastian Steinert. Robert Schuppenies. Präsentiert von. Und AFS / OpenAFS Präsentiert von Bastian Steinert Und obert Schuppenies Agenda AFS Verteilte Dateisysteme, allg. Aufbau Sicherheit und Zugriffsrechte Installation Demo Vergleich zu anderen DFs Diskussion

Mehr

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek. wojtenek@mac.com

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek. wojtenek@mac.com Verfügbarkeit von Applikationen und Failover Szenarien Winfried Wojtenek wojtenek@mac.com Verfügbarkeit % Tage Stunden Minuten 99.000 3 16 36 99.500 1 20 48 99.900 0 9 46 99.990 0 0 53 99.999 0 0 5 Tabelle

Mehr

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS Tuning des Weblogic /Oracle Fusion Middleware 11g Jan-Peter Timmermann Principal Consultant PITSS 1 Agenda Bei jeder Installation wiederkehrende Fragen WievielForms Server braucheich Agenda WievielRAM

Mehr

Oracle EngineeredSystems

Oracle EngineeredSystems Oracle EngineeredSystems Überblick was es alles gibt Themenübersicht Überblick über die Engineered Systems von Oracle Was gibt es und was ist der Einsatzzweck? Wann machen diese Systeme Sinn? Limitationen

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte. Best Practices aus unseren Projekten. Dr. Stefan Igel Karlsruhe, 20.02.

Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte. Best Practices aus unseren Projekten. Dr. Stefan Igel Karlsruhe, 20.02. Agile Methoden als Erfolgsfaktor für BI und Big Data Projekte Best Practices aus unseren Projekten Dr. Stefan Igel Karlsruhe, 20.02.2014 Agenda 1. Agile Ziele 2. Agile Teams 3. Agil BI-Projekte managen

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

SPARC LDom Performance optimieren

SPARC LDom Performance optimieren SPARC LDom Performance optimieren Marcel Hofstetter hofstetter@jomasoft.ch http://www.jomasoftmarcel.blogspot.ch Mitgründer, Geschäftsführer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft?

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

MANAGED SERVICES. Betrieb von SAP-Systemen auf hybriden IaaS- Plattformen - sicher, einfach, zuverlässig

MANAGED SERVICES. Betrieb von SAP-Systemen auf hybriden IaaS- Plattformen - sicher, einfach, zuverlässig MANAGED SERVICES Betrieb von SAP-Systemen auf hybriden IaaS- Plattformen - sicher, einfach, zuverlässig Inhalt Kurze Vorstellung Managed Services@ All for One Steeb Die Herausforderungen an die IT unserer

Mehr

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

dsmisi Storage Lars Henningsen General Storage

dsmisi Storage Lars Henningsen General Storage dsmisi Storage dsmisi MAGS Lars Henningsen General Storage dsmisi Storage Netzwerk Zugang C Zugang B Zugang A Scale-Out File System dsmisi Storage Netzwerk Zugang C Zugang B Zugang A benötigt NFS oder

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER AGENDA 01 File Server Lösungen mit Windows Server 2012 R2 02 Scale-out File Server 03 SMB 3.0 04 Neue File Server Features mit Windows Server 2016 05 Storage

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Hochleistungs-Disk-I/O

Hochleistungs-Disk-I/O Hochleistungs-Disk-I/O mit Lustre, dcache und AFS eine vergleichende Betrachtung Stephan Wiesand DESY DV 33. Treffen des ZKI AK Supercomputing Hamburg, 2010-03-04 Computing am DESY Standort Zeuthen Batch

Mehr

Solaris Cluster. Dipl. Inform. Torsten Kasch 8. Januar 2008

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008 Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick:

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Red Hat Storage Server Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Offene Software Lösung für Storage Ansprache über einen globalen Namensraum Betrachtet Storage als einen virtualisierten

Mehr

Neues in Hyper-V Version 2

Neues in Hyper-V Version 2 Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:

Mehr

SQL Server 2014 Roadshow

SQL Server 2014 Roadshow 1 SQL Server 2014 Roadshow Kursleitung: Dieter Rüetschi (ruetschi@ability-solutions.ch) 2 Inhalt Allgemeine Informationen Buffer Pool Extension Column Store Index In Memory OLTP Scripting Security SQL

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Information Systems & Semantic Web University of Koblenz Landau, Germany. Cloud Computing. Steffen Staab

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany. Cloud Computing. Steffen Staab Information Systems & Semantic Web University of Koblenz Landau, Germany Cloud Computing Cloud Computing if you do not have Cloud Computing in your business proposal you do not get VC funding. P. Miraglia@Austin,

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Microsoft Azure: Ein Überblick für Entwickler. Malte Lantin Technical Evangelist, Developer Experience & Evangelism (DX) Microsoft Deutschland GmbH

Microsoft Azure: Ein Überblick für Entwickler. Malte Lantin Technical Evangelist, Developer Experience & Evangelism (DX) Microsoft Deutschland GmbH Microsoft Azure: Ein Überblick für Entwickler Malte Lantin Technical Evangelist, Developer Experience & Evangelism (DX) Microsoft Deutschland GmbH Moderne Softwareentwicklung Microsoft Azure unterstützt

Mehr

ZFS Filesystem und KVM-Virtualisierung

ZFS Filesystem und KVM-Virtualisierung ZFS Filesystem und KVM-Virtualisierung ZFS on Linux auf Proxmox VE Wolfgang Link Proxmox 07.05.05 Proxmox Server Solutions GmbH Proxmox Mail Gateway (commercial license) Proxmox VE (Open Source) Weltweites

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle 10g revolutioniert Business Intelligence & Warehouse 10g revolutioniert Business Intelligence & Warehouse Marcus Bender Strategisch Technische Unterstützung (STU) Hamburg 1-1 BI&W Market Trends DWH werden zu VLDW Weniger Systeme, mehr Daten DWH werden konsolidiert

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Solaris im Datacenter Architektur, Implementation und Betrieb

Solaris im Datacenter Architektur, Implementation und Betrieb Solaris im Datacenter Architektur, Implementation und Betrieb Marco Stadler stadler@jomasoft.ch Senior Technical Specialist JomaSoft GmbH 1 2 Inhalt Wer ist JomaSoft? Architektur: Zonen und LDoms Implementation

Mehr

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Adam Stambulski Project Manager Viessmann R&D Center Wroclaw Dr. Moritz Gomm Business Development Manager Zühlke Engineering

Mehr

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP)

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) Oliver Steinhauer Markus Urban.mobile PROFI Mobile Business Agenda MOBILE ENTERPRISE APPLICATION PLATFORM AGENDA 01 Mobile Enterprise Application Platform

Mehr

DWH Szenarien. www.syntegris.de

DWH Szenarien. www.syntegris.de DWH Szenarien www.syntegris.de Übersicht Syntegris Unser Synhaus. Alles unter einem Dach! Übersicht Data-Warehouse und BI Projekte und Kompetenzen für skalierbare BI-Systeme. Vom Reporting auf operativen

Mehr

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de Open Source Data Center Virtualisierung mit OpenNebula 05.03.2013 CeBIT 2013 Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 35 Mitarbeiter! Spezialisierung

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

SQL Server 2012. Technischer Überblick. Patrick Heyde

SQL Server 2012. Technischer Überblick. Patrick Heyde SQL Server 2012 Technischer Überblick Patrick Heyde Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/patrick_heyde Patrick.Heyde@Microsoft.com SQL Server 2012 Highlights Der neue

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Die Plattform für Ihre Datenfabrik unabhängig von Ort und Zeit

Die Plattform für Ihre Datenfabrik unabhängig von Ort und Zeit Die Plattform für Ihre Datenfabrik unabhängig von Ort und Zeit Ian Schroeder Senior Account Manager, NetApp Deutschland April 2015 noris network > Innovationstagung 2015 Weisheit? Wenn ich die Menschen

Mehr

«DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN

«DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN «DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN UNSERE EINFACHE FORMEL FÜR AGILE BUSINESS INTELLIGENCE LÖSUNGEN

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP)

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) Oliver Steinhauer.mobile PROFI Mobile Business Agenda MOBILE ENTERPRISE APPLICATION PLATFORM AGENDA 01 Mobile Enterprise Application Platform 02 PROFI News

Mehr

The Storage Hypervisor

The Storage Hypervisor The Storage Hypervisor Jörg Schweinsberg Director Distribution EMEA Produkthistorie Aktuelle Version 9.0 SANSymphony V R9 Umfassende SAN Features für die Zusammenarbeit über unterschiedliche & inkompatible

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Praxistag für die öffentliche Verwaltung 2012 Titel Präsentation Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Referenten-Info Gerhard Tschantré, Leiter Controllerdienste

Mehr

How Dataport Manages Information

How Dataport Manages Information Fujitsu Forum München 2013 How Dataport Manages Information Britta Laatzen 6. November 2013 0 Copyright 2013 FUJITSU IT-Services für die öffentliche Verwaltung in Deutschland Full Service Provider 1 Copyright

Mehr

Virtualisierung im IT-Betrieb der BA

Virtualisierung im IT-Betrieb der BA Virtualisierung, essenzielles Werkzeug in der IT-Fabrik Martin Deeg, Anwendungsszenarien Cloud Computing, 31. August 2010 Virtualisierung im IT-Betrieb der BA Virtualisierung im IT-Betrieb der BA Effizienzsteigerung

Mehr

HP converged Storage für Virtualisierung : 3PAR

HP converged Storage für Virtualisierung : 3PAR HP converged Storage für Virtualisierung : 3PAR Dr. Christoph Balbach & Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Hochverfügbarkeit

Mehr

M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen

M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen M5000 einfach ablösen durch T4/T5 LDoms und Solaris Zonen Marcel Hofstetter hofstetter@jomasoft.ch CEO, Mitgründer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft? SPARC T5 CPU Neue T5-x

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA

BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA AUFSTELLUNG OPTIMIEREN. ENTWICKELN SIE IHRE SYSTEMLANDSCHAFT WEITER UND VERKAUFEN SIE DIE CHANCEN IHREN ANWENDERN Yu Chen, Thorsten Stossmeister

Mehr

Problemstellung. Keine Chance! Ich brauche eine genaue Spezifikation und dann vielleicht in 3-4 Wochen können Sie einen erstes Beispiel haben!

Problemstellung. Keine Chance! Ich brauche eine genaue Spezifikation und dann vielleicht in 3-4 Wochen können Sie einen erstes Beispiel haben! Take aways Mit Power BI wird Excel zum zentralen Tool für Self- Service BI End-End Self-Service Lösungsszenarien werden erstmals möglich Der Information Worker erhält ein flexibles Toolset aus bekannten

Mehr

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Software AG Innovation Day 2014 Bonn, 2.7.2014 Dr. Carsten Bange, Geschäftsführer Business Application Research Center

Mehr

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Copyright 2014, Oracle and/or its affiliates. All rights reserved. 1 Oracle Fusion Middleware Ordnung im Ganzen Matthias Weiss Direktor Mittelstand Technologie ORACLE Deutschland B.V. & Co. KG 2 Agenda Begriffe & Ordnung Fusion Middleware Wann, was, warum Beispiel für

Mehr

Oracle VM Support und Lizensierung. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best.

Oracle VM Support und Lizensierung. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best. Oracle VM Support und Lizensierung best Open Systems Day April 2010 Unterföhring Marco Kühn best Systeme GmbH marco.kuehn@best.de Agenda Oracle VM 2.2 Oracle VM 3.0 Oracle DB in virtualisierten Umgebungen

Mehr

Digitales Archiv Österreich. Siemens IT Solutions and Services GmbH 2010. Alle Rechte vorbehalten.

Digitales Archiv Österreich. Siemens IT Solutions and Services GmbH 2010. Alle Rechte vorbehalten. Digitales Archiv Österreich Agenda Lösung Architektur Standards Sicherheit Mandantenmodell Seite 2 Umsetzungsprojekt Auftraggeber Österreichisches Staatsarchiv / Bundeskanzleramt Auftragnehmer Siemens

Mehr