Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel

Größe: px
Ab Seite anzeigen:

Download "Hadoop im Unternehmenseinsatz. Präsentation von Dirk Schmid und Dr. Stefan Igel"

Transkript

1 Hadoop im Unternehmenseinsatz Präsentation von Dirk Schmid und Dr. Stefan Igel

2 Dirk Internet affin seit 1997 durch, einem der zwei ersten Internetprovider Deutschlands. Softwarearchitekt bei der 1&1 Mediafactory Seit 2005 in der Software-Entwicklung im Internet- Portalbereich tätig Java, Hadoop, verteilte Systeme, Hochverfügbarkeit, SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung Synthesizer und Hammond-Orgeln 1&1 Internet AG

3 Stefan Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Erstkontakt mit Hadoop 09/2009 Mag spannende Projekte Tischtennis-Spieler und Häuslebauer 1&1 Internet AG

4 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

5 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

6 Beispiel 1: WEB.DE 1995 gestartet als Internet-Katalog Eines der größten deutschen Internet- Portale mit 16,44 Mio. Nutzern/Monat* WEB.DE Fre beliebtester deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures *Unique User / AGOF internet facts &1 Internet AG

7 Beispiel 2: GMX Fre Pionier mit leistungsstarken Mail- und Messaging-Lösungen 12,75 Mio. Nutzer/ Monat* Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com *Unique User / AGOF internet facts &1 Internet AG

8 5 Hochleistungs-Rechenzentren auf 2 Kontinenten Server 10,67 Mio. Kundenverträge 30,8 Mio. Free-Accounts Hosting von 18 Millionen Domains Rund 9 Milliarden Seitenabrufe im Monat Mehr als 5 Milliarden s pro Monat TByte monatliches Transfervolumen Doppelt sicher durch redundante Rechenzentren (Dual Hosting) Nahezu 100%ige Verfügbarkeit Mehrfach redundante Glasfaser-Anbindung Unterbrechungsfreie Stromversorgung (USV) Vollklimatisierte Sicherheitsräume bieten Schutz vor Gas, Wasser und Feuer Betreuung rund um die Uhr durch hochqualifizierte Spezialisten Betrieb mit grünem Strom 1&1 Internet AG

9 Hadoop bei 1&1 Development Romania Team Big Data Solutions Development Romania: Search mit Solr und Hadoop Organizer Development UIM Abteilung Target Group Planning: Mehrere produktive Hadoop-Cluster Schwerpunkt Data Mining und Machine Learning Abteilung Web.Intelligence: Produktives Hadoop-Cluster SYNAPSE Web-Analytics, Logfile-Processing und Datawarehousing 1&1 Internet AG

10 Hadoop bei Web.Intelligence Erste Evaluierung von Hadoop : Cluster-Ausbau auf 20 Knoten 06: Hadoop Projekt Log-Analytics geht live: Datensätze/Tag Web-Analytics mit spalten-orientiertem Vector-RDBMS : Hadoop Projekt Web-Analytics beginnt 08: Hadoop-Cluster mit 12 Knoten einsatzbereit 10: Hadoop verarbeitet im produktiven Einsatz ca Datensätze/Tag 1&1 Internet AG

11 Web Intelligence Das Prinzip Reporting Stammdaten BI Plattform Datenlieferungen Bewegungsdaten 1&1 Internet AG

12 aber die Menge macht s! BI Plattform Web-Analytics: 240 Files/d 200 GB/d * 90d = 18 TB Log-Analytics: Files/d 2000 GB/d * 30d = 60 TB 1&1 Internet AG

13 Die Aufgabenstellung Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle Informationen zu wandeln. Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und Speicherkapazität, um auf wachsende Anforderungen reagieren zu können. Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen unterschiedlicher Bedeutung und Herkunft. Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den Mitarbeitern und in der Open Source-Community. Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten. 1&1 Internet AG

14 Die Lösung: SYNAPSE SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann. Fileserver DWH SYNAPSE 1&1 Internet AG

15 Dougs Ratschlag Question: What advice would you give to enterprises considering Hadoop? Doug Cutting: I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop]. STRATA2012DougCuttingTheApacheHadoopEcosystem jpg 1&1 Internet AG

16 Einige Herausforderungen bleiben Geeignete Hardware finden und betreiben Geeignete Hadoop-Frameworks identifizieren MapReduce Algorithmen entwickeln und testen Verschiedene Daten-Eingangs- und Ausgangskanäle Unterschiedliche Dateiformate Mehrere konkurrierende Prozesse Mehrere Benutzer Konsistentes Verarbeiten vieler Eingangs-Files Prozess-Steuerung über einen heterogenen System-Stack 1&1 Internet AG

17 1&1 Best Practice Identifiziere dein BIG DATA Problem 1&1 Internet AG

18 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

19 Hardware-Sizing Hadoop-DataNodes Empfehlung Cloudera Support* 2 Quad Core CPUs Disk Drive Size 1 2 TByte Auswahl-Kriterien Kosten-Effizienz Stromverbrauch Platz im Rechenzentrum Standard-HW-Warenkorb * clouderas-support-team-shares-some-basic-hardware-recommendations 1&1 Internet AG

20 Sizing der SYNAPSE Unsere Szenarien sind Storage Heavy : Sizing ist bestimmt durch erforderliche Speicherkapazität: 480 TB 78 TB Nutzdaten (Web- + Log-Analytics) Faktor 2 für Zwischenergebnisse Replikationsfaktor 3 zur Datensicherung 480TB / 2TB / 12 = 20 Rechner! Google's first production server rack, circa &1 Internet AG

21 Unsere Definition von Commodity Hardware 4x 1GB Network 12 x 2TB as JBOD direct attached 20 x Worker-Node (Datanode, Tasktracker) 8 96 GB RAM 50GB local Storage 2x Namenode Server (Namenode, Sec.-Namenode, Jobtracker) 4 12 GB RAM 1&1 Internet AG

22 Best Practice: Laste deine Systeme nur zu 75% aus! Hauptspeicher Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht mehr den spill to disk durchzuführen => Out Of Memory Exception Plattenplatz Achtung: auch Zwischenergebnisse mit einrechnen Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz vorgesehen werden! 1&1 Internet AG

23 Das Fileserver Problem Problemstellung Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts (Import Rohdaten, Export von Aggregaten) Konkurrierende Zugriffe reduzieren den Durchsatz überproportional Lösung Reduktion der Zugriffslast Mit einem Prozess im/exportieren (hadoop fs copyfrom/tolocal) Z.B. via Fair-Scheduler Pools (fair-scheduler.xml: maxmaps and maxreduces) Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind: z.b. Flume für Import z.b. HBase für Export 1&1 Internet AG

24 Namenode Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse, ) Es gibt nur genau EINE Namenode im Cluster Fällt diese aus oder wird korrupt gibt es keine Daten mehr im Cluster! Namenode Server Hadoop Namenode FS Image FS Image Edit Logs 1&1 Internet AG

25 Namenode Running Datanodes Namenode Server Hadoop Namenode FS Image FS Image Edit Edit Logs Logs 1&1 Internet AG

26 Secondary Namenode!= Redundanz Die Secondary Namenode dient lediglich dem Verdichten der persistierten Änderungslogs Die Namenode ist ein SPOF und muss entsprechend abgesichert werden! Namenode Server Hadoop Namenode FS Image Sec. Namenode Server Hadoop Secondary Namenode New FS FS Image Edit New Edit Logs Edit Logs Edit Logs FS Image New FS Image Edit Logs 1&1 Internet AG

27 Namenode HA Redundanz für Namenode transparent für Cluster Crash Recovery möglich 1&1 Internet AG

28 Namenode HA Failover im Sekunden-Bereich Im Worst-Case minimaler Daten- Verlust während Failover möglich Im besten Falle keiner! 1&1 Internet AG

29 Netzwerk Die Knoten eines Hadoop-Clusters sollten möglichst nahe beieinander stehen und auch bei den Datenquellen dafür muss Platz im Rechenzentrum verfügbar sein Je Besser die Netzwerk-Anbindung des Clusters desto besser seine Performance 4GBit 1GBit 2GBit each 1&1 Internet AG

30 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! 1&1 Internet AG

31 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

32 Wir machen unsere Werkzeugkiste auf und schauen mal was wir darin finden 1&1 Internet AG

33 Aufgabenverteilung Transport kontinuierlich entstehender Massendaten Vorgänge koordinieren Aggregationen alle 3 Stunden >1000 Files/Tag ~ 3TB Aggregation Speicherung Suche AdHoc Anfragen ILM Integration mit DWH Nachvollziehbarkeit Wiederaufsetzbarkeit 1&1 Internet AG

34 Quelle: Unser Technologie-Stack (Reduced to the Max) 1&1 Internet AG

35 Lessons learned Stabilität Entwicklung ist immer noch im Fluss Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung Flankierende Projekte haben gefühlt oft noch Beta-Status im Handumdrehen ist man Committer eines OS-Projektes ;-) 1&1 Internet AG

36 Lessons learned Feature-Set Ähnliche Toolsets unterscheiden sich meist nur in Details Pig, Hive, Cascading HBase und Casandra Askaban vs. Oozie Aber gerade die können manchmal entscheidend sein! 1&1 Internet AG

37 Schön, dass es Distributionen gibt! Hadoop-Solution-Partner geben Sicherheit Beispiel: Cloudera Eigenes Hadoop-Release basierend auf den Apache Repositories bietet konsistente, in sich schlüssige Release-Stände und Bugfixes Möglichkeit des kommerziellen Supports 1&1 Internet AG

38 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! 1&1 Internet AG

39 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

40 Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG

41 Architektur BI-Plattform Access Reporting Adhoc Queries (Mass-)Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) SYNAPSE Mass Data Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer 4. Verfügbar machen 3. Transformieren 2. Speichern 1. Importieren BI Source Systems Source Data Fileserver Replicated Source Data 1&1 Internet AG

42 Importieren und Speichern Das Serialisierungs-Framework Unterstützt die Verarbeitung durch Header-Zeile pro File mit Typ-Information (JSON-Format) Versionsprüfung möglich IDL optional Effiziente Verarbeitung durch Speicher-effizientes Binärformat (De-)Serialisierung ok Zukunftssicher da Künftiger Hadoop-Standard Aktive Weiterentwicklung Sukzessive Integration in die Hadoop-Teilprojekte # avro textual representation {"type": "record", "name": "Point", "fields": [ {"name": "x", "type": "int"}, {"name": "y", "type": "int"} ] } &1 Internet AG

43 Importieren und Speichern FLIS - Flexibilität gefragt Plain csv Flexible Input Selector thrift 1&1 Internet AG

44 Transformieren Join in MapReduce Map Side Join Eingangsfiles müssen nach gleichem Schlüssel sortiert und partitioniert sein Sorted-Merged-Join noch vor dem Mapper Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat Reduce Side Join Klassischer MR-Join Hauptlast wird in der Shuffle/Sort-Phase getragen 1&1 Internet AG

45 Transformieren Join in MapReduce Join-Operationen können in MR als Hash Join implementiert werden Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt Kleine CPU, keine Netzwerk-Last während der Verarbeitung Die Grenze bildet das Volumen der Lookup-Daten Lookup- Data Lookup- Data Lookup- Data Lookup- Data Lookup- Data Data Data MR- Join Result Data Data MR- Join Result 1&1 Internet AG

46 Transformieren - oder doch mit HBase? Distributed Key-Value Stores f(k) = V Datenzugriff granular Antwortzeiten im Milli-Sekunden- Bereich Auf Lesezugriff optimiert 1&1 Internet AG

47 Transformieren mit PIG Ursprünglich von Yahoo entwickelt File basiertes High Level Daten-Manipulations-Framework SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs übersetzt und ausgeführt wird 1&1 Internet AG

48 Transformieren Ergebnisse aus Web-Analytics Projekt: Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance- Gewinn bringen! Monthly Aggregation Weekly Aggregation Daily Aggregation 0 Column-DB Hadoop (1:1 Migration) Hadoop (optimierte Algorithmen) 1&1 Internet AG

49 Lessons learned Know-how Muss oft erst aufgebaut werden. Hierfür passende Projekte einplanen. Am Anfang fehlt das Know-how an allen Fronten DEV: Best Practices sind nicht vorhanden. Oft funktionieren die Dinge in Dev und brechen dann im Live-Einsatz. QS: Herausforderung: verteiltes Testen - möglichst mit Echt- Daten (bzgl. Qualität und Quantität) LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning- Möglichkeiten mannigfaltig und oft nur mit DEV- Unterstützung durchführbar. 1&1 Internet AG

50 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! 1&1 Internet AG

51 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG

52 BI-Plattform Information Lifecycle Management Access Standard Reporting Adhoc Queries (Mass) Data Export DWH Oracle 11g EE Database Reporting Layer (Dependent Datamarts) Integration Layer (Core DWH) Acquisition Layer (Staging Area) DWH als Langzeit- Archiv Kosten: 0,15 /MB Hadoop Cluster Mass Data Aggregation Layer Mass Data Integration Layer Mass Data Acquisition Layer Hadoop als Kurzzeit-Archiv Kosten: 0,0005 /MB BI Source Systems Source Data WI Gateway Fileserver Replicated Source Data 1&1 Internet AG

53 Speichern: Gerne aber wie lange? Auch 500 TByte sind irgendwann einmal voll! IL separat für jede Verarbeitungsebene Je wertvoller die Daten, desto länger der IL Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.) System Ebene Begründung Aufbewahrung Fileserver Import Nachladen 5 Tage Export Fachliche Anforderung 40 Tage SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage Integration Fachliche Anforderung Tage Aggregation Nachladen 5 Tage DWH Acquisition Nachberechnen 30 Tage Integration Fachliche Anforderung 2-10 Jahre Reporting Fachliche Anforderung 2-10 Jahre 1&1 Internet AG

54 Mehrparteien-Betrieb: Wer darf wann? Hadoop Job Scheduler Gleichmäßige Lastverteilung über die Zeit nach Prioritäten Verschiedene Anwendungen können konkurrierend betrieben werden Mechanismus Default Capacity Fair Vergeben von Prioritäten pro Job Job-Queues mit festgelegten Prioritäten Funktionsfähig Ja Ja Ja Clusterauslastung Ja Nein Ja Gefahr von Starvation Ja Nein Nein Job-Queues und Pools mit Gewichten 1&1 Internet AG

55 Mehrparteien-Betrieb: Wer darf überhaupt? Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories Hadoop hat keine eigene Benutzer-Authentifizierung Hadoop übernimmt user name (whoami) und group name (bash -c groups) vom aufrufenden Client-Prozess Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder Überschreiben fremder Dateien. Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein Geeignetes Konzept für Tool -User oder Application Manager This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion. 1&1 Internet AG

56 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Sorge für geordnete Verhältnisse im Cluster! 1&1 Internet AG

57 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz und Ausblick 1&1 Internet AG

58 Azkaban (LinkedIn) PRO Workflows können graphisch dargestellt und gedrilled werden Einfache Handhabung (Komplexes wird in Scripts ausgelagert) Startet Hadoop-Jobs und Anderes einfach als Unix-Prozesse Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed Contra Minimaler Funktionsumfang Keine Rechte und Zugriffs-Verwaltung Jobausführung nur Zeit-basiert Keine Redundanz (Azkaban-Server wird zum SPOF) 1&1 Internet AG

59 Oozie (Yahoo!) PRO Enge Integration mit Hadoop and M/R Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc. Webservice- und Java-API Zeit- und Ereignis-basierte Job-Ausführung Contra WEB-Konsole ist Read-Only, keine graphische Aufbereitung von Abhängigkeiten Ressoucen (.jar files, pig scripts) müssen manuell vor der Jobausführung auf dem HDFS deployed werden Müsste um File-Registierung erweitert werden Requesting job status: sudo -u oozie oozie job -oozie -info oozie-oozi-C 1&1 Internet AG

60 Architektur BI-Plattform - Steuerung Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein! Das richtige Werkzeug für die jeweilige Aufgabe: GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung) FUNDI = eigens entwickelter verlängerter Arm für Hadoop-Spezifika 1&1 Internet AG

61 Das richtige Werkzeug für die jeweilige Aufgabe PDI (http://kettle.pentaho.com/) ETL-Jobs im DWH HDFS-Zugriff GEPPI = Workflow-Engine Übergreifende-Steuerung Functional Dependency Integrator Hadoop Job-Ausführung Data-Repository 1&1 Internet AG

62 FUNDI: Swahili für Der fleißige Handwerker FUNDI File-Registration Register File & Metadata Distributed or local File System File Registration Functional Dependency Integrator Search for matching files Data Files 1&1 Internet AG

63 FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Run get Jar/PIG Metadata Input-Filenames Register Output-Files & Metadata Hadoop-Cluster Inp. Data Files Run Job(name) Functional Dependency Integrator Start MR Job Outp Data Files 1&1 Internet AG

64 FUNDI: Swahili für Der fleißige Handwerker Fundi Job-Ketten (Das EVA-Prinzip) Metadata for Job-Rung, Inp.-Files, Outp.-Files E V A Named-Input Fundi-JOB A Named-Output Fundi-JOB B Configuration e.g. Path, Filenames, Jar/PIG-Script, Settings 1&1 Internet AG

65 1&1 Best Practice Identifiziere dein BIG DATA Problem Etwas mehr schadet nicht: Alle Systeme müssen skalieren und benötigen Reserven, Namenode HA! Keep Your Ecosystem Simple, wähle sorgfältig aus! Die Algorithmen bestimmen die Effizienz! Es geht auch ohne Skript-Wüste und cron-jobs! 1&1 Internet AG

66 Agenda BIG DATA und Hadoop bei 1&1 Jede Menge Blech: Die Hardware Was darf es denn sein: Das Hadoop Ecosystem Speichern, Mappen, Reduzieren Spielregeln im Cluster Der fleißige Handwerker Essenz 1&1 Internet AG

67 Langer Rede kurzer Sinn: Die Aufgabe Hadoop verlangt ein neues Denken in allen IT- Bereichen: Operations, Entwicklung, QS, Binde alle Stakeholder möglichst früh in deine Planung ein! Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden! Identifiziere dein Pilotprojekt! Bleibe nicht zu lange im Spielbetrieb, evaluiere gegen echte Anforderungen! 1&1 Internet AG

68 Langer Rede kurzer Sinn: Die Belohnung Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme! 1&1 Internet AG

69 Langer Rede kurzer Sinn: Der Beweis Massendatenverarbeitung ist bei 1&1 für Web-Analytics, Logfile-Verarbeitung und Datawarehousing mit Hadoop messbar performanter, kostengünstiger, skalierbarer, flexibler und zukunftsfähiger geworden! 1&1 Internet AG

70 Vielen Dank für Ihre Aufmerksamkeit Zeit für Fragen

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH Hadoop in modernen BI-Infrastrukturen Dr. Stefan Igel inovex GmbH Stefan Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Erstkontakt mit Hadoop

Mehr

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH

Hadoop in modernen BI-Infrastrukturen. Dr. Stefan Igel inovex GmbH Hadoop in modernen BI-Infrastrukturen Dr. Stefan Igel inovex GmbH Zur Person Dr. Stefan Igel Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex Seit 08/2009 als Business Engineer bei 1&1 Web.Intelligence

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH

Complex Hosting. Whitepaper. Autor.: Monika Olschewski. Version: 1.0 Erstellt am: 14.07.2010. ADACOR Hosting GmbH Complex Hosting Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Complex Hosting

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI Hanau, 25.02.2015 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Der Aufbau der Group BI Plattform

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Business Intelligence, Big Data und Search. Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013

Business Intelligence, Big Data und Search. Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013 Business Intelligence, Big Data und Search Drei Seiten einer Medaille? Patrick Thoma Offenburg, 7. März 2013 Agenda 1. Business Intelligence Es wird Zeit für Intelligence. 2. Big Data größer, schneller,

Mehr

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen Brownbag am Freitag, den 09.08.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de Big Data in a Nutshell Dr. Olaf Flebbe of ät oflebbe.de Zu mir Bigdata Projekt, benutzt Apache Bigtop Linux seit Anfang vor Minix/ATARI Linuxtag 2001? Promoviert in Computational Physics in Tü Seit Jan

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

Red Hat Cluster Suite

Red Hat Cluster Suite Red Hat Cluster Suite Building high-available Applications Thomas Grazer Linuxtage 2008 Outline 1 Clusterarten 2 3 Architektur Konfiguration 4 Clusterarten Was ist eigentlich ein Cluster? Wozu braucht

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Managed Cloud Services

Managed Cloud Services Managed Cloud Services Autor.: Monika Olschewski Whitepaper Version: 1.0 Erstellt am: 14.07.2010 ADACOR Hosting GmbH Kaiserleistrasse 51 63067 Offenbach am Main info@adacor.com www.adacor.com Cloud Services

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

Hochleistungs-Disk-I/O

Hochleistungs-Disk-I/O Hochleistungs-Disk-I/O mit Lustre, dcache und AFS eine vergleichende Betrachtung Stephan Wiesand DESY DV 33. Treffen des ZKI AK Supercomputing Hamburg, 2010-03-04 Computing am DESY Standort Zeuthen Batch

Mehr

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center PROFI UND NUTANIX Portfolioerweiterung im Software Defined Data Center IDC geht davon aus, dass Software-basierter Speicher letztendlich eine wichtige Rolle in jedem Data Center spielen wird entweder als

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Oracle Automatic Storage Management (ASM) Best Practices

Oracle Automatic Storage Management (ASM) Best Practices Oracle Automatic Storage Management (ASM) Best Practices Markus Michalewicz BU Database Technologies ORACLE Deutschland GmbH 2 Page 1 www.decus.de 1 Agenda ASM Funktionalität und Architektur Storage Management

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

AFS / OpenAFS. Bastian Steinert. Robert Schuppenies. Präsentiert von. Und

AFS / OpenAFS. Bastian Steinert. Robert Schuppenies. Präsentiert von. Und AFS / OpenAFS Präsentiert von Bastian Steinert Und obert Schuppenies Agenda AFS Verteilte Dateisysteme, allg. Aufbau Sicherheit und Zugriffsrechte Installation Demo Vergleich zu anderen DFs Diskussion

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Datawarehouse Architekturen. Einheitliche Unternehmenssicht

Datawarehouse Architekturen. Einheitliche Unternehmenssicht Datawarehouse Architekturen Einheitliche Unternehmenssicht Was ist Datawarehousing? Welches sind die Key Words? Was bedeuten sie? DATA PROFILING STAGING AREA OWB ETL OMB*PLUS SAS DI DATA WAREHOUSE DATA

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz IDS Lizenzierung für IDS und HDR Primärserver IDS Lizenz HDR Lizenz Workgroup V7.3x oder V9.x Required Not Available Primärserver Express V10.0 Workgroup V10.0 Enterprise V7.3x, V9.x or V10.0 IDS Lizenz

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

SPARC LDom Performance optimieren

SPARC LDom Performance optimieren SPARC LDom Performance optimieren Marcel Hofstetter hofstetter@jomasoft.ch http://www.jomasoftmarcel.blogspot.ch Mitgründer, Geschäftsführer, Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft?

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick:

Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Red Hat Storage Server Die wichtigsten Funktionen von Red Hat Storage Server 2.0 im Überblick: Offene Software Lösung für Storage Ansprache über einen globalen Namensraum Betrachtet Storage als einen virtualisierten

Mehr

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek. wojtenek@mac.com

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek. wojtenek@mac.com Verfügbarkeit von Applikationen und Failover Szenarien Winfried Wojtenek wojtenek@mac.com Verfügbarkeit % Tage Stunden Minuten 99.000 3 16 36 99.500 1 20 48 99.900 0 9 46 99.990 0 0 53 99.999 0 0 5 Tabelle

Mehr

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle 10g revolutioniert Business Intelligence & Warehouse 10g revolutioniert Business Intelligence & Warehouse Marcus Bender Strategisch Technische Unterstützung (STU) Hamburg 1-1 BI&W Market Trends DWH werden zu VLDW Weniger Systeme, mehr Daten DWH werden konsolidiert

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Neues in Hyper-V Version 2

Neues in Hyper-V Version 2 Michael Korp Technical Evangelist Microsoft Deutschland GmbH http://blogs.technet.com/mkorp Neues in Hyper-V Version 2 - Virtualisieren auf die moderne Art - Windows Server 2008 R2 Hyper-V Robust Basis:

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

SQL Server 2014 Roadshow

SQL Server 2014 Roadshow 1 SQL Server 2014 Roadshow Kursleitung: Dieter Rüetschi (ruetschi@ability-solutions.ch) 2 Inhalt Allgemeine Informationen Buffer Pool Extension Column Store Index In Memory OLTP Scripting Security SQL

Mehr

Analytics in der Cloud. Das Beispiel Microsoft Azure

Analytics in der Cloud. Das Beispiel Microsoft Azure Analytics in der Cloud Das Beispiel Microsoft Azure Warum überhaupt Cloud Computing? Ein kleiner Blick in den Markt Microsoft : hat sein Geschäftsmodell komplett umgestellt vom Lizenzgeschäft auf Devices

Mehr

Windows Server 2012 R2

Windows Server 2012 R2 Windows Server 2012 R2 Eine Übersicht Raúl B. Heiduk (rh@pobox.com) www.digicomp.ch 1 Inhalt der Präsentation Die wichtigsten Neuerungen Active Directory PowerShell 4.0 Hyper-V Demos Fragen und Antworten

Mehr

Der Nutzen und die Entscheidung für die private Cloud. Martin Constam Rechenpower in der Private Cloud 12. Mai 2014

Der Nutzen und die Entscheidung für die private Cloud. Martin Constam Rechenpower in der Private Cloud 12. Mai 2014 Der Nutzen und die Entscheidung für die private Cloud Martin Constam Rechenpower in der Private Cloud 12. Mai 2014 1 Übersicht - Wer sind wir? - Was sind unsere Aufgaben? - Hosting - Anforderungen - Entscheidung

Mehr

DWH Szenarien. www.syntegris.de

DWH Szenarien. www.syntegris.de DWH Szenarien www.syntegris.de Übersicht Syntegris Unser Synhaus. Alles unter einem Dach! Übersicht Data-Warehouse und BI Projekte und Kompetenzen für skalierbare BI-Systeme. Vom Reporting auf operativen

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

«DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN

«DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN «DIE INFORMATIONSWELT MUSS EINFACHER UND AGILER WERDEN!» SCHNELLE, FLEXIBLE UND KOSTENGÜNSTIGE BUSINESS INTELLIGENCEund BIG DATA-LÖSUNGEN UNSERE EINFACHE FORMEL FÜR AGILE BUSINESS INTELLIGENCE LÖSUNGEN

Mehr

Cloud Computing mit mathematischen Anwendungen

Cloud Computing mit mathematischen Anwendungen Cloud Computing mit mathematischen Anwendungen Vorlesung SoSe 2009 Dr. Marcel Kunze Karlsruhe Institute of Technology (KIT) Steinbuch Centre for Computing (SCC) KIT the cooperation of Forschungszentrum

Mehr

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH

Big Data Lösungen mit Apache Hadoop. Gunnar Schröder, T-Systems Multimedia Solutions GmbH Big Data Lösungen mit Apache Hadoop Gunnar Schröder, T-Systems Multimedia Solutions GmbH Was ist Big Data? 2 Charakteristiken von Big Data Three Vs of Big Data VOLUME Terabytes Petabytes Exabytes Zettabytes

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Hadoop-as-a-Service (HDaaS)

Hadoop-as-a-Service (HDaaS) Hadoop-as-a-Service (HDaaS) Flexible und skalierbare Referenzarchitektur Arnold Müller freier IT Mitarbeiter und Geschäftsführer Lena Frank Systems Engineer @ EMC Marius Lohr Systems Engineer @ EMC Fallbeispiel:

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Solaris Cluster. Dipl. Inform. Torsten Kasch 8. Januar 2008

Solaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008 Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank

Mehr

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de

Open Source Data Center Virtualisierung mit OpenNebula. 05.03.2013 CeBIT 2013. Bernd Erk www.netways.de Open Source Data Center Virtualisierung mit OpenNebula 05.03.2013 CeBIT 2013 Bernd Erk VORSTELLUNG NETWAYS NETWAYS! Firmengründung 1995! GmbH seit 2001! Open Source seit 1997! 35 Mitarbeiter! Spezialisierung

Mehr

Oracle EngineeredSystems

Oracle EngineeredSystems Oracle EngineeredSystems Überblick was es alles gibt Themenübersicht Überblick über die Engineered Systems von Oracle Was gibt es und was ist der Einsatzzweck? Wann machen diese Systeme Sinn? Limitationen

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Session Storage im Zend Server Cluster Manager

Session Storage im Zend Server Cluster Manager Session Storage im Zend Server Cluster Manager Jan Burkl System Engineer, Zend Technologies Agenda Einführung in Zend Server und ZSCM Überblick über PHP Sessions Zend Session Clustering Session Hochverfügbarkeit

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Staging und Deployment von ständig verfügbaren Webanwendungen bei 1&1 Webhosting. Peter Grund Software Developer Webhosting 1&1 Internet AG

Staging und Deployment von ständig verfügbaren Webanwendungen bei 1&1 Webhosting. Peter Grund Software Developer Webhosting 1&1 Internet AG Staging und Deployment von ständig verfügbaren Webanwendungen bei 1&1 Webhosting Agenda United Internet AG Überblick der Architektur Komponenten Beispielhafter Entwicklungsablauf Diskussion -2- United

Mehr

AS 7 / EAP 6 - Clustering. heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de

AS 7 / EAP 6 - Clustering. heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de AS 7 / EAP 6 - Clustering heinz.wilming@akquinet.de @akquinet h3p://blog.akquinet.de Was ist die EAP 6? EAP6!= EAP5 +1 JBoss Enterprise ApplicaBon PlaCorm 6 Stabile und unterstützte Pla>orm Basiert auf

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden Neue Beziehungen finden...

Mehr

Caching. Hintergründe, Patterns &" Best Practices" für Business Anwendungen

Caching. Hintergründe, Patterns & Best Practices für Business Anwendungen Caching Hintergründe, Patterns &" Best Practices" für Business Anwendungen Michael Plöd" Senacor Technologies AG @bitboss Business-Anwendung!= Twitter / Facebook & co. " / kæʃ /" bezeichnet in der EDV

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Stratosphere. Next-Generation Big Data Analytics Made in Germany Stratosphere Next-Generation Big Data Analytics Made in Germany Robert Metzger Stratosphere Core Developer Technische Universität Berlin Ronald Fromm Head of Big Data Science Telekom Innovation Laboratories

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen Nahezu 70% aller Data Warehouse Anwendungen leiden unter Leistungseinschränkungen der unterschiedlichsten Art. - Gartner

Mehr

Einfache Migration auf Collax Server mit der Acronis Backup Advanced Solution

Einfache Migration auf Collax Server mit der Acronis Backup Advanced Solution New Generation Data Protection Powered by Acronis AnyData Technology Einfache Migration auf Collax Server mit der Acronis Backup Advanced Solution Marco Ameres Senior Sales Engineer Übersicht Acronis Herausforderungen/Pain

Mehr

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Copyright 2014, Oracle and/or its affiliates. All rights reserved. 1 Integrierte Systeme für SIs und VARs Matthias Weiss Direktor Mittelstand Technologie ORACLE Deutschland B.V. & Co. KG 2 Agenda Engineered Systems Oracle s Strategie Engineered Systems Big Data einmal

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

EMC ISILON & TSM. Hans-Werner Rektor Advisory System Engineer Unified Storage Division. Oktober 2013

EMC ISILON & TSM. Hans-Werner Rektor Advisory System Engineer Unified Storage Division. Oktober 2013 EMC ISILON & TSM Hans-Werner Rektor Advisory System Engineer Unified Storage Division Oktober 2013 1 Tivoli Storage Manager - Überblick Grundsätzliche Technologie Incremental Forever Datensicherungsstrategie

Mehr

How Dataport Manages Information

How Dataport Manages Information Fujitsu Forum München 2013 How Dataport Manages Information Britta Laatzen 6. November 2013 0 Copyright 2013 FUJITSU IT-Services für die öffentliche Verwaltung in Deutschland Full Service Provider 1 Copyright

Mehr

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit

BI Konsolidierung: Anspruch & Wirklichkeit. Jacqueline Bloemen. in Kooperation mit BI Konsolidierung: Anspruch & Wirklichkeit Jacqueline Bloemen in Kooperation mit Agenda: Anspruch BI Konsolidierung Treiber Was sind die aktuellen Treiber für ein Konsolidierungsvorhaben? Kimball vs. Inmon

Mehr

ovirt Workshop René Koch, rkoch@linuxland.at Senior Solution Architect bei LIS Linuxland GmbH Linuxwochen Wien 2014 1/43

ovirt Workshop René Koch, rkoch@linuxland.at Senior Solution Architect bei LIS Linuxland GmbH Linuxwochen Wien 2014 1/43 ovirt Workshop, rkoch@linuxland.at Senior Solution Architect bei LIS Linuxland GmbH Linuxwochen Wien 09. Mai 2014 1/43 Agenda Teil 1 Was ist ovirt? Teil 2 Aufbau Setup 2/43 Teil 1 Was ist ovirt? 3/43 Was

Mehr

Kleine Speichersysteme ganz groß

Kleine Speichersysteme ganz groß Kleine Speichersysteme ganz groß Redundanz und Performance in Hardware RAID Systemen Wolfgang K. Bauer September 2010 Agenda Optimierung der RAID Performance Hardware-Redundanz richtig nutzen Effiziente

Mehr

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining

Das Knowledge Grid. Eine Architektur für verteiltes Data Mining Das Knowledge Grid Eine Architektur für verteiltes Data Mining 1 Gliederung 1. Motivation 2. KDD und PDKD Systeme 3. Knowledge Grid Services 4. TeraGrid Projekt 5. Das Semantic Web 2 Motivation Rapide

Mehr

Xenologie oder wie man einen Plastikmainframe baut

Xenologie oder wie man einen Plastikmainframe baut Xenologie oder wie man einen Plastikmainframe baut Alexander Schreiber http://www.thangorodrim.de/ Chemnitzer Linux-Tage 2006 I think there is a world market for maybe five computers.

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Open Source im Unternehmenseinsatz. Evaluierung und Einführung. Alexander Pacnik Frankfurt, 12.09.2014

Open Source im Unternehmenseinsatz. Evaluierung und Einführung. Alexander Pacnik Frankfurt, 12.09.2014 Open Source im Unternehmenseinsatz Evaluierung und Einführung Alexander Pacnik Frankfurt, 12.09.2014 inovex 2 Open Source im Unternehmenseinsatz... Agenda Open Source Evaluierung Umsetzung Kritische Betrachtung

Mehr

IP-Adressen Hyper-V Cluster

IP-Adressen Hyper-V Cluster Hyper-V 2.0 Live Migration Voraussetzungen Netzwerkadapter: 1 Live Migration 1 LAN 1 Cluster Heartbeat 1 SAN (FC) 1 Hyper-V Management IP-Adressdiagramm IP-Adressen Hyper-V Cluster XXX.YYYY.LOCAL Netzwerkname

Mehr

ORACLE Database Migration

ORACLE Database Migration ORACLE Database Migration Hürden und Best Practices in einer hochverfügbaren Umgebung GUUG FFG 2013 Andrea Held 27.2.2013 10:47:05 A. Held: Oracle DB Migration 1 Agenda Oracle Hochverfügbarkeit: Eine Auswahl

Mehr

IT macht den Meister mit VDCF Version 5

IT macht den Meister mit VDCF Version 5 IT macht den Meister mit VDCF Version 5 Marcel Hofstetter hofstetter@jomasoft.ch Enterprise Consultant JomaSoft GmbH 1 Inhalt Wer ist JomaSoft? Solaris Virtualisierungs Technologien (Zones und LDoms) VDCF

Mehr

Problemstellung. Keine Chance! Ich brauche eine genaue Spezifikation und dann vielleicht in 3-4 Wochen können Sie einen erstes Beispiel haben!

Problemstellung. Keine Chance! Ich brauche eine genaue Spezifikation und dann vielleicht in 3-4 Wochen können Sie einen erstes Beispiel haben! Take aways Mit Power BI wird Excel zum zentralen Tool für Self- Service BI End-End Self-Service Lösungsszenarien werden erstmals möglich Der Information Worker erhält ein flexibles Toolset aus bekannten

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics Vorstellung IBM Cognos 10.2 Oliver Linder Client Technical Professional Business Analytics Agenda IBM Cognos 10.2 Architektur User Interfaces IBM Cognos Workspace IBM Cognos Workspace Advanced IBM Cognos

Mehr

Infrastrukturanalyse Ihr Weg aus dem Datenstau

Infrastrukturanalyse Ihr Weg aus dem Datenstau Waltenhofen * Düsseldorf * Wiesbaden Infrastrukturanalyse Ihr Weg aus dem Datenstau SCALTEL Webinar am 20. Februar 2014 um 16:00 Uhr Unsere Referenten Kurze Vorstellung Stefan Jörg PreSales & Business

Mehr

Oracle VM Support und Lizensierung. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best.

Oracle VM Support und Lizensierung. best Open Systems Day April 2010. Unterföhring. Marco Kühn best Systeme GmbH marco.kuehn@best. Oracle VM Support und Lizensierung best Open Systems Day April 2010 Unterföhring Marco Kühn best Systeme GmbH marco.kuehn@best.de Agenda Oracle VM 2.2 Oracle VM 3.0 Oracle DB in virtualisierten Umgebungen

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

1Ralph Schock RM NEO REPORTING

1Ralph Schock RM NEO REPORTING 1Ralph Schock RM NEO REPORTING Bereit für den Erfolg Business Intelligence Lösungen Bessere Entscheidungen Wir wollen alle Mitarbeiter in die Lage versetzen, bessere Entscheidungen schneller zu treffen

Mehr