Low-Latency-Anwendungen mit Hadoop

Größe: px
Ab Seite anzeigen:

Download "Low-Latency-Anwendungen mit Hadoop"

Transkript

1 Low-Latency-Anwendungen mit Hadoop TDWI-Konferenz 2014 München, 24. Juni 2014 Dr. Henrik Behrens Principal Big Data Analytics Business Unit DWH/BI & Big Data Marcus Held Senior Manager Business Unit DWH/BI & Big Data SHS VIVEON Gruppe: Überblick Facts & Figures (Stand 2013) Geschäftsbereiche Geschäftsmodelle und Servicearten VALUE 7,2 Mio. Umsatz (GJ 2013) Business- und IT-Beratungsdienstleistungen; Professional Services, Managed Services SHS VIVEON GRUPPE Umsatz: 24,5 Mio., EK-Quote: 56,4% IT-SOLUTIONS 5,4 Mio. EUR (GJ 2013) RISK 11,8 Mio. Umsatz (GJ 2013) Integrationsdienstleistungen inkl. Betrieb v. Anwendungen; Lizenz, Wartung, ASP/Cloud, product related Professional Services Umfangreiche IT-Expertise zur Unterstützung unserer Kunden und Projekte Zielbranchen Finanzdienst- Industrie & Retail & Telekommunikation leistungen Handel (B2B) ecommerce (B2C) & Medien Kunden (Auszug) SHS VIVEON Seite 2 1

2 Customer Risk Customer Value Unsere Lösungspakete entlang des Kundenlebenszyklus Neukundengewinnung Kundenlebenszyklus Kundenbindung und -entwicklung Kundenrückgewinnung Kampagnenmanagement und Kampagnenoptimierung Lead Sales Management Loyality Management Cross- / Up-Selling Churn Prevention Reactivation & Winback Servicemanagement Zeit Antragsmanagement, Bonitätsbewertung Fraud Management Limit / Credit Management Decision Engines Realtime Decisioning Campaign Management Multichannel Management Customer Analytics Data Mining Scorecard Development Decision Support Big Data Data Warehousing Data Integration Information Management Business Intelligence Forderungsmanagement Inkassomanagement SHS VIVEON Seite 3 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 4 2

3 Big Data Hype SHS VIVEON Seite 5 Was bedeutet Big Data? Alle benötigten Daten erfassen. Die Daten dorthin transportieren, wo sie benötigt werden. Die Daten auswerten und visualisieren. Die richtigen Fragen stellen. SHS VIVEON Seite 6 3

4 Was bedeutet Big Data aber auch? Nicht wirklich geschützt Teenage Sex Small Data / Smart Data Erhöhte technische Komplexität Bewegtes technisches Umfeld Keine neuen Antworten ohne entsprechende Fragen Build or Buy Potenzierung klassischer DWH/BI Probleme Kein Wert an sich Big Data ist bei uns kein Thema SHS VIVEON Seite 7 Eigentliche Motivation für Big Data Neue Geschäftsfelder Focus on the Application, Not the Technology (Kaskade, Jim. Strata + Hadoop World 2013) Neue technologische Möglichkeiten Bestehendes Geschäft & Prozesse "We should forget about small efficiencies, say about 97% of the time: premature optimization is the root of all evil." (Knuth, Donald. Structured Programming with go to Statements, ACM Journal Computing Surveys, Vol 6, No. 4, Dec p.268.) SHS VIVEON Seite 8 4

5 Low-Latency Low latency allows human-unnoticeable delays between an input being processed and the corresponding output providing real time characteristics. SHS VIVEON Seite 9 Big Data-Anwendungsfälle Big Data Batch Low Latency strukturiert unstrukturiert Interaktive Abfrage / Suche Echtzeit- Datenintegration strukturiert unstrukturiert strukturiert unstrukturiert SHS VIVEON Seite 10 5

6 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle (Big) Data Batch Low Latency strukturiert ETL Intelligent DWH Archive Predictive Maintenance Energy Prediction Golden Copy Reporting Bondatenanalyse Supply-Chain optimization Predictive Modelling Recommender... unstrukturiert Sentiment Analysis Dokument-Archiv Webscraping Textmining SNA... SHS VIVEON Seite 11 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle Big Data Batch Low Latency Interaktive Abfrage / Suche SHS VIVEON strukturiert Ad Hoc Reporting Olap... unstrukturiert Suche im Web Suche in Social Media-Abzügen Suche in unternehmenseigenen Office- und PDF-Dateien Suche in Katalogen Übersetzung Rechtschreibkorrektur Bildersuche... Seite 12 6

7 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle Big Data Batch Low Latency Echtzeit- Datenintegration SHS VIVEON strukturiert Echtzeit-Integration von Operativen Systemen CSV- und Excel-Files Sensordaten strukturierten Logfiles... unstrukturiert Server Logfile Monitoring Social Media Monitoring News Monitoring Market Monitoring Competition Monitoring... Seite 13 Low Latency ist relevant Big Data Batch Low Latency strukturiert unstrukturiert Interaktive Abfrage / Suche Echtzeit- Datenintegration strukturiert Structured Query unstrukturiert Search strukturiert Structured Data Capture unstrukturiert Logfile Monitoring SHS VIVEON Seite 14 7

8 Low Latency - Tools Big Data Batch Low Latency strukturiert Distributed SQL unstrukturiert Sentiment Analysis Tools? SHS VIVEON Seite 15 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 16 8

9 Hadoop Distributed File System Verteiltes Filesystem zur Speicherung von großen Datenvolumen (>=TB) Ziel ist hoher Durchsatz beim Zugriff auf Daten Redundante verteilte Speicherung Ausfallsicherheit Parallel zugreifbare Daten Skalierbar Ursprünglich auf das Map-Reduce Paradigma ausgerichtet Basis für eine große Anzahl von Big-Data-Projekten Eine ganze Reihe von Hadoop Distributionen HDFS+Friends... SHS VIVEON Seite 17 Projekte und Distributionen rund um Hadoop... SHS VIVEON Zentrale Administration, Koordination von verteilten Prozessen Low-Latency-Frameworks, SQL-Aufsätze, Machine Learning, NO-SQL-Datenbanken, ETL-Frameworks, Graph-Algorithmen, Gateway, Programmierparadigmen, Stream-Datenverarbeitung, Tools für Datapipelines,... Seite 18 9

10 Low-Latency-Engines versprechen, die Ressourcen eines ganzen Clusters mit einer Latenz < 2 Sekunden nutzbar zu machen. Auswahl von clusterbasierten Low-Latency-Engines Datenintegration SQL-Queries Streaming Suche SHS VIVEON Seite 19 Wir wollen heute exemplarisch vier Low-Latency-Engines im Detail vorstellen. SHS VIVEON Seite 20 10

11 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 21 Vorbemerkung: Impala dient hier als Beispiel für eine Klasse von Query-Engines, die SQL parallel auf einem Hadoop-Cluster ausführen. IBM Big SQL Ein Vergleich dieser Produkte ist nicht Inhalt dieses Vortrags. SHS VIVEON Image Source: cloudera Seite 22 11

12 Impala entstand 2012 inspiriert durch Google Dremel, unter der Leitung von Cloudera Google Dremel (veröffentlicht 2010) erlaubt interaktive Analysen auf Terabytegroßen Datenmengen in wenigen Sekunden! hat bei Google über 1000 Anwender! Status quo für SQL in Hadoop damals: Hive hohe Latenz, bedingt durch JVM-Starts und häufiges Schreiben auf Disk Mehrere MapReduce-Vorgänge bei Joins -> für interaktive Analysen nicht gut geeignet Anforderungen für Impala: Latenz im Subsekundenbereich! Optimaler Durchsatz (alle Platten an allen Nodes optimal auslasten) Niedrige CPU-Belastung Schnelle Joins Hochoptimiert (Kompression, Spaltenorientierung, usw.) SHS VIVEON Image Source: cloudera Seite 23 Impala teilt die Metadaten mit Hive, funktioniert sonst aber unabhängig von Hive und unabhängig von MapReduce SHS VIVEON Image Source: cloudera Seite 24 12

13 Die SQL-Queries werden auf allen Hadoop-Knoten parallel von Impala-Dienstprozessen ausgeführt, die queryübergreifend laufen. SHS VIVEON Image Source: cloudera Seite 25 Queries werden von Impala in einen Low Level-VM-Code übersetzt, der 3 mal so performant läuft wie ein Interpreter ohne Codegenerator. SHS VIVEON Image Source: cloudera Seite 26 13

14 Hinzu kommen noch drei Features zur Performancesteigerung Lokale Daten werden am DataNode-Protokoll vorbei direkt von der Platte gelesen (> 100 MB/s pro Disk) ( short-circuit-read ) Daten im HDFS-Cache werden ohne Umkopieren verarbeitet mit der Geschwindigkeit des Memory-Bus (> 1 GB/s pro Knoten) ( HDFS-Caching ) Joins werden effizient als HashJoins ausgeführt (dazu werden die benötigten Spalten der zu joinenden Tabelle in den Hauptspeicher geladen) SHS VIVEON Seite und eine spaltenbasiertes Speicherformat zur Optimierung von analytischen Workloads: Parquet Vorbild: Das Column IO-Format von Dremel Erheblicher Performancevorteil, wenn nicht alle Spalten einer Tabelle gelesen werden müssen. spaltenweise ist eine bessere Kompression möglich. Eingebaute Spalten-Statistiken (ab Parquet Version 2.0) SHS VIVEON Image Source: Google Seite 28 14

15 Der Performancevorteil von Impala gegenüber Hive ist dadurch erheblich. SHS VIVEON Image Source: cloudera Seite 29 Der Funktionalität von Impala umfasst analytische Abfragen und (mit niedrigerer Priorität) auch ETL (Beladung von Tabellen). Ganze Tabellen/Partitionen beladen CREATE TABLE AS SELECT... ALTER TABLE DROP COLUMN / ADD COLUMNS TRUNCATE TABLE INSERT INTO TABLE SELECT Auch Updates und spaltenweise Beladung möglich (bei Speicherung in HBase) INSERT INTO (Schlüssel, Wert) SELECT Schlüssel, Wert FROM -> Wenn die Tabelle in HBase liegt, werden vorhandene Werte automatisch überschrieben! Weitere Features DATABASE, PARTITION, VIEW, FUNCTION, UDF, UDAF, EXPLAIN, DESCRIBE, REGEXP Derzeit 10 Datentypen SHS VIVEON Seite 30 15

16 Auf der Roadmap stehen interessante Erweiterungen Impala 1.4 (Q3 2014) Datentyp Decimal Impala 2.0 (2014) Analytic window functions: <function>() OVER (PARTITION BY ORDER BY ) Unterstützung von geschachtelten Datentypen (struct, array, map) -> kann den Bedarf an Joins reduzieren! User Defined Table Functions Disk based joins and aggregation Subqueries and EXISTS Set operators (INTERSECT, MINUS) Impala > 2.0 Weitere Informationen unter SHS VIVEON Seite 31 Typische Motivationen zum Einsatz von Impala Kosten sparen durch Auslagern von Altdaten des DWH nach Impala (DWH-Archiv) Reduktion der Kosten für die Datenhaltung um den Faktor 5-10 gegenüber kommerziellem DBMS Daten bleiben auswertbar, auch mit BI-Werkzeugen Performancesteigerung durch Verlagerung einzelner Datamarts nach Impala Steigerung der Performance um den Faktor 5-10 ohne Kostensteigerung gegenüber kommerziellem DBMS oder Hive Kostenvermeidung durch Vorverarbeitung von umfangreichen Datenquellen, z.b. Clickstreams, Logdateien (Filterung, Aggregation) Vermeidung von ansonsten fälligen Aufrüstungen bei DWH- Datenbanken Beschleunigung existierender Prozesse mit Hive um den Faktor Effizientere Verwendung von HBase durch SQL-Frontend SHS VIVEON Seite 32 16

17 Eine Reihe von BI-Herstellern arbeiten mit Impala, und es werden immer mehr. SHS VIVEON Seite 33 Referenzkunden für Impala SHS VIVEON Quelle: Justin Erckson, Cloudera Seite 34 17

18 Dimensionierung eines Impala-Clusters Hardwarebeispiel für Impala Server mit Xeon E5 CPU, 4 Cores 8 Festplatten à 2 TB 128 GB RAM 4000 / Knoten inkl. MWSt Performance pro Knoten (ca.): Full Table Scan Performance für CSV-Dateien: 500 MB / s (5 Mio. Zeilen / s bei 100 Byte/Zeile) Bei Daten im Cache: 2 GB/s oder 20 Mio. Zeilen/s oder 1,6 Mrd. Zeilen/min.) Scanperformance bei Parquet-Dateien (2 von n Spalten abgefragt): ca. 20 Mio. Zeilen / s oder 1,8 Mrd. Zeilen/min Beispielfragen zur Dimensionierung: 1. Wie viele Knoten braucht man, um von einer Tabelle mit 10 Mrd. Zeilen (Parquet) zwei Spalten in etwa einer Minute analysieren zu können? 6 Knoten 2. Was kostet dieser Cluster etwa? Mrd. SHS VIVEON Image Source: cloudera Seite 35 Impala: Live Demo SHS VIVEON Image Source: cloudera Seite 36 18

19 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 37 Storm entstand 2011 als Streaming-Variante von MapReduce Entstanden als Streaming-Variante von MapReduce Autor Nathan Marz und sein Team bei BackType Erste Version (0.5.0) , aktuelle Version OpenSource, nachdem das Projekt von Twitter übernommen wurde Seit 2013 im Apache incubator program Heute zahlreiche Anwender SHS VIVEON Seite 38 19

20 Storm erlaubt eine parallele Verarbeitung von kontinuierlichen Datenströmen (Streams) Datenquellen (z.b.): Logfiles, Twitter-Streams, Netzwerk-Ports, Applikationen, Nachrichten, Börsenkurse, Transaktionen ) Stream-Verarbeitung Storm-Prozess läuft so lange, bis man ihn beendet (Es gibt kein Dateiende) Latenz im Millisekundenbereich Datensenken (z.b.): Applikationen, NoSQL- und SQL-Datenbanken, Hadoop Programmiersprachen Implementiert in Clojure und Java API primär für Java Adapter für Ruby, Python und Fancy SHS VIVEON Seite 39 In Storm laufen die Daten von einer Datenquelle durch ein Netzwerk Spouts und Bolts einer Datensenke. Spout: Datenquelle Bolt: Datenverarbeitung Topologie: ein Storm-Workflow SHS VIVEON Bildquelle: jansipke.nl Seite 40 20

21 Storm-Daten bestehen aus einem Stream von Tupeln. (2563, Müller, true), (6376, Meyer, true ), (1276, Schulze, false), Unterstützte Datentypen: Alle primitiven Java-Datentypen (int, char, usw.) String Byte-Arrays Used Defined Types SHS VIVEON Seite 41 Vom Anwender müssen einige Methoden der Spouts und Bolts überschrieben werden, um sie mit Leben zu füllen Spout open() initialisiere Spout nexttuple() liefere ein Tupel declareoutputfields() Definiere das Format der Tupel Bolt prepare() Initialisiere Spout execute() Verarbeite ein Tupel declareoutputfields() Definiere das Format der Tupel SHS VIVEON Seite 42 21

22 Ähnlich wie bei MapReduce gibt es einen Master-Knoten und viele Slave-Knoten, die die Arbeit erledigen. vgl. Jobtracker vgl. Tasktracker SHS VIVEON Bildquelle: jansipke.nl Seite 43 Jeder Knoten der Topologie wird durch mehrere parallele Tasks realisiert (hier farblich gekennzeichnet). Beispiel-Taskstruktur auf einem Knoten Beispiel-Topologie Bildquelle: jansipke.nl SHS VIVEON Seite 44 22

23 Datenquellen und Senken werden über ein Queuing-System (z.b. Apache Kafka) angebunden Quellsystem Kafka Storm Kafka Zielsystem Quelle: SHS VIVEON Seite 45 Das Design von Storm ist auf Zuverlässigkeit und Performance ausgelegt. Zwei alternative Zuverlässigkeitsmodi: At least once-semantik: Storm verfolgt den Weg eines jeden Tupels durch die Topologie. Schlägt die Verarbeitung eines Tupels fehl ( fail ) oder erfolgt die Verarbeitung nicht zeitnah ( timeout ), so wird es erneut verarbeitet. Exactly once-semantik (Trident-Implementierung, etwas langsamer) Wie oben, aber es wird sichergestellt, dass am Ende keine mehrfache Ausgabe von Daten passieren kann. Performance: Ein Storm-Cluster kann bis zu 1 Mio. Tupel pro Sekunde pro Knoten verarbeiten! (2 x Intel Xeon GHz, 24 GB RAM) SHS VIVEON Seite 46 23

24 Anwendungsfälle für Storm SHS VIVEON Bildquelle: Hortonworks Seite 47 Twitter ist der prominenteste Anwender von Storm, und es gibt viele weitere. Produkt: Twitter Publisher Analytics Analysiert jeden Tweet und jeden Click der auf Twitter passiert Schnittstellen zu Cassandra, Kestrel, und Mesos. Auf der PoweredBy-Seite von Storm sind 56 Unternehmen aufgeführt, die Storm verwenden! SHS VIVEON Seite 48 24

25 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 49 Spark wurde als bessere Alternative zum MapReduce-Framework von der University of California entwickelt. MapReduce Spark Batch Support ja ja Jobs laufen bei Hardwareausfall weiter ja ja Latenz pro Job ca. 15 Sekunden ca Sekunden Struktur Map - Shuffle - Reduce flexibel / beliebige DAGs Programmiersprachen Java Java, Scala, Python Datenübergabe von Task zu Task ohne Zwischenspeicherung auf Disk nein ja In-Memory-Support (Cached Objects) nein ja Interaktive Shell nein ja Skripting-Support nein ja Streaming-Support nein ja Coding-Aufwand für WordCount ca. 50 Zeilen 3 Zeilen (bei Scala) SQL-Support ja (Hive) ja (Spark SQL und Shark) SHS VIVEON Seite 50 25

26 Das grundlegende Konzept von Spark: Resilient Distributed Dataset (RDD) Bedeutung des Begriffs RDD Resilient = beständig, ausfallsicher, elastisch Distributed = Im Cluster verteilt, parallel verarbeitet, nutzt Lokalität der Daten Dataset = Mengenwertiges Objekt (Vektor, Matrix, Tabelle, HashMap usw.) Ein RDD entsteht aus grobgranularen Datenquellen, z.b. HDFS-Dateien HBase-Tabellen Amazon-S3-Tabellen durch Anwendung von Transformationen aus anderen RDDs Ein RDD besteht aus Partitionen Abhängigkeiten zu anderen RDDs ( parent RDDs ) Funktion zur Berechnung aus den parent RDDs Metadaten zur Partitionierung und zur Verteilung der Daten auf Knoten SHS VIVEON Seite 51 RDDs sind eine ausfallsichere In-Memory-Technologie. 3 Arten der Speicherung (Entscheidung des Programmierers!) Platz sparend auf Festplatte (serialized on disk) Platz sparend im Hauptspeicher (serialized in memory) performanceoptimiert im Hauptspeicher (deserialized in memory) Die Ausfallsicherheit entsteht durch Verteilte Speicherung der Eingabedaten im Cluster Keine Zulassung von Veränderungen (immutable state) Jedes RDD weiß, wie es aus seinen Quellen neu berechnet werden kann Im Fall von verlorene Partitionen eines RDD Automatische Neuberechnung aus den Eingabedaten bzw. den datenliefernden RDDs Im Fall von langsamen Knoten (stragglers): Neustart des Tasks auf einem anderen Knoten (wie bei MapReduce) Im Fall von Hauptspeicher-Knappheit: Verwendung der Festplatte (spill-to-disk) Die Ausfallsicherheit entsteht nicht (wie bei MapReduce) durch eine Speicherung aller Zwischenergebnisse auf Festplatte! SHS VIVEON Seite 52 26

27 Komplexe Datentransformationen werden in mehreren Stages ausgeführt, die durch Shuffle-Vorgänge abgegrenzt sind. SHS VIVEON Image Source: University of California, Berkeley Seite 53 Das Angebot an parallel ausführbaren Operationen ist bei Spark größer als beim MapReduce-Framework, das nur map() und reduce() bietet. SHS VIVEON Image Source: University of California, Berkeley Seite 54 27

28 Performance von Spark im Vergleich zu Hadoop (=MapReduce): Iterative analytische Anwendungen auf 100 GB Daten Logistische Regression K-Means HadoopBinMem = SequentialFiles auf In-Memory-HDFS SHS VIVEON Image Source: University of California, Berkeley Seite 55 Spark ist in Scala geschrieben und besitzt vergleichbare APIs für Java, Scala und Python Java Scala Python Ausführung Skriptsprache /interaktiv Statische Typisierung Code als Methoden- Parameter (=Closure) Java Virtual Machine Java Virtual Machine interpretiert nein ja ja ja ja nein erst ab Java 8 ja ja SHS VIVEON Seite 56 28

29 Auf Basis der Spark-Engine existieren bereits mehrere Tools für verschiedene Workload-Typen! Spark (Batch Processing) Spark GraphX (Graph Processing) Shark (SQL queries) Spark Streaming (Micro Batches) Spark MLlib (Machine Learning) Spark Engine Distributed Processing / In-Memory-Processing Platform Fünf verschiedene Workload-Typen auf der gleichen Engine: Wiederverwendung von Code weniger Tools zu lernen und zu betreiben bessere Interoperabilität SHS VIVEON Seite 57 Spark Streaming arbeitet mit sog. Distributed Streams (DStream). lines DStream the quick brown fox jumped over the lazy dog flatmap(split) the jumped quick brown fox over the lazy dog word- Counts DStream brown,1 dog,1 fox,1 lazy,1 over,1 quick,1 jumped,1 the,2 reducebykey map the,1 quick,1 brown,1 fox,1 jumped,1 over,1 the,1 lazy,1 dog,1 Scala code: wordcounts = lines.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b) Die Verarbeitung von Streams funktioniert nicht mit Endlosschleifen, sondern mit (DStream-)Objekten, die alle Aufrufe aus der Datenquelle automatisch weiterreichen. Die Methoden split, flatmap, map und reducebykey werden demnach nur einmal aufgerufen, und dann steht eine Objektstruktur, die den Datenstrom verarbeitet, ohne sich selbst zu verändern. SHS VIVEON Seite 58 29

30 Anwendungsfälle für Spark (1) Batch-Verarbeitungsprozesse aller Art (Ersatz für MapReduce), z.b. Parsen von Webseiten Analyse von natürlicher Sprache Text-, Noten-, Bild- und Video-Erkennung Stream Processing (Ersatz für Storm), z.b. Kontinuierliche Verarbeitung der Logdateien von Servern oder Anwendungen Verarbeitung von Twitter-Streams Kontinuierliche Analyse von Kundenaktivitäten auf Webseiten Kontinuierliche Berechnung von Empfehlungen für Kunden Echtzeitvergleich mit den Daten des Vortages Gleitende Summe von Transaktionen über die letzten 10 Minuten im Sekundentakt Low-Latency SQL auf großen Datenmengen Vorjahresvergleich auf Basis von Tagen/Produkten/Channels usw. Zeitreihen Reports SHS VIVEON Seite 59 2-Wege-Verarbeitung: Batch und Streaming mit gleichem Code (Lambda- Architektur) Anwendungsfälle für Spark (2) Machine Learning (Ersatz für Mahout) Erstellung von Prognose- oder Risiko-Modellen (Data Mining) Collaborative Filtering / Recommendations Clustering, Classification Lineare und logistische Regression Graph Processing (Ersatz für Giraph) Social Network Analysis Simulation von Rechner- oder Telekommunikationsnetzwerken Simulation von Verkehrsströmen Routenplanung, Routenoptimierung Linguistische Analysen SHS VIVEON Seite 60 30

31 Anwender von Spark Yahoo Individuell personalisierte Nachrichten-Webseiten (Empfehlungen, Kategorisierung neuer Artikel) Ablösung der bisherigen Lösung ( Zeilen C++) durch 120 Zeilen Scala Interaktive Analysen für Werbung mit Tableau mit Shark (Ablösung von Hive) Conviva (zweitgrößter Video-Streaming-Anbieter nach YouTube) Auslieferung von 4 Milliarden Videos pro Monat ohne Screen Buffering Echtzeit-Monitoring der Netzwerk-Performance mit Spark Streaming ClearStory Analyse-Software zur Verknüpfung interner Daten mit externen Datenströmen (social media, public data feeds) Quantifind Predictive Analytics und Text Mining auf Social Media-Daten für Marketing-Zwecke SHS VIVEON Seite 61 Spark: Live-Demo SHS VIVEON Seite 62 31

32 Inhalt 1. Big-Data-Anwendungsfälle 2. Einführung in die Hadoop-Plattform 3. Low-Latency-Engines Impala Storm Spark Elasticsearch 4. Low-Latency-Architektur 5. Low-Latency-Anwendungen 6. Fazit SHS VIVEON Seite 63 ElasticSearch entstand als verteilte Neuimplementierung der Single-Server-Suchtechnologie Compass Entstehung von ElasticSearch Autor von Compass und ElasticSearch: Shay Banon Erste Version von ElasticSearch: Februar 2010 Open Source Heute zahlreiche Anwender und ca Downloads pro Monat Leicht integrierbares Zubehör : Logstash: System zur Verarbeitung und Transformation von Logfiles Kibana: HTML-Oberfläche zur graphischen Visualisierung ElasticSearch + Logstash + Kibana = ELK SHS VIVEON Image Source: cloudera Seite 64 32

33 ElasticSearch bietet eine Suchfunktionalität ähnlich wie Google auf Basis eines Lucene-Index SHS VIVEON Image Source: Kevin Kluge Seite 65 Das Design wurde von Vornherein auf einfache Verwendung und Skalierbarkeit optimiert. Design von ElasticSearch Möglichst einfach zero installation : Herunterladen, auspacken, starten zero configuration : Vernünftige Defaulteinstellungen für den Start default cluster : Mehrere Installationen im gleichen Netz verbinden sich defaultmäßig zu einem Cluster namens ElasticSearch Schemafrei Dokumente können sofort geladen werden (JSON-Format) Performant, horizontal skalierbar Verwendet performante Lucene-Indizes, die Dokumente nach Wörtern indiziert speichern Cluster kann beliebig erweitert werden Ausfallsicher Peer-to-peer-Architektur ohne single point of failure Open Source Apache License 2.0 SHS VIVEON Image Source: cloudera Seite 66 33

34 Die Indizierungs- und Abfrageprozesse von ElasticSearch sind parallel ausgelegt, laufen also auf einem Cluster. Dokument Dokumente Dokument Suchergebnis Indizierung Indizierungs- Prozesse Abfrage Abfrageprozesse Elastic- Search Lucene Index Lucene Index Lucene Index SHS VIVEON Image Source: cloudera Seite 67 Die Dokumente werden in einem invertierten Index gespeichert, über den man sie über die enthaltenen Worte schnell finden kann. Das wievielte Wort im Dokument? SHS VIVEON Image Source: Erik Rose Seite 68 34

35 Um nach row boat zu suchen, schaut man die Positionen der gesuchten Wörter in den enthaltenden Dokumenten an. Man sieht schon am Index, dass row boat in doc 1 an den Positionen 2 und 3 steht: => doc 1 ist ein Treffer! SHS VIVEON Image Source: Erik Rose Seite 69 Um auch unscharfe Suchen zu ermöglichen, werden die Wörter normalisiert. original: Red-orange gerbils live at #43A Franklin St. whitespace: Red-orange, gerbils, live, at, #43A, Franklin, St. standard: red, orange, gerbis, live, at, 43a, franklin, st simple: red, orange, gerblis, live, at, a, franklin, st stop: red, orange, gerblis, live, franklin, st snowball: red, orang, gerbil, live, 43a, franklin, st stopwords stemming punctuation case-folding SHS VIVEON Image Source: cloudera Seite 70 35

36 ElasticSearch erlaubt auch die Definition von Synonymen, die dann automatisch mit gesucht werden. filter : { synonym : { type : synonym, synonyms : [ johann => johann, joe, josef => josef, joe ] } } Original-Suche: Nach Anwendung Synoynyme: Original-Suche: Nach Anwendung Synonyme: Johann Schmidt [johann, joe] schmidt Josef Smith [josef, joe] schmidt SHS VIVEON Image Source: cloudera Seite 71 Das Indizieren und Löschen von Dokumenten sowie komplexere Abfragen erfolgen über eine REST-Schnittstelle CREATE DELETE GET UPDATE ElasticSearch ist als key-value-datenbank verwendbar! SHS VIVEON Image Source: Kevin Kluge Seite 72 36

37 ElasticSearch bietet sowohl unscharfe Abfragen als auch exakte Filter Abfrage (Query) Filter Ergebnis unscharf exakt Scoring-Verfahren Treffer oder kein Treffer Performance langsamer schnell Caching möglich nein ja Logische Verknüpfungen ja ja möglich SHS VIVEON Seite 73 Unscharfe Abfrage: Finde Dokumente mit dem Text elasticsearch Kommandozeile: Suchergebnis von ElasticSearch: SHS VIVEON Image Source: Kevin Kluge Seite 74 37

38 Exakter Filter: Suche Dokumente mit dem Text To Be Or Not To Be mit einem Preis zwischen $20 und 50 Kommandozeile: SHS VIVEON Seite 75 Das Default-Scoring-Verfahren bei unscharfer Suche Folgende Kriterien gehen in den Score ein: Wichtigkeit des Dokuments document boost (Parameter beim Indizieren) Wichtigkeit der gesuchten Terme für das Dokument field boost (Parameter beim Suchen) TF/IDF (Statistische Wichtigkeit eines Terms in einem Dokument TF (term frequency): Häufigkeit des Terms im Dokument IDF (inverse document frequency): Seltenheit des Terms im Gesamt-Korpus Feldlänge Funde in kurzen JSON-Feldern werden höher gewichtet Für die genaue Formel siehe SHS VIVEON Image Source: cloudera Seite 76 38

39 Zur Extraktion von Metadaten und Text aus diversen Dokumenttypen verwendet ElasticSearch das OpenSource-Paket Tika Unterstützte Dateitypen HTML PDF MP3 FLV XML EPUB MIDI CLASS XHTML OOXML ODF OLE2 RTF TXT RSS ATOM FLAC MP4 JPG TIFF MBOX CAD TTF EXE Details siehe SHS VIVEON Image Source: cloudera Seite 77 Percolator: Zu einem Dokument passende Abfragen suchen Beim Percolator-API sind Abfragen und Dokumente vertauscht (beides ist JSON!) Query-API: Abfrage + gespeicherte Dokumente = Liste von passenden Dokumenten Percolator-API: Dokument + gespeicherte Abfragen = Liste von passenden Abfragen Anwendungsmöglichkeiten: Benachrichtigung über Preisänderungen Erkennung von Betrug Überwachen der Einhaltung von Regeln für Dokumente Erkennen von Datenqualitätsmängeln oder anderen Ausreißern Bestimmte Dokumente abonnieren Ähnlichkeit zu Triggern bei Datenbanken! SHS VIVEON Seite 78 39

40 Logstash gehört zur ElasticSearch-Familie und ist ein mächtiges verteiltes System zur Aufbereitung von Logfiles Beispiele für Logfiles: Server Logs Twitter Streams Transaktionen Monitoring-Daten Datenquellen für Logstash: Log4j, Syslog, Twitter, File, Stdin, Elasticsearch, Redis, IMAP, TCP, UDP, Filterfunktionen zur Aufbereitung: Regexp, grok, csv, multiline, anonymize, date, json, geoip, urldecode, useragent, Datensenken: CSV, File, Pipe, stdout, Elasticsearch, Redis, RabbitMQ, , http, tcp, udp, syslog, SHS VIVEON Image Source: Kevin Kluge Seite 79 Logstash-Anwendungsbeispiel mit grok Logstash-Konfiguration input { stdin {} } filter { grok { match => [ "message", "%{WORD:firstname} %{WORD:lastname} %{NUMBER:age}" ] } } output { stdout { debug => true } } Eingabe (Text) Henrik Behrens 40 Ausgabe von Logstash (JSON) { } "message" => "Henrik Behrens 40", => "1", => " T16:56:02.502Z", "host" => "myserver.domain.com", "firstname" => "Henrik", "lastname" => "Behrens", "age" => 40" SHS VIVEON Image Source: Kevin Kluge Seite 80 40

41 Mit Kibana bietet ElasticSearch den Anwendern die Möglichkeit, attraktive Realtime-Dashboards für ElasticSearch-Daten zu entwerfen. SHS VIVEON Image Source: elasticsearch.org Seite 81 Anwendungsfälle für ElasticSearch Überwachung aller Logfiles einer Server-Infrastruktur Analyse von Ursache-Wirkungsketten bei Fehlern Performance-Analyse Monitoring des Kundenverhaltens bei E-Commerce-Shops, Mobile Apps usw. Verwendung der Features Analyse des Lastverhaltens Realisierung von Abrechnungsmodellen Verwaltung großer Dokumentenbestände Änderungen in Echtzeit Performance Suchverfahren und Visualisierungen Erkennung von Besonderheiten / Data Mining Geographische Anomalien Ursachenanalyse Klassifizierung und Erkennung von falschen Klassifizierungen Erkennung von Kreditkartenbetrug Produktempfehlungen SHS VIVEON Seite 82 41

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH

Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Suchmaschinen Elasticsearch BI-Stack mit Elasticsearch Use Cases Pharmabranche 2 Funktionen

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Cassandra Query Language (CQL)

Cassandra Query Language (CQL) Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Suchmaschinen mit Lucene und SEMS

Suchmaschinen mit Lucene und SEMS Suchmaschinen mit Lucene und SEMS lizenzfrei it consulting gmbh rainer dollinger dollinger@lizenzfrei.at www.lizenzfrei.at Vorstellung Unsere Schwerpunkte Beratung Umsetzung (z.b. Nagios, Lucene, Typo3)

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Zentralisiertes Log Management

Zentralisiertes Log Management Zentralisiertes Log Management Ein Erfahrungsbericht Michael Mimo Moratti mimo@mimo.ch Michael Mimo Moratti 2015 Wer bin ich Michael Mimo Moratti, mimo@mimo.ch, jmimo on Github Java, C, C++, Python, Lua,

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics Vorstellung IBM Cognos 10.2 Oliver Linder Client Technical Professional Business Analytics Agenda IBM Cognos 10.2 Architektur User Interfaces IBM Cognos Workspace IBM Cognos Workspace Advanced IBM Cognos

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

Erste Schritte, um selber ConfigMgr Reports zu erstellen

Erste Schritte, um selber ConfigMgr Reports zu erstellen Thomas Kurth CONSULTANT/ MCSE Netree AG thomas.kurth@netree.ch netecm.ch/blog @ ThomasKurth_CH Erste Schritte, um selber ConfigMgr Reports zu erstellen Configuration Manager Ziel Jeder soll nach dieser

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Alternativen zur OpenText Suche 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Übersicht Allgemeines zur Suche Die OpenText Common Search Indexierung ohne DeliveryServer

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI Hanau, 25.02.2015 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Der Aufbau der Group BI Plattform

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Big Data für die Internet Sicherheit

Big Data für die Internet Sicherheit Big Data für die Internet Sicherheit Ralph Kemperdick Hans Wieser Microsoft 1 Mobile-first Data-driven Cloud-first 2 2 3 Messenger Wi nd ow s Liv e 4 5 Anwendung: Das Microsoft Cybercrime Center 6 Betrug

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 OSC Smart Integration GmbH SAP Business One GOLD-Partner in Norddeutschland GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 SAP Business One v.9.0 Heiko Szendeleit AGENDA OSC-SI 2013 / SAP Business One

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Nuremberg, 2013-04-17. The Truth is in the Logs

Nuremberg, 2013-04-17. The Truth is in the Logs Nuremberg, 2013-04-17 The Truth is in the Logs Jan Doberstein #OSS #bash #vi Capgemini Outsourcing Services Infrastructur Engineer wer-kennt-wen.de GmbH System Operator Linux 1blu AG System Engineer (Shared

Mehr

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch Dr. Halil-Cem Gürsoy halil-cem.guersoy@adesso.de www.adesso.de ...über mich 15 Jahre Entwicklung und Beratung 'Software Architect' bei adesso AG, Dortmund

Mehr

Event Stream Processing & Complex Event Processing. Dirk Bade

Event Stream Processing & Complex Event Processing. Dirk Bade Event Stream Processing & Complex Event Processing Dirk Bade Die Folien sind angelehnt an eine Präsentation der Orientation in Objects GmbH, 2009 Motivation Business Activity Monitoring Sammlung, Analyse

Mehr

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Stratosphere. Next-Generation Big Data Analytics Made in Germany Stratosphere Next-Generation Big Data Analytics Made in Germany Robert Metzger Stratosphere Core Developer Technische Universität Berlin Ronald Fromm Head of Big Data Science Telekom Innovation Laboratories

Mehr

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012

Suchen und Finden mit Lucene und Solr. Florian Hopf 04.07.2012 Suchen und Finden mit Lucene und Solr Florian Hopf 04.07.2012 http://techcrunch.com/2010/08/04/schmidt-data/ Suche Go Suche Go Ergebnis 1 In Ergebnis 1 taucht der Suchbegriff auf... Ergebnis 2 In Ergebnis

Mehr

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle 10g revolutioniert Business Intelligence & Warehouse 10g revolutioniert Business Intelligence & Warehouse Marcus Bender Strategisch Technische Unterstützung (STU) Hamburg 1-1 BI&W Market Trends DWH werden zu VLDW Weniger Systeme, mehr Daten DWH werden konsolidiert

Mehr

MySQL Queries on "Nmap Results"

MySQL Queries on Nmap Results MySQL Queries on "Nmap Results" SQL Abfragen auf Nmap Ergebnisse Ivan Bütler 31. August 2009 Wer den Portscanner "NMAP" häufig benutzt weiss, dass die Auswertung von grossen Scans mit vielen C- oder sogar

Mehr

EXASolution als Bestandteil einer BI / DWH- und Kampagnenmanagementlandschaft Ein Erfahrungsbericht aus der Praxis

EXASolution als Bestandteil einer BI / DWH- und Kampagnenmanagementlandschaft Ein Erfahrungsbericht aus der Praxis EXASolution als Bestandteil einer BI / DWH- und Kampagnenmanagementlandschaft Ein Erfahrungsbericht aus der Praxis Business Apéro Exasol / SHS VIVEON, Zürich Zürich, 15. November 2011 Dr. Jörg Westermayer

Mehr

Höhere Conversion mehr Umsatz:

Höhere Conversion mehr Umsatz: Höhere Conversion mehr Umsatz: Warum es sich lohnt Ihre Kunden kennen zu lernen München, 25. Februar 2014 Muna Hassaballah Senior Consultant CRM Muna.Hassaballah@SHS-VIVEON.com inkl. Vorstellung zweier

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim

Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Cloud-Computing Seminar Hochschule Mannheim WS0910 1/23 Datenbearbeitung in der Cloud anhand von Apache Hadoop Hochschule Mannheim Tobias Neef Fakultät für Informatik Hochschule Mannheim tobnee@gmail.com

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT Neue Technologien effizient nutzen Ehningen, 3. Juli 2014 Rodney Krick rk@aformatik.de aformatik Training & Consulting GmbH & Co. KG

Mehr

Performance Tuning mit @enterprise

Performance Tuning mit @enterprise @enterprise Kunden-Forum 2005 Performance Tuning mit @enterprise Herbert Groiss Groiss Informatics GmbH, 2005 Inhalt Datenbank RMI JAVA API HTTP Konfiguration Analyse Groiss Informatics GmbH, 2005 2 Datenbank

Mehr

Storage-Trends am LRZ. Dr. Christoph Biardzki

Storage-Trends am LRZ. Dr. Christoph Biardzki Storage-Trends am LRZ Dr. Christoph Biardzki 1 Über das Leibniz-Rechenzentrum (LRZ) Seit 50 Jahren Rechenzentrum der Bayerischen Akademie der Wissenschaften IT-Dienstleister für Münchner Universitäten

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

Big Data in Marketing und IT

Big Data in Marketing und IT Big Data in Marketing und IT Chancen erkennen, Strategien entwickeln und Projekte erfolgreich umsetzen T-Systems Hacker Day 30. September 2015 Prof. Dr. Alexander Rossmann Reutlingen University Big Data

Mehr

Web Technologien NoSQL Datenbanken

Web Technologien NoSQL Datenbanken Web Technologien NoSQL Datenbanken Univ.-Prof. Dr.-Ing. Wolfgang Maass Chair in Information and Service Systems Department of Law and Economics WS 2011/2012 Wednesdays, 8:00 10:00 a.m. Room HS 021, B4

Mehr

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI

TRACK II Datenmanagement Strategien & Big Data Speicherkonzepte. TRACK I Big Data Analytics & Self Service BI 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015

Symbiose hybrider Architekturen im Zeitalter digitaler Transformation. Hannover, 18.03.2015 Symbiose hybrider Architekturen im Zeitalter digitaler Transformation Hannover, 18.03.2015 Business Application Research Center (BARC) B (Analystengruppe Europas führendes IT-Analysten- und -Beratungshaus

Mehr

Oracle EngineeredSystems

Oracle EngineeredSystems Oracle EngineeredSystems Überblick was es alles gibt Themenübersicht Überblick über die Engineered Systems von Oracle Was gibt es und was ist der Einsatzzweck? Wann machen diese Systeme Sinn? Limitationen

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Schritt für Schritt in das automatisierte Rechenzentrum Converged Management Michael Dornheim Mein Profil Regional Blade Server Category Manager Einführung Marktentnahme Marktreife Bitte hier eigenes Foto

Mehr

CAViT - Kurzvorstellung

CAViT - Kurzvorstellung CAViT - Kurzvorstellung Auswertung von Versuchs- und Simulationsdaten Martin Liebscher, März 2015 Copyright SCALE GmbH; Disclosure to third parties only in consultation with SCALE Einordnung / Motivation

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Andreas Emhart Geschäftsführer Alegri International Group

Andreas Emhart Geschäftsführer Alegri International Group Andreas Emhart Geschäftsführer Alegri International Group Agenda Vorstellung Alegri International Überblick Microsoft Business Intelligence Sharepoint Standard Business Intelligence Tool Excel Service

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

EHCache und Terracotta. Jochen Wiedmann, Software AG

EHCache und Terracotta. Jochen Wiedmann, Software AG EH und Terracotta Jochen Wiedmann, Software AG Autor Perl-Contributor DBD::mySQL 2, DBI::Proxy, DBI::Shell, DBD::CSV, Net::Daemon, RPC::Pl(Client Server) (Autor) DBI (Developer) ASF-Member (Apache Software

Mehr

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221

Oracle 10g und SQL Server 2005 ein Vergleich. Thomas Wächtler 39221 Oracle 10g und SQL Server 2005 ein Vergleich Thomas Wächtler 39221 Inhalt 1. Einführung 2. Architektur SQL Server 2005 1. SQLOS 2. Relational Engine 3. Protocol Layer 3. Services 1. Replication 2. Reporting

Mehr

Cloud-Provider im Vergleich. Markus Knittig @mknittig

Cloud-Provider im Vergleich. Markus Knittig @mknittig Cloud-Provider im Vergleich Markus Knittig @mknittig As Amazon accumulated more and more services, the productivity levels in producing innovation and value were dropping primarily because the engineers

Mehr

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag

SAP HANA ist schnell erklärt. TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag SAP HANA ist schnell erklärt TOBA Trainerwochenende vom 09. - 12. Mai 2013 in Prag Ihr Referent Steckbrief Name: Miroslav Antolovic Jahrgang: 1975 Stationen: SAP, Walldorf 1999-2004 Realtech, Walldorf

Mehr

Groovy und CouchDB. Ein traumhaftes Paar. Thomas Westphal

Groovy und CouchDB. Ein traumhaftes Paar. Thomas Westphal Groovy und CouchDB Ein traumhaftes Paar Thomas Westphal 18.04.2011 Herzlich Willkommen Thomas Westphal Software Engineer @ adesso AG Projekte, Beratung, Schulung www.adesso.de thomas.westphal@adesso.de

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Analyse und Auswertung großer heterogener Datenmengen

Analyse und Auswertung großer heterogener Datenmengen Analyse und Auswertung großer heterogener Datenmengen Herausforderungen für die IT-Infrastruktur Richard Göbel Inhalt Big Data Was ist das eigentlich? Was nützt mir das? Wie lassen sich solche großen Datenmengen

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Spark das neue MapReduce?

Spark das neue MapReduce? Spark das neue MapReduce? Oracle Data Warehouse Konferenz 2015 Carsten Herbe Business Intelligence Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden Mensch und IT Themenbereiche

Mehr

In.Memory im SQL Server 2014 im Vergleich mit SAP Hana im Praxistest

In.Memory im SQL Server 2014 im Vergleich mit SAP Hana im Praxistest In.Memory im SQL Server 2014 im Vergleich mit SAP Hana im Praxistest Synopsis Darmstadt 13.-14.05.2014 Guido Jacobs, Microsoft Tobias Maier & Dr. Benjamin Kettner, ixto GmbH Microsoft SQL Server 2014 //

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch WANN REDEN WIR VON BIG DATA SCIENCE? Big Data ist der technische Teil von Big Data Science. Mehr Daten! Mehr Datenquellen(-änderungen)!

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND

NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND NOCTUA by init.at DAS FLEXIBLE MONITORING WEBFRONTEND init.at informationstechnologie GmbH - Tannhäuserplatz 2 - A-1150 Wien - www.init.at Dieses Dokument und alle Teile von ihm bilden ein geistiges Eigentum

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr