Low-Latency-Anwendungen mit Hadoop

Größe: px
Ab Seite anzeigen:

Download "Low-Latency-Anwendungen mit Hadoop"

Transkript

1 Low-Latency-Anwendungen mit Hadoop TDWI-Konferenz 2014 München, 24. Juni 2014 Dr. Henrik Behrens Principal Big Data Analytics Business Unit DWH/BI & Big Data Marcus Held Senior Manager Business Unit DWH/BI & Big Data SHS VIVEON Gruppe: Überblick Facts & Figures (Stand 2013) Geschäftsbereiche Geschäftsmodelle und Servicearten VALUE 7,2 Mio. Umsatz (GJ 2013) Business- und IT-Beratungsdienstleistungen; Professional Services, Managed Services SHS VIVEON GRUPPE Umsatz: 24,5 Mio., EK-Quote: 56,4% IT-SOLUTIONS 5,4 Mio. EUR (GJ 2013) RISK 11,8 Mio. Umsatz (GJ 2013) Integrationsdienstleistungen inkl. Betrieb v. Anwendungen; Lizenz, Wartung, ASP/Cloud, product related Professional Services Umfangreiche IT-Expertise zur Unterstützung unserer Kunden und Projekte Zielbranchen Finanzdienst- Industrie & Retail & Telekommunikation leistungen Handel (B2B) ecommerce (B2C) & Medien Kunden (Auszug) SHS VIVEON Seite 2 1

2 Customer Risk Customer Value Unsere Lösungspakete entlang des Kundenlebenszyklus Neukundengewinnung Kundenlebenszyklus Kundenbindung und -entwicklung Kundenrückgewinnung Kampagnenmanagement und Kampagnenoptimierung Lead Sales Management Loyality Management Cross- / Up-Selling Churn Prevention Reactivation & Winback Servicemanagement Zeit Antragsmanagement, Bonitätsbewertung Fraud Management Limit / Credit Management Decision Engines Realtime Decisioning Campaign Management Multichannel Management Customer Analytics Data Mining Scorecard Development Decision Support Big Data Data Warehousing Data Integration Information Management Business Intelligence Forderungsmanagement Inkassomanagement SHS VIVEON Seite 3 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 4 2

3 Big Data Hype SHS VIVEON Seite 5 Was bedeutet Big Data? Alle benötigten Daten erfassen. Die Daten dorthin transportieren, wo sie benötigt werden. Die Daten auswerten und visualisieren. Die richtigen Fragen stellen. SHS VIVEON Seite 6 3

4 Was bedeutet Big Data aber auch? Nicht wirklich geschützt Teenage Sex Small Data / Smart Data Erhöhte technische Komplexität Bewegtes technisches Umfeld Keine neuen Antworten ohne entsprechende Fragen Build or Buy Potenzierung klassischer DWH/BI Probleme Kein Wert an sich Big Data ist bei uns kein Thema SHS VIVEON Seite 7 Eigentliche Motivation für Big Data Neue Geschäftsfelder Focus on the Application, Not the Technology (Kaskade, Jim. Strata + Hadoop World 2013) Neue technologische Möglichkeiten Bestehendes Geschäft & Prozesse "We should forget about small efficiencies, say about 97% of the time: premature optimization is the root of all evil." (Knuth, Donald. Structured Programming with go to Statements, ACM Journal Computing Surveys, Vol 6, No. 4, Dec p.268.) SHS VIVEON Seite 8 4

5 Low-Latency Low latency allows human-unnoticeable delays between an input being processed and the corresponding output providing real time characteristics. SHS VIVEON Seite 9 Big Data-Anwendungsfälle Big Data Batch Low Latency strukturiert unstrukturiert Interaktive Abfrage / Suche Echtzeit- Datenintegration strukturiert unstrukturiert strukturiert unstrukturiert SHS VIVEON Seite 10 5

6 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle (Big) Data Batch Low Latency strukturiert ETL Intelligent DWH Archive Predictive Maintenance Energy Prediction Golden Copy Reporting Bondatenanalyse Supply-Chain optimization Predictive Modelling Recommender... unstrukturiert Sentiment Analysis Dokument-Archiv Webscraping Textmining SNA... SHS VIVEON Seite 11 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle Big Data Batch Low Latency Interaktive Abfrage / Suche SHS VIVEON strukturiert Ad Hoc Reporting Olap... unstrukturiert Suche im Web Suche in Social Media-Abzügen Suche in unternehmenseigenen Office- und PDF-Dateien Suche in Katalogen Übersetzung Rechtschreibkorrektur Bildersuche... Seite 12 6

7 Big Data-Anwendungsfälle: Beispielhafte Anwendungsfälle Big Data Batch Low Latency Echtzeit- Datenintegration SHS VIVEON strukturiert Echtzeit-Integration von Operativen Systemen CSV- und Excel-Files Sensordaten strukturierten Logfiles... unstrukturiert Server Logfile Monitoring Social Media Monitoring News Monitoring Market Monitoring Competition Monitoring... Seite 13 Low Latency ist relevant Big Data Batch Low Latency strukturiert unstrukturiert Interaktive Abfrage / Suche Echtzeit- Datenintegration strukturiert Structured Query unstrukturiert Search strukturiert Structured Data Capture unstrukturiert Logfile Monitoring SHS VIVEON Seite 14 7

8 Low Latency - Tools Big Data Batch Low Latency strukturiert Distributed SQL unstrukturiert Sentiment Analysis Tools? SHS VIVEON Seite 15 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 16 8

9 Hadoop Distributed File System Verteiltes Filesystem zur Speicherung von großen Datenvolumen (>=TB) Ziel ist hoher Durchsatz beim Zugriff auf Daten Redundante verteilte Speicherung Ausfallsicherheit Parallel zugreifbare Daten Skalierbar Ursprünglich auf das Map-Reduce Paradigma ausgerichtet Basis für eine große Anzahl von Big-Data-Projekten Eine ganze Reihe von Hadoop Distributionen HDFS+Friends... SHS VIVEON Seite 17 Projekte und Distributionen rund um Hadoop... SHS VIVEON Zentrale Administration, Koordination von verteilten Prozessen Low-Latency-Frameworks, SQL-Aufsätze, Machine Learning, NO-SQL-Datenbanken, ETL-Frameworks, Graph-Algorithmen, Gateway, Programmierparadigmen, Stream-Datenverarbeitung, Tools für Datapipelines,... Seite 18 9

10 Low-Latency-Engines versprechen, die Ressourcen eines ganzen Clusters mit einer Latenz < 2 Sekunden nutzbar zu machen. Auswahl von clusterbasierten Low-Latency-Engines Datenintegration SQL-Queries Streaming Suche SHS VIVEON Seite 19 Wir wollen heute exemplarisch vier Low-Latency-Engines im Detail vorstellen. SHS VIVEON Seite 20 10

11 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 21 Vorbemerkung: Impala dient hier als Beispiel für eine Klasse von Query-Engines, die SQL parallel auf einem Hadoop-Cluster ausführen. IBM Big SQL Ein Vergleich dieser Produkte ist nicht Inhalt dieses Vortrags. SHS VIVEON Image Source: cloudera Seite 22 11

12 Impala entstand 2012 inspiriert durch Google Dremel, unter der Leitung von Cloudera Google Dremel (veröffentlicht 2010) erlaubt interaktive Analysen auf Terabytegroßen Datenmengen in wenigen Sekunden! hat bei Google über 1000 Anwender! Status quo für SQL in Hadoop damals: Hive hohe Latenz, bedingt durch JVM-Starts und häufiges Schreiben auf Disk Mehrere MapReduce-Vorgänge bei Joins -> für interaktive Analysen nicht gut geeignet Anforderungen für Impala: Latenz im Subsekundenbereich! Optimaler Durchsatz (alle Platten an allen Nodes optimal auslasten) Niedrige CPU-Belastung Schnelle Joins Hochoptimiert (Kompression, Spaltenorientierung, usw.) SHS VIVEON Image Source: cloudera Seite 23 Impala teilt die Metadaten mit Hive, funktioniert sonst aber unabhängig von Hive und unabhängig von MapReduce SHS VIVEON Image Source: cloudera Seite 24 12

13 Die SQL-Queries werden auf allen Hadoop-Knoten parallel von Impala-Dienstprozessen ausgeführt, die queryübergreifend laufen. SHS VIVEON Image Source: cloudera Seite 25 Queries werden von Impala in einen Low Level-VM-Code übersetzt, der 3 mal so performant läuft wie ein Interpreter ohne Codegenerator. SHS VIVEON Image Source: cloudera Seite 26 13

14 Hinzu kommen noch drei Features zur Performancesteigerung Lokale Daten werden am DataNode-Protokoll vorbei direkt von der Platte gelesen (> 100 MB/s pro Disk) ( short-circuit-read ) Daten im HDFS-Cache werden ohne Umkopieren verarbeitet mit der Geschwindigkeit des Memory-Bus (> 1 GB/s pro Knoten) ( HDFS-Caching ) Joins werden effizient als HashJoins ausgeführt (dazu werden die benötigten Spalten der zu joinenden Tabelle in den Hauptspeicher geladen) SHS VIVEON Seite und eine spaltenbasiertes Speicherformat zur Optimierung von analytischen Workloads: Parquet Vorbild: Das Column IO-Format von Dremel Erheblicher Performancevorteil, wenn nicht alle Spalten einer Tabelle gelesen werden müssen. spaltenweise ist eine bessere Kompression möglich. Eingebaute Spalten-Statistiken (ab Parquet Version 2.0) SHS VIVEON Image Source: Google Seite 28 14

15 Der Performancevorteil von Impala gegenüber Hive ist dadurch erheblich. SHS VIVEON Image Source: cloudera Seite 29 Der Funktionalität von Impala umfasst analytische Abfragen und (mit niedrigerer Priorität) auch ETL (Beladung von Tabellen). Ganze Tabellen/Partitionen beladen CREATE TABLE AS SELECT... ALTER TABLE DROP COLUMN / ADD COLUMNS TRUNCATE TABLE INSERT INTO TABLE SELECT Auch Updates und spaltenweise Beladung möglich (bei Speicherung in HBase) INSERT INTO (Schlüssel, Wert) SELECT Schlüssel, Wert FROM -> Wenn die Tabelle in HBase liegt, werden vorhandene Werte automatisch überschrieben! Weitere Features DATABASE, PARTITION, VIEW, FUNCTION, UDF, UDAF, EXPLAIN, DESCRIBE, REGEXP Derzeit 10 Datentypen SHS VIVEON Seite 30 15

16 Auf der Roadmap stehen interessante Erweiterungen Impala 1.4 (Q3 2014) Datentyp Decimal Impala 2.0 (2014) Analytic window functions: <function>() OVER (PARTITION BY ORDER BY ) Unterstützung von geschachtelten Datentypen (struct, array, map) -> kann den Bedarf an Joins reduzieren! User Defined Table Functions Disk based joins and aggregation Subqueries and EXISTS Set operators (INTERSECT, MINUS) Impala > 2.0 Weitere Informationen unter SHS VIVEON Seite 31 Typische Motivationen zum Einsatz von Impala Kosten sparen durch Auslagern von Altdaten des DWH nach Impala (DWH-Archiv) Reduktion der Kosten für die Datenhaltung um den Faktor 5-10 gegenüber kommerziellem DBMS Daten bleiben auswertbar, auch mit BI-Werkzeugen Performancesteigerung durch Verlagerung einzelner Datamarts nach Impala Steigerung der Performance um den Faktor 5-10 ohne Kostensteigerung gegenüber kommerziellem DBMS oder Hive Kostenvermeidung durch Vorverarbeitung von umfangreichen Datenquellen, z.b. Clickstreams, Logdateien (Filterung, Aggregation) Vermeidung von ansonsten fälligen Aufrüstungen bei DWH- Datenbanken Beschleunigung existierender Prozesse mit Hive um den Faktor Effizientere Verwendung von HBase durch SQL-Frontend SHS VIVEON Seite 32 16

17 Eine Reihe von BI-Herstellern arbeiten mit Impala, und es werden immer mehr. SHS VIVEON Seite 33 Referenzkunden für Impala SHS VIVEON Quelle: Justin Erckson, Cloudera Seite 34 17

18 Dimensionierung eines Impala-Clusters Hardwarebeispiel für Impala Server mit Xeon E5 CPU, 4 Cores 8 Festplatten à 2 TB 128 GB RAM 4000 / Knoten inkl. MWSt Performance pro Knoten (ca.): Full Table Scan Performance für CSV-Dateien: 500 MB / s (5 Mio. Zeilen / s bei 100 Byte/Zeile) Bei Daten im Cache: 2 GB/s oder 20 Mio. Zeilen/s oder 1,6 Mrd. Zeilen/min.) Scanperformance bei Parquet-Dateien (2 von n Spalten abgefragt): ca. 20 Mio. Zeilen / s oder 1,8 Mrd. Zeilen/min Beispielfragen zur Dimensionierung: 1. Wie viele Knoten braucht man, um von einer Tabelle mit 10 Mrd. Zeilen (Parquet) zwei Spalten in etwa einer Minute analysieren zu können? 6 Knoten 2. Was kostet dieser Cluster etwa? Mrd. SHS VIVEON Image Source: cloudera Seite 35 Impala: Live Demo SHS VIVEON Image Source: cloudera Seite 36 18

19 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 37 Storm entstand 2011 als Streaming-Variante von MapReduce Entstanden als Streaming-Variante von MapReduce Autor Nathan Marz und sein Team bei BackType Erste Version (0.5.0) , aktuelle Version OpenSource, nachdem das Projekt von Twitter übernommen wurde Seit 2013 im Apache incubator program Heute zahlreiche Anwender SHS VIVEON Seite 38 19

20 Storm erlaubt eine parallele Verarbeitung von kontinuierlichen Datenströmen (Streams) Datenquellen (z.b.): Logfiles, Twitter-Streams, Netzwerk-Ports, Applikationen, Nachrichten, Börsenkurse, Transaktionen ) Stream-Verarbeitung Storm-Prozess läuft so lange, bis man ihn beendet (Es gibt kein Dateiende) Latenz im Millisekundenbereich Datensenken (z.b.): Applikationen, NoSQL- und SQL-Datenbanken, Hadoop Programmiersprachen Implementiert in Clojure und Java API primär für Java Adapter für Ruby, Python und Fancy SHS VIVEON Seite 39 In Storm laufen die Daten von einer Datenquelle durch ein Netzwerk Spouts und Bolts einer Datensenke. Spout: Datenquelle Bolt: Datenverarbeitung Topologie: ein Storm-Workflow SHS VIVEON Bildquelle: jansipke.nl Seite 40 20

21 Storm-Daten bestehen aus einem Stream von Tupeln. (2563, Müller, true), (6376, Meyer, true ), (1276, Schulze, false), Unterstützte Datentypen: Alle primitiven Java-Datentypen (int, char, usw.) String Byte-Arrays Used Defined Types SHS VIVEON Seite 41 Vom Anwender müssen einige Methoden der Spouts und Bolts überschrieben werden, um sie mit Leben zu füllen Spout open() initialisiere Spout nexttuple() liefere ein Tupel declareoutputfields() Definiere das Format der Tupel Bolt prepare() Initialisiere Spout execute() Verarbeite ein Tupel declareoutputfields() Definiere das Format der Tupel SHS VIVEON Seite 42 21

22 Ähnlich wie bei MapReduce gibt es einen Master-Knoten und viele Slave-Knoten, die die Arbeit erledigen. vgl. Jobtracker vgl. Tasktracker SHS VIVEON Bildquelle: jansipke.nl Seite 43 Jeder Knoten der Topologie wird durch mehrere parallele Tasks realisiert (hier farblich gekennzeichnet). Beispiel-Taskstruktur auf einem Knoten Beispiel-Topologie Bildquelle: jansipke.nl SHS VIVEON Seite 44 22

23 Datenquellen und Senken werden über ein Queuing-System (z.b. Apache Kafka) angebunden Quellsystem Kafka Storm Kafka Zielsystem Quelle: SHS VIVEON Seite 45 Das Design von Storm ist auf Zuverlässigkeit und Performance ausgelegt. Zwei alternative Zuverlässigkeitsmodi: At least once-semantik: Storm verfolgt den Weg eines jeden Tupels durch die Topologie. Schlägt die Verarbeitung eines Tupels fehl ( fail ) oder erfolgt die Verarbeitung nicht zeitnah ( timeout ), so wird es erneut verarbeitet. Exactly once-semantik (Trident-Implementierung, etwas langsamer) Wie oben, aber es wird sichergestellt, dass am Ende keine mehrfache Ausgabe von Daten passieren kann. Performance: Ein Storm-Cluster kann bis zu 1 Mio. Tupel pro Sekunde pro Knoten verarbeiten! (2 x Intel Xeon GHz, 24 GB RAM) SHS VIVEON Seite 46 23

24 Anwendungsfälle für Storm SHS VIVEON Bildquelle: Hortonworks Seite 47 Twitter ist der prominenteste Anwender von Storm, und es gibt viele weitere. Produkt: Twitter Publisher Analytics Analysiert jeden Tweet und jeden Click der auf Twitter passiert Schnittstellen zu Cassandra, Kestrel, und Mesos. Auf der PoweredBy-Seite von Storm sind 56 Unternehmen aufgeführt, die Storm verwenden! SHS VIVEON Seite 48 24

25 Inhalt 1. Big-Data-Einführung 2. Einführung in die Hadoop-Plattform 3. Impala 4. Storm 5. Spark 6. ElasticSearch 7. Fazit SHS VIVEON Seite 49 Spark wurde als bessere Alternative zum MapReduce-Framework von der University of California entwickelt. MapReduce Spark Batch Support ja ja Jobs laufen bei Hardwareausfall weiter ja ja Latenz pro Job ca. 15 Sekunden ca Sekunden Struktur Map - Shuffle - Reduce flexibel / beliebige DAGs Programmiersprachen Java Java, Scala, Python Datenübergabe von Task zu Task ohne Zwischenspeicherung auf Disk nein ja In-Memory-Support (Cached Objects) nein ja Interaktive Shell nein ja Skripting-Support nein ja Streaming-Support nein ja Coding-Aufwand für WordCount ca. 50 Zeilen 3 Zeilen (bei Scala) SQL-Support ja (Hive) ja (Spark SQL und Shark) SHS VIVEON Seite 50 25

26 Das grundlegende Konzept von Spark: Resilient Distributed Dataset (RDD) Bedeutung des Begriffs RDD Resilient = beständig, ausfallsicher, elastisch Distributed = Im Cluster verteilt, parallel verarbeitet, nutzt Lokalität der Daten Dataset = Mengenwertiges Objekt (Vektor, Matrix, Tabelle, HashMap usw.) Ein RDD entsteht aus grobgranularen Datenquellen, z.b. HDFS-Dateien HBase-Tabellen Amazon-S3-Tabellen durch Anwendung von Transformationen aus anderen RDDs Ein RDD besteht aus Partitionen Abhängigkeiten zu anderen RDDs ( parent RDDs ) Funktion zur Berechnung aus den parent RDDs Metadaten zur Partitionierung und zur Verteilung der Daten auf Knoten SHS VIVEON Seite 51 RDDs sind eine ausfallsichere In-Memory-Technologie. 3 Arten der Speicherung (Entscheidung des Programmierers!) Platz sparend auf Festplatte (serialized on disk) Platz sparend im Hauptspeicher (serialized in memory) performanceoptimiert im Hauptspeicher (deserialized in memory) Die Ausfallsicherheit entsteht durch Verteilte Speicherung der Eingabedaten im Cluster Keine Zulassung von Veränderungen (immutable state) Jedes RDD weiß, wie es aus seinen Quellen neu berechnet werden kann Im Fall von verlorene Partitionen eines RDD Automatische Neuberechnung aus den Eingabedaten bzw. den datenliefernden RDDs Im Fall von langsamen Knoten (stragglers): Neustart des Tasks auf einem anderen Knoten (wie bei MapReduce) Im Fall von Hauptspeicher-Knappheit: Verwendung der Festplatte (spill-to-disk) Die Ausfallsicherheit entsteht nicht (wie bei MapReduce) durch eine Speicherung aller Zwischenergebnisse auf Festplatte! SHS VIVEON Seite 52 26

27 Komplexe Datentransformationen werden in mehreren Stages ausgeführt, die durch Shuffle-Vorgänge abgegrenzt sind. SHS VIVEON Image Source: University of California, Berkeley Seite 53 Das Angebot an parallel ausführbaren Operationen ist bei Spark größer als beim MapReduce-Framework, das nur map() und reduce() bietet. SHS VIVEON Image Source: University of California, Berkeley Seite 54 27

28 Performance von Spark im Vergleich zu Hadoop (=MapReduce): Iterative analytische Anwendungen auf 100 GB Daten Logistische Regression K-Means HadoopBinMem = SequentialFiles auf In-Memory-HDFS SHS VIVEON Image Source: University of California, Berkeley Seite 55 Spark ist in Scala geschrieben und besitzt vergleichbare APIs für Java, Scala und Python Java Scala Python Ausführung Skriptsprache /interaktiv Statische Typisierung Code als Methoden- Parameter (=Closure) Java Virtual Machine Java Virtual Machine interpretiert nein ja ja ja ja nein erst ab Java 8 ja ja SHS VIVEON Seite 56 28

29 Auf Basis der Spark-Engine existieren bereits mehrere Tools für verschiedene Workload-Typen! Spark (Batch Processing) Spark GraphX (Graph Processing) Shark (SQL queries) Spark Streaming (Micro Batches) Spark MLlib (Machine Learning) Spark Engine Distributed Processing / In-Memory-Processing Platform Fünf verschiedene Workload-Typen auf der gleichen Engine: Wiederverwendung von Code weniger Tools zu lernen und zu betreiben bessere Interoperabilität SHS VIVEON Seite 57 Spark Streaming arbeitet mit sog. Distributed Streams (DStream). lines DStream the quick brown fox jumped over the lazy dog flatmap(split) the jumped quick brown fox over the lazy dog word- Counts DStream brown,1 dog,1 fox,1 lazy,1 over,1 quick,1 jumped,1 the,2 reducebykey map the,1 quick,1 brown,1 fox,1 jumped,1 over,1 the,1 lazy,1 dog,1 Scala code: wordcounts = lines.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b) Die Verarbeitung von Streams funktioniert nicht mit Endlosschleifen, sondern mit (DStream-)Objekten, die alle Aufrufe aus der Datenquelle automatisch weiterreichen. Die Methoden split, flatmap, map und reducebykey werden demnach nur einmal aufgerufen, und dann steht eine Objektstruktur, die den Datenstrom verarbeitet, ohne sich selbst zu verändern. SHS VIVEON Seite 58 29

30 Anwendungsfälle für Spark (1) Batch-Verarbeitungsprozesse aller Art (Ersatz für MapReduce), z.b. Parsen von Webseiten Analyse von natürlicher Sprache Text-, Noten-, Bild- und Video-Erkennung Stream Processing (Ersatz für Storm), z.b. Kontinuierliche Verarbeitung der Logdateien von Servern oder Anwendungen Verarbeitung von Twitter-Streams Kontinuierliche Analyse von Kundenaktivitäten auf Webseiten Kontinuierliche Berechnung von Empfehlungen für Kunden Echtzeitvergleich mit den Daten des Vortages Gleitende Summe von Transaktionen über die letzten 10 Minuten im Sekundentakt Low-Latency SQL auf großen Datenmengen Vorjahresvergleich auf Basis von Tagen/Produkten/Channels usw. Zeitreihen Reports SHS VIVEON Seite 59 2-Wege-Verarbeitung: Batch und Streaming mit gleichem Code (Lambda- Architektur) Anwendungsfälle für Spark (2) Machine Learning (Ersatz für Mahout) Erstellung von Prognose- oder Risiko-Modellen (Data Mining) Collaborative Filtering / Recommendations Clustering, Classification Lineare und logistische Regression Graph Processing (Ersatz für Giraph) Social Network Analysis Simulation von Rechner- oder Telekommunikationsnetzwerken Simulation von Verkehrsströmen Routenplanung, Routenoptimierung Linguistische Analysen SHS VIVEON Seite 60 30

31 Anwender von Spark Yahoo Individuell personalisierte Nachrichten-Webseiten (Empfehlungen, Kategorisierung neuer Artikel) Ablösung der bisherigen Lösung ( Zeilen C++) durch 120 Zeilen Scala Interaktive Analysen für Werbung mit Tableau mit Shark (Ablösung von Hive) Conviva (zweitgrößter Video-Streaming-Anbieter nach YouTube) Auslieferung von 4 Milliarden Videos pro Monat ohne Screen Buffering Echtzeit-Monitoring der Netzwerk-Performance mit Spark Streaming ClearStory Analyse-Software zur Verknüpfung interner Daten mit externen Datenströmen (social media, public data feeds) Quantifind Predictive Analytics und Text Mining auf Social Media-Daten für Marketing-Zwecke SHS VIVEON Seite 61 Spark: Live-Demo SHS VIVEON Seite 62 31

32 Inhalt 1. Big-Data-Anwendungsfälle 2. Einführung in die Hadoop-Plattform 3. Low-Latency-Engines Impala Storm Spark Elasticsearch 4. Low-Latency-Architektur 5. Low-Latency-Anwendungen 6. Fazit SHS VIVEON Seite 63 ElasticSearch entstand als verteilte Neuimplementierung der Single-Server-Suchtechnologie Compass Entstehung von ElasticSearch Autor von Compass und ElasticSearch: Shay Banon Erste Version von ElasticSearch: Februar 2010 Open Source Heute zahlreiche Anwender und ca Downloads pro Monat Leicht integrierbares Zubehör : Logstash: System zur Verarbeitung und Transformation von Logfiles Kibana: HTML-Oberfläche zur graphischen Visualisierung ElasticSearch + Logstash + Kibana = ELK SHS VIVEON Image Source: cloudera Seite 64 32

33 ElasticSearch bietet eine Suchfunktionalität ähnlich wie Google auf Basis eines Lucene-Index SHS VIVEON Image Source: Kevin Kluge Seite 65 Das Design wurde von Vornherein auf einfache Verwendung und Skalierbarkeit optimiert. Design von ElasticSearch Möglichst einfach zero installation : Herunterladen, auspacken, starten zero configuration : Vernünftige Defaulteinstellungen für den Start default cluster : Mehrere Installationen im gleichen Netz verbinden sich defaultmäßig zu einem Cluster namens ElasticSearch Schemafrei Dokumente können sofort geladen werden (JSON-Format) Performant, horizontal skalierbar Verwendet performante Lucene-Indizes, die Dokumente nach Wörtern indiziert speichern Cluster kann beliebig erweitert werden Ausfallsicher Peer-to-peer-Architektur ohne single point of failure Open Source Apache License 2.0 SHS VIVEON Image Source: cloudera Seite 66 33

34 Die Indizierungs- und Abfrageprozesse von ElasticSearch sind parallel ausgelegt, laufen also auf einem Cluster. Dokument Dokumente Dokument Suchergebnis Indizierung Indizierungs- Prozesse Abfrage Abfrageprozesse Elastic- Search Lucene Index Lucene Index Lucene Index SHS VIVEON Image Source: cloudera Seite 67 Die Dokumente werden in einem invertierten Index gespeichert, über den man sie über die enthaltenen Worte schnell finden kann. Das wievielte Wort im Dokument? SHS VIVEON Image Source: Erik Rose Seite 68 34

35 Um nach row boat zu suchen, schaut man die Positionen der gesuchten Wörter in den enthaltenden Dokumenten an. Man sieht schon am Index, dass row boat in doc 1 an den Positionen 2 und 3 steht: => doc 1 ist ein Treffer! SHS VIVEON Image Source: Erik Rose Seite 69 Um auch unscharfe Suchen zu ermöglichen, werden die Wörter normalisiert. original: Red-orange gerbils live at #43A Franklin St. whitespace: Red-orange, gerbils, live, at, #43A, Franklin, St. standard: red, orange, gerbis, live, at, 43a, franklin, st simple: red, orange, gerblis, live, at, a, franklin, st stop: red, orange, gerblis, live, franklin, st snowball: red, orang, gerbil, live, 43a, franklin, st stopwords stemming punctuation case-folding SHS VIVEON Image Source: cloudera Seite 70 35

36 ElasticSearch erlaubt auch die Definition von Synonymen, die dann automatisch mit gesucht werden. filter : { synonym : { type : synonym, synonyms : [ johann => johann, joe, josef => josef, joe ] } } Original-Suche: Nach Anwendung Synoynyme: Original-Suche: Nach Anwendung Synonyme: Johann Schmidt [johann, joe] schmidt Josef Smith [josef, joe] schmidt SHS VIVEON Image Source: cloudera Seite 71 Das Indizieren und Löschen von Dokumenten sowie komplexere Abfragen erfolgen über eine REST-Schnittstelle CREATE DELETE GET UPDATE ElasticSearch ist als key-value-datenbank verwendbar! SHS VIVEON Image Source: Kevin Kluge Seite 72 36

37 ElasticSearch bietet sowohl unscharfe Abfragen als auch exakte Filter Abfrage (Query) Filter Ergebnis unscharf exakt Scoring-Verfahren Treffer oder kein Treffer Performance langsamer schnell Caching möglich nein ja Logische Verknüpfungen ja ja möglich SHS VIVEON Seite 73 Unscharfe Abfrage: Finde Dokumente mit dem Text elasticsearch Kommandozeile: Suchergebnis von ElasticSearch: SHS VIVEON Image Source: Kevin Kluge Seite 74 37

38 Exakter Filter: Suche Dokumente mit dem Text To Be Or Not To Be mit einem Preis zwischen $20 und 50 Kommandozeile: SHS VIVEON Seite 75 Das Default-Scoring-Verfahren bei unscharfer Suche Folgende Kriterien gehen in den Score ein: Wichtigkeit des Dokuments document boost (Parameter beim Indizieren) Wichtigkeit der gesuchten Terme für das Dokument field boost (Parameter beim Suchen) TF/IDF (Statistische Wichtigkeit eines Terms in einem Dokument TF (term frequency): Häufigkeit des Terms im Dokument IDF (inverse document frequency): Seltenheit des Terms im Gesamt-Korpus Feldlänge Funde in kurzen JSON-Feldern werden höher gewichtet Für die genaue Formel siehe SHS VIVEON Image Source: cloudera Seite 76 38

39 Zur Extraktion von Metadaten und Text aus diversen Dokumenttypen verwendet ElasticSearch das OpenSource-Paket Tika Unterstützte Dateitypen HTML PDF MP3 FLV XML EPUB MIDI CLASS XHTML OOXML ODF OLE2 RTF TXT RSS ATOM FLAC MP4 JPG TIFF MBOX CAD TTF EXE Details siehe SHS VIVEON Image Source: cloudera Seite 77 Percolator: Zu einem Dokument passende Abfragen suchen Beim Percolator-API sind Abfragen und Dokumente vertauscht (beides ist JSON!) Query-API: Abfrage + gespeicherte Dokumente = Liste von passenden Dokumenten Percolator-API: Dokument + gespeicherte Abfragen = Liste von passenden Abfragen Anwendungsmöglichkeiten: Benachrichtigung über Preisänderungen Erkennung von Betrug Überwachen der Einhaltung von Regeln für Dokumente Erkennen von Datenqualitätsmängeln oder anderen Ausreißern Bestimmte Dokumente abonnieren Ähnlichkeit zu Triggern bei Datenbanken! SHS VIVEON Seite 78 39

40 Logstash gehört zur ElasticSearch-Familie und ist ein mächtiges verteiltes System zur Aufbereitung von Logfiles Beispiele für Logfiles: Server Logs Twitter Streams Transaktionen Monitoring-Daten Datenquellen für Logstash: Log4j, Syslog, Twitter, File, Stdin, Elasticsearch, Redis, IMAP, TCP, UDP, Filterfunktionen zur Aufbereitung: Regexp, grok, csv, multiline, anonymize, date, json, geoip, urldecode, useragent, Datensenken: CSV, File, Pipe, stdout, Elasticsearch, Redis, RabbitMQ, , http, tcp, udp, syslog, SHS VIVEON Image Source: Kevin Kluge Seite 79 Logstash-Anwendungsbeispiel mit grok Logstash-Konfiguration input { stdin {} } filter { grok { match => [ "message", "%{WORD:firstname} %{WORD:lastname} %{NUMBER:age}" ] } } output { stdout { debug => true } } Eingabe (Text) Henrik Behrens 40 Ausgabe von Logstash (JSON) { } "message" => "Henrik Behrens 40", => "1", => " T16:56:02.502Z", "host" => "myserver.domain.com", "firstname" => "Henrik", "lastname" => "Behrens", "age" => 40" SHS VIVEON Image Source: Kevin Kluge Seite 80 40

41 Mit Kibana bietet ElasticSearch den Anwendern die Möglichkeit, attraktive Realtime-Dashboards für ElasticSearch-Daten zu entwerfen. SHS VIVEON Image Source: elasticsearch.org Seite 81 Anwendungsfälle für ElasticSearch Überwachung aller Logfiles einer Server-Infrastruktur Analyse von Ursache-Wirkungsketten bei Fehlern Performance-Analyse Monitoring des Kundenverhaltens bei E-Commerce-Shops, Mobile Apps usw. Verwendung der Features Analyse des Lastverhaltens Realisierung von Abrechnungsmodellen Verwaltung großer Dokumentenbestände Änderungen in Echtzeit Performance Suchverfahren und Visualisierungen Erkennung von Besonderheiten / Data Mining Geographische Anomalien Ursachenanalyse Klassifizierung und Erkennung von falschen Klassifizierungen Erkennung von Kreditkartenbetrug Produktempfehlungen SHS VIVEON Seite 82 41

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert. 2014 Ventum Consulting Beratung Results, no Excuses. Consulting Lösungen Grown from Experience. Ventum Consulting SQL auf Hadoop Oliver Gehlert 1 Ventum Consulting Daten und Fakten Results, no excuses Fachwissen Branchenkenntnis

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr Peter Dikant mgm technology partners GmbH Echtzeitsuche mit Hadoop und Solr ECHTZEITSUCHE MIT HADOOP UND SOLR PETER DIKANT MGM TECHNOLOGY PARTNERS GMBH WHOAMI peter.dikant@mgm-tp.com Java Entwickler seit

Mehr

Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH

Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Suchmaschinen Elasticsearch BI-Stack mit Elasticsearch Use Cases Pharmabranche 2 Funktionen

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke?

Hans-Peter Zorn Inovex GmbH. Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? Hans-Peter Zorn Inovex GmbH Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? War nicht BigData das gleiche NoSQL? Data Lake = Keine Struktur? flickr/matthewthecoolguy Oder gar ein Hadump? flickr/autohistorian

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen DATA WAREHOUSE Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen Alfred Schlaucher, Detlef Schroeder DATA WAREHOUSE Themen Big Data Buzz Word oder eine neue Dimension

Mehr

on Azure mit HDInsight & Script Ac2ons

on Azure mit HDInsight & Script Ac2ons Willkommen beim #GAB 2015! on Azure mit HDInsight & Script Ac2ons Lokale Sponsoren: HansPeter Grahsl Netconomy Entwickler & Berater FH CAMPUS 02 Twi9er: @hpgrahsl Überblick Inhalte Was ist HDInsight? Wozu

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen Frank Irnich SAP Deutschland SAP ist ein globales Unternehmen... unser Fokusgebiet... IT Security für... 1 globales Netzwerk > 70 Länder, >

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution

EXASOL @ Symposium on Scalable Analytics. www.exasol.com. Skalierbare Analysen mit EXASolution EXASOL @ Symposium on Scalable Analytics Skalierbare Analysen mit EXASolution EXASOL AG Wer sind wir R&D: + seit 2000 + laufend Forschungsprojekte Produkt: Analytische Datenbank EXASolution Focus auf Komplexität

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh SQL on Hadoop für praktikables BI auf Big Data! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh War nicht BigData das gleiche NoSQL? 2 Wie viele SQL Lösungen für Hadoop gibt es mittlerweile? 3 ! No SQL!?

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Big Data Management Thema 14: Cassandra

Big Data Management Thema 14: Cassandra Thema 14: Cassandra Jan Kristof Nidzwetzki Thema 14: Cassandra 1 / 25 Übersicht 1 Grundlagen Überblick Geschichte Datenmodel 2 Architektur Der logische Ring Persistenz der Daten Tunable Consistency Read

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

NoSQL mit Postgres 15. Juni 2015

NoSQL mit Postgres 15. Juni 2015 Tag der Datenbanken 15. Juni 2015 Dipl.-Wirt.-Inform. Agenda l Vorstellung l Marktübersicht l Warum PostgreSQL? l Warum NoSQL? l Beispielanwendung Seite: 2 Vorstellung Dipl.-Wirt.-Inform. [1990] Erste

Mehr

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Wir unternehmen IT. Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien Karlsruhe, 30.09.2015 $id thgreiner Thorsten Greiner Teamleiter Software Development ConSol* Software GmbH, Düsseldorf

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

vinsight BIG DATA Solution

vinsight BIG DATA Solution vinsight BIG DATA Solution München, November 2014 BIG DATA LÖSUNG VINSIGHT Datensilos erschweren eine einheitliche Sicht auf die Daten...... und machen diese teilweise unmöglich einzelne individuelle Konnektoren,

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

Florian Hopf www.florian-hopf.de @fhopf. elasticsearch.

Florian Hopf www.florian-hopf.de @fhopf. elasticsearch. Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Suche Installation # download archive wget https://download.elastic.co/elasticsearch

Mehr

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH

Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel. Carsten Herbe metafinanz Informationssysteme GmbH Hadoop & SQL Oracle BI & DWH Konferenz 2013 19./20. März 2013, Kassel Carsten Herbe metafinanz Informationssysteme GmbH In unserer Business Line Business Intelligence & Risk gibt es fünf Bereiche: Risk,

Mehr

Florian Hopf www.florian-hopf.de @fhopf. elasticsearch. Bern 07.10.2015

Florian Hopf www.florian-hopf.de @fhopf. elasticsearch. Bern 07.10.2015 Florian Hopf www.florian-hopf.de @fhopf elasticsearch. Bern 07.10.2015 Agenda Suche Verteilung Elasticsearch und Java Aggregationen Zentralisiertes Logging Suche Installation # download archive wget https://download.elastic.co/elasticsearch

Mehr

Cassandra Query Language (CQL)

Cassandra Query Language (CQL) Cassandra Query Language (CQL) Seminar: NoSQL Wintersemester 2013/2014 Cassandra Zwischenpräsentation 1 Gliederung Basic facts Datentypen DDL/DML ähnlich zu SQL Besonderheiten Basic facts CQL kurz für

Mehr

Komplexität der Information - Ausgangslage

Komplexität der Information - Ausgangslage Intuition, verlässliche Information, intelligente Entscheidung ein Reisebericht Stephan Wietheger Sales InfoSphere/Information Management Komplexität der Information - Ausgangslage Liefern von verlässlicher

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016

Citizen Data Science. Balázs Bárány. 29. April 2016. Linuxwochen Wien 2016 Citizen Data Science Balázs Bárány Linuxwochen Wien 2016 29. April 2016 Inhalt Einführung: Data Science Werkzeuge und Methoden Citizen Data Science Daten holen Daten verstehen Daten-Vorverarbeitung Prädiktive

Mehr

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH

Search-Driven Applications. Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Search-Driven Applications Florian Hopf, freiberuflicher Softwareentwickler Tobias Kraft, exensio GmbH Agenda Motivation Aufbau der Such-Datenstruktur Anwendungsfälle Fallstricke Was ist Suche? Was wollen

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Entwurf und Prototypische Implementierung einer Data Mashup Plattform. Abschlussvortrag Projekt-INF

Entwurf und Prototypische Implementierung einer Data Mashup Plattform. Abschlussvortrag Projekt-INF Entwurf und Prototypische Implementierung einer Data Mashup Plattform Abschlussvortrag Projekt-INF Daniel Del Gaudio, Johannes Bohn, Nikolas Paparoditis Gliederung Data Mashups Einführung Motivationsszenario

Mehr

Neue Ansätze der Softwarequalitätssicherung

Neue Ansätze der Softwarequalitätssicherung Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 BIW - Überblick Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004 Annegret Warnecke Senior Sales Consultant Oracle Deutschland GmbH Berlin Agenda Überblick

Mehr

BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA

BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA BI-Kongress 2016 COMBINED THINKING FOR SUCCESS - BI & S/4HANA AUFSTELLUNG OPTIMIEREN. ENTWICKELN SIE IHRE SYSTEMLANDSCHAFT WEITER UND VERKAUFEN SIE DIE CHANCEN IHREN ANWENDERN Yu Chen, Thorsten Stossmeister

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015

Hadoop & Spark. Carsten Herbe. 8. CC-Partner Fachtagung 2015 Hadoop & Spark Carsten Herbe 8. CC-Partner Fachtagung 2015 29.04.2015 Daten & Fakten 25 Jahre Erfahrung, Qualität & Serviceorientierung garantieren zufriedene Kunden & konstantes Wachstum 25 Jahre am Markt

Mehr

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 OSC Smart Integration GmbH SAP Business One GOLD-Partner in Norddeutschland GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013 SAP Business One v.9.0 Heiko Szendeleit AGENDA OSC-SI 2013 / SAP Business One

Mehr

Schnellste Realtime Segmentierung weltweit

Schnellste Realtime Segmentierung weltweit Schnellste Realtime Segmentierung weltweit powered by 1 Über Webtrekk Gegründet 2004 in Berlin Einer der führenden europäischen Webanalyseanbieter 45 Mitarbeiter 2 2nd only to Omniture 3 Referenzen Kunden

Mehr

Java Application 1 Java Application 2. JDBC DriverManager. JDBC-ODBC Br idge. ODBC Driver Manager. Dr iver C. Dr iver D.

Java Application 1 Java Application 2. JDBC DriverManager. JDBC-ODBC Br idge. ODBC Driver Manager. Dr iver C. Dr iver D. 1 Copyright 1996-1997 by Axel T. Schreiner. All Rights Reserved. 7 Datenbankzugriff Prinzip Dieser Abschnitt beschäftigt sich mit dem Paket java.sql, das eine SQL-Schnittstelle für Java verkapselt. Java-Programme

Mehr

Überblick und Vergleich von NoSQL. Datenbanksystemen

Überblick und Vergleich von NoSQL. Datenbanksystemen Fakultät Informatik Hauptseminar Technische Informationssysteme Überblick und Vergleich von NoSQL Christian Oelsner Dresden, 20. Mai 2011 1 1. Einführung 2. Historisches & Definition 3. Kategorien von

Mehr

Hadoop Eine Erweiterung für die Oracle DB?

Hadoop Eine Erweiterung für die Oracle DB? Hadoop Eine Erweiterung für die Oracle DB? Nürnberg, 18.11.2015, Matthias Fuchs Sensitive Über mich 10+ Jahre Erfahrung mit Oracle Oracle Certified Professional Exadata Certified Oracle Engineered Systems

Mehr

Dokumentenorientierte Datenbanken - MongoDB

Dokumentenorientierte Datenbanken - MongoDB Dokumentenorientierte Datenbanken - MongoDB Jan Hentschel Ultra Tendency UG Übersicht Dokumente sind unabhängige Einheiten Bessere Performance (zusammengehörige Daten werden gemeinsam gelesen) Objektmodell

Mehr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen

Mehr

Big Data: Solaranlagen reparieren Waschmaschinen? 2014 IBM Corporation

Big Data: Solaranlagen reparieren Waschmaschinen? 2014 IBM Corporation Big Data: Solaranlagen reparieren Waschmaschinen? Agenda Kurze Vorstellung Der Kunde und der ursprüngliche Ansatz Bisherige Architektur Vorgeschlagene Architektur Neue Aspekte der vorgeschlagenen Architektur

Mehr

Zentralisiertes Log Management

Zentralisiertes Log Management Zentralisiertes Log Management Ein Erfahrungsbericht Michael Mimo Moratti mimo@mimo.ch Michael Mimo Moratti 2015 Wer bin ich Michael Mimo Moratti, mimo@mimo.ch, jmimo on Github Java, C, C++, Python, Lua,

Mehr

PostgreSQL in großen Installationen

PostgreSQL in großen Installationen PostgreSQL in großen Installationen Cybertec Schönig & Schönig GmbH Hans-Jürgen Schönig Wieso PostgreSQL? - Die fortschrittlichste Open Source Database - Lizenzpolitik: wirkliche Freiheit - Stabilität,

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen

Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Praxistag für die öffentliche Verwaltung 2012 Titel Präsentation Studierenden-Kennzahlen im Griff dank flexiblem Reporting und Ad-hoc-Analysen Referenten-Info Gerhard Tschantré, Leiter Controllerdienste

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Suchmaschinen mit Lucene und SEMS

Suchmaschinen mit Lucene und SEMS Suchmaschinen mit Lucene und SEMS lizenzfrei it consulting gmbh rainer dollinger dollinger@lizenzfrei.at www.lizenzfrei.at Vorstellung Unsere Schwerpunkte Beratung Umsetzung (z.b. Nagios, Lucene, Typo3)

Mehr

Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Schritt für Schritt in das automatisierte Rechenzentrum Converged Management Michael Dornheim Mein Profil Regional Blade Server Category Manager Einführung Marktentnahme Marktreife Bitte hier eigenes Foto

Mehr

Event Stream Processing & Complex Event Processing. Dirk Bade

Event Stream Processing & Complex Event Processing. Dirk Bade Event Stream Processing & Complex Event Processing Dirk Bade Die Folien sind angelehnt an eine Präsentation der Orientation in Objects GmbH, 2009 Motivation Business Activity Monitoring Sammlung, Analyse

Mehr

Oracle EngineeredSystems

Oracle EngineeredSystems Oracle EngineeredSystems Überblick was es alles gibt Themenübersicht Überblick über die Engineered Systems von Oracle Was gibt es und was ist der Einsatzzweck? Wann machen diese Systeme Sinn? Limitationen

Mehr

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT

Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT Werkzeuge für Datenbank Handwerker: IBM Data Studio und IBM Optim QWT Neue Technologien effizient nutzen Ehningen, 3. Juli 2014 Rodney Krick rk@aformatik.de aformatik Training & Consulting GmbH & Co. KG

Mehr

MySQL Queries on "Nmap Results"

MySQL Queries on Nmap Results MySQL Queries on "Nmap Results" SQL Abfragen auf Nmap Ergebnisse Ivan Bütler 31. August 2009 Wer den Portscanner "NMAP" häufig benutzt weiss, dass die Auswertung von grossen Scans mit vielen C- oder sogar

Mehr

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle 10g revolutioniert Business Intelligence & Warehouse 10g revolutioniert Business Intelligence & Warehouse Marcus Bender Strategisch Technische Unterstützung (STU) Hamburg 1-1 BI&W Market Trends DWH werden zu VLDW Weniger Systeme, mehr Daten DWH werden konsolidiert

Mehr

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015 Near Realtime ETL mit Oracle Golden Gate und ODI Lutz Bauer 09.12.2015 Facts & Figures Technologie-orientiert Branchen-unabhängig Hauptsitz Ratingen 240 Beschäftigte Inhabergeführt 24 Mio. Euro Umsatz

Mehr

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI

In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI In-Memory Datenbanken im Kontext komplexer Analytics Pojekte am Beispiel der Otto Group BI Hanau, 25.02.2015 1 Titel der Präsentation, Name, Abteilung, Ort, xx. Monat 2014 Der Aufbau der Group BI Plattform

Mehr

Höhere Conversion mehr Umsatz:

Höhere Conversion mehr Umsatz: Höhere Conversion mehr Umsatz: Warum es sich lohnt Ihre Kunden kennen zu lernen München, 25. Februar 2014 Muna Hassaballah Senior Consultant CRM Muna.Hassaballah@SHS-VIVEON.com inkl. Vorstellung zweier

Mehr

MODERNES LOGGING DATENSAMMELN OHNE REUE. Bert Radke Marco Grunert T-Systems Multimedia Solutions GmbH

MODERNES LOGGING DATENSAMMELN OHNE REUE. Bert Radke Marco Grunert T-Systems Multimedia Solutions GmbH MODERNES LOGGING DATENSAMMELN OHNE REUE Bert Radke Marco Grunert T-Systems Multimedia Solutions GmbH System.out.println("Customer " + 637208 + " not found"); VIELEN DANK FÜR EURE AUFMERKSAMKEIT! FRAGEN?

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

Erste Schritte, um selber ConfigMgr Reports zu erstellen

Erste Schritte, um selber ConfigMgr Reports zu erstellen Thomas Kurth CONSULTANT/ MCSE Netree AG thomas.kurth@netree.ch netecm.ch/blog @ ThomasKurth_CH Erste Schritte, um selber ConfigMgr Reports zu erstellen Configuration Manager Ziel Jeder soll nach dieser

Mehr

BigTable. 11.12.2012 Else

BigTable. 11.12.2012 Else BigTable 11.12.2012 Else Einführung Distributed Storage System im Einsatz bei Google (2006) speichert strukturierte Daten petabyte-scale, > 1000 Nodes nicht relational, NoSQL setzt auf GFS auf 11.12.2012

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Persönlichkeiten bei bluehands

Persönlichkeiten bei bluehands Persönlichkeiten bei Technologien bei Skalierbare Anwendungen mit Windows Azure GmbH & co.mmunication KG am@.de; posts..de/am 1 2 3 4 5 6 7 8 9 Immer mehr Mehr Performance Mehr Menge Mehr Verfügbarkeit

Mehr

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics

Vorstellung IBM Cognos 10.2. Oliver Linder Client Technical Professional Business Analytics Vorstellung IBM Cognos 10.2 Oliver Linder Client Technical Professional Business Analytics Agenda IBM Cognos 10.2 Architektur User Interfaces IBM Cognos Workspace IBM Cognos Workspace Advanced IBM Cognos

Mehr

Einführung in Hauptspeicherdatenbanken

Einführung in Hauptspeicherdatenbanken Einführung in Hauptspeicherdatenbanken Harald Zankl Probevorlesung 13. 01., 13:15 14:00, HS C Inhaltsverzeichnis Organisation Überblick Konklusion Harald Zankl (LFU) Hauptspeicherdatenbanken 2/16 Organisation

Mehr

Agenda. Anwendungsfälle. Integration in Java

Agenda. Anwendungsfälle. Integration in Java Florian Hopf @fhopf Agenda Anwendungsfälle Integration in Java Agenda Vorbereitung Installation # download archive wget https://download.elastic.co/ elasticsearch/elasticsearch/elasticsearch-1.7.1.zip

Mehr

Performance Tuning mit @enterprise

Performance Tuning mit @enterprise @enterprise Kunden-Forum 2005 Performance Tuning mit @enterprise Herbert Groiss Groiss Informatics GmbH, 2005 Inhalt Datenbank RMI JAVA API HTTP Konfiguration Analyse Groiss Informatics GmbH, 2005 2 Datenbank

Mehr

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne

Alternativen zur OpenText Suche. 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Alternativen zur OpenText Suche 29. OpenText Web Solutions Anwendertagung Mannheim, 18. Juni 2012 Sebastian Henne Übersicht Allgemeines zur Suche Die OpenText Common Search Indexierung ohne DeliveryServer

Mehr

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014

Hadoop in a Nutshell Einführung HDFS und MapReduce. Oracle/metafinanz Roadshow Februar 2014 Hadoop in a Nutshell Einführung HDFS und MapReduce Oracle/metafinanz Roadshow Februar 2014 Head of Data Warehousing DWH Principal Consultant DWH Senior Consultant Wir fokussieren mit unseren Services die

Mehr

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch

Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch Dehnbarer Begriff Verteiltes Suchen mit Elasticsearch Dr. Halil-Cem Gürsoy halil-cem.guersoy@adesso.de www.adesso.de ...über mich 15 Jahre Entwicklung und Beratung 'Software Architect' bei adesso AG, Dortmund

Mehr

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014

Industrie 4.0 Predictive Maintenance. Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Industrie 4.0 Predictive Maintenance Kay Jeschke SAP Deutschland AG & Co. KG., Februar, 2014 Anwendungsfälle Industrie 4.0 Digitales Objektgedächtnis Adaptive Logistik Responsive Manufacturing Intelligenter

Mehr

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen Brownbag am Freitag, den 26.07.2013 Daniel Bäurer inovex GmbH Systems Engineer Wir nutzen Technologien, um unsere Kunden glücklich zu machen. Und

Mehr

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung

2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung 2. Microsoft Innovationstag Nord Integrierte Lösungen in der Öffentlichen Verwaltung Reporting, Analyse und Data Mining André Henkel, initions AG 22. und 23. Oktober 2013 in Hamburg

Mehr

Andreas Emhart Geschäftsführer Alegri International Group

Andreas Emhart Geschäftsführer Alegri International Group Andreas Emhart Geschäftsführer Alegri International Group Agenda Vorstellung Alegri International Überblick Microsoft Business Intelligence Sharepoint Standard Business Intelligence Tool Excel Service

Mehr

EMC. Data Lake Foundation

EMC. Data Lake Foundation EMC Data Lake Foundation 180 Wachstum unstrukturierter Daten 75% 78% 80% 71 EB 106 EB 133 EB Weltweit gelieferte Gesamtkapazität Unstrukturierte Daten Quelle März 2014, IDC Structured vs. Unstructured

Mehr