Datenintegration für Big Data. Prof. Dr. Erhard Rahm.

Größe: px
Ab Seite anzeigen:

Download "Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de"

Transkript

1 Datenintegration für Big Data Prof. Dr. Erhard Rahm 1

2 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt.

3 3 Datenproduzenten: Soziale Netze, Smartphones, Sensoren 12+ TBs of tweet data every day 30 billion RFID tags today (1.3B in 2005) 4.6 billion camera phones world wide? TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of log data every day 76 million smart meters in M by billion people on the Web by end 2011

4 Big Data Challenges Volume Variety Velocity: Veracity: Skalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Near-Realtime, Streaming Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen 4

5 5 Potentiale für Big Data-Technologien Daten sind Produktionsfaktor ähnlich Betriebsmitteln und Beschäftigten Essentiell für viele Branchen und Wissenschaftsbereiche Valide Grundlage für zahlreiche Entscheidungsprozesse Vorhersage/Bewertung/Kausalität von Ereignissen Kurzfristige Analysen von Realdaten im Geschäftsleben Beispiele Nutzungsanalyse auf Web-Sites Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Werbe-Massnahmen

6 Neuartige Anwendungen für Big Data Analytics 6

7 7 Big Data Analysis Pipeline Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011

8 8 Big Data Architekturalternativen Data Warehouse Appliances Column Store, In-Memory-Optimierungen parallele DB-Vearbeitung mit vielen Knoten/Cores, Spezial-Hardware, z.b. FPGA (Netezza) und GPUs Massiv skalierbare Cloud-Architekturen Nutzung von NoSQL Data Stores Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben (MapReduce / Hadoop) Kombinationen: DWH + Cloud/Hadoop

9 9 Analyse-Pipeline Datenvorverarbeitung und Datenintegration S. Chaudhuri et al, CACM, Aug Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop)

10 10 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

11 11 Forschungsarbeiten Web Data Integration Lab (WDI-Lab) Cloud Data Management / Big Data skalierbares Daten-Management / Last-Balancierung mit Hadoop Machine Learning auf Hadoop DeDoop: Deduplication based on Hadoop Business Analytics mit NoSQL/Graph-Daten Zwei Startups in 2012 Web Data Solutions GmbH, Data Virtuality GmbH

12 12 Integration von Webdaten, z.b. Produktangebote Identifikation semantisch äquivalenter Objekte (Objekt-Matching) Fusion oder Datenvergleich / Analyse Herausforderungen: Schlechte Datenqualität Heterogene Repräsentationen Fehlerhafte Angaben Große Datenmengen Verarbeitung in Echtzeit

13 13 Big Data Integration Problem: Matching von Produktangeboten zahlreiche Quellen (Tausende von Shops/Händlern) zahlreiche Produkte und Produktangebote ständige Aktualisierung viele ähnliche, jedoch unterschiedliche Produkte heterogene, shop-spezifische Produktkategorisierungen geringe Datenqualität (wenige Attribute pro Angebot, teilstrukturiert) Produkt-Ids (EAN, UPC, GTIN) oft nicht verfügbar bzw fehlerhaft

14 Produkttitel sind sehr heterogen number of product offers KODAK charger for rechargeable batteries K8500-C+1 KLIC8000 (Serie Z) for Z1012 IS, Z1015 IS, Z1085 IS, Z612, Z712 IS, Z812 IS, Z8612 IS string length 14

15 Standard String-Matcher scheitern % match correspondences 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 60% haben similarity <= 0.5 Flat TV sets Digital Cameras Publications (DBLP-Scholar) 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 TFIDF title similarity 60% haben similarity > 0.9 Domänen-spezifische Integrations/Match- Strategien erforderlich 15

16 16 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes

17 17 Extraktion von Produkt-Codes Hahnel HL-XF51 7.2V 680mAh for Sony NP-FF51 7.2V 680mAh Features Hahnel HL-XF51 for Sony NP-FF51 Tokens Hahnel HL-XF51 Sony NP-FF51 Filtered Tokens HL-XF51 NP-FF51 Candidates Web Verification [A-Z]{2}\-[A-Z]{2}[0-9]{2}

18 18 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes Kategorisierung von Angeboten Nutzung bereits zugeordneter Angebote als Trainingsdaten Matching aller Angebote pro Kategorie Vor-Partitioning pro Hersteller Nutzung mehrerer Matcher auf verschiedenen Attributen sowie Kombination über lernbasierte Verfahren (zb SVM) pro Produktkategorie eigene Match-Strategie

19 19 Integrations-Workflow Pre-processing Training Product Code Extraction Training Data Selection Matcher Application Classifier Learning Product Offers Manufacturer Cleaning Application Classifier Automatic Classification Blocking (Manufacturer + Category) Matcher Application Classification Product Match Result Koepcke, Thor, Thomas, Rahm: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012

20 20 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

21 21 Dedoop: Efficient Deduplication with Hadoop Parallele Ausführung von Datenintegrations/Match-Workflows mit Hadoop Browser-basiertes GUI Mächtige Funktionsbibliothek mit vielen Match-Techniken lernbasierte Konfiguration Automatische Generieren und Starten von Map/Reduce- Jobs auf unterschiedlichen Clustern Automatische Lastbalancierung Monitoring der Ausführung

22 22 Matching mit MapReduce 22 Map Phase Reduce Phase Partitioning Paralleles Einlesen und Umverteilen der Datensätze (z.b. gemäß Hersteller und Produkttyp) Grouping Grouping Grouping Paralleler Abgleich pro Gruppe

23 23 Lastbalancierung Einfacher Map/Reduce-Ansatz leidet unter Skew-Effekten ungleichmäßige Werteverteilung z.b. bzgl Hersteller/Kategorie große Partitionen verhindern Ausnutzung vieler Rechner beschränkte Skalierbarkeit Lastbalancierungsansatz (BlockSplit)* zusätzlicher MR-Job zur Analyse (Werteverteilung bzgl. Partitionierungsschlüssel) Splitting größerer Partitionen ( Blöcke ) auf mehrere Reduce- Knoten über angepasste Datenverteilungsfunktion ermöglicht in etwa gleichen Aufwand pro Reduce-Knoten bei mäßiger Mehrfachverteilung von Eingabesätzen *Kolb, Thor, Rahm: Load Balancing for MapReduce-based Entity Matching. Proc. Int. Conf. on Data Engineering 2012

24 24 BlockSplit auf 1 Folie Beispiel: 3 MP3-Player + 6 Handys 18 Produktpaare (1 Zeiteinheit) Paralleles Matching auf 2 (Reduce-) Knoten Naiver Ansatz BlockSplit 3 Paare (16%) pairs 6 pairs 9 pairs (50%) 15 Paare (84%) Speedup: 18/15= pair 8 pairs 9 pairs (50%) Speedup: 18/9=2

25 25 Evaluierung: Skalierbarkeit Evaluierung mit Hadoop auf Amazon EC Matching von Produktangeboten

26 Dedoop Überblick 26

27 27 Browser-basierte Spezifikation Graphical HDFS file manager and File-Viewer Support common file operations Simple metadata operations to facilitates workflow definition Input section Select data sources, id attributes, final output directory Attributes to appear in match result Attribute mapping in case of two sources Blocking Section Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity Blocking key generation functions Matching section Similarity Functions Match classification (learning-based, threshold-based)

28 28 Ausblick Noch viele offene Probleme für Big Data Integration Parallelisierung kompletter ETL- und Analyse-Pipelines für unterschiedlichste Daten Streaming-Daten Text-Daten Social Web Real-Time-Analysen mit dynamischer Datenbeschaffung Schemaintegration für viele Quellen Match + Merge z.b. Erstellung eines intergrierten Produktkatalogs Domänenspezifische Big Data Lösungen

29 29 Big Data in Sachsen SMWK hat Big Data als Forschungsschwerpunkt in Sachsen identifiziert Koordination Prof. Dr. W. Nagel (TUD), Prof. Dr. E. Rahm Beteiligung von Hochschulen, Forschungseinrichtungen sowie von Unternehmen erwünscht

30 Literatur Bellahsene, Z.; Bonifati, A.; Rahm, E. (eds.): Schema Matching and Mapping. Springer-Verlag, 2011 Kolb, L.; Rahm, E.: Parallel Entity Resolution with Dedoop. Datenbank-Spektrum 13 (1), 2013 Kolb, L.; Thor, A.; Rahm, E.: Dedoop: Efficient Deduplication with Hadoop. Proc. VLDB Endowment 5(12), 2012 Kolb, L.; Thor, A.; Rahm, E.: Load Balancing for MapReducebased Entity Resolution. Proc. ICDE, 2012 Kolb, L.; Thor, A.; Rahm, E.: Multi-pass Sorted Neighborhood Blocking with MapReduce. CSRD 27(1), 2012 Koepcke, H.; Thor, A.; Thomas, S., Rahm, E.: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012 Rahm, E.: Der Lehrstuhl Datenbanken an der Universität Leipzig. Datenbank-Spektrum 13 (2), 2013

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen

Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

8. Big Data und NoSQL-Datenbanken

8. Big Data und NoSQL-Datenbanken 8. Big Data und NoSQL-Datenbanken Motivation Big Data Wachsende Mengen und Vielfalt an Daten Herausforderungen Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Near-Real-Time Data Warehouses

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Forschung und Entwicklung am

Forschung und Entwicklung am Forschung und Entwicklung am Stefan Kühne, Axel Ngonga Agenda Motivation Projekte Ausblick 2 Aktuelle IT-Trends Dynamic Infrastructure BYOD Social Business Big Data Identity Management Cloud Computing/SaaS

Mehr

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden

Mehr

8. Big Data und NoSQL-Datenbanken

8. Big Data und NoSQL-Datenbanken 8. Big Data und NoSQL-Datenbanken Motivation Big Data wachsende Mengen und Vielfalt an Daten Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Hadoop, MapReduce

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Oracle Warehouse Builder 3i

Oracle Warehouse Builder 3i Betrifft Autoren Art der Info Oracle Warehouse Builder 3i Dani Schnider (daniel.schnider@trivadis.com) Thomas Kriemler (thomas.kriemler@trivadis.com) Technische Info Quelle Aus dem Trivadis Technologie

Mehr

Big Data Anwendungen Chancen und Risiken

Big Data Anwendungen Chancen und Risiken Big Data Anwendungen Chancen und Risiken Dr. Kurt Stockinger Studienleiter Data Science, Dozent für Informatik Zürcher Hochschule für Angewandte Wissenschaften Big Data Workshop Squeezing more out of Data

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Adam Stambulski Project Manager Viessmann R&D Center Wroclaw Dr. Moritz Gomm Business Development Manager Zühlke Engineering

Mehr

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS AGENDA VISUAL ANALYTICS 9:00 09:30 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT

Mehr

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Unstrukturierte Daten spielen eine immer bedeutender Rolle in Big Data-Projekten. Zunächst gilt es

Mehr

Vielfalt als Zukunft Instandhaltung

Vielfalt als Zukunft Instandhaltung 10.02.2016, 13.00 13.30 CET Dr. Franziska Hasselmann Studienleitung CAS Managing Infrastructure Assets Maintenance Schweiz 2016 Vielfalt als Zukunft Instandhaltung Einladungstext zum Vortrag... Täglich

Mehr

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

Data Warehousing 0-1. DBS-Module

Data Warehousing 0-1. DBS-Module Data Warehousing Sommersemester 2014 Prof. Dr. E. Rahm Universität Leipzig Institut für Informatik y y y http://dbs.uni-leipzig.de 0-1 DBS-Module Master-Studium Informatik 10-202-2215 Moderne Datenbanktechnologien

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.

CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04. CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen

MapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

7. Big Data und NoSQL-Datenbanken

7. Big Data und NoSQL-Datenbanken 7. Big Data und NoSQL-Datenbanken Motivation Big Data Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline Hadoop, MapReduce, Spark/Flink NoSQL-Datenbanken Eigenschaften

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de/format Programmablauf Überblicksvortrag Prof. Rahm Feedback / Diskussion Vorstellung der Prototypen

Mehr

IMPULS AM VORMITTAG. Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014

IMPULS AM VORMITTAG. Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014 IMPULS AM VORMITTAG Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014 INHALTE Teradata? Wer sind denn die überhaupt? Big Data? Wirklich? Wo? Die vorgegebenen Impulsfragen: 1.

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Internet of things. Copyright 2016 FUJITSU

Internet of things. Copyright 2016 FUJITSU Internet of things 0 Fujitsu World Tour 2016 Human Centric Innovation in Action Wie das Internet der Dinge den Handel verändert Ralf Schienke Leitung Vertrieb Handel Deutschland 1 2X Cost of SENSORS Past

Mehr

Cisco gestern heute morgen

Cisco gestern heute morgen Cisco gestern heute morgen Dorothe Brohl Strategic Account Manager September 2015 2 3 4 5 6 7 8 9 10 11 Q1 CY15 12 13 Die größte Unterstützung: unsere Kunden 5.0 4.33 4.33 4.30 4.33 4.37 4.37 4.36 4.41

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

R im Enterprise-Modus

R im Enterprise-Modus R im Enterprise-Modus Skalierbarkeit, Support und unternehmensweiter Einsatz Dr. Eike Nicklas HMS Konferenz 2014 Was ist R? R is a free software environment for statistical computing and graphics - www.r-project.org

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Gegenwart und Zukunft

Gegenwart und Zukunft Gegenwart und Zukunft von Big Data Dieter Kranzlmüller Munich Network Management Team Ludwig Maximilians Universität München (LMU) & Leibniz Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften

Mehr

SOA im Zeitalter von Industrie 4.0

SOA im Zeitalter von Industrie 4.0 Neue Unterstützung von IT Prozessen Dominik Bial, Consultant OPITZ CONSULTING Deutschland GmbH Standort Essen München, 11.11.2014 OPITZ CONSULTING Deutschland GmbH 2014 Seite 1 1 Was ist IoT? OPITZ CONSULTING

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG

Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG Social Business Intelligence Text Mining und Hadoop bei DB Fernverkehr AG DB Fernverkehr AG Dr.-Ing. Axel Schulz, Dr. Matthias Platho P.FMB 2, DB Fernverkehr AG Frankfurt, 22.05.2015 Motivation An meinem

Mehr

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Software AG Innovation Day 2014 Bonn, 2.7.2014 Dr. Carsten Bange, Geschäftsführer Business Application Research Center

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

KNIME HPC INTEGRATION VIA UNICORE

KNIME HPC INTEGRATION VIA UNICORE KNIME HPC INTEGRATION VIA UNICORE *, Florian Jug*, Bernd Schuller, René Jäkel, Gene Myers, Wolfgang E. Nagel www.scads.de OVERVIEW Introduction KNIME UNICORE Data Oriented Processing KNIME HPC Integration

Mehr

Big Data Eine Einführung ins Thema

Big Data Eine Einführung ins Thema Joachim Hennebach Marketing Manager IBM Analytics 11. Februar 2016 Big Data Eine Einführung ins Thema Nur kurz: Was ist Big Data? (Die 5 Vs.) Volumen Vielfalt Geschwindigkeit Datenwachstum Von Terabytes

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik ARFA ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik Ralf Leipner Domain Architect Analytics, Risk Management & Finance 33. Berner Architekten

Mehr

Big Data in Marketing und IT

Big Data in Marketing und IT Big Data in Marketing und IT Chancen erkennen, Strategien entwickeln und Projekte erfolgreich umsetzen T-Systems Hacker Day 30. September 2015 Prof. Dr. Alexander Rossmann Reutlingen University Big Data

Mehr

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient

Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient Webbasierte Exploration von großen 3D-Stadtmodellen mit dem 3DCityDB Webclient Zhihang Yao, Kanishk Chaturvedi, Thomas H. Kolbe Lehrstuhl für Geoinformatik www.gis.bgu.tum.de 11/14/2015 Webbasierte Exploration

Mehr

Direktmarketing im Zentrum digitaler Vertriebsstrategien

Direktmarketing im Zentrum digitaler Vertriebsstrategien Direktmarketing im Zentrum digitaler Vertriebsstrategien Standortbestimmung und Key Learnings für Verlage Hamburg, September 2014 Im Zentrum digitaler Vertriebsstrategien steht zunehmend die Analyse komplexer

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

!"#$"%&'()*$+()',!-+.'/',

!#$%&'()*$+()',!-+.'/', Soziotechnische Informationssysteme 5. Facebook, Google+ u.ä. Inhalte Historisches Relevanz Relevante Technologien Anwendungsarchitekturen 4(5,12316,7'.'0,!.80/6,9*$:'0+$.;.,&0$'0, 3, Historisches Facebook

Mehr

State-of-the-Art in Software Product Line Testing and Lessons learned

State-of-the-Art in Software Product Line Testing and Lessons learned State-of-the-Art in Software Product Line Testing and Lessons learned Sebastian Oster Sebastian Oster oster@es.tu-darmstadt.de Tel.+49 6151 16 3776 ES Real-Time Systems Lab Prof. Dr. rer. nat. Andy Schürr

Mehr

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland

Operational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland Operational Big Data effektiv nutzen TIBCO LogLogic Martin Ulmer, Tibco LogLogic Deutschland LOGS HINTERLASSEN SPUREN? Wer hat wann was gemacht Halten wir interne und externe IT Richtlinien ein Ist die

Mehr

SAP HANA eine Plattform für innovative Anwendungen

SAP HANA eine Plattform für innovative Anwendungen SAP HANA eine Plattform für innovative Anwendungen Top Intelligence: Big Data & SAP HANA Zürich, Frankfurt, Hamburg, München, Mülheim/R Februar 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder

Mehr

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP AGENDA HADOOP 9:00 09:15 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT und Fachbereiche Big

Mehr

Intelligent Traveller Early Situation Awareness itesa

Intelligent Traveller Early Situation Awareness itesa Intelligent Traveller Early Situation Awareness itesa Dr. Martin Skorsky, Senior Researcher 22. Juni 2015 1 1 Intelligent Traveller Early Situation Awareness Automatischen Alarmsystems, das Reisende in

Mehr

Der Lehrstuhl Datenbanken an der Universität Leipzig

Der Lehrstuhl Datenbanken an der Universität Leipzig Noname manuscript No. (will be inserted by the editor) Der Lehrstuhl Datenbanken an der Universität Leipzig Erhard Rahm Received: date / Accepted: date Zusammenfassung Der Lehrstuhl Datenbanken an der

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

QUICK-START EVALUIERUNG

QUICK-START EVALUIERUNG Pentaho 30 für 30 Webinar QUICK-START EVALUIERUNG Ressourcen & Tipps Leo Cardinaals Sales Engineer 1 Mit Pentaho Business Analytics haben Sie eine moderne und umfassende Plattform für Datenintegration

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

Mobile Backend in der

Mobile Backend in der Mobile Backend in der Cloud Azure Mobile Services / Websites / Active Directory / Kontext Auth Back-Office Mobile Users Push Data Website DevOps Social Networks Logic Others TFS online Windows Azure Mobile

Mehr

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

Big Data Herausforderungen und Chancen für Controller. ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data Herausforderungen und Chancen für Controller ICV Jahrestagung, 19.05.2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC BARC: Expertise für datengetriebene Organisationen Beratung Strategie

Mehr

Integration lokaler Daten in ifuice

Integration lokaler Daten in ifuice : Integration lokaler Daten in ifuice Bearbeiter: Sarah Gebhardt Betreuer: Andreas Thor Seite 1 Motivation Warum eine Integration lokaler Daten? Viele Infos im Web, aber andere Listen im Web, aber nicht

Mehr

Industrie 4.0 und Smart Data

Industrie 4.0 und Smart Data Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science Sprecher Stephan Krauß Enterprise Portale E-Commerce T +49 (0)911 25 25 68 0 F +49 (0)911 25 25 68 68 info@ancud.de http://www.ancud.de Dipl.-Phys. Johannes Knauf Business Analytics Data Science T +49

Mehr

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015

Near Realtime ETL mit Oracle Golden Gate und ODI. Lutz Bauer 09.12.2015 Near Realtime ETL mit Oracle Golden Gate und ODI Lutz Bauer 09.12.2015 Facts & Figures Technologie-orientiert Branchen-unabhängig Hauptsitz Ratingen 240 Beschäftigte Inhabergeführt 24 Mio. Euro Umsatz

Mehr

Dateisysteme und Datenverwaltung in der Cloud

Dateisysteme und Datenverwaltung in der Cloud Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP)

MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) MOBILE ENTERPRISE APPLICATION PLATFORM (MEAP) Oliver Steinhauer.mobile PROFI Mobile Business Agenda MOBILE ENTERPRISE APPLICATION PLATFORM AGENDA 01 Mobile Enterprise Application Platform 02 PROFI News

Mehr

BIG DATA Die Bewältigung riesiger Datenmengen

BIG DATA Die Bewältigung riesiger Datenmengen BIG DATA Die Bewältigung riesiger Datenmengen Peter Mandl Institut für Geographie und Regionalforschung der AAU GIS Day 2012, 13.11.2012, Klagenfurt Was sind BIG DATA? Enorm große Datenmengen, Datenflut

Mehr

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd. Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge

Mehr

Dr. Stefan Wess, Geschäftsführer

Dr. Stefan Wess, Geschäftsführer Dr. Stefan Wess, Geschäftsführer Wirtschaftliche Aspekte der Suchtechnologie: Es geht um (viel) mehr als (nur) Die richtige Information zur richtigen Zeit bei der richtigen Person 4 Dr. Stefan Wess 11.

Mehr