Datenintegration für Big Data. Prof. Dr. Erhard Rahm.

Größe: px
Ab Seite anzeigen:

Download "Datenintegration für Big Data. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de"

Transkript

1 Datenintegration für Big Data Prof. Dr. Erhard Rahm 1

2 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt.

3 3 Datenproduzenten: Soziale Netze, Smartphones, Sensoren 12+ TBs of tweet data every day 30 billion RFID tags today (1.3B in 2005) 4.6 billion camera phones world wide? TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of log data every day 76 million smart meters in M by billion people on the Web by end 2011

4 Big Data Challenges Volume Variety Velocity: Veracity: Skalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Near-Realtime, Streaming Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen 4

5 5 Potentiale für Big Data-Technologien Daten sind Produktionsfaktor ähnlich Betriebsmitteln und Beschäftigten Essentiell für viele Branchen und Wissenschaftsbereiche Valide Grundlage für zahlreiche Entscheidungsprozesse Vorhersage/Bewertung/Kausalität von Ereignissen Kurzfristige Analysen von Realdaten im Geschäftsleben Beispiele Nutzungsanalyse auf Web-Sites Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Werbe-Massnahmen

6 Neuartige Anwendungen für Big Data Analytics 6

7 7 Big Data Analysis Pipeline Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011

8 8 Big Data Architekturalternativen Data Warehouse Appliances Column Store, In-Memory-Optimierungen parallele DB-Vearbeitung mit vielen Knoten/Cores, Spezial-Hardware, z.b. FPGA (Netezza) und GPUs Massiv skalierbare Cloud-Architekturen Nutzung von NoSQL Data Stores Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben (MapReduce / Hadoop) Kombinationen: DWH + Cloud/Hadoop

9 9 Analyse-Pipeline Datenvorverarbeitung und Datenintegration S. Chaudhuri et al, CACM, Aug Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop)

10 10 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

11 11 Forschungsarbeiten Web Data Integration Lab (WDI-Lab) Cloud Data Management / Big Data skalierbares Daten-Management / Last-Balancierung mit Hadoop Machine Learning auf Hadoop DeDoop: Deduplication based on Hadoop Business Analytics mit NoSQL/Graph-Daten Zwei Startups in 2012 Web Data Solutions GmbH, Data Virtuality GmbH

12 12 Integration von Webdaten, z.b. Produktangebote Identifikation semantisch äquivalenter Objekte (Objekt-Matching) Fusion oder Datenvergleich / Analyse Herausforderungen: Schlechte Datenqualität Heterogene Repräsentationen Fehlerhafte Angaben Große Datenmengen Verarbeitung in Echtzeit

13 13 Big Data Integration Problem: Matching von Produktangeboten zahlreiche Quellen (Tausende von Shops/Händlern) zahlreiche Produkte und Produktangebote ständige Aktualisierung viele ähnliche, jedoch unterschiedliche Produkte heterogene, shop-spezifische Produktkategorisierungen geringe Datenqualität (wenige Attribute pro Angebot, teilstrukturiert) Produkt-Ids (EAN, UPC, GTIN) oft nicht verfügbar bzw fehlerhaft

14 Produkttitel sind sehr heterogen number of product offers KODAK charger for rechargeable batteries K8500-C+1 KLIC8000 (Serie Z) for Z1012 IS, Z1015 IS, Z1085 IS, Z612, Z712 IS, Z812 IS, Z8612 IS string length 14

15 Standard String-Matcher scheitern % match correspondences 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 60% haben similarity <= 0.5 Flat TV sets Digital Cameras Publications (DBLP-Scholar) 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 TFIDF title similarity 60% haben similarity > 0.9 Domänen-spezifische Integrations/Match- Strategien erforderlich 15

16 16 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes

17 17 Extraktion von Produkt-Codes Hahnel HL-XF51 7.2V 680mAh for Sony NP-FF51 7.2V 680mAh Features Hahnel HL-XF51 for Sony NP-FF51 Tokens Hahnel HL-XF51 Sony NP-FF51 Filtered Tokens HL-XF51 NP-FF51 Candidates Web Verification [A-Z]{2}\-[A-Z]{2}[0-9]{2}

18 18 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes Kategorisierung von Angeboten Nutzung bereits zugeordneter Angebote als Trainingsdaten Matching aller Angebote pro Kategorie Vor-Partitioning pro Hersteller Nutzung mehrerer Matcher auf verschiedenen Attributen sowie Kombination über lernbasierte Verfahren (zb SVM) pro Produktkategorie eigene Match-Strategie

19 19 Integrations-Workflow Pre-processing Training Product Code Extraction Training Data Selection Matcher Application Classifier Learning Product Offers Manufacturer Cleaning Application Classifier Automatic Classification Blocking (Manufacturer + Category) Matcher Application Classification Product Match Result Koepcke, Thor, Thomas, Rahm: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012

20 20 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick

21 21 Dedoop: Efficient Deduplication with Hadoop Parallele Ausführung von Datenintegrations/Match-Workflows mit Hadoop Browser-basiertes GUI Mächtige Funktionsbibliothek mit vielen Match-Techniken lernbasierte Konfiguration Automatische Generieren und Starten von Map/Reduce- Jobs auf unterschiedlichen Clustern Automatische Lastbalancierung Monitoring der Ausführung

22 22 Matching mit MapReduce 22 Map Phase Reduce Phase Partitioning Paralleles Einlesen und Umverteilen der Datensätze (z.b. gemäß Hersteller und Produkttyp) Grouping Grouping Grouping Paralleler Abgleich pro Gruppe

23 23 Lastbalancierung Einfacher Map/Reduce-Ansatz leidet unter Skew-Effekten ungleichmäßige Werteverteilung z.b. bzgl Hersteller/Kategorie große Partitionen verhindern Ausnutzung vieler Rechner beschränkte Skalierbarkeit Lastbalancierungsansatz (BlockSplit)* zusätzlicher MR-Job zur Analyse (Werteverteilung bzgl. Partitionierungsschlüssel) Splitting größerer Partitionen ( Blöcke ) auf mehrere Reduce- Knoten über angepasste Datenverteilungsfunktion ermöglicht in etwa gleichen Aufwand pro Reduce-Knoten bei mäßiger Mehrfachverteilung von Eingabesätzen *Kolb, Thor, Rahm: Load Balancing for MapReduce-based Entity Matching. Proc. Int. Conf. on Data Engineering 2012

24 24 BlockSplit auf 1 Folie Beispiel: 3 MP3-Player + 6 Handys 18 Produktpaare (1 Zeiteinheit) Paralleles Matching auf 2 (Reduce-) Knoten Naiver Ansatz BlockSplit 3 Paare (16%) pairs 6 pairs 9 pairs (50%) 15 Paare (84%) Speedup: 18/15= pair 8 pairs 9 pairs (50%) Speedup: 18/9=2

25 25 Evaluierung: Skalierbarkeit Evaluierung mit Hadoop auf Amazon EC Matching von Produktangeboten

26 Dedoop Überblick 26

27 27 Browser-basierte Spezifikation Graphical HDFS file manager and File-Viewer Support common file operations Simple metadata operations to facilitates workflow definition Input section Select data sources, id attributes, final output directory Attributes to appear in match result Attribute mapping in case of two sources Blocking Section Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity Blocking key generation functions Matching section Similarity Functions Match classification (learning-based, threshold-based)

28 28 Ausblick Noch viele offene Probleme für Big Data Integration Parallelisierung kompletter ETL- und Analyse-Pipelines für unterschiedlichste Daten Streaming-Daten Text-Daten Social Web Real-Time-Analysen mit dynamischer Datenbeschaffung Schemaintegration für viele Quellen Match + Merge z.b. Erstellung eines intergrierten Produktkatalogs Domänenspezifische Big Data Lösungen

29 29 Big Data in Sachsen SMWK hat Big Data als Forschungsschwerpunkt in Sachsen identifiziert Koordination Prof. Dr. W. Nagel (TUD), Prof. Dr. E. Rahm Beteiligung von Hochschulen, Forschungseinrichtungen sowie von Unternehmen erwünscht

30 Literatur Bellahsene, Z.; Bonifati, A.; Rahm, E. (eds.): Schema Matching and Mapping. Springer-Verlag, 2011 Kolb, L.; Rahm, E.: Parallel Entity Resolution with Dedoop. Datenbank-Spektrum 13 (1), 2013 Kolb, L.; Thor, A.; Rahm, E.: Dedoop: Efficient Deduplication with Hadoop. Proc. VLDB Endowment 5(12), 2012 Kolb, L.; Thor, A.; Rahm, E.: Load Balancing for MapReducebased Entity Resolution. Proc. ICDE, 2012 Kolb, L.; Thor, A.; Rahm, E.: Multi-pass Sorted Neighborhood Blocking with MapReduce. CSRD 27(1), 2012 Koepcke, H.; Thor, A.; Thomas, S., Rahm, E.: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012 Rahm, E.: Der Lehrstuhl Datenbanken an der Universität Leipzig. Datenbank-Spektrum 13 (2), 2013

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten

Mehr

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,

Mehr

MATCHING VON PRODUKTDATEN IN DER CLOUD

MATCHING VON PRODUKTDATEN IN DER CLOUD MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's

Mehr

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards

Mehr

DduP - Towards a Deduplication Framework utilising Apache Spark

DduP - Towards a Deduplication Framework utilising Apache Spark - Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication

Mehr

Big Data Mythen und Fakten

Big Data Mythen und Fakten Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher

Mehr

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell

Mehr

8. Big Data und NoSQL-Datenbanken

8. Big Data und NoSQL-Datenbanken 8. Big Data und NoSQL-Datenbanken Motivation Big Data wachsende Mengen und Vielfalt an Daten Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Hadoop, MapReduce

Mehr

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer

Big Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs

Mehr

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer

Einführung in Hadoop & MapReduce. Dr. Kathrin Spreyer Big Data Engineer Einführung in Hadoop & MapReduce Dr. Kathrin Spreyer Big Data Engineer München, 19.06.2013 Agenda Einleitung 1. HDFS 2. MapReduce 3. APIs 4. Hive & Pig 5. Mahout Tools aus Hadoop-Ökosystem 6. HBase 2 Worum

Mehr

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt

Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Das SCAPE Projekt: Langzeitarchivierung und Skalierbarkeit Teil 1: Überblick über das SCAPE Projekt Dr. Sven Schlarb Österreichische Nationalbibliothek SCAPE ½ Informationstag 05. Mai 2014, Österreichische

Mehr

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht Big-Data-Technologien - Überblick - Quelle: http://www.ingenieur.de/panorama/fussball-wm-in-brasilien/elektronischer-fussball-smartphone-app-helfen-training Big-Data-Anwendungen im Unternehmen Logistik

Mehr

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2. Cloud Computing Frank Hallas und Alexander Butiu Universität Erlangen Nürnberg, Lehrstuhl für Hardware/Software CoDesign Multicorearchitectures and Programming Seminar, Sommersemester 2013 1. Definition

Mehr

Hadoop. Simon Prewo. Simon Prewo

Hadoop. Simon Prewo. Simon Prewo Hadoop Simon Prewo Simon Prewo 1 Warum Hadoop? SQL: DB2, Oracle Hadoop? Innerhalb der letzten zwei Jahre hat sich die Datenmenge ca. verzehnfacht Die Klassiker wie DB2, Oracle usw. sind anders konzeptioniert

Mehr

Einführung in Hadoop

Einführung in Hadoop Einführung in Hadoop Inhalt / Lern-Ziele Übersicht: Basis-Architektur von Hadoop Einführung in HDFS Einführung in MapReduce Ausblick: Hadoop Ökosystem Optimierungen Versionen 10.02.2012 Prof. Dr. Christian

Mehr

Forschung und Entwicklung am

Forschung und Entwicklung am Forschung und Entwicklung am Stefan Kühne, Axel Ngonga Agenda Motivation Projekte Ausblick 2 Aktuelle IT-Trends Dynamic Infrastructure BYOD Social Business Big Data Identity Management Cloud Computing/SaaS

Mehr

Big & Smart Data. bernard.bekavac@htwchur.ch

Big & Smart Data. bernard.bekavac@htwchur.ch Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem

Mehr

Living Lab Big Data Konzeption einer Experimentierplattform

Living Lab Big Data Konzeption einer Experimentierplattform Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele

Mehr

ETL in den Zeiten von Big Data

ETL in den Zeiten von Big Data ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse

Mehr

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann

Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Cloud und Big Data als Sprungbrett in die vernetzte Zukunft am Beispiel Viessmann Adam Stambulski Project Manager Viessmann R&D Center Wroclaw Dr. Moritz Gomm Business Development Manager Zühlke Engineering

Mehr

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration

June 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen

Mehr

Innovationslabor Semantische Integration von Webdaten

Innovationslabor Semantische Integration von Webdaten Innovationslabor Semantische Integration von Webdaten Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de/format Programmablauf Überblicksvortrag Prof. Rahm Feedback / Diskussion Vorstellung der Prototypen

Mehr

7. Big Data und NoSQL-Datenbanken

7. Big Data und NoSQL-Datenbanken 7. Big Data und NoSQL-Datenbanken Motivation Big Data Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline Hadoop, MapReduce, Spark/Flink NoSQL-Datenbanken Eigenschaften

Mehr

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden

Mehr

Sozio- Technische Systeme

Sozio- Technische Systeme Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich

Mehr

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch

Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Big Data: Definition, Einführung und Live Democase [C1] Arne Weitzel Uetliberg, 16.09.2014 www.boak.ch Unstrukturierte Daten spielen eine immer bedeutender Rolle in Big Data-Projekten. Zunächst gilt es

Mehr

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15

Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15 9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics

Mehr

LOG AND SECURITY INTELLIGENCE PLATFORM

LOG AND SECURITY INTELLIGENCE PLATFORM TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com

Mehr

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick. Volker.Hinz@microsoft.com Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick Volker.Hinz@microsoft.com Was sagt der Markt? Fakten Meinung der Analysten zu Microsofts Angeboten Nutzen

Mehr

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Big Data Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover Agenda Was ist Big Data? Parallele Programmierung Map/Reduce Der Big Data Zoo 2 3Vs oder: Was ist Big Data? Deutsche Telekom:

Mehr

Gegenwart und Zukunft

Gegenwart und Zukunft Gegenwart und Zukunft von Big Data Dieter Kranzlmüller Munich Network Management Team Ludwig Maximilians Universität München (LMU) & Leibniz Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften

Mehr

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher

Map Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!

Mehr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2 Seminar Cloud Data Management WS09/10 Tabelle1 Tabelle2 1 Einführung DBMS in der Cloud Vergleich verschiedener DBMS Beispiele Microsoft Azure Amazon RDS Amazon EC2 Relational Databases AMIs Was gibt es

Mehr

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired

Data. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,

Mehr

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011

Hadoop. High Performance Batches in der Cloud. Hadoop. Folie 1 25. Januar 2011 High Performance Batches in der Cloud Folie 1 Alles geht in die Cloud Image: Chris Sharp / FreeDigitalPhotos.net Cloud und Batches passen zusammen Batches Cloud Pay-per-Use Nur zeitweise genutzt Hohe Rechenkapazitäten

Mehr

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Das Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:

Mehr

Der Lehrstuhl Datenbanken an der Universität Leipzig

Der Lehrstuhl Datenbanken an der Universität Leipzig Noname manuscript No. (will be inserted by the editor) Der Lehrstuhl Datenbanken an der Universität Leipzig Erhard Rahm Received: date / Accepted: date Zusammenfassung Der Lehrstuhl Datenbanken an der

Mehr

Big Data in Marketing und IT

Big Data in Marketing und IT Big Data in Marketing und IT Chancen erkennen, Strategien entwickeln und Projekte erfolgreich umsetzen T-Systems Hacker Day 30. September 2015 Prof. Dr. Alexander Rossmann Reutlingen University Big Data

Mehr

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen Oracle DWH-Konferenz 21. März 2012 Dr. Carsten Bange Gründer & Geschäftsführer BARC Big Data bietet Methoden und Technologien

Mehr

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN? HANS-JOACHIM EDERT WEBINAR@LUNCHTIME THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" Copyr i g ht 2012, SAS Ins titut e Inc. All rights res er ve d. HANS-JOACHIM EDERT EBINAR@LUNCHTIME

Mehr

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT

DIE DATEN IM ZENTRUM: SAS DATA MANAGEMENT DIE DATEN IM ZENTRUM: SAS DATA RAINER STERNECKER SOLUTIONS ARCHITECT SAS INSTITUTE SOFTWARE GMBH Copyr i g ht 2013, SAS Ins titut e Inc. All rights res er ve d. NEUE WEGE GEHEN SAS DATA GOVERNANCE & QUALITY

Mehr

SOA im Zeitalter von Industrie 4.0

SOA im Zeitalter von Industrie 4.0 Neue Unterstützung von IT Prozessen Dominik Bial, Consultant OPITZ CONSULTING Deutschland GmbH Standort Essen München, 11.11.2014 OPITZ CONSULTING Deutschland GmbH 2014 Seite 1 1 Was ist IoT? OPITZ CONSULTING

Mehr

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar!

Clouds. Erwartungen der Nutzer. Wolkig bis Heiter. (c) 2013, Peter Sturm, Universität Trier. Er ist verwöhnt! Er ist nicht dankbar! Clouds Wolkig bis Heiter Erwartungen der Nutzer Er ist verwöhnt! Verfügbarkeit Viele Anwendungen Intuitive Interfaces Hohe Leistung Er ist nicht dankbar! Mehr! Mehr! Mehr! Moore 1 Erwartungen der Entwickler

Mehr

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Big Data Hype und Wirklichkeit Bringtmehrauchmehr? Günther Stürner, Vice President Sales Consulting 1 Copyright 2011, Oracle and/or its affiliates. All rights Überschrift 2 Copyright 2011, Oracle and/or

Mehr

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013 Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence

Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence Analytische Datenbanken und Appliances als Engine für erfolgreiche Business Intelligence IBM Netezza Roadshow 30. November 2011 Carsten Bange Gründer & Geschäftsführer BARC Die Krise hat die Anforderungen

Mehr

Step 0: Bestehende Analyse-Plattform

Step 0: Bestehende Analyse-Plattform Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien

Mehr

BIG DATA HYPE ODER CHANCE

BIG DATA HYPE ODER CHANCE BIG DATA HYPE ODER CHANCE 1 Fuchs Dominik 16.05.2014 Fahrplan 2 Begriff Big Data Die 3 V s Fallbeispiel Google Was? Wie? Womit? Fazit & Ausblick in die Zukunft Der Begriff Big Data 3 Datenmengen, die zu

Mehr

Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im SAP Umfeld bei Siemens. Frank Hincke, DIMQ, Köln 03/2010

Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im SAP Umfeld bei Siemens. Frank Hincke, DIMQ, Köln 03/2010 Informatica Day 2010 Deutschland Best Practice: Data-Consolidation im Umfeld bei Siemens Frank Hincke, DIMQ, Köln 03/2010 Agenda Vorstellung Sprecher Programm ATLAS im Bereich Siemens Bereich Energie,

Mehr

Was ist Big Data? Versuch einer Positionsbestimmung. Wolfgang Marquardt

Was ist Big Data? Versuch einer Positionsbestimmung. Wolfgang Marquardt Was ist Big Data? Versuch einer Positionsbestimmung Wolfgang Marquardt Vorstandsvorsitzender des Forschungszentrum Jülich 02.06.2015 Jahrestagung des deutschen Ethikrates Ganz sicher auch ein Hype hohe

Mehr

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH

Big Data 10.000 ft. 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Big Data 10.000 ft 20. Februar 2014 IHK Darmstadt DR. ROBERTO RAO, AXXESSIO GMBH Inhalte Big Data Was ist das? Anwendungsfälle für Big Data Big Data Architektur Big Data Anbieter Was passiert in Zukunft

Mehr

Big Data Vom Hype zum Geschäftsnutzen

Big Data Vom Hype zum Geschäftsnutzen Big Data Vom Hype zum Geschäftsnutzen IBM IM Forum, Berlin, 16.04.2013 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Hype 15.04.2013 BARC 2013 2 1 Interesse an Big Data Nature 09-2008 Economist 03-2010

Mehr

Big Data Informationen neu gelebt

Big Data Informationen neu gelebt Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen

Mehr

EXASOL Anwendertreffen 2012

EXASOL Anwendertreffen 2012 EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2

Mehr

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg

Review Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu

Mehr

State-of-the-Art in Software Product Line Testing and Lessons learned

State-of-the-Art in Software Product Line Testing and Lessons learned State-of-the-Art in Software Product Line Testing and Lessons learned Sebastian Oster Sebastian Oster oster@es.tu-darmstadt.de Tel.+49 6151 16 3776 ES Real-Time Systems Lab Prof. Dr. rer. nat. Andy Schürr

Mehr

MapReduce in der Praxis

MapReduce in der Praxis MapReduce in der Praxis Rolf Daniel Seminar Multicore Programmierung 09.12.2010 1 / 53 Agenda Einleitung 1 Einleitung 2 3 Disco Hadoop BOOM 4 2 / 53 1 Einleitung 2 3 Disco Hadoop BOOM 4 3 / 53 Motivation

Mehr

IMPULS AM VORMITTAG. Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014

IMPULS AM VORMITTAG. Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014 IMPULS AM VORMITTAG Smart Grids 2.0, Österreich als Leitmarkt und Leitanbieter 27. Februar 2014 INHALTE Teradata? Wer sind denn die überhaupt? Big Data? Wirklich? Wo? Die vorgegebenen Impulsfragen: 1.

Mehr

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik

Data Warehousing. Sommersemester 2005. Ulf Leser Wissensmanagement in der Bioinformatik Data Warehousing Sommersemester 2005 Ulf Leser Wissensmanagement in der Bioinformatik ... Der typische Walmart Kaufagent verwendet täglich mächtige Data Mining Werkzeuge, um die Daten der 300 Terabyte

Mehr

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information

SPoT Agenda. Begrüßung und Vorstellung CAS AG. Markttrends aus Analystensicht. Big Data Trusted Information SPoT Agenda Begrüßung und Vorstellung CAS AG Markttrends aus Analystensicht Big Data Trusted Information Lars Iffert, BARC GmbH Dr. Oliver Adamczak, IBM Deutschland GmbH Factory Ansatz für ETL-Prozesse

Mehr

IBM InfoSphere Data Explorer (Vivisimo Velocity)

IBM InfoSphere Data Explorer (Vivisimo Velocity) IBM InfoSphere Data Explorer (Vivisimo Velocity) Ralph Behrens Client Technical Professional IBM Big Data Sven Herschel Client Technical Professional InfoSphere Data Explorer Big Data Was ist eigentlich

Mehr

Oracle Big Data Technologien Ein Überblick

Oracle Big Data Technologien Ein Überblick Oracle Big Data Technologien Ein Überblick Ralf Lange Global ISV & OEM Sales NoSQL: Eine kurze Geschichte Internet-Boom: Erste Ansätze selbstgebauter "Datenbanken" Google stellt "MapReduce"

Mehr

Stratosphere. Next-Generation Big Data Analytics Made in Germany

Stratosphere. Next-Generation Big Data Analytics Made in Germany Stratosphere Next-Generation Big Data Analytics Made in Germany Robert Metzger Stratosphere Core Developer Technische Universität Berlin Ronald Fromm Head of Big Data Science Telekom Innovation Laboratories

Mehr

Mobile Backend in der

Mobile Backend in der Mobile Backend in der Cloud Azure Mobile Services / Websites / Active Directory / Kontext Auth Back-Office Mobile Users Push Data Website DevOps Social Networks Logic Others TFS online Windows Azure Mobile

Mehr

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Spark, Impala und Hadoop in der Kreditrisikoberechnung Spark, Impala und Hadoop in der Kreditrisikoberechnung Big Data In-Memory-Technologien für mittelgroße Datenmengen TDWI München, 22. Juni 2015 Joschka Kupilas, Data Scientist, Adastra GmbH 2 Inhalt Vorwort

Mehr

Mobile Backend in. Cloud. Azure Mobile Services / Websites / Active Directory /

Mobile Backend in. Cloud. Azure Mobile Services / Websites / Active Directory / Mobile Backend in Cloud Azure Mobile Services / Websites / Active Directory / Einführung Wachstum / Marktanalyse Quelle: Gartner 2012 2500 Mobile Internet Benutzer Desktop Internet Benutzer Internet Benutzer

Mehr

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht) Christian Haag, DATA MART Consulting Consulting Manager Oracle DWH Team

Mehr

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.

Education Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at

Mehr

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012

Wide Column Stores. Felix Bruckner Mannheim, 15.06.2012 Wide Column Stores Felix Bruckner Mannheim, 15.06.2012 Agenda Einführung Motivation Grundlagen NoSQL Grundlagen Wide Column Stores Anwendungsfälle Datenmodell Technik Wide Column Stores & Cloud Computing

Mehr

Implementierung von Datenbanksystemen 1 (IDBS1)

Implementierung von Datenbanksystemen 1 (IDBS1) Implementierung von Datenbanksystemen 1 (1) Wintersemester 2012/13 Prof. Dr. Erhard Rahm Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de 0-1 DBS-Module Master-Studium 10-202-2215

Mehr

Direktmarketing im Zentrum digitaler Vertriebsstrategien

Direktmarketing im Zentrum digitaler Vertriebsstrategien Direktmarketing im Zentrum digitaler Vertriebsstrategien Standortbestimmung und Key Learnings für Verlage Hamburg, September 2014 Im Zentrum digitaler Vertriebsstrategien steht zunehmend die Analyse komplexer

Mehr

Revolution Analytics eine kommerzielle Erweiterung zu R

Revolution Analytics eine kommerzielle Erweiterung zu R Revolution Analytics eine kommerzielle Erweiterung zu R Webinar am 17.07.2014 F. Schuster (HMS) Dr. E. Nicklas (HMS) Von der Einzelplatzlösung zur strategischen Unternehmens- Software Zur Einführung Was

Mehr

Die Rolle des Stammdatenmanagements im digitalen Unternehmen

Die Rolle des Stammdatenmanagements im digitalen Unternehmen Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Die Rolle des Stammdatenmanagements im digitalen Unternehmen Frankfurt, April 2015 Die Digitalisierung der Welt Nach der Globalisierung

Mehr

Big Data in der Forschung

Big Data in der Forschung Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ) Gartner Hype Cycle July 2011 Folie 2 Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die

Mehr

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Textanalyse mit UIMA und Hadoop.!! Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Textanalyse mit UIMA und Hadoop Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014 Über mich seit 2014: Big Data Scientist @ Inovex 2011-2013: TU Darmstadt, UKP Lab Etablierung der Hadoop-Infrastruktur Unterstützung

Mehr

Big Data für die Internet Sicherheit

Big Data für die Internet Sicherheit Big Data für die Internet Sicherheit Ralph Kemperdick Hans Wieser Microsoft 1 Mobile-first Data-driven Cloud-first 2 2 3 Messenger Wi nd ow s Liv e 4 5 Anwendung: Das Microsoft Cybercrime Center 6 Betrug

Mehr

Intelligentes Datenmanagement und Architekturen für flexibles Reporting und Analytik

Intelligentes Datenmanagement und Architekturen für flexibles Reporting und Analytik Intelligentes Datenmanagement und Architekturen für flexibles Reporting und Analytik Dr. Martin Hebach, Cebit 2015 Senior Solution Architect mhebach@informatica.com Abstract Für Business Intelligence Aufgaben

Mehr

Agile Analytics Neue Anforderungen an die Systemarchitektur

Agile Analytics Neue Anforderungen an die Systemarchitektur www.immobilienscout24.de Agile Analytics Neue Anforderungen an die Systemarchitektur Kassel 20.03.2013 Thorsten Becker & Bianca Stolz ImmobilienScout24 Teil einer starken Gruppe Scout24 ist der führende

Mehr

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch

B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch B1 - Big Data Science: Tornado oder laues Lüftchen? Uetliberg, 15.09.2015 www.boak.ch WANN REDEN WIR VON BIG DATA SCIENCE? Big Data ist der technische Teil von Big Data Science. Mehr Daten! Mehr Datenquellen(-änderungen)!

Mehr

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop

GPU-basierte Beschleunigung von MapReduce am Beispiel von OpenCL und Hadoop am Beispiel von OpenCL und Masterseminar Hochschule für Technik, Wirtschaft und Kultur Leipzig Leipzig, 02.11.2011 Gliederung 1 Grundlagen 2 3 Gliederung 1 Grundlagen 2 3 Was ist? Clustersystem zur verteilten

Mehr

Prozess- und Datenmanagement Kein Prozess ohne Daten

Prozess- und Datenmanagement Kein Prozess ohne Daten Prozess- und Datenmanagement Kein Prozess ohne Daten Frankfurt, Juni 2013 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Prozess- und Datenmanagement Erfolgreiche Unternehmen sind Prozessorientiert.

Mehr

Apache HBase. A BigTable Column Store on top of Hadoop

Apache HBase. A BigTable Column Store on top of Hadoop Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,

Mehr

EXASOL AG Zahlen & Fakten

EXASOL AG Zahlen & Fakten Big Data Management mit In-Memory-Technologie EXASOL AG Zahlen & Fakten Name: EXASOL AG Gründung: 2000 Tochterges.: Management: Produkte: Firmensitz: Niederlassung: EXASOL Cloud Computing GmbH Steffen

Mehr

Information Integration in Zeiten von BigData mit IBM Information Server 9.1. Christian Lenke IBM Software Group InfoSphere Specialist

Information Integration in Zeiten von BigData mit IBM Information Server 9.1. Christian Lenke IBM Software Group InfoSphere Specialist Information Integration in Zeiten von BigData mit IBM Information Server 9.1 Christian Lenke IBM Software Group InfoSphere Specialist Trusted Data Bereitstellung zuverlässiger Informationen transaktionale

Mehr

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache. Apache Hadoop Distribute your data and your application Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache The Apache Software Foundation Community und

Mehr

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10

Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Cloud-Infrastrukturen Seminar Cloud Data Management WS09/10 Richard Beyer 1 Inhalt 1. Allgemeines 2. Amazon EC2 3. Yahoo Cloud 4. Vergleich 5. Fazit 6. Literatur Richard Beyer 2 Definition Cloud computing

Mehr

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale Reichweite in ihrer DNA. Was sind ihre Erfolgskriterien,

Mehr

Proseminar - Data Mining

Proseminar - Data Mining Proseminar - Data Mining SCCS, Fakultät für Informatik Technische Universität München SS 2012, SS 2012 1 Data Mining Pipeline Planung Aufbereitung Modellbildung Auswertung Wir wollen nützliches Wissen

Mehr

ALM mit Visual Studio Online. Philip Gossweiler Noser Engineering AG

ALM mit Visual Studio Online. Philip Gossweiler Noser Engineering AG ALM mit Visual Studio Online Philip Gossweiler Noser Engineering AG Was ist Visual Studio Online? Visual Studio Online hiess bis November 2013 Team Foundation Service Kernstück von Visual Studio Online

Mehr

SAP HANA eine Plattform für innovative Anwendungen

SAP HANA eine Plattform für innovative Anwendungen SAP HANA eine Plattform für innovative Anwendungen Top Intelligence: Big Data & SAP HANA Zürich, Frankfurt, Hamburg, München, Mülheim/R Februar 2014 Dr. Wolfgang Martin Analyst und Mitglied im Boulder

Mehr

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe Hadoop Demo HDFS, Pig & Hive in Action Oracle DWH Konferenz 2014 Carsten Herbe Wir wollen eine semi-strukturierte Textdatei in Hadoop verarbeiten und so aufbereiten, dass man die Daten relational speichern

Mehr

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science

Sprecher. Stephan Krauß Enterprise Portale E-Commerce. Dipl.-Phys. Johannes Knauf Business Analytics Data Science Sprecher Stephan Krauß Enterprise Portale E-Commerce T +49 (0)911 25 25 68 0 F +49 (0)911 25 25 68 68 info@ancud.de http://www.ancud.de Dipl.-Phys. Johannes Knauf Business Analytics Data Science T +49

Mehr

Customer-specific software for autonomous driving and driver assistance (ADAS)

Customer-specific software for autonomous driving and driver assistance (ADAS) This press release is approved for publication. Press Release Chemnitz, February 6 th, 2014 Customer-specific software for autonomous driving and driver assistance (ADAS) With the new product line Baselabs

Mehr

Wird BIG DATA die Welt verändern?

Wird BIG DATA die Welt verändern? Wird BIG DATA die Welt verändern? Frankfurt, Juni 2013 Dr. Wolfgang Martin Analyst und Mitglied im Boulder BI Brain Trust Big Data Entmythisierung von Big Data. Was man über Big Data wissen sollte. Wie

Mehr

Softwaretest in Praxis und Forschung

Softwaretest in Praxis und Forschung Umfrage 2015 Softwaretest in Praxis und Forschung 37. Treffen der GI-Fachgruppe TAV Test, Analyse und Verifikation von Software Friedrichshafen, 05. Februar 2015 Prof. Dr. Mario Winter Prof. Dr. Karin

Mehr

Die Herausforderung der Informationsflut: Menge, Vielseitigkeit & Schnelligkeit. "Big Data" und seine Bedeutung für die öffentliche Verwaltung

Die Herausforderung der Informationsflut: Menge, Vielseitigkeit & Schnelligkeit. Big Data und seine Bedeutung für die öffentliche Verwaltung "Big Data" und seine Bedeutung für die öffentliche Verwaltung Stefan Lindenmeyer, IT Specialist Big Data, stefan.lindenmeyer@de.ibm.com Die Herausforderung der Informationsflut: Menge, Vielseitigkeit &

Mehr

Data Mining in der Cloud

Data Mining in der Cloud Data Mining in der Cloud von Jan-Christoph Meier Hamburg, 21.06.2012 1 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur 2 Ablauf Einführung Verwandte Arbeiten Fazit / Ausblick Literatur

Mehr

HP Big Data Anwendungsfälle

HP Big Data Anwendungsfälle HP Big Data Anwendungsfälle Bernd Mussmann, Strategist & Senior Principal HP Analytics & Data Management Services Agenda HP Day @TDWI 1 09:00-10:15 - BI Modernization: BI meets unstructured data 2 10.45-12.00

Mehr

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität

Mehr