Datenintegration für Big Data. Prof. Dr. Erhard Rahm.
|
|
- Kora Vogt
- vor 8 Jahren
- Abrufe
Transkript
1 Datenintegration für Big Data Prof. Dr. Erhard Rahm 1
2 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt.
3 3 Datenproduzenten: Soziale Netze, Smartphones, Sensoren 12+ TBs of tweet data every day 30 billion RFID tags today (1.3B in 2005) 4.6 billion camera phones world wide? TBs of data every day 100s of millions of GPS enabled devices sold annually 25+ TBs of log data every day 76 million smart meters in M by billion people on the Web by end 2011
4 Big Data Challenges Volume Variety Velocity: Veracity: Skalierbarkeit von Terabytes nach Petabytes (1K TBs) bis Zettabytes (1 Milliarde TBs) variierende Komplexität: strukturiert, teilstrukturiert, Text / Bild / Video Near-Realtime, Streaming Vertrauenswürdigkeit Value Erzielen des (wirtschaftl.) Nutzens durch Analysen 4
5 5 Potentiale für Big Data-Technologien Daten sind Produktionsfaktor ähnlich Betriebsmitteln und Beschäftigten Essentiell für viele Branchen und Wissenschaftsbereiche Valide Grundlage für zahlreiche Entscheidungsprozesse Vorhersage/Bewertung/Kausalität von Ereignissen Kurzfristige Analysen von Realdaten im Geschäftsleben Beispiele Nutzungsanalyse auf Web-Sites Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Werbe-Massnahmen
6 Neuartige Anwendungen für Big Data Analytics 6
7 7 Big Data Analysis Pipeline Source: Agrawal et al: Big Data: Challenges and Opportunities, 2011
8 8 Big Data Architekturalternativen Data Warehouse Appliances Column Store, In-Memory-Optimierungen parallele DB-Vearbeitung mit vielen Knoten/Cores, Spezial-Hardware, z.b. FPGA (Netezza) und GPUs Massiv skalierbare Cloud-Architekturen Nutzung von NoSQL Data Stores Frameworks zur automatischen Parallelisierung datenintensiver Aufgaben (MapReduce / Hadoop) Kombinationen: DWH + Cloud/Hadoop
9 9 Analyse-Pipeline Datenvorverarbeitung und Datenintegration S. Chaudhuri et al, CACM, Aug Unterstützung von Stream-Daten und Cloud-Infrastrukturen (Hadoop)
10 10 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick
11 11 Forschungsarbeiten Web Data Integration Lab (WDI-Lab) Cloud Data Management / Big Data skalierbares Daten-Management / Last-Balancierung mit Hadoop Machine Learning auf Hadoop DeDoop: Deduplication based on Hadoop Business Analytics mit NoSQL/Graph-Daten Zwei Startups in 2012 Web Data Solutions GmbH, Data Virtuality GmbH
12 12 Integration von Webdaten, z.b. Produktangebote Identifikation semantisch äquivalenter Objekte (Objekt-Matching) Fusion oder Datenvergleich / Analyse Herausforderungen: Schlechte Datenqualität Heterogene Repräsentationen Fehlerhafte Angaben Große Datenmengen Verarbeitung in Echtzeit
13 13 Big Data Integration Problem: Matching von Produktangeboten zahlreiche Quellen (Tausende von Shops/Händlern) zahlreiche Produkte und Produktangebote ständige Aktualisierung viele ähnliche, jedoch unterschiedliche Produkte heterogene, shop-spezifische Produktkategorisierungen geringe Datenqualität (wenige Attribute pro Angebot, teilstrukturiert) Produkt-Ids (EAN, UPC, GTIN) oft nicht verfügbar bzw fehlerhaft
14 Produkttitel sind sehr heterogen number of product offers KODAK charger for rechargeable batteries K8500-C+1 KLIC8000 (Serie Z) for Z1012 IS, Z1015 IS, Z1085 IS, Z612, Z712 IS, Z812 IS, Z8612 IS string length 14
15 Standard String-Matcher scheitern % match correspondences 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 60% haben similarity <= 0.5 Flat TV sets Digital Cameras Publications (DBLP-Scholar) 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 TFIDF title similarity 60% haben similarity > 0.9 Domänen-spezifische Integrations/Match- Strategien erforderlich 15
16 16 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes
17 17 Extraktion von Produkt-Codes Hahnel HL-XF51 7.2V 680mAh for Sony NP-FF51 7.2V 680mAh Features Hahnel HL-XF51 for Sony NP-FF51 Tokens Hahnel HL-XF51 Sony NP-FF51 Filtered Tokens HL-XF51 NP-FF51 Candidates Web Verification [A-Z]{2}\-[A-Z]{2}[0-9]{2}
18 18 Lösungsansatz Input: aktuelle Produktangebote; existierender Produktkatalog (mit zugeordneten Angeboten) Vorverarbeitung / Data Cleaning: Extraktion / Konsolidierung Herstellerangaben Extraktion Produkt-Codes Kategorisierung von Angeboten Nutzung bereits zugeordneter Angebote als Trainingsdaten Matching aller Angebote pro Kategorie Vor-Partitioning pro Hersteller Nutzung mehrerer Matcher auf verschiedenen Attributen sowie Kombination über lernbasierte Verfahren (zb SVM) pro Produktkategorie eigene Match-Strategie
19 19 Integrations-Workflow Pre-processing Training Product Code Extraction Training Data Selection Matcher Application Classifier Learning Product Offers Manufacturer Cleaning Application Classifier Automatic Classification Blocking (Manufacturer + Category) Matcher Application Classification Product Match Result Koepcke, Thor, Thomas, Rahm: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012
20 20 Gliederung Einführung Big Data Trends / Herausforderungen / Einsatz / Architektur Integration von Webdaten Matching von Produktangeboten Lösungsansatz Map-Reduce-basierte Datenintegration DeDoop Tool Lastbalancierung (BlockSplit) Ausblick
21 21 Dedoop: Efficient Deduplication with Hadoop Parallele Ausführung von Datenintegrations/Match-Workflows mit Hadoop Browser-basiertes GUI Mächtige Funktionsbibliothek mit vielen Match-Techniken lernbasierte Konfiguration Automatische Generieren und Starten von Map/Reduce- Jobs auf unterschiedlichen Clustern Automatische Lastbalancierung Monitoring der Ausführung
22 22 Matching mit MapReduce 22 Map Phase Reduce Phase Partitioning Paralleles Einlesen und Umverteilen der Datensätze (z.b. gemäß Hersteller und Produkttyp) Grouping Grouping Grouping Paralleler Abgleich pro Gruppe
23 23 Lastbalancierung Einfacher Map/Reduce-Ansatz leidet unter Skew-Effekten ungleichmäßige Werteverteilung z.b. bzgl Hersteller/Kategorie große Partitionen verhindern Ausnutzung vieler Rechner beschränkte Skalierbarkeit Lastbalancierungsansatz (BlockSplit)* zusätzlicher MR-Job zur Analyse (Werteverteilung bzgl. Partitionierungsschlüssel) Splitting größerer Partitionen ( Blöcke ) auf mehrere Reduce- Knoten über angepasste Datenverteilungsfunktion ermöglicht in etwa gleichen Aufwand pro Reduce-Knoten bei mäßiger Mehrfachverteilung von Eingabesätzen *Kolb, Thor, Rahm: Load Balancing for MapReduce-based Entity Matching. Proc. Int. Conf. on Data Engineering 2012
24 24 BlockSplit auf 1 Folie Beispiel: 3 MP3-Player + 6 Handys 18 Produktpaare (1 Zeiteinheit) Paralleles Matching auf 2 (Reduce-) Knoten Naiver Ansatz BlockSplit 3 Paare (16%) pairs 6 pairs 9 pairs (50%) 15 Paare (84%) Speedup: 18/15= pair 8 pairs 9 pairs (50%) Speedup: 18/9=2
25 25 Evaluierung: Skalierbarkeit Evaluierung mit Hadoop auf Amazon EC Matching von Produktangeboten
26 Dedoop Überblick 26
27 27 Browser-basierte Spezifikation Graphical HDFS file manager and File-Viewer Support common file operations Simple metadata operations to facilitates workflow definition Input section Select data sources, id attributes, final output directory Attributes to appear in match result Attribute mapping in case of two sources Blocking Section Standard Blocking, Sorted Neighborhood, Cartesian, Tokenset-Similarity Blocking key generation functions Matching section Similarity Functions Match classification (learning-based, threshold-based)
28 28 Ausblick Noch viele offene Probleme für Big Data Integration Parallelisierung kompletter ETL- und Analyse-Pipelines für unterschiedlichste Daten Streaming-Daten Text-Daten Social Web Real-Time-Analysen mit dynamischer Datenbeschaffung Schemaintegration für viele Quellen Match + Merge z.b. Erstellung eines intergrierten Produktkatalogs Domänenspezifische Big Data Lösungen
29 29 Big Data in Sachsen SMWK hat Big Data als Forschungsschwerpunkt in Sachsen identifiziert Koordination Prof. Dr. W. Nagel (TUD), Prof. Dr. E. Rahm Beteiligung von Hochschulen, Forschungseinrichtungen sowie von Unternehmen erwünscht
30 Literatur Bellahsene, Z.; Bonifati, A.; Rahm, E. (eds.): Schema Matching and Mapping. Springer-Verlag, 2011 Kolb, L.; Rahm, E.: Parallel Entity Resolution with Dedoop. Datenbank-Spektrum 13 (1), 2013 Kolb, L.; Thor, A.; Rahm, E.: Dedoop: Efficient Deduplication with Hadoop. Proc. VLDB Endowment 5(12), 2012 Kolb, L.; Thor, A.; Rahm, E.: Load Balancing for MapReducebased Entity Resolution. Proc. ICDE, 2012 Kolb, L.; Thor, A.; Rahm, E.: Multi-pass Sorted Neighborhood Blocking with MapReduce. CSRD 27(1), 2012 Koepcke, H.; Thor, A.; Thomas, S., Rahm, E.: Tailoring entity resolution for matching product offers. Proc. EDBT, 2012 Rahm, E.: Der Lehrstuhl Datenbanken an der Universität Leipzig. Datenbank-Spektrum 13 (2), 2013
Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm. http://dbs.uni-leipzig.de
Big Data Analytics: Herausforderungen und Systemansätze Prof. Dr. Erhard Rahm http://dbs.uni-leipzig.de 2 Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten
MehrMassives Wachstum an Daten
Massives Wachstum an Daten Gartner: pro Tag werden 2.5 Exabytes an Daten generiert 90% aller Daten weltweit wurden in den 2 letzten Jahren erzeugt. 2 Datenproduzenten: Soziale Netze, Smartphones, Sensoren
MehrUniversität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen
Universität Leipzig Institut für Informatik Auffinden von Dubletten in ECommerce Datenbeständen Hanna Köpcke AG 3: Objekt Matching Agenda Problemstellung FEVER-System - Manuell definierte Match-Strategien
MehrMATCHING VON PRODUKTDATEN IN DER CLOUD
MATCHING VON PRODUKTDATEN IN DER CLOUD Dr. Andreas Thor Universität Leipzig 15.12.2011 Web Data Integration Workshop 2011 Cloud Computing 2 Cloud computing is using the internet to access someone else's
MehrBig Data Mythen und Fakten
Big Data Mythen und Fakten Mario Meir-Huber Research Analyst, IDC Copyright IDC. Reproduction is forbidden unless authorized. All rights reserved. About me Research Analyst @ IDC Author verschiedener IT-Fachbücher
MehrAnalyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria
Analyse von unstrukturierten Daten Peter Jeitschko, Nikolaus Schemel Oracle Austria Evolution von Business Intelligence Manuelle Analyse Berichte Datenbanken (strukturiert) Manuelle Analyse Dashboards
MehrForschung und Entwicklung am
Forschung und Entwicklung am Stefan Kühne, Axel Ngonga Agenda Motivation Projekte Ausblick 2 Aktuelle IT-Trends Dynamic Infrastructure BYOD Social Business Big Data Identity Management Cloud Computing/SaaS
MehrSeminar WS 2012/13. S. Chaudhuri et al, CACM, Aug. 2011. Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP
Seminar WS 2012/13 S. Chaudhuri et al, CACM, Aug. 2011 Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP 2 Vorkonfigurierte, komplette Data Warehouse-Installation Mehrere Server,
MehrETL in den Zeiten von Big Data
ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics 1 1 Review ETL im Datawarehouse 2 Aktuelle Herausforderungen 3 Future of ETL 4 Zusammenfassung 2 2015 IBM Corporation ETL im Datawarehouse
Mehr20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik
20.01.2015 Fabian Grimme und Tino Krüger 1 INDREX Evaluierung von H2O Enterprise Data Management Beuth Hochschule für Technik 20.01.2015 Fabian Grimme und Tino Krüger 2 INDREX im Überblick In-Database
MehrCopyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS
HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS AGENDA VISUAL ANALYTICS 9:00 09:30 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT
MehrOperational Big Data effektiv nutzen TIBCO LogLogic. Martin Ulmer, Tibco LogLogic Deutschland
Operational Big Data effektiv nutzen TIBCO LogLogic Martin Ulmer, Tibco LogLogic Deutschland LOGS HINTERLASSEN SPUREN? Wer hat wann was gemacht Halten wir interne und externe IT Richtlinien ein Ist die
MehrWas ist Analyse? Hannover, CeBIT 2014 Patrick Keller
Was ist? Hannover, CeBIT 2014 Patrick Keller Business Application Research Center Historie 1994: Beginn der Untersuchung von Business-Intelligence-Software am Lehrstuhl Wirtschaftsinformatik der Universität
MehrJune 2015. Automic Hadoop Agent. Data Automation - Hadoop Integration
June 2015 Automic Hadoop Agent Data Automation - Hadoop Integration + Aufbau der Hadoop Anbindung + Was ist eigentlich ist MapReduce? + Welches sind die Stärken von Hadoop + Welches sind die Schwächen
MehrBIG UNIVERSITÄTSRECHENZENTRUM
UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga
MehrBig & Smart Data. bernard.bekavac@htwchur.ch
Big & Smart Data Prof. Dr. Bernard Bekavac Schweizerisches Institut für Informationswissenschaft SII Studienleiter Bachelor of Science in Information Science bernard.bekavac@htwchur.ch Quiz An welchem
MehrSozio- Technische Systeme
Soziotechnische Informationssysteme 7. Skalierbarkeit 2013 757 Millionen melden sich täglich an (12/2013) 802 DAUs laut FB (1 Quartal 2014) 1.23 Milliarden Nutzer im Monat (12/2013) 556 Millionen täglich
MehrCBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks. Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.
CBLOCK: An Automatic Blocking Mechanism for Large-Scale De-duplication Tasks Cathleen Ramson, Stefan Lehmann LSDD SS 2013 25.04.2013 Gliederung 2 Motivation Ziel Algorithmen Zusammenfassung Bewertung Motivation
MehrBI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen 11.15 11.45
9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics
MehrCisco gestern heute morgen
Cisco gestern heute morgen Dorothe Brohl Strategic Account Manager September 2015 2 3 4 5 6 7 8 9 10 11 Q1 CY15 12 13 Die größte Unterstützung: unsere Kunden 5.0 4.33 4.33 4.30 4.33 4.37 4.37 4.36 4.41
MehrBig Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr.
Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! 25.02.2016 Sascha Bäcker Dr. Florian Johannsen AGENDA 1. Big Data Projekt der freenet Group Dr. Florian Johannsen
MehrProzessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013
Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013 The unbelievable Machine Company? 06.05.13 The unbelievable Machine Company
MehrOpen Source als de-facto Standard bei Swisscom Cloud Services
Open Source als de-facto Standard bei Swisscom Cloud Services Dr. Marcus Brunner Head of Standardization Strategy and Innovation Swisscom marcus.brunner@swisscom.com Viele Clouds, viele Trends, viele Technologien
MehrVon Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics 10.45 11.15
9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics
MehrSOA im Zeitalter von Industrie 4.0
Neue Unterstützung von IT Prozessen Dominik Bial, Consultant OPITZ CONSULTING Deutschland GmbH Standort Essen München, 11.11.2014 OPITZ CONSULTING Deutschland GmbH 2014 Seite 1 1 Was ist IoT? OPITZ CONSULTING
MehrMapReduce. www.kit.edu. Johann Volz. IPD Snelting, Lehrstuhl Programmierparadigmen
MapReduce Johann Volz IPD Snelting, Lehrstuhl Programmierparadigmen KIT Universität des Landes Baden-Württemberg und nationales Großforschungszentrum in der Helmholtz-Gemeinschaft www.kit.edu Wozu MapReduce?
MehrSMART Newsletter Education Solutions April 2015
SMART Education Newsletter April 2015 SMART Newsletter Education Solutions April 2015 Herzlich Willkommen zur aktuellen Ausgabe des Westcon & SMART Newsletters jeden Monat stellen wir Ihnen die neuesten
MehrCopyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP
HERZLICH WILLKOMMEN ZUR VERANSTALTUNG HADOOP AGENDA HADOOP 9:00 09:15 Das datengetriebene Unternehmen: Big Data Analytics mit SAS die digitale Transformation: Handlungsfelder für IT und Fachbereiche Big
MehrOracle Warehouse Builder 3i
Betrifft Autoren Art der Info Oracle Warehouse Builder 3i Dani Schnider (daniel.schnider@trivadis.com) Thomas Kriemler (thomas.kriemler@trivadis.com) Technische Info Quelle Aus dem Trivadis Technologie
MehrEXASOL Anwendertreffen 2012
EXASOL Anwendertreffen 2012 EXAPowerlytics Feature-Architektur EXAPowerlytics In-Database Analytics Map / Reduce Algorithmen Skalare Fkt. Aggregats Fkt. Analytische Fkt. Hadoop Anbindung R LUA Python 2
MehrMöglichkeiten für bestehende Systeme
Möglichkeiten für bestehende Systeme Marko Filler Bitterfeld, 27.08.2015 2015 GISA GmbH Leipziger Chaussee 191 a 06112 Halle (Saale) www.gisa.de Agenda Gegenüberstellung Data Warehouse Big Data Einsatz-
MehrProduktionscontrolling auf dem Weg zur Industrie 4.0
Produktionscontrolling auf dem Weg zur Industrie 4.0 Intelligente Produktion durch Real-Time-Big-Data-Analyse von Sensordaten & Bern, 27.05.2016 Jörg Rieth Jedox vereinfacht Planung, Reporting & Analyse
MehrData. Guido Oswald Solution Architect @SAS Switzerland. make connections share ideas be inspired
make connections share ideas be inspired Data Guido Oswald Solution Architect @SAS Switzerland BIG Data.. Wer? BIG Data.. Wer? Wikipedia sagt: Als Big Data werden besonders große Datenmengen bezeichnet,
MehrHadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes
Hadoop Eine Open-Source-Implementierung von MapReduce und BigTable von Philipp Kemkes Hadoop Framework für skalierbare, verteilt arbeitende Software Zur Verarbeitung großer Datenmengen (Terra- bis Petabyte)
MehrBig Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC
Big Data: Nutzen und Anwendungsszenarien CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC Big Data steht für den unaufhaltsamen Trend, dass immer mehr Daten in Unternehmen anfallen und von
MehrApache HBase. A BigTable Column Store on top of Hadoop
Apache HBase A BigTable Column Store on top of Hadoop Ich bin... Mitch Köhler Selbstständig seit 2010 Tätig als Softwareentwickler Softwarearchitekt Student an der OVGU seit Oktober 2011 Schwerpunkte Client/Server,
MehrDATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle
DATA WAREHOUSE Big Data Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen aus Unternehmens- Daten ziehen! Datenmengen, Performance und Kosten Daten als Geschäftsmodell
MehrUnternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise
Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise Software AG Innovation Day 2014 Bonn, 2.7.2014 Dr. Carsten Bange, Geschäftsführer Business Application Research Center
MehrMap Reduce on Hadoop Seminar SS09. Similarity Join. Tim Felgentreff, Andrina Mascher
Map Reduce on Hadoop Seminar SS09 Similarity Join Tim Felgentreff, Andrina Mascher Gliederung 2!! Aufgabe!! Demo!! Algorithmus!! Performance!! Veränderte Aufgabenstellung:!! Vergleich mit 1 Seite!! Ausblick!!
MehrOracle BI&W Referenz Architektur Big Data und High Performance Analytics
DATA WAREHOUSE Oracle BI&W Referenz Architektur Big Data und High Performance Analytics Alfred Schlaucher, Oracle Scale up Unternehmensdaten zusammenfassen Noch mehr Informationen
MehrState-of-the-Art in Software Product Line Testing and Lessons learned
State-of-the-Art in Software Product Line Testing and Lessons learned Sebastian Oster Sebastian Oster oster@es.tu-darmstadt.de Tel.+49 6151 16 3776 ES Real-Time Systems Lab Prof. Dr. rer. nat. Andy Schürr
MehrLOG AND SECURITY INTELLIGENCE PLATFORM
TIBCO LOGLOGIC LOG AND SECURITY INTELLIGENCE PLATFORM Security Information Management Logmanagement Data-Analytics Matthias Maier Solution Architect Central Europe, Eastern Europe, BeNeLux MMaier@Tibco.com
MehrInternet of things. Copyright 2016 FUJITSU
Internet of things 0 Fujitsu World Tour 2016 Human Centric Innovation in Action Wie das Internet der Dinge den Handel verändert Ralf Schienke Leitung Vertrieb Handel Deutschland 1 2X Cost of SENSORS Past
MehrDateisysteme und Datenverwaltung in der Cloud
Dateisysteme und Datenverwaltung in der Cloud Sebastian Fischer Master-Seminar Cloud Computing - WS 2013/14 Institut für Telematik, Universität zu Lübeck Dateisysteme und Datenverwaltung in der Cloud 1
MehrProf. Dr.-Ing. Rainer Schmidt 1
Prof. Dr.-Ing. Rainer Schmidt 1 Business Analytics und Big Data sind Thema vieler Veröffentlichungen. Big Data wird immer häufiger bei Google als Suchbegriff verwendet. Prof. Dr.-Ing. Rainer Schmidt 2
MehrSAP SharePoint Integration. e1 Business Solutions GmbH
SAP SharePoint Integration e1 Business Solutions GmbH Inhalt Duet Enterprise Überblick Duet Enterprise Use Cases Duet Enterprise Technologie Duet Enterprise Entwicklungs-Prozess Duet Enterprise Vorteile
MehrBig Data Neue Erkenntnisse aus Daten gewinnen
Big Data Neue Erkenntnisse aus Daten gewinnen Thomas Klughardt Senior Systems Consultant 0 Software Dell Software Lösungsbereiche Transform Inform Connect Data center and cloud management Foglight APM,
MehrData Warehousing 0-1. DBS-Module
Data Warehousing Sommersemester 2014 Prof. Dr. E. Rahm Universität Leipzig Institut für Informatik y y y http://dbs.uni-leipzig.de 0-1 DBS-Module Master-Studium Informatik 10-202-2215 Moderne Datenbanktechnologien
MehrBig, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen
Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen 01000111101001110111001100110110011001 Volumen 10 x Steigerung des Datenvolumens alle fünf Jahre Big Data Entstehung
MehrBig Data Informationen neu gelebt
Seminarunterlage Version: 1.01 Copyright Version 1.01 vom 21. Mai 2015 Dieses Dokument wird durch die veröffentlicht. Copyright. Alle Rechte vorbehalten. Alle Produkt- und Dienstleistungs-Bezeichnungen
MehrIntelligent Traveller Early Situation Awareness itesa
Intelligent Traveller Early Situation Awareness itesa Dr. Martin Skorsky, Senior Researcher 22. Juni 2015 1 1 Intelligent Traveller Early Situation Awareness Automatischen Alarmsystems, das Reisende in
MehrMaster Data Management
Master Data Management Warum Stammdatenmanagement Komplexität reduzieren Stammdatenmanagement bringt Ordnung in ihre Stammdaten. Doubletten werden erkannt und gesperrt. Stammdaten verschiedener Quellsysteme
Mehr8. Big Data und NoSQL-Datenbanken
8. Big Data und NoSQL-Datenbanken Motivation Big Data wachsende Mengen und Vielfalt an Daten Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Hadoop, MapReduce
MehrDduP - Towards a Deduplication Framework utilising Apache Spark
- Towards a Deduplication Framework utilising Apache Spark utilising Apache Spark Universität Hamburg, Fachbereich Informatik Gliederung 1 Duplikaterkennung 2 Apache Spark 3 - Interactive Big Data Deduplication
MehrIn-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden
In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden Jens Kaminski ERP Strategy Executive IBM Deutschland Ungebremstes Datenwachstum > 4,6 Millarden
MehrPositionspapier Big Data
TeleTrusT-interner Workshop Berlin, 05.06.2014 Positionspapier Big Data Oliver Dehning, antispameurope GmbH Leiter der AG Cloud Security Definition Big Data Big Data bezeichnet große Datenmengen (Volume)
MehrS3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten
S3 your Datacenter Software Defined Object Storage Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten Unstrukturierte Daten explodieren Volume in Exabytes Sensors & Devices Social
MehrSolaris Cluster. Dipl. Inform. Torsten Kasch <tk@cebitec.uni Bielefeld.DE> 8. Januar 2008
Dipl. Inform. Torsten Kasch 8. Januar 2008 Agenda Übersicht Cluster Hardware Cluster Software Konzepte: Data Services, Resources, Quorum Solaris Cluster am CeBiTec: HA Datenbank
MehrAnforderungen an die HIS
Anforderungen an die HIS Zusammengefasst aus den auf IBM Software basierenden Identity Management Projekten in NRW Michael Uebel uebel@de.ibm.com Anforderung 1 IBM Software Group / Tivoli Ein Feld zum
MehrBig Data im Bereich Information Security
Der IT-Sicherheitsverband. TeleTrusT-interner Workshop Bochum, 27./28.06.2013 Big Data im Bereich Information Security Axel Daum RSA The Security Division of EMC Agenda Ausgangslage Die Angreifer kommen
MehrOSEK/VDX NM (Network Management)
OSEK/VDX NM (Network Management) Alexander Berger alexander.berger@uni-dortmund.de PG Seminarwochenende 21.-23. Oktober 2007 1 Überblick Motivation Aufgaben des NM Architektur Konzept und Verhalten Indirektes
MehrDirektmarketing im Zentrum digitaler Vertriebsstrategien
Direktmarketing im Zentrum digitaler Vertriebsstrategien Standortbestimmung und Key Learnings für Verlage Hamburg, September 2014 Im Zentrum digitaler Vertriebsstrategien steht zunehmend die Analyse komplexer
MehrNeue Ansätze der Softwarequalitätssicherung
Neue Ansätze der Softwarequalitätssicherung Googles MapReduce-Framework für verteilte Berechnungen am Beispiel von Apache Hadoop Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik
MehrSeminar WS 2010/11. Informationsfusion
Seminar WS 2010/11 Informationsfusion 2 Analysis Tools Client 1 Client k Data Marts Meta data Data Warehouse Mediator Meta data Import (ETL) Wrapper 1 Wrapper m Wrapper n Operational Systems Source 1 Source
MehrSmart Objects Physische Objekte als Zugang zur digitalen Welt
Smart Objects Physische Objekte als Zugang zur digitalen Welt BEGRIFFSKLÄRUNG Smarte Objekte Seite 2 SMARTE OBJEKTE BEGRIFFSKLÄRUNG Intelligente Objekte Was ist das? Seite 3 CITRIX WEARABLES SURVEY ERGEBNISSE
MehrSE2-10-Entwurfsmuster-2 15
Architektur und Skalierbarkeit SE2-10-Entwurfsmuster-2 15 Skalierbarkeit Skalierbarkeit bedeutet die Anpassung einer Software an wachsende Last: Interaktionsfrequenz Nutzerzahl Anpassung durch Hinzufügen
MehrInfografik Business Intelligence
Infografik Business Intelligence Top 5 Ziele 1 Top 5 Probleme 3 Im Geschäft bleiben 77% Komplexität 28,6% Vertrauen in Zahlen sicherstellen 76% Anforderungsdefinitionen 24,9% Wirtschaflicher Ressourceneinsatz
MehrBig Data in Azure. Ein Beispiel mit HD Insight. Ralf Stemmer
Big in Azure Ein Beispiel mit HD Insight Ralf Stemmer Agenda owas ist Big? Was ist HD Insight? owelche Probleme kann man damit lösen? odemo Was ist Big? Was ist HD Insight? Datenexplosion - Rasanter Zuwachs
MehrWorkflow, Business Process Management, 4.Teil
Workflow, Business Process Management, 4.Teil 24. Januar 2004 Der vorliegende Text darf für Zwecke der Vorlesung Workflow, Business Process Management des Autors vervielfältigt werden. Eine weitere Nutzung
MehrDie Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link
Die Bedeutung der Prozessmodellierung bei der Weiterentwicklung des DWHs der DAK Der Innovator als Missing Link Konrad Linner, solvistas GmbH Nürnberg, 20.November 2012 Inhaltsverzeichnis Vorstellung solvistas
MehrMake your day a sales day
Make your day a sales day Axivas Group Axivas IT Solutions I C T M a n a g e m e n t S a l e s P o r t a l S o f t w a r e Ihr Technologiepartner für Marketing- und Vertrieb. S y s t e m I n t e g r a
Mehr7. Big Data und NoSQL-Datenbanken
7. Big Data und NoSQL-Datenbanken Motivation Big Data Herausforderungen Einsatzbereiche Systemarchitekturen für Big Data Analytics Analyse-Pipeline Hadoop, MapReduce, Spark/Flink NoSQL-Datenbanken Eigenschaften
MehrReview Freelancer-Workshop: Fit für Big Data. Mittwoch, 29.04.2015 in Hamburg
Review Freelancer-Workshop: Fit für Big Data Mittwoch, 29.04.2015 in Hamburg Am Mittwoch, den 29.04.2015, hatten wir von productive-data in Zusammenarbeit mit unserem langjährigen Partner Informatica zu
MehrUmsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine. TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH
Umsetzung von BI-Lösungen mit Unterstützung einer Suchmaschine TDWI Stuttgart 15.04.2015 Tobias Kraft, exensio GmbH Suchmaschinen Elasticsearch BI-Stack mit Elasticsearch Use Cases Pharmabranche 2 Funktionen
MehrInnovationslabor Semantische Integration von Webdaten
Innovationslabor Semantische Integration von Webdaten Workflow-basierte Datenintegration und Objekt-Matching Dr. Andreas Thor http://dbs.uni-leipzig.de/format Workflow-basierte Datenintegration Ausgangspunkt
MehrApache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org
Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software
MehrProactive Environment Check für General Parallel File System
Klaus Kaltenbach Proactive Environment Check für General Parallel File System Agenda Vorstellung Proactive Support Services Überblick Procative Environment Check für GPFS Fragen Proactive... oder auch
MehrBig Data zur B2B-Vertriebsunterstützung
Big Data zur B2B-Vertriebsunterstützung Dr. Andreas Schäfer, Implisense GmbH Stephan Kreutzer, Cisco Systems GmbH Big Data Summit am 26. März 2014 in Hanau Big Data Smart Business 21.03.2014 Thema Produktivität
MehrRisiken bei der Analyse sehr großer Datenmengen. Dr. Thomas Hoppe
Risiken bei der Analyse sehr großer Datenmengen Dr. Thomas Hoppe Datenaufbereitung Datenanalyse Data Mining Data Science Big Data Risiken der Analyse Sammlung Integration Transformation Fehlerbereinigung
MehrTRACK II Datenmanagement Strategien & Big Data Speicherkonzepte BI Operations Erfolgsfaktoren für einen effizienten Data Warehouse Betrieb
9.30 10.15 Kaffee & Registrierung 10.15 10.45 Begrüßung & aktuelle Entwicklungen bei QUNIS 10.45 11.15 11.15 11.45 Von Big Data zu Executive Decision BI für den Fachanwender bis hin zu Advanced Analytics
MehrBig Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen
Big Data Modewort oder echter Mehrwert freenet Group Dr. Florian Johannsen freenet Group 2 Titel der Präsentation 07.07.2015 Mobilfunkgeschäft der freenet Group Austausch von Daten und Informationen Im
MehrKundenwissen für den Energieversorger der Zukunft
Kundenwissen für den Energieversorger der Zukunft Dr. Leading Tobias customer Graml insights CTO company tobias.graml@ben-energy.com for utilities in Europe Sechs Jahre Expertise in Datenanalyse und Kundenverhalten
MehrSAS Predictive Analytics Factory The SAS approach for the production and maintenance of analytical models
Predictive Analytics Factory The approach for the production and maintenance of analytical models Dr. Gerhard Svolba Austria Forum Finnland Helsinki September24 h, 2013 Agenda Rationale and idea of a Predictive
MehrCopyright 2014 Delta Software Technology GmbH. All Rights reserved.
Karlsruhe, 21. Mai 2014 Softwareentwicklung - Modellgetrieben und trotzdem agil Daniela Schilling Delta Software Technology GmbH The Perfect Way to Better Software Modellgetriebene Entwicklung Garant für
MehrGeneralisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE
Institut für Kartographie und Geoinformatik Leibniz Universität Hannover Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE Frank Thiemann, Thomas Globig Frank.Thiemann@ikg.uni-hannover.de
MehrWeb Content Management
Web Content Management Informationen sinnvoll aufbereiten und anreichern Lars Onasch Senior Director Product Marketing Open Text Cooperation Copyright Open Text Corporation. All rights reserved. Web Content
MehrLiving Lab Big Data Konzeption einer Experimentierplattform
Living Lab Big Data Konzeption einer Experimentierplattform Dr. Michael May Berlin, 10.12.2012 Fraunhofer-Institut für Intelligente Analyseund Informationssysteme IAIS www.iais.fraunhofer.de Agenda n Ziele
MehrOERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt
OERA OpenEdge Reference Architecture Mike Fechner PUG Infotag 19. Mai 05 Frankfurt Überblick OERA Separated presentation and integration layers Common business logic with advanced models Data access abstracted
MehrDas Zettabyte. CeBIT 2011. Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor
Das Zettabyte CeBIT 2011 Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor Das Zetabyte: analytische Datenbanken Die Datenflut. Analytische Datenbanken: Was ist neu? Analytische Datenbanken:
MehrParallelisierung von NIDS
Brandenburgische Technische Universität Cottbus Lehrstuhl Rechnernetze und Kommunikationssysteme Parallelisierung von NIDS René Rietz E-Mail: rrietz@informatik.tu-cottbus.de Inhalt I Motivation II Ansätze
Mehr<Insert Picture Here> Oracle Datenbank Einführung Ulrike Schwinn Email: Ulrike.Schwinn@HS-Augsburg.DE
Oracle Datenbank Einführung Ulrike Schwinn Email: Ulrike.Schwinn@HS-Augsburg.DE Oracle Corporation in Zahlen Gegründet 1977 Headquarter in Redwood Shores in Kalifornien 84 000 Angestellte
MehrÜbungen zur Softwaretechnik
Technische Universität München Fakultät für Informatik Lehrstuhl IV: Software & Systems Engineering Markus Pister, Dr. Bernhard Rumpe WS 2002/2003 Lösungsblatt 9 17. Dezember 2002 www4.in.tum.de/~rumpe/se
MehrNoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse
NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse Carsten Czarski Oracle Deutschland B.V. & Co KG Big Data Betrachten von Daten die bislang nicht betrachtet wurden
Mehr8. Big Data und NoSQL-Datenbanken
8. Big Data und NoSQL-Datenbanken Motivation Big Data Wachsende Mengen und Vielfalt an Daten Herausforderungen Systemarchitekturen für Big Data Analytics Analyse-Pipeline, Near-Real-Time Data Warehouses
MehrSoftwaretest in Praxis und Forschung
Umfrage 2015 Softwaretest in Praxis und Forschung 37. Treffen der GI-Fachgruppe TAV Test, Analyse und Verifikation von Software Friedrichshafen, 05. Februar 2015 Prof. Dr. Mario Winter Prof. Dr. Karin
MehrEducation Day 2012. Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! Education Day 2012 11.10.
Wissensgold aus Datenminen: wie die Analyse vorhandener Daten Ihre Performance verbessern kann! 11.10.2012 1 BI PLUS was wir tun Firma: BI plus GmbH Giefinggasse 6/2/7 A-1210 Wien Mail: office@biplus.at
MehrExplosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. E-Mails werden jeden Tag versendet. 30 Mrd.
Warum viele Daten für ein smartes Unternehmen wichtig sind Gerald AUFMUTH IBM Client Technical Specialst Data Warehouse Professional Explosionsartige Zunahme an Informationen Volumen. 15 Petabyte Menge
MehrInformationsflut bewältigen - Textmining in der Praxis
Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland
MehrDie Renaissance von Unified Communication in der Cloud. Daniel Jonathan Valik UC, Cloud and Collaboration
Die Renaissance von Unified Communication in der Cloud Daniel Jonathan Valik UC, Cloud and Collaboration AGENDA Das Program der nächsten Minuten... 1 2 3 4 Was sind die derzeitigen Megatrends? Unified
Mehr