Step 0: Bestehende Analyse-Plattform

Ähnliche Dokumente
Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

DATA WAREHOUSE. Big Data Alfred Schlaucher, Oracle

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Big Data Hype und Wirklichkeit Bringtmehrauchmehr?

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Was ist Analyse? Hannover, CeBIT 2014 Patrick Keller

Big Data Informationen neu gelebt

Möglichkeiten für bestehende Systeme

June Automic Hadoop Agent. Data Automation - Hadoop Integration

ETL in den Zeiten von Big Data

Oracle EngineeredSystems

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Marketing Intelligence Vorstellung der Softwarekomponenten. Josef Kolbitsch Manuela Reinisch

BIW - Überblick. Präsentation und Discoverer Demonstration - Teil 1 - Humboldt Universität zu Berlin am 10. Juni 2004

Die Microsoft-Komplettlösung für Datawarehousing, Big Data und Business Intelligence im Überblick.

Big Data Mythen und Fakten

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

Hadoop Demo HDFS, Pig & Hive in Action. Oracle DWH Konferenz 2014 Carsten Herbe

Zend PHP Cloud Application Platform

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

PRODATIS CONSULTING AG. Folie 1

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

LOG AND SECURITY INTELLIGENCE PLATFORM

Oracle R zum Anfassen

EXASOL Anwendertreffen 2012

Mit In-Memory Technologie zu neuen Business Innovationen. Stephan Brand, VP HANA P&D, SAP AG May, 2014

Apache HBase. A BigTable Column Store on top of Hadoop

Open Source als de-facto Standard bei Swisscom Cloud Services

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

Planung auf Aufbau von SharePoint-Suchinfrastrukturen

OERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt

1 Application Compatibility Toolkit (ACT) 5.6

Was ist Windows Azure? (Stand Juni 2012)

Exalytics - Deep dive with OBIEE, Timesten and Essbase

SQL Server 2012 und SharePoint im Unternehmenseinsatz. Referent Daniel Caesar

Mit Excel Know-how webbasierte BI- Applikationen erstellen #MobileBI Business Driven Intelligence

IBM Netezza Data Warehouse Appliances - schnelle Analysen mit hohen Datenmengen

GESCHÄFTSSTELLENERÖFFNUNG HAMBURG, 25. APRIL 2013

EXCHANGE Neuerungen und Praxis

Installation SQL- Server 2012 Single Node

Trends im Markt für Business Intelligence. Patrick Keller, Senior Analyst & Prokurist CeBIT 2016

Business Intelligence Data Warehouse. Jan Weinschenker

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Big Data und Oracle bringen die Logistik in Bewegung

SOA im Zeitalter von Industrie 4.0

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Oracle 10g revolutioniert Business Intelligence & Warehouse

Oracle Business Intelligence (OBIEE) 12c Ein erster Einblick in die neue Reporting-Engine von Oracle

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

Oracle Big Data Technologien Ein Überblick

Windows Azure für Java Architekten. Holger Sirtl Microsoft Deutschland GmbH

eevolution Business Intelligence Oliver Rzeniecki COMPRA GmbH Programmierer & Datenbankadministrator

Exadata und In-Memory Datenbewirtschaftung und Analyse Extrem mit Exadata und InMemory (Erfahrungsbericht)

Integriertes ITSM mit 100% Open Source

Die perfekte Kombination im Agilen Data Warehouse Oracle Engineered Systems mit Data Vault

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

In-Memory & Real-Time Hype vs. Realität: Maßgeschneiderte IBM Business Analytics Lösungen für SAP-Kunden

THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

Vergleich von ERPConnect Services (ECS) gegenüber Duet Enterprise for Microsoft SharePoint and SAP

Business Intelligence. Bereit für bessere Entscheidungen

Big Data Technologien

Inhalt. 1 Übersicht. 2 Anwendungsbeispiele. 3 Einsatzgebiete. 4 Systemanforderungen. 5 Lizenzierung. 6 Installation. 7 Key Features.

Big Data Anwendungen Chancen und Risiken

Preise und Leistungen Dynamic Computing Services

Data Warehouse Definition (1)

Prof. Dr.-Ing. Rainer Schmidt 1

Microsoft SharePoint 2013 Vorteile und Neuheiten. Fachseminar Microsoft SharePoint 2013

Agile Analytics Neue Anforderungen an die Systemarchitektur

MSSQL Server Fragen GridVis

HERZLICH WILLKOMMEN SHAREPOINT DEEP DIVE FOR ADMINS IOZ AG 2

EINSATZ VON MICROSOFT TERMINAL-SERVICES ODER CITRIX METAFRAME

Seminare im Kontext des Data Warehouse für die Oracle Data Warehouse Kunden-Community. Organisatorisches. Gesamtübersicht

OWB 10.2 Experts im Einsatz: Automatisierung von Designschritten bei der Bayer Healthcare AG. Referent: Lutz Bauer, Senior Systemberater, MT AG

Richtige und schnelle Entscheidungen trotz sich änderner Anforderungen mit Microsoft Dynamics AX und Microsoft SQL Server Reporting Services

Oracle GridControl Tuning Pack. best Open Systems Day April Unterföhring. Marco Kühn best Systeme GmbH

Office 365 Dynamics 365 Azure Cortana Intelligence. Enterprise Mobility + Security Operations Mgmt. + Security

SAP Integration von Business Objects am Beispiel von SAP Student Lifecycle Management. Anke Noßmann Syncwork AG

Einsatz des Microsoft SQL-Servers bei der KKH

Fragen zur GridVis MSSQL-Server

SQL Server 2008 Standard und Workgroup Edition

Übersicht Streams nach Liste Produkte/Themen

O-BIEE Einführung mit Beispielen aus der Praxis

Transkript:

Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien im Kontext des Data Warehouse (Oracle) 11:30-12:00 Hadoop & SQL (metafinanz) 12:00-12:45 Mittagpause 12:45-13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle) 13:15-13:45 Vorgehen Projekt (metafinanz) 13:45-14:00 Gemeinsamer Abschluss "Fragen und Optionen" 1

Step 0: Bestehende Analyse-Plattform High Density Data Oracle Database Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Acquire Organize Analyze Decide 2

Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics) High Density Data Oracle Database Spatial and Graph Advanced Analytics Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Acquire Organize Analyze Decide 3

Step 2: Neue Techniken für Volume and Variety Low Density Batch Data High Density Data Hadoop Oracle Database Spatial and Graph Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Aggregate Pre-Analyze Advanced Analytics Beziehungen Meinungen Aktivitäten Acquire Organize Analyze Decide 4

Step 3: Neue Techniken für Velocity Low Density Batch Data High Density Data Hadoop Oracle Database Spatial and Graph Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Streaming Data Aggregate Pre-Analyze Event Processing Advanced Analytics Act Model Real Time Decisions Beziehungen Meinungen Aktivitäten Empfehlungen Aktionen Acquire Organize Analyze Decide 5

Step 4: Neue Muster finden / Analysieren Endeca Information Discovery Low Density Batch Data Streaming Data Acquire High Density Data Hadoop Aggregate Pre-Analyze Event Processing Organize Oracle Database Spatial and Graph Advanced Analytics Act Analyze Model Oracle BI Enterprise Edition Real Time Decisions Decide Dashboard Ad-Hoc Query Segmentierung Locality Beziehungen Meinungen Aktivitäten Empfehlungen Aktionen Neue Aspekte entdecken 6

Hadoop oder relationale Datenbank? Entwicklungsreife der Werkzeuge Performance der Datenverarbeitung Security Die Fähigkeit Daten schnell entgegen zu nehmen Wirtschaftlichkeit bei der Speicherung von Low Value Daten Die Leichtigkeit ETL-Prozesse zu bauen Vollständigkeit der Quelldaten (zu viele Lücken oder nicht) Unterschiedlichkeit der Datenstrukturen Komplexität des Datenmanagements Deployment Business verstehen Modelle prüfen Daten Daten verstehen Modelle bilden Daten aufbereiten 7

Hadoop oder relationale Datenbank? Vorteile auf beiden Seiten Hadoop Relationale Systeme Extrem schnelle Laden der Daten in einen Hadoop-Data Store. Daten werden praktisch ohne näheren Struktur-Syntax-Check einfach abgekippt. Bei Änderung der Quelldaten-Strukturen, kaum Einfluss auf ETL-Strecken (die Änderungen muss nur das Lesen berücksichtigen). Das Map Reduce Framework arbeitet massiv parallel. Die geringe Strukturierung der Daten kommt dieser hohen Parallelisierung sehr entgegen. Überschaubaren Kosten für Storage und Rechenleistung für die z. T. sehr hohen Datenmengen. Sind strukturiert und ermöglichen Schema on Write, also Prüfung von Daten im Zuge der Speicherung. Hohe Zahl gut entwickelter Werkzeugen für einfache, reibungslose und performante Verarbeitung bzw. Datenanalyse. Anwender können ohne besondere Hürden mit einfachen Zugriffen auf einem standardisierten Datenmaterial ad hoc und multidimensional analysieren. Daten sind i. d. Regel qualitätsgesichert, überprüft und die Analyseverfahren sind erprobt. 8

Unternehmen adaptieren Technologie in Phasen Geschäftlicher Nutzen Hadoop-Systeme in separaten Projekten parallel neben RDBMS Erfahrungen sammeln Zugriffsbarriere mit SQL Überwinden -> Beschäftigung mit Hive / HiveQL -> Performarmance- Fragen 1 1) Zentrales DWH und klassisches ETL Hadoop wird als Vorsystem begriffen 2) BI Tool zieht Daten aus beiden Welten: Konsolidierte Sicht 3) Führendes Hadoop-System zieht Daten verschiedenen Quellen ab 2 Master Access Ein zusammenhängendes System ohne die jeweiligen Nachteile 3 Single Logical System Parallel Deployment System Reife 9

Ziel-Szenario / Technische Komponenten HADOOP und RDBMS im technischen Verbund (auch bezogen auf Hardware) SQL als durchgängige Access-Sprache Durchgängige Verwaltungsschicht -> Wo liegen welche Daten -> Metadaten-Information 10

Externe Daten Interne Daten Architekturen und Szenarien Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 11

Externe Daten Interne Daten Architekturen und Szenarien Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 12

Oracle s technische Komponenten Recommendations Streamed into HDFS using Flume Web Logs Oracle Big Data Appliance Cloudera Hadoop HDFS MapReduce Exadata Exalytics Endeca Information Discovery Site Activity Customer Profile Load Recommendations Oracle NoSQL Database Oracle Big Data Connectors Load Session& Activity Data Oracle Database Oracle Advanced Analytics Oracle BI Real-Time Decisions Stream Acquire/Organize Analyze Decide 13

Oracle SQL Connector for Hadoop Low-latency SQL Queries aus der Datenbank heraus und direkt auf Hive Tabellen Automatische External Table Erstellung für Hive Zugriffe und für generierte Data Pump Files Automatisches Mapping von External Table Definitionen aus Data Files Verschieben von Datenbeständen HDFS nosql DB H a d o o p Hive Map Reduce Framework Relational Database Oracle 12c External Table SQL B e l i e b i g e A n a l y s e n 14

Oracle R Connector for Hadoop HIVE Tables als Data Source für R-Analysen Transparent er Support für Sprache R auf HIVE Tabellen Inkrementelle Abfrage-Erstellung Modell-Erstellung in Hadoop => Anwenden des Modells in der Oracle-Datenbank ORD R script {CRAN packages} Hadoop Job Mapper R HDFS R MapReduce R sqoop Hadoop Cluster (BDA) MapReduce Nodes {CRAN packages} HDFS Nodes Big Data Appliance R Client Reducer Oracle Database 15

Oracle R Enterprise Predictive Analytics User R Engine Database Server Maschine R Engine(s) managed by Oracle DB R Engine Other R packages SQL Oracle Database R R Engine Other R packages Oracle R Enterprise packages Results User tables Results Oracle R Enterprise packages Lineare Modelle Clusterung Segmentierung Neuronale Netze MapReduce Nodes HDFS Nodes Hadoop Cluster (BDA) 16

Mustererkennung komplett in der Datenbank Abhängigkeiten von Event-Folgen MATCH_RECOGNIZE Drehzahl Strom Temperatur SATZNR MESSZEITPUNKT STUECKNR DREHZAHL WATT TEMPERATUR 499994 30.04.2008 11:04:55 5000 1031 1094 139 499995 30.04.2008 11:05:16 5000 991 1315 159 499996 30.04.2008 11:05:37 5000 1030 1284 205 499997 30.04.2008 11:05:58 5000 882 1182 186 499998 30.04.2008 11:06:18 5000 818 1406 204 Sensor_Daten R-Analyse ore.connect... cor.matrix <- cbind(drehzahl, Watt,Temperatur) rcorr(cor.matrix) Muster: Gemeinsames Überschreiten von Grenzwerten S-NR PAT SATZNR DREHZAHL WATT C 8 1 720 1040 1547 252 46 1 4531 1021 1530 250 46 2 4534 1048 1548 247 63 1 6220 1033 1524 248 69 1 6882 1031 1514 252 105 1 10426 1040 1527 247 118 1 11728 1035 1528 249 145 1 14414 1047 1543 248 156 1 15504 1037 1535 248 160 1 15910 1032 1527 255 Pattern 17

Zusammenhänge in zeitlichen Verläufen erkennen Satzübergreifende Analysen Große Datenmengen Hohe Abfrageperformance Keine Programmierung 18

In-Database Analytics Oracle Big Data Platform Oracle Big Data Appliance Optimized for Hadoop, R, and NoSQL Processing Oracle Big Data Connectors Oracle Exadata System of Record Optimized for DW/OLTP Oracle Exalytics Optimized for Analytics & In-Memory Workloads Oracle Event Processing Hadoop Open Source R Oracle NoSQL Database Applications Oracle Big Data Connectors Oracle Data Integrator Oracle Advanced Analytics Data Warehouse Oracle Database Oracle Enterprise Performance Management Oracle Business Intelligence Applications Oracle Business Intelligence Tools Oracle Endeca Information Discovery Embeds Times Ten Stream Acquire Organize Discover & Analyze Real Time Decisions 19 19

Big Data Appliance Hardware + Software Full Rack Configuration Hardware 216 Intel Xeon Processors 864 GB total memory 48 GB per node 648TB total raw storage capacity 216 3TB 7200RPM Drives 40Gb/sec InfiniBand Network 10Gb/sec Data Center Connectivity Software Cloudera CDH Cloudera Manager Oracle Enterprise Manager Grid Control Plug-In for BDA NoSQL DB Community Edition Open Source R 20

Big Data Hardware Business As Usual Physische Installation (10 Racks) Elektriker Netzwerk Engineers Storage Engineers System Admins 286 Stunden 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel 21

Oracle Big Data Appliance Installation vs. 38 vs. 1306 Pers.Std. 19 vs. 677 Zeit-Std. 46 vs. 2344 Kabel Physische Installation (10 Racks) Elektriker Netzwerk Engineers Storage Engineers System Admins 286 Stunden 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden 16 Stunden 16 Stunden, 32 Kabel 6 Stunden, 14 Kabel Nicht nötig Nicht nötig 22

Externe Daten Interne Daten Zusammenfassung Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 23

Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien im Kontext des Data Warehouse (Oracle) 11:30-12:00 Hadoop & SQL (metafinanz) 12:00-12:45 Mittagpause 12:45-13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle) 13:15-13:45 Vorgehen Projekt (metafinanz) 13:45-14:00 Gemeinsamer Abschluss "Fragen und Optionen" 24

25