Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien im Kontext des Data Warehouse (Oracle) 11:30-12:00 Hadoop & SQL (metafinanz) 12:00-12:45 Mittagpause 12:45-13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle) 13:15-13:45 Vorgehen Projekt (metafinanz) 13:45-14:00 Gemeinsamer Abschluss "Fragen und Optionen" 1
Step 0: Bestehende Analyse-Plattform High Density Data Oracle Database Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Acquire Organize Analyze Decide 2
Step 1: Tiefergehende Analyse der bestehenden Daten (Advanced Analytics) High Density Data Oracle Database Spatial and Graph Advanced Analytics Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Acquire Organize Analyze Decide 3
Step 2: Neue Techniken für Volume and Variety Low Density Batch Data High Density Data Hadoop Oracle Database Spatial and Graph Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Aggregate Pre-Analyze Advanced Analytics Beziehungen Meinungen Aktivitäten Acquire Organize Analyze Decide 4
Step 3: Neue Techniken für Velocity Low Density Batch Data High Density Data Hadoop Oracle Database Spatial and Graph Oracle BI Enterprise Edition Dashboard Ad-Hoc Query Segmentierung Locality Streaming Data Aggregate Pre-Analyze Event Processing Advanced Analytics Act Model Real Time Decisions Beziehungen Meinungen Aktivitäten Empfehlungen Aktionen Acquire Organize Analyze Decide 5
Step 4: Neue Muster finden / Analysieren Endeca Information Discovery Low Density Batch Data Streaming Data Acquire High Density Data Hadoop Aggregate Pre-Analyze Event Processing Organize Oracle Database Spatial and Graph Advanced Analytics Act Analyze Model Oracle BI Enterprise Edition Real Time Decisions Decide Dashboard Ad-Hoc Query Segmentierung Locality Beziehungen Meinungen Aktivitäten Empfehlungen Aktionen Neue Aspekte entdecken 6
Hadoop oder relationale Datenbank? Entwicklungsreife der Werkzeuge Performance der Datenverarbeitung Security Die Fähigkeit Daten schnell entgegen zu nehmen Wirtschaftlichkeit bei der Speicherung von Low Value Daten Die Leichtigkeit ETL-Prozesse zu bauen Vollständigkeit der Quelldaten (zu viele Lücken oder nicht) Unterschiedlichkeit der Datenstrukturen Komplexität des Datenmanagements Deployment Business verstehen Modelle prüfen Daten Daten verstehen Modelle bilden Daten aufbereiten 7
Hadoop oder relationale Datenbank? Vorteile auf beiden Seiten Hadoop Relationale Systeme Extrem schnelle Laden der Daten in einen Hadoop-Data Store. Daten werden praktisch ohne näheren Struktur-Syntax-Check einfach abgekippt. Bei Änderung der Quelldaten-Strukturen, kaum Einfluss auf ETL-Strecken (die Änderungen muss nur das Lesen berücksichtigen). Das Map Reduce Framework arbeitet massiv parallel. Die geringe Strukturierung der Daten kommt dieser hohen Parallelisierung sehr entgegen. Überschaubaren Kosten für Storage und Rechenleistung für die z. T. sehr hohen Datenmengen. Sind strukturiert und ermöglichen Schema on Write, also Prüfung von Daten im Zuge der Speicherung. Hohe Zahl gut entwickelter Werkzeugen für einfache, reibungslose und performante Verarbeitung bzw. Datenanalyse. Anwender können ohne besondere Hürden mit einfachen Zugriffen auf einem standardisierten Datenmaterial ad hoc und multidimensional analysieren. Daten sind i. d. Regel qualitätsgesichert, überprüft und die Analyseverfahren sind erprobt. 8
Unternehmen adaptieren Technologie in Phasen Geschäftlicher Nutzen Hadoop-Systeme in separaten Projekten parallel neben RDBMS Erfahrungen sammeln Zugriffsbarriere mit SQL Überwinden -> Beschäftigung mit Hive / HiveQL -> Performarmance- Fragen 1 1) Zentrales DWH und klassisches ETL Hadoop wird als Vorsystem begriffen 2) BI Tool zieht Daten aus beiden Welten: Konsolidierte Sicht 3) Führendes Hadoop-System zieht Daten verschiedenen Quellen ab 2 Master Access Ein zusammenhängendes System ohne die jeweiligen Nachteile 3 Single Logical System Parallel Deployment System Reife 9
Ziel-Szenario / Technische Komponenten HADOOP und RDBMS im technischen Verbund (auch bezogen auf Hardware) SQL als durchgängige Access-Sprache Durchgängige Verwaltungsschicht -> Wo liegen welche Daten -> Metadaten-Information 10
Externe Daten Interne Daten Architekturen und Szenarien Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 11
Externe Daten Interne Daten Architekturen und Szenarien Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 12
Oracle s technische Komponenten Recommendations Streamed into HDFS using Flume Web Logs Oracle Big Data Appliance Cloudera Hadoop HDFS MapReduce Exadata Exalytics Endeca Information Discovery Site Activity Customer Profile Load Recommendations Oracle NoSQL Database Oracle Big Data Connectors Load Session& Activity Data Oracle Database Oracle Advanced Analytics Oracle BI Real-Time Decisions Stream Acquire/Organize Analyze Decide 13
Oracle SQL Connector for Hadoop Low-latency SQL Queries aus der Datenbank heraus und direkt auf Hive Tabellen Automatische External Table Erstellung für Hive Zugriffe und für generierte Data Pump Files Automatisches Mapping von External Table Definitionen aus Data Files Verschieben von Datenbeständen HDFS nosql DB H a d o o p Hive Map Reduce Framework Relational Database Oracle 12c External Table SQL B e l i e b i g e A n a l y s e n 14
Oracle R Connector for Hadoop HIVE Tables als Data Source für R-Analysen Transparent er Support für Sprache R auf HIVE Tabellen Inkrementelle Abfrage-Erstellung Modell-Erstellung in Hadoop => Anwenden des Modells in der Oracle-Datenbank ORD R script {CRAN packages} Hadoop Job Mapper R HDFS R MapReduce R sqoop Hadoop Cluster (BDA) MapReduce Nodes {CRAN packages} HDFS Nodes Big Data Appliance R Client Reducer Oracle Database 15
Oracle R Enterprise Predictive Analytics User R Engine Database Server Maschine R Engine(s) managed by Oracle DB R Engine Other R packages SQL Oracle Database R R Engine Other R packages Oracle R Enterprise packages Results User tables Results Oracle R Enterprise packages Lineare Modelle Clusterung Segmentierung Neuronale Netze MapReduce Nodes HDFS Nodes Hadoop Cluster (BDA) 16
Mustererkennung komplett in der Datenbank Abhängigkeiten von Event-Folgen MATCH_RECOGNIZE Drehzahl Strom Temperatur SATZNR MESSZEITPUNKT STUECKNR DREHZAHL WATT TEMPERATUR 499994 30.04.2008 11:04:55 5000 1031 1094 139 499995 30.04.2008 11:05:16 5000 991 1315 159 499996 30.04.2008 11:05:37 5000 1030 1284 205 499997 30.04.2008 11:05:58 5000 882 1182 186 499998 30.04.2008 11:06:18 5000 818 1406 204 Sensor_Daten R-Analyse ore.connect... cor.matrix <- cbind(drehzahl, Watt,Temperatur) rcorr(cor.matrix) Muster: Gemeinsames Überschreiten von Grenzwerten S-NR PAT SATZNR DREHZAHL WATT C 8 1 720 1040 1547 252 46 1 4531 1021 1530 250 46 2 4534 1048 1548 247 63 1 6220 1033 1524 248 69 1 6882 1031 1514 252 105 1 10426 1040 1527 247 118 1 11728 1035 1528 249 145 1 14414 1047 1543 248 156 1 15504 1037 1535 248 160 1 15910 1032 1527 255 Pattern 17
Zusammenhänge in zeitlichen Verläufen erkennen Satzübergreifende Analysen Große Datenmengen Hohe Abfrageperformance Keine Programmierung 18
In-Database Analytics Oracle Big Data Platform Oracle Big Data Appliance Optimized for Hadoop, R, and NoSQL Processing Oracle Big Data Connectors Oracle Exadata System of Record Optimized for DW/OLTP Oracle Exalytics Optimized for Analytics & In-Memory Workloads Oracle Event Processing Hadoop Open Source R Oracle NoSQL Database Applications Oracle Big Data Connectors Oracle Data Integrator Oracle Advanced Analytics Data Warehouse Oracle Database Oracle Enterprise Performance Management Oracle Business Intelligence Applications Oracle Business Intelligence Tools Oracle Endeca Information Discovery Embeds Times Ten Stream Acquire Organize Discover & Analyze Real Time Decisions 19 19
Big Data Appliance Hardware + Software Full Rack Configuration Hardware 216 Intel Xeon Processors 864 GB total memory 48 GB per node 648TB total raw storage capacity 216 3TB 7200RPM Drives 40Gb/sec InfiniBand Network 10Gb/sec Data Center Connectivity Software Cloudera CDH Cloudera Manager Oracle Enterprise Manager Grid Control Plug-In for BDA NoSQL DB Community Edition Open Source R 20
Big Data Hardware Business As Usual Physische Installation (10 Racks) Elektriker Netzwerk Engineers Storage Engineers System Admins 286 Stunden 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden Gesamt: 1338 Personen-Stunden, 677 Zeit-Stunden, 2344 Kabel 21
Oracle Big Data Appliance Installation vs. 38 vs. 1306 Pers.Std. 19 vs. 677 Zeit-Std. 46 vs. 2344 Kabel Physische Installation (10 Racks) Elektriker Netzwerk Engineers Storage Engineers System Admins 286 Stunden 236 Stunden, 616 Kabel 264 Stunden, 864 Kabel 320 Stunden, 576 Kabel 232 Stunden 16 Stunden 16 Stunden, 32 Kabel 6 Stunden, 14 Kabel Nicht nötig Nicht nötig 22
Externe Daten Interne Daten Zusammenfassung Klassisches BI Kunden Lieferanten Produkte Mitarbeiter Lager Verkäufe Buchhaltung Log Files Web-Clicks Mails Call-Center Verträge Berichte Kurse Webservices Kaufdaten Integration Harmonisierung Prüfen HDFS Enterprise Information Stammdaten Referenzdaten Umsätze / Fakten Relational Database Oracle 12c (DWH) nosql DB Hodoop Loader H a d o o p User View Kennzahlen Sandbox Event Processing SQL Realtime Decision Interactive Dashboards Reporting & Publishing Guide Search &Experiences Realtime Decisions Map Reduce Framework Predictive Analytics & Mining 23
Die Themen 09:30-09:45 Einführung in das Thema (Oracle) 09:45-10:15 Hadoop in a Nutshell (metafinanz) 10:15-10:45 Hadoop Ecosystem (metafinanz) 10:45-11:00 Pause 11:00-11:30 BigData Architektur-Szenarien im Kontext des Data Warehouse (Oracle) 11:30-12:00 Hadoop & SQL (metafinanz) 12:00-12:45 Mittagpause 12:45-13:15 "Suchen und Finden" - Der Discovery-Prozess (Oracle) 13:15-13:45 Vorgehen Projekt (metafinanz) 13:45-14:00 Gemeinsamer Abschluss "Fragen und Optionen" 24
25