Was ist Big? DOAG Business Intelligence Community Informiert zu BI und Big 2017
Interaktion: Jetzt bitte Vorurteile abladen Definierte Methodik, strukturiert Lange erprobt Alles über SQL machbar Datenqualität? BI / DWH Big Zu unflexibel Alles dauert lang Viel zu teuer Unstrukturierte Daten Komplex, mühsam Zu viele Daten 2
Was ist Business Intelligence? Verfahren und Prozesse zur systematischen Analyse (Sammlung, Auswertung und Darstellung) von Daten in elektronischer Form. Source: Wikipedia 3
Was ist ein Warehouse? Eine für Analysezwecke optimierte zentrale Datenbank, die Daten aus mehreren [ ] heterogenen Quellen zusammenführt und verdichtet. Source: Wikipedia 4
Ein Warehouse (DWH) 5
Wenn s BI gibt, warum dann Big? Altes Modell: Wenige Produzenten, viele Nutzer 6
Warum Big? Paradigmenwechsel Neues Modell: Viele Produzenten = Viele Nutzer 7
Woher kommen die Daten? Mobile Devices (bspw. Tracking) Social Media und Netzwerke (wir alle generieren Daten) Herausforderungen Datenextraktion und -sammlung Wissenschaftl. Instrumente (alle möglichen Daten) Sensor Technologie und - Netzwerke (alle möglichen Daten) Administrieren, analysieren, aggregieren, visualisieren und aus den gesammelten Daten zeitnah und skalierbar Wissen zu schöpfen 8
Und wie ist Big definiert? Volume at rest Velocity in motion Variety in many forms Veracity in doubt Tera-, Peta-, Exa, Zetta-, Yotta- Bytes verarbeiten Sensor- und Social Neue Storages Streaming (Milli)sekunden bis Minuten zur Erkennung, Beantwortung oder Analyse Strukturierte und unstrukturierte Daten Text, Zahlen, Multimedia Unterschiedlichste Datenquellen Ungewissheit durch Dateninkonsistenz, Unvollständigkeit, Mehrdeutigkeit, Verzögerung, Täuschung, Schätzung adaptiert nach IBM (2014) 9
Wie ist Big definiert? Noch n Versuch McKinsey Big refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. Gartner Big are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery, and process optimization. BARC Big designates methods and technologies for the highly scalable acquisition, storage, and analysis of polystructured data Unkonventionelle Methoden und Tools für unlimitiertere Datenverarbeitung 10
Also: Big = BI/DWH in groß und schnell? ERP CRM Event Internet 11
Fragen wir nach: Inmon & Kimbal zu Big & DWH Bill Inmon zu Big & BI/DWH warehouse is an architecture and Big is a technology. They are not the same thing at all There simply is not the carefully constructed and carefully maintained infrastructure surrounding Big that there is for the data warehouse. Any executive that would use Big for Sarbanes-Oxley reporting or Basel II reporting isn t long for his/her job. http://www.forestrimtech.com/big-data-vs-data-warehouse Ralph Kimball zu Big & DWH It s a rennaisance that is happening here a Warehouse needs to encompass Big and I hope that all folks working with those (Big ) topics realize that they are part of the larger Warehouse team We want to use SQL and SQL like languages but we don t want the RDBMS storage constraints. The disruptive solution: Hadoop http://www.cloudera.com/content/cloudera/en/resources/library/recordedwe binar/building-a-hadoop-data-warehouse-video.html 12
IT Sicht: Wer ist von Big betroffen? Advanced Visualization Business Intelligence Big Application Development Advanced Analytics 13
Also gut versuchen wir s über die Technik
Big in Ordnung bringen Schritt 1
Connectors (Pull) Batch/Bulk Full Services (Push) Stream Incremental Big in Ordnung bringen Schritt 2 Die Leinwand des Architekten Velocity Organisation BI Competence Center IT Operations Business Stakeholders Un-/Semistructured Raw in Motion Standardized in Motion Service / API Dashboard Structured Optimized in Motion Refinery/Factory Search Prebuild & AdHoc BI Assets Master & Reference Machine Content Optimized at Rest Standardized at Rest Raw at Rest Lab (Sandbox) Virtualization Query Information Services Advanced Analysis Tools Science Tools Sources Acquisition Management Information Provisioning Consumer Governance Metadata Management Master Management Quality & Accountability Security Legal Compliance Variety Volume
Connectors (Pull) Batch/Bulk Full Services (Push) Stream Incremental Big in Ordnung bringen Schritt 3 Ein DWH! Organisation BI Competence Center IT Operations Business Stakeholders Un-/Semistructured Raw in Motion Standardized in Motion Service / API Dashboard Structured ETL Optimized in Motion Refinery/Factory Search Prebuild & AdHoc BI Assets Master & Reference Machine Content Optimized at Rest Standardized at Rest Raw at Rest Lab (Sandbox) Marts Core DWH Staging Area Virtualization Query Information Services Advanced Analysis Tools Science Tools Sources Acquisition Management Information Provisioning Consumer Governance Metadata Management Master Management Quality & Accountability Security Legal Compliance
Connectors (Pull) Batch/Bulk Full Services (Push) Stream Incremental Big in Ordnung bringen Schritt 4 Big! Organisation BI Competence Center IT Operations Business Stakeholders Un-/Semistructured Raw in Motion Service / API Dashboard Event Hub Standardized in Motion Structured Stream Analytics Optimized in Motion Refinery/Factory NoSQL DB Search Prebuild & AdHoc BI Assets Master & Reference Machine Content Raw at Rest Standardized at Rest Optimized at Rest Hadoop Raw Lab (Sandbox) SQL Engine Processed Files Merge Layer Query Information Services Advanced Analysis Tools Science Tools Sources Acquisition Management Information Provisioning Consumer Governance Metadata Management Master Management Quality & Accountability Security Legal Compliance
Mehr Tools? Mehr Komplexität? Best Fit Ansatz Nutze das geeignete Tool für ein Problem Lab Ansatz Baue eine Lösung passend zu einem Problem Umfangreicheres Know-How Mehr Programmiersprachen, mehr Datenbanken und was ist mit umfassenden Lösungen? (Wie bspw. ein DWH) Methoden? Architektur? Infrastruktur? Modelle?
Big Analytics Architekturbeispiel Sensor layer Distribution layer Batch layer Serving layer Consumer layer All (HDFS) Batch (re)compute Precomputed Views (MapReduce) e.g. Hadoop & Spark Source System API Java App Messaging Kafka QFD = Query Focused QFD 1 QFD 2 QFD n Batch views: e.g. Impala Realtime views: e.g. Cassandra Query & Merge REST Client Web App QFD 1 QFD 2 QFD n Process Stream Realtime increment Incremented Views e.g. Spark Speed layer 20
NoSQL Datenbanken To manage a mix of structured, semi-structured and unstructured data NoSQL bases Not only SQL RDBMS Graph bases Key Value Stores Oracle NoSQL, Redis, Riak KV Wide Column Stores Cassandra, Hbase Document Store bases MarkLogic, MongoDB Property Graphs Neo4J, stax Cassandra, Oracle RDF Triple Stores Oracle Spatial&Graphs, Allegrograph, Virtuoso, Blazegraph, Marklogic, Enzo
Scalability NoSQL Einsatzgebiete Key-value Wide Column (Column Families / Extensible Records) Big & Fast Document Domain of traditional bases Relational Multi Dimensional Complex & Rich Property Graph SQL Comfort-Zone Semantic Graph Model-Standardization, Tools, Complexity
Wichtige Begriffe (1) Apache Hadoop Ein Open Source Framework mit verteiltem Dateisystem (HDFS), toolgestütztem Programmierframework (Map/Reduce) und Ressource Management Service (YARN) für große Cluster aus günstigen Shared-Nothing Servern. Apache Hive SQL Zugriff auf Dateien unter HDFS durch Map/Reduce Programmgenerierung Apache Pig Einfache Scriptsprache (Pig-Latin) als Abstraktionsebene für Map/Reduce
Wichtige Begriffe (2) Apache Spark Ein Open Source Analytics Cluster Computing Framework. Seit zwei Jahren eines der heißesten Themen bei Big. Für Batchund Streamverarbeitung, Mining und mehr. Kann mit Hadoop muss aber nicht. NoSQL Datenbanken Klasse von DBMS, die nicht dem relationalen Modell folgen. NoSQL = not only SQL. Elasticsearch & Solr Open source Text-Suchmaschinen auf Basis von Apache Lucene.
Deutsche ORACLE Anwender Gruppe (1) http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/2297765.pdf Beschreibt und definiert Big, organisatorische und technische Anforderungen sowie Tooling und Entscheidungskriterien
Connectors (Pull) Batch/Bulk Full Services (Push) Stream Incremental Deutsche ORACLE Anwender Gruppe (2) Organisation BI Competence Center IT Operations Business Stakeholders Un-/Semistructured Raw in Motion Standardized in Motion Service / API Dashboard Structured Master & Reference Machine Content Edge Analytics Golden Gate Integrator Stream AnalyticsOptimized in Motion Refinery/Factory SQL*Loader Enterprise R Standardized Big at Rest Discovery Cloudera Hadoop Raw at Rest HDFS + Tools NoSQL Key Value Optimized at Rest Lab (Sandbox) ESSBASE base InMemory. OLAP, Semantic Graph XDB, JSON, DM, DB M/R, Enterprise R Big Virtualization SQL Connectors Query Prebuild BIEE, BI-& AdHoc Publisher, BI Assets Hyperion Information Services Advanced Visual Analysis Analyzer, BD Tools Discovery, Endeca Science Tools Sources Acquisition Management Information Provisioning Consumer Governance Enterprise Metadata Metadata Management Manager Master Management Quality & Accountability Security Legal Compliance
Deutsche ORACLE Anwender Gruppe (3) Oracle Big Statement of Direction http://www.oracle.com/technetwork/database/bigdata-appliance/overview/sod-bdms-2015-04-final-2516729.pdf Big Management Systeme bestehen aus Warehouse (base) Franchised Query Engine Federation Tool (Big SQL) Reservoir Big Ecosystem mit Hadoop & NoSQL (Big Appliance)
Deutsche ORACLE Anwender Gruppe (4) A favorite hobby of new entrants to the database market is to paint Oracle, the market-leading database, as inflexible and promote their product on the basis that Oracle will never be able to provide the same type of functionality as their new platform. Such vendors pursue this positioning at their peril: object-oriented databases, massively-parallel databases, columnar databases, data warehouse appliances and other trends have been outed as replacements for Oracle base only to later see their core benefits subsumed by the Oracle platform. Widerstand ist zwecklos!
Diskussion 29
und nochmal in eigener Sache: Wer hat Interesse sich aktiv in der DOAG Business Intelligence Community zu beteiligen? Frage: Wieviel Aufwand wird auf mich zukommen? Antwort: So viel Du möchtest, aber es werden wohl mind. 6 PT im Jahr sein.
Danke fürs Mitmachen!