Big Data Neue Erkenntnisse aus Daten gewinnen Thomas Klughardt Senior Systems Consultant 0 Software
Dell Software Lösungsbereiche Transform Inform Connect Data center and cloud management Foglight APM, Virtualization & Database KACE 1000/2000/3000 Migration Manager, Recovery Manager, ActiveRoles Server & Change Auditor Dell Cloud Manager Information management Boomi AtomSphere, Boomi MDM Toad Business Intelligence Suite Toad for Oracle, Toad for SQL Server, Toad for Cloud Databases SharePlex Mobile workforce management SonicWALL Next-Generation Firewalls SonicWALL Mobile Connect KACE 1000/2000/3000 Dell Workspaces -Mobile & Desktops Protect Security SonicWALL email security and anti-spam SonicWALL next-generation firewalls Dell One Identity Manager/Password Mgr SonicWALL Secure Remote Access Data protection AppAssure/DL4000 NetVault Backup Deduplication appliance: DR4100 Email Archive Manager and Message One 1 Software
Agenda Das Ziel Was bedeutet Big Data? Plattformen NoSQL Systeme Die Mischung macht s Herausforderungen Fazit 2 Software
Zunehmende Reife Neue Erkenntnisse wo möchten wir hin? Prescriptive Analytics Predictive Analytics Geschäftsberichte und Analysen Datenverknüpfung und Konsoliodierung Welche Schritte sind notwendig, um ein bestimmtes Ziel zu erreichen? (Optimierung) In welche Richtung wird sich unser Geschäft wahrscheinlich entwickeln? Wie schneiden wir ab, verglichen mit unseren Geschäftszielen? In welchen Regionen verkaufen wir am besten/meisten? Sammeln von Daten Basisabfragen Wer sind meine Kunden? 3 Software
Was bedeutet Big Data? 4 Software
Was bedeutet Big Data? Performancekritisch Echtzeit Cold Storage (kostenoptimiert) Social & Sensor Daten Transaktionale Daten In Datenbanken generiert und gespeichert Strukturiert Mäßiges Wachstum User-generiert Außerhalb von Datenbanken Docs, Bilder, Video Viele Formate Schnelles Wachstum RFID, Mobiltelefon, Facebook, Twitter, etc. Viele Formate, unterschiedlich schnelle Erzeugung Exponentielles Wachstum 5 Software
Was bedeutet Big Data? Volume Petabytes Records Transactions Tables, files Velocity Batch Near time Real time Streams 3Vs Variety Structured Unstructured Semi-structured All the above 6 Software
Das CAP Theorem DBPedias.com 7 Software
Plattformen NoSQL Systeme 8 Software
Arten von NoSQL Systemen (Auszug) Wide Column Store / Column Families Document Store Key Value / Tuple Store Graph Databases Multimodel Databases Object Databases XML Databases Grid & Cloud Database Solutions Multidimensional Databases Multivalue Databases Event Sourcing Andere z.b. Lotus Notes Domino Weiterführende Informationen: http://nosql-databases.org/ 9 Software
Aggregatorientierte Datenbanken Column Stores Document Stores Key Value Stores Denormalisiert Schnell und skalierbar Daten sind Aggregate Quelle: http://martinfowler.com 10 Software
Hadoop ist erst mal nur ein Dateisystem Quelle: Apache Commons 11 Software
mit einer Map-Reduce Implementierung Quelle: Wikipedia 12 Software
Ein Beispiel WordCount Quelle: http://blog.trifork.com/ 13 Software
Die Mischung macht s 14 Software
Was ist mit Map Reduce abbildbar? Gut: Statistische Funktionen Count, Min, Max, Average, Pivot Element, etc. Gut: Sortierungen (z.b. Terasort) Gut: Konvertierungen/Transformationen von Streams MPEG -> AVI WAV -> MP3 Schlecht: Daten, die voneinander Abhängig sind (Joins) Zuerst relevante Informationen extrahieren und zusammen ablegen. Dann zusammenhängende Daten verarbeiten Schlecht: Echtzeitabfragen Map Reduce ist ein Batch Processing Framework 15 Software
Verschiedene Plattformen für verschiedene Dinge Relationale Datenbank Auftragsverwaltung ERP System Hadoop Cluster Sensordaten Datenhalde und Rechencluster Aggregatorientierte NoSQL Datenbank CRM Webanwendungen Graph Datenbanken und andere spezielle Datenbanken Koordinaten, Beziehungen, Entfernungen, Kosten, etc. Spezialanwendungen 16 Software
Traditioneller Ansatz vs. Big Data Architektur Relationale Datenbank Strukturiertes Schema; normalisierte Daten Schema on Write Verknüpfbare Daten Konsistentes Modell Big Data Architektur Mischung aus relationalen und nicht-relationalen Datenbanken Erfassung und Speicherung von unstrukturierten und strukturierten Daten Direkte Auswertung oder Aggregation in relationale Daten Schema on Read; nach Aggregation meist Schema on Write Big Data NoSQL NoSQL Systeme normalerweise nur ein Bestandteil einer Big Data Lösung. 17 Software
Herausforderungen 18 Software
Zunehmende Reife Das Ziel Prescriptive Analytics Predictive Analytics Geschäftsberichte und Analysen Datenverknüpfung und Konsoliodierung Welche Schritte sind notwendig, um ein bestimmtes Ziel zu erreichen? (Optimierung) In welche Richtung wird sich unser Geschäft wahrscheinlich entwickeln? Wie schneiden wir ab, verglichen mit unseren Geschäftszielen? In welchen Regionen verkaufen wir am besten/meisten? Sammeln von Daten Basisabfragen Wer sind meine Kunden? 19 Software
Silos müssen überwunden werden. Anwendungs- und Datenintegration Structured Structured Text Sensor Social Trained Staff Tool Chain Trained Staff Tool Chain Trained Staff Tool Chain Trained Staff Tool Chain Trained Staff Tool Chain` Database 1 Database 2 Data store Data store Data store Database management Database management Data management Data management Data management Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) Extract, Transform, Load (ETL) Data warehouse Data warehouse Data warehouse Data warehouse Data warehouse Data provisioning Data provisioning Data provisioning Data provisioning Data provisioning Analyse Analyse Analyse Analyse Analyse 20 Software
Neue Technologien und Werkzeuge Management Integration Analyse Datenbankmanagement Datenintegration über Grenzen Analysen in Echtzeit Batch Sichern, Wiederherstellen, Hochverfügbarkeit, Zugriffskontrolle, Performance On-Premise, Public und Private Cloud, Strukturiert, Unstrukturiert, Domänen, Systeme Abfragen, Berichte, Dashboards, KPIs, Benchmarks, Vorhersagen, Simulationen 21 Software
Fazit 22 Software
Fazit Es gibt keine eierlegende Wollmilchsau Vermeintliche Allheilmittel werden schnell entzaubert Big Data Plattformen erfordern zusätzliches Wissen Es ist ein weiter Weg bis zur kompletten Plattform Die Anforderungen sind schon da und werden weiter kommen. Besser verknüpfte Daten sind ein Wettbewerbsvorteil. Deshalb auch besser jetzt schon damit beschäftigen. 23 Software
Welche Fragen haben Sie?