Von Big Data zu Deep Insights Prof. Dr. Dirk Nowotka Christian-Albrechts-Universität zu Kiel Maritime IT 2013 Big Data = Überwachung + Marketing? Kommunikations- und Kundendaten XKeyScore, Google Ads, Amazon Recommendations,... andere interessante Datenquellen: I Sensordaten technischer Anlagen I Audio- / Bilddaten I QR-, RFID Daten I genetische Daten I traditionelle Datenbanken I Simulationsdaten I... Internet der Dinge Vernetzung computergen. Daten mehr Leistung Seite 2
Seite 3 1 Exabyte = 10 18 Byte = 1.000.000.000.000.000.000 Byte Erinnerungsvermögen der gesamten Menschheit ca. 1,4 Exabyte Seite 4 (nach [Landauer 1986])
Potenzial Schätzung (2012): I 23% aller Daten würden Mehrwert durch Auswertung bringen (falls kategorisiert und anlysiert), aber I nur 3% aller Daten werden kategorisiert und I nur 0,5% analysiert. Seite 5 Seite 6
Big... ist nicht genug Beispiel aus den Lebenswissenschaften: 1 Lauf eines modernen DNA-Sequenzierers erzeugt ca. 800GB (komprimierte) Rohdaten nach Analyse < 1GB interessante Daten! Deep Data Seite 7 Seite 8
Data... ist nicht genug Deep Data Daten kodieren Informationen Deep Information Informationen=Daten+Bedeutung Deep Insight Interpretation Exploration Modellierung Validierung Seite 9 [Big Data im Praxiseinsatz, Bitkom 2012] Seite 10
Datengetriebene Anwendungen (horizontale Sicht) I Logisitik I Energievesorgung I Medizin I Produktionssteuerung I Klima- / Wetterprognosen I Haustechnik I Internet der Dinge I... Seite 11 Datengetriebene Anwendungen (vertikale Sicht) Beispiel Mobilität I Netzwerk im Automobil Cyber-Physical-System I Kommunikation zwischen Autos car-to-car Kommunikation, ad hoc Netzwerke I Kommunikation zwischen Verkehr und Umgebung car-to-x Kommunikation, intelligente Ampelsteuerung I Smart City Prognosen von Verkehrs- und Energieströmen Seite 12
Trends und Herausforderungen (1/4) neue Aspekte der Datenanlyse I Data Mining, approximative Suche auf großen Graphen I statistische Vorhersagemodelle aus Graphanalysen (im Gegensatz zu numerischer Simulation) I Verarbeitung von Datenströmen (statt Datensätzen) I Explorative Datenanalyse, Interaktion, iterative Anfragen I heterogene Datentypen I heterogene Datenqualität Seite 13 Trends und Herausforderungen (2/4) Geschwindigkeit der Analyse (Echtzeit) I hierarchische Analysestufen (Vorverarbeitung, Aggregation) I kurze Analysezeiträume I hetereogene Hardware (FPGA, many-core, ccnuma) I Latenzzeiten Seite 14
Trends und Herausforderungen (3/4) Umgang mit Komplexität I Visualisierung I Fehlertoleranz I deklarative Anfragesprachen I Flüchtigkeit der Daten Nicht alles kann, aber was muss gespeichert werden? Seite 15 Trends und Herausforderungen (4/4) Rechtliche Lage und gesellschaftliche Akzeptanz I Datenschutz: Welche Daten dürfen wie verwendet verknüpft/gespeichert/weitergegeben werden? I Schutz der eigenen (Betriebs-) Daten: Security Seite 16
Neue technologische Felder I In-Memory Datenbanken HANA DB (SAP), Parstream (Parstream), ExaSolution (EXASOL),... I massiv parallele Datenhaltung Scalaris (Zuse-Institut Berlin) I massiv parallele Datenanalyse Stratosphere (TU Berlin) I Geschäftsanalyse Predictive-Analytics-Suite (Blue Yonder) I Content Management ImageMaster (T-Systems) Seite 17 Wichtige Fragen bei Big Data Projekten I Skaliert meine Platform? (Hardware, Algorithmen, Menschen) I Habe ich die richtigen Daten? (Qualität, Geschwindigkeit) I Wie kann ich meine Daten schützen? (Security) I Können meine Analysen geeignet modelliert / gesteuert werden? I Habe ich das richtige Modell? (Annahmen) I Wie will ich Analyseergebnisse darstellen? (Visualisierung) I Sind meine Analysen reproduzierbar? (numerische Stabilität) I Sind meine Schlussfolgerungen nachvollziehbar? (Validität) Technologie Analysemethoden Expertenwissen Seite 18
Schlussbemerkungen Big Data ist ein...... Technologiebruch bietet große Chancen.... Technologietreiber wer stehen bleibt fällt zurück.... Querschnittsphänomen verlangt Offenheit, verspricht Synergien.... wachsendes Gebiet braucht Forschung. Daten sind Produktionsfaktoren. Seite 19