Industrie 4.0 und Smart Data Herausforderungen für die IT-Infrastruktur bei der Auswertung großer heterogener Datenmengen Richard Göbel
Inhalt Industrie 4.0 - Was ist das? Was ist neu? Herausforderungen Technologien Anwendungsbeispiel Wie lassen sich solche großen Datenmengen effizient analysieren und auswerten? Ideen Konzepte Welche Produkte gibt es?
Industrie 4.0 - Was ist das? Ressourceneffizienz Vernetzung Integration von Kunden und Lieferanten Integrierte Wertschöpfungsketten Automatisierung Höhere Flexibilität und Wandlungsfähigkeit Industrielle Individualfertigung Selbstorganisation
Was ist neu? Aktuell Manuelle Dateneingabe Zukunft Automatisierte Dateneingabe Sensoren (Text-) Scanner Mikrofone Kameras Manuelle Eingabe
Herausforderungen Datenmengen (Big Data/Smart Data) Volume sehr große Datenmenge Variety verschiedene Typen von Daten Velocity enge zeitliche Rahmenbedingungen Veracity ungenaue Daten Extraktion strukturierter Daten aus unstrukturierten Daten Automatisierte Identifikation von Zusammenhängen
Technologien Datenmengen NoSQL-Datenbanken NewSQL-Datenbanken Extraktion strukturierter Daten Text Mining Audiodaten: Speech2Text ( SIRI ) Bilddaten: Objekterkennung ( Gesichtserkennung ) Maschinenlernen Neuronale Netzwerke Support Vector Machine
Eine Beispielanwendung Auswertung von Kunden-E-Mails Bewertung von Produkten Reklamationen Überwachung von Anlagen in der Produktion Stromverbrauch Temperatur Betriebsmodus Geräusche und Vibrationen Beispielanwendungen Energieverbrauch Ausfallwahrscheinlichkeiten von Anlagen Qualitätskontrolle
Auswertung von Kunden-E-Mails Gewinnung strukturierter Daten aus unstrukturierten Texten Warum ruft der Kunde an? Topic Detection Welches Produkt? Named Entity Recognition Welches Problem? Ontology Bewertung des Produkts Opinion Mining Auswertung in Echtzeit Anzahl der Probleme pro Produkt Veränderung der Kundenmeinung
Auswertung der Anlagendaten Nummer Anlage Zeit Strom Temperatur Modus Vibration 12345678 941 1400519220140 17,43 33,4 XC21 10 12345679 942 1400519220140 45,89 31,7 K11 15 12345680 943 1400519220140 8,50 25,4 B 9 12345681 944 1400519220140 12,33 45,6 128 75 12345682 945 1400519220140 16,01 50,7 K/4 12 12345683 946 1400519220140 61,99 42,0 K/6 6
Herausforderung Datenmenge Anzahl neuer Werte pro Sekunde 1000 Messwerte / Sekunde 100 Anlagen 10 Sensoren / Anlage 1.000.000 Werte pro Sekunde Anzahl Werte pro Jahr: 31.536.000.000.000 Schnelles Gruppieren und Auswerten von Daten Maximaler Stromverbrauch einer Anlage in einem Jahr Summierter Energieverbrauch verschiedener Anlagen Verschleiß der Anlagen/Ausfallwahrscheinlichkeit Relationale Datenbanken sind hier nicht ausreichend effizient!
Idee - Vorausberechnung Anlagen Zeit 7,2 12 1,1 6 4 30,3 7,3 11 1 6 4,1 29,4 7,4 12 0,9 6 4,2 30,5 7,5 11 0,8 6 4,3 29,6 7,6 11 0,7 6 4,4 29,7 37 57 4,5 30 21 149,5 Anordnung der Werte in einer Tabelle Vorausberechnen der Summen für alle Spalten und Zeilen Allgemein: OLAP-Hypercube Problem: nicht alle relevanten Funktionen sind vorher bekannt
Idee - Spaltendatenbank Zeilendatenbank A B C D Spaltendatenbank A B C D
Idee - Datenkompression Wenige unterschiedliche Werte Speicherung kurzer Codes anstatt der langen Werte Wiederholung von Werten Speicherung von Werten mit Wiederholungsfaktor Geringe Differenzen zwischen Werten Start mit einem Basiswert Speicherung von Differenzen Einige Kompressionsverfahren beschleunigen die Auswertung der Daten!
Idee Computercluster Parallele Verarbeitung und Analyse der Daten möglich Aggregation eines Gesamtergebnis aus den Teilergebnissen Verwaltung der Daten im Hauptspeicher Speicherung der Daten auf Festplatten nur für die Persistenz Redundante Speicherung von Daten
Aufgaben Anwendungsentwickler Datenmodell entwerfen Tabellen Spalten/Spaltengruppen (erweiterbar) Versionsverwaltung für Werte Abbildung des Datenmodells definieren Verteilung der Daten auf verschiedene Rechner Redundanz Datenkompression Zugriff und Auswertung Klassisch deklarativ (z.b. mit SQL) Prozedurale Programme für effiziente Analyse und Auswertung Eventuell auch Parallelisierung von Algorithmen
Spalten- / In-Memory-Datenbanken Kommmerziell Oracle 12c Microsoft SQL Server 2014 IBM DB2 with BLU Acceleration Oracle Exadata SAP Hana Sybase IQ Open Source Apache Accumulo Apache Cassandra MonetDB
Zusammenfassung Schnelle Erfassung und Auswertung sehr großer Datenmengen mit neuen Technologien möglich Größere Freiheiten und höherer Aufwand zur Anpassung der Datenbanken an Anwendungen Aktuell noch sehr unterschiedliche Konzepte und Produkte Kontakt Richard.Goebel@iisys.de www.iisys.de