Big Learning Datenmanagement und Datenanalyse: Energiemanagement mit lokaler Wetterinformation Michael Zwick +43 7236 3343 843 michael.zwick@scch.at www.scch.at Dr. Holger Schöner +43 7236 3343 816 holger.schoener@scch.at www.scch.at Das SCCH ist eine Initiative der Das SCCH befindet sich im
Big Data Trend 2
Datenquellen, Datenmanagement Prognose und Steuerung Analyse und Optimierung Datenmanagement Sensor Netzwerke 3
Agenda Datenmanagement Warum NoSQL? NoSQL!= NoSQL Hadoop/HBase Use Case Energie-Container Datenanalyse Use Cases Datenanalyse Herausforderungen Techniken zur Parallelisierung Ausblick 4
Kurze Geschichte eines Internet-Startups Standard-Installation einer Open-Source Datenbank MySQL, Firebird, PostgreSQL 1 Server Immer mehr Benutzer Datenmenge steigt dramatisch IT-Abteilung muss reagieren Mehr Disks, mehr RAM, schnellere/mehr CPUs Optimierung SQL, Indizes Voraggregation/Materialized Views Partitionierung der Datenbanktabellen Replikation der Daten auf mehrere DB-Knoten (Load Balancing) Schließlich wurde die gehisst Teuer (HW, Lizenzen) und schwer zu administrieren Denormalisierung, vermeiden aufwendiger Join-Operationen MySQL: DB-Backend ohne Transaktionen (MyISAM) 5
Big Data bei MySpace 1 Mio. User Messaging Images ~ 450 Server Profiles 6
Anforderungen/ Einschränkungen Transaktionen Joins Sekundär-Indizes Normalisierung Query Optimizer Consistency Availability Partition Tolerance Commodity Hardware Skalierbarkeit Verfügbarkeit Performanz Flexibleres Schema Spares tables Semi-structured unstructured 7
Tabular Key-Value Stores Google File System 2003 Bigtable 2006 Dynamo 2007 8
NoS...? Dokument Tabelle NoSQL Key-Value Graph 9
Hadoop Open source Google File System Java SDK (mittels RPC auch andere Frameworks) Verteilte Verarbeitung von großen Datenmengen Skalierbar und zuverlässig Commodity Hardware Redundante Speicherung von Datenblöcken (default: 3) Storage+Analyseframework HDFS (Hadoop Distributed Filesystem) Hadoop MapReduce Weitverbreitet Amazon/A9, Facebook, Google, IBM, Joost, Last.fm, New York Times, PowerSet, Veoh, Yahoo!... 10
MapReduce Map Reduce Map Reduce Map Reduce Map [1] http://www.recessframework.org/page/map-reduce-anonymous-functions-lambdas-php 11
MapReduce in Hadoop 12
Apache Projekte Apache Hive Pig Zu SQL ähnliche Abfragesprache und Metadaten-Repository High-level Sprache alternativ zu Hive Mahout Machine-Learning Algorithmen für Hadoop Flume Sammeln/Verarbeiten von Log- und Eventdaten Sqoop Integration mit RDBMS Oozie Workflow-Engine für Hadoop-Jobs 13
HBase Open source Google Bigtable Hadoop als Datenspeicher Schneller wahlfreier Zugriff als Ergänzung zu MapReduce Nicht relationale, verteilte Datenbank Dünnbesetzte Tabellen/Spaltenorientierte Speicherung Ausfallsicher Ziele Milliarden Zeilen Millionen Spalten Tausende Versionen Daten im Petabyte-Bereich auf tausenden von Knoten 14
HBase Datenmodell ColumnFamily1 (CF2) Timestamp qualifier1 qualifier2 qualifier3 qualifier4... rowkey1 ts3 value value ts2 value value ts1 value value rowkey2 ts5 value ts4 value ts3 value value ts2 value (rowkey, column, timestamp) -> cell column := <column_family>:<qualifier> 15
HBase Architektur Master Metadaten Koordination Regionserver Regions Queries Clients Master Metadaten Clients Regionserver Daten 16
HBase Architektur 2 17
Anwendungsfall Energieversorgung sicherstellen (an jedem Punkt der Erde) Energiemix Sonne/Wind Backup Diesel Batterien als Puffer Individuell konfigurierbar Intelligente Steuerung Wartungsarm Weitere Energiequellen zuschaltbar 18
Sensordaten Einstrahlung Windgeschwindigkeit Windrichtung Temperatur Umgebung Module Panelstellung Wechselrichter Strom Spannung Batterieladezustand 19
Erfahrungen mit HBase Messwerte sind WORM-Daten Skalierung mit der Anzahl der Energie-Container Messwerte sind nicht für jedes Gerät bzw. zu jeder Zeit verfügbar MapReduce geeignet zur Vorverarbeitung der Sensordaten Fehlerfrüherkennung Vorhersage Energieertrag Row-Key beeinflusst Skalierbarkeit des Gesamtsystems Komprimierung Datenmengen Snapshot alle 5 Minuten (~ 80 Messwerte) 1 Container 8,4 Mio. Messwerte/Jahr 170 Mio. Messwerte in 20 Jahren 170 Mrd. Messwerte bei 1000 Anlagen 20
Agenda Datenanalyse Analyse und Prognose Use Cases Vorhersage lokales Wetter Vorhersage Energiebedarf Optimierung Energieerzeugung Herausforderungen Datenanalyse, Vorhersagemodelle Techniken zur Parallelisierung MapReduce, GraphLab, GPGPU Ausblick SCCH 21
Analyse, Optimierung, Prognose Prognose und Steuerung Analyse und Optimierung Datenmanagement Sensor Netzwerke 22
Daten - Analyse Vorhersage, Soft Sensors Regression/Klassifikation: Vorhersage Resultat / Zustand / Eigenschaften eines Prozesses oder Teiles Wissens-Generierung Interpretation eines gelernter Modelle, um vorhandene Zusammenhänge explizit zu machen Diagnose Aufdecken und Erklären von Problemen, Ausreißern BigData Parallelisierung 23
2 1 0-1 -2-3 -4 0 20 40 60 80 100 1 0 12 1 13 14 15 16 17 18 19 10 2 Use Case: Vorhersage lokales Wetter 49 925mb, 0.556939, 0.92949 9 10 11 12 13 14 15 16 17 18 49 48 Salzburg Linz St. Pölten Wien Eisenstadt 48 Daten Sammlung Bregenz 47 Innsbruck Graz 47 Klagenfurt 46 9 10 11 12 13 14 15 16 17 18 46 Analyse Datenquellen Globale Wettermodelle: GFS,... Lokale Sensoren: Wettermeldungen, (Klein-)Kraftwerke,... Topographie, Expertenwissen 5 2.5 0-2.5-5 0 2 4 6 0 2 Erkenntnisse / Expertenwissen 4 6 Vorhersage Modelle -0.5 1 0.5-1 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 23 4 56 7 89 Alcohol 20 40 60 80 100 14.61 14.29 13.97 13.65 13.33 13.01 12.69 12.37 12.05 11.73 11.41 Ziele Eventplanung, Planung von Außenarbeiten Optimierung von Energieverbrauch/-produktion 24
Use Case: Vorhersage Gebäude-Energieverbrauch Umgebung Globalstrahlung, Temperatur, Wind, Luftfeuchtigkeit Intelligente Sensoren Wettermodelle Gewohnheiten Tages-, Wochenzyklus,... Sensoren Steuerung Jalousien, Nachtlüftung, Sollwerte Ziele Vorausschauende Anpassung Identifikation von Problemen/ Abweichungen durch Vergleich Verbrauch/Prognose 25
Use Case: Optimierung Energieerzeugung Aktuelle Durchflusswerte, Niederschläge / Temperaturen & Prognosen Schneeschmelze- und Bodenfeuchtemodell (Holzmann & Nachtnebel 2002) Datenbasierte Modelle (z.b. Ridge Regression, Neuronale Netze) Rainfall-Runoff-Model (Hebenstreit 2000) HYSIM: Wellenablauf / Niederschlagsabflussmode ll (Drabek et al. 2002) CH Legende: Laufkraftwerke der AHP Speicherkraftwerke der AHP Gemeinschaftskraftwerke der AHP Beteiligungen des Verbund INN Oberaufdorf-Ebbs Gerlos Mayrhofen Bösdornau Roßhag Braunau-Simbach Nußdorf D Passau-Ingling Schärding-Neuhaus Egglfing-Obernberg Ering-Frauenstein SALZACH INN Kreuzbergmaut Bischofshofen Urreiting Funsingau Schwarzach St. Veit Wallnerau Kaprun- Hauptstufe Häusling Kaprun-Oberstufe Reißeck-Kreuzeck Malta-Oberstufe Paternion DRAU Kellerberg Jochenstein Rosegg-St. Jakob Mühlrading Staning Garsten-St. Ulrich Rosenau Mandling Ternberg Klaus Salza Sölk Bodendorf-Paal Malta-Hauptstufe Malta-Unterstufe Villach Feistritz-Ludmannsdorf Aschach Ferlach-Maria Rain Ottensheim-Wilhering ENNS Triebenbach St. Georgen Abwinden-Asten St. Pantaleon Krippau Fisching MUR Bodendorf-Mur Wallsee-Mitterk. Leoben Friesach Graz DONAU Melk Losenstein Ybbs-Persenbeug Großraming Weyer Schönau Edling Annabrücke Altenmarkt Landl Hieflau St.Martin Lebring Lavamünd Schwabeck Altenwörth Dionysen Pernegg Laufnitzdorf Arnstein Rabenstein Peggau Weinzödl Spielfeld Greifenstein Mellach Gralla Gabersdorf Obervogau SLO CZ Freudenau SK H SAMBA: Optimierungsfunktion Optimale Gewichtung von Modellen Ziele Kurzfristig: Einbeziehung Verfügbarkeit natürlicher Ressourcen in Energieproduktionsplanung (Wasser, Wind, Sonne) Langfristig: Planung von Standorten, Auslegung von Systemen 26
Herausforderungen Datenanalyse Große Datenmengen, flexibler Zugriff nötig Lange Zeiträume für Hintergrundwissen notwendig Lokal: Viele Orte mit Messwerten Große Modellanzahl, komplexe Modellstrukturen Für jeden Ort ein Modell (mit Koppelung zwischen Modellen) Modelle für unterschiedliche Vorhersagegrößen, gemeinsame Vorverarbeitung Unterschiedliche Hardwarearchitekturen verfügbar Client-Server, Multicore, Cluster, GPGPU, heterogene Systeme Vielzahl Algorithmen Paralleles Vorverarbeiten Lineare Algebra Graphalgorithmen Pipelines 27
Techniken zur Parallelisierung MapReduce Verteilen unabhängiger ähnlicher Aufgaben auf mehrere Cores/GPGPUs Gute Integration mit Hadoop vorhanden Probleme mit iterativen Prozessen, komplexen Abhängigkeiten GraphLab Effiziente Implementation für Berechnungen mit komplexen Abhängigkeiten Datenhandling selber zu implementieren GPGPU Sehr wichtig für High Performance Anwendungen Aufwendiger Lowlevel-Code Oder Nutzung von Highlevel-Bibliotheken/-Sprachen (z.b. SaC), wobei noch kein Standard etabliert ist 28
Ausblick ParaPhrase EU-gefördertes Projekt Entwicklung von Parallel Patterns Refactoring für Parallelisierung Unterstützung unterschiedlicher Hardware 29
SCCH Anwendungsorientierte Forschung Gegründet im Juli 1999 von Instituten der Johannes Kepler Universität Linz im K plus-programm Kooperation Wissenschaft Wirtschaft Johannes Kepler Universität als starker Partner Unternehmensform: Non-Profit GmbH ~ 70 Mitarbeiter (inkl. Partnern ca. 80) 5,7 Mio. Euro Umsatz im GJ 10/11 Angesiedelt im Softwarepark Hagenberg Seit 01.01.2008 COMET-Kompetenzzentrum 30
Forschungsschwerpunkte Process and Quality Engineering Software Engineering Software-Qualität Softwareentwicklungs-prozess Models, Architectures and Tools Software Architektur modelbasierte Entwicklung Integration von Architektur und Entwicklung Data Analysis Systems automatisierte und intelligente Datenanalyse Vorhersage Wissensgewinnung Knowledge-Based Vision Systems maschinelles Sehen Objekterkennung Objektverfolgung 31
Kontakt Michael Zwick +43 7236 3343 843 michael.zwick@scch.at www.scch.at Dr. Holger Schöner +43 7236 3343 816 holger.schoener@scch.at www.scch.at 32