Big Learning. Datenmanagement und Datenanalyse: Energiemanagement mit lokaler Wetterinformation. Michael Zwick. Dr. Holger Schöner

Ähnliche Dokumente

Apache HBase. A BigTable Column Store on top of Hadoop

Softwarearchitektur als Mittel für Qualitätssicherung und SOA Governance

Hadoop. Eine Open-Source-Implementierung von MapReduce und BigTable. von Philipp Kemkes

Big Data Mythen und Fakten

Big Data Informationen neu gelebt

Möglichkeiten für bestehende Systeme

ANALYTICS, RISK MANAGEMENT & FINANCE ARCHITECTURE. NoSQL Datenbanksysteme Übersicht, Abgrenzung & Charakteristik

Überblick und Vergleich von NoSQL. Datenbanksystemen

Beratung. Results, no Excuses. Consulting. Lösungen. Grown from Experience. Ventum Consulting. SQL auf Hadoop Oliver Gehlert Ventum Consulting

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Generalisierung von großen Datenbeständen am Beispiel der Gebäudegeneralisierung mit CHANGE

ETL in den Zeiten von Big Data

Zeit bedeutet eine Abwägung von Skalierbarkeit und Konsistenz

Oracle Big Data Technologien Ein Überblick

MapReduce und Datenbanken Thema 15: Strom bzw. Onlineverarbeitung mit MapReduce

Ein Beispiel. Ein Unternehmen will Internettechnologien im Rahmen des E- Business nutzen Welche Geschäftsprozesse?

SQL on Hadoop für praktikables BI auf Big Data.! Hans-Peter Zorn und Dr. Dominik Benz, Inovex Gmbh

Big Data in der Forschung

EXASOL Anwendertreffen 2012

Einführung in Hadoop

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Seminar Cloud Data Management WS09/10. Tabelle1 Tabelle2

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Wide Column Stores. Felix Bruckner Mannheim,

Neue Ansätze der Softwarequalitätssicherung

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Fragenkatalog zum Kurs 1666 (Datenbanken in Rechnernetzen) Kurstext von SS 96

Prototypenentwicklung zur Identifikation gleichartiger Nachrichtenticker am Beispiel des Gashandels

AS/point, Ihr Partner die nächsten 10 und mehr Jahre -

Apache Hadoop. Distribute your data and your application. Bernd Fondermann freier Software Architekt

Definition Informationssystem

Clustering mit Shared Storage. Ing. Peter-Paul Witta

Markus Feichtinger. Power Systems. Der Weg zu POWER! 2009 IBM Corporation

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

Persönlichkeiten bei bluehands

Hadoop aus IT-Operations Sicht Teil 1 Hadoop-Grundlagen

PostgreSQL in großen Installationen

Prof. Dr.-Ing. Rainer Schmidt 1

Storage-Trends am LRZ. Dr. Christoph Biardzki

Excel beschleunigen mit dem mit Windows HPC Server 2008 R2

RavenDB, schnell und skalierbar

peer-to-peer Dateisystem Synchronisation

Projektpraktikum: Verteilte Datenverarbeitung mit MapReduce

MySQL High Availability. DOAG 2013 Datenbank. 14. Mai 2013, Düsseldorf. Oli Sennhauser

Was ist Windows Azure? (Stand Juni 2012)

Allgemeines zu Datenbanken

Dateisysteme und Datenverwaltung in der Cloud

ISBN: Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

Datenverzeichnis backupen MySQLdump Replication. MySQL 4, 5. Kapitel 12: Backup. Marcel Noe

Ralf Simon, DV-Orga - Kreisverwaltung Birkenfeld

Infografik Business Intelligence

Hadoop-as-a-Service (HDaaS)

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Big Data: Nutzen und Anwendungsszenarien. CeBIT 2014 Dr. Carsten Bange, Gründer und Geschäftsführer BARC

HANDBUCH LSM GRUNDLAGEN LSM

Systemanforderungen für MuseumPlus und emuseumplus

Teamprojekt & Projekt

Systemvoraussetzungen winvs office winvs advisor

Infrastruktur fit machen für Hochverfügbarkeit, Workload Management und Skalierbarkeit

OSEK-OS. Oliver Botschkowski. PG AutoLab Seminarwochenende Oktober AutoLab

NoSQL. Einblick in die Welt nicht-relationaler Datenbanken. Christoph Föhrdes. UnFUG, SS

Datenbank-Service. RZ-Angebot zur Sicherstellung von Datenpersistenz. Thomas Eifert. Rechen- und Kommunikationszentrum (RZ)

Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien. Berlin, Mai 2013

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

Big-Data-Technologien - Überblick - Prof. Dr. Jens Albrecht

FORGE2015 HDC Session 4. Nachhaltige Infrastruktur als technologische Herausforderung. Tibor Kálmán Tim Hasler Sven Bingert

Oracle GridControl Tuning Pack. best Open Systems Day April Unterföhring. Marco Kühn best Systeme GmbH

vinsight BIG DATA Solution

Big Data Anwendungen Chancen und Risiken

TELEMETRIE EINER ANWENDUNG

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

IT im Wandel Kommunale Anforderungen - zentrales Clientmanagement versus Standardtechnologie!?

Open Source BI 2009 Flexibilität und volle Excel-Integration von Palo machen OLAP für Endanwender beherrschbar. 24. September 2009

Cloud-Provider im Vergleich. Markus

Business Analytics Die Finanzfunktion auf dem Weg zur Strategieberatung? IBM Finance Forum, 20. März 2013 Prof. Dr.

Windows HPC Server 2008 aus der Betreiberperspektive

Citrix XenDesktopHDX 3D Pro

Diplomarbeit: GOMMA: Eine Plattform zur flexiblen Verwaltung und Analyse von Ontologie Mappings in der Bio-/Medizininformatik

Fabian Grimme und Tino Krüger 1 INDREX. Evaluierung von H2O. Enterprise Data Management Beuth Hochschule für Technik

Unternehmen und IT im Wandel: Mit datengetriebenen Innovationen zum Digital Enterprise

REGIONALES RECHENZENTRUM ERLANGEN [ RRZE] Datenbanken. RRZE-Campustreffen, Stefan Roas und Ali Güclü Ercin, RRZE

Schneller als Hadoop?

Wide column-stores für Architekten

BIG UNIVERSITÄTSRECHENZENTRUM

SAP HANA als In-Memory-Datenbank-Technologie für ein Enterprise Data Warehouse

Solaris Cluster. Dipl. Inform. Torsten Kasch Bielefeld.DE> 8. Januar 2008

EXCHANGE Neuerungen und Praxis

NoSQL. Was Architekten beachten sollten. Dr. Halil-Cem Gürsoy adesso AG. SEACON 2012 Hamburg

XAMPP-Systeme. Teil 3: My SQL. PGP II/05 MySQL

Dell Data Protection Solutions Datensicherungslösungen von Dell

Abschlussarbeiten für StudentInnen

Mission. TARGIT macht es einfach und bezahlbar für Organisationen datengetrieben zu werden

Unsere Kassenlösung Cashtex im Netzwerk

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

NoSQL Datenbanken am Beispiel von HBase. Daniel Georg

Explosionsartige Zunahme an Informationen. 200 Mrd. Mehr als 200 Mrd. s werden jeden Tag versendet. 30 Mrd.

Festpreisprojekte in Time und in Budget

Projektarbeit POS II zum Thema Branchensoftware in der Druckindustrie. Ben Polter, Holger Räbiger, Kilian Mayer, Jochen Wied

Transkript:

Big Learning Datenmanagement und Datenanalyse: Energiemanagement mit lokaler Wetterinformation Michael Zwick +43 7236 3343 843 michael.zwick@scch.at www.scch.at Dr. Holger Schöner +43 7236 3343 816 holger.schoener@scch.at www.scch.at Das SCCH ist eine Initiative der Das SCCH befindet sich im

Big Data Trend 2

Datenquellen, Datenmanagement Prognose und Steuerung Analyse und Optimierung Datenmanagement Sensor Netzwerke 3

Agenda Datenmanagement Warum NoSQL? NoSQL!= NoSQL Hadoop/HBase Use Case Energie-Container Datenanalyse Use Cases Datenanalyse Herausforderungen Techniken zur Parallelisierung Ausblick 4

Kurze Geschichte eines Internet-Startups Standard-Installation einer Open-Source Datenbank MySQL, Firebird, PostgreSQL 1 Server Immer mehr Benutzer Datenmenge steigt dramatisch IT-Abteilung muss reagieren Mehr Disks, mehr RAM, schnellere/mehr CPUs Optimierung SQL, Indizes Voraggregation/Materialized Views Partitionierung der Datenbanktabellen Replikation der Daten auf mehrere DB-Knoten (Load Balancing) Schließlich wurde die gehisst Teuer (HW, Lizenzen) und schwer zu administrieren Denormalisierung, vermeiden aufwendiger Join-Operationen MySQL: DB-Backend ohne Transaktionen (MyISAM) 5

Big Data bei MySpace 1 Mio. User Messaging Images ~ 450 Server Profiles 6

Anforderungen/ Einschränkungen Transaktionen Joins Sekundär-Indizes Normalisierung Query Optimizer Consistency Availability Partition Tolerance Commodity Hardware Skalierbarkeit Verfügbarkeit Performanz Flexibleres Schema Spares tables Semi-structured unstructured 7

Tabular Key-Value Stores Google File System 2003 Bigtable 2006 Dynamo 2007 8

NoS...? Dokument Tabelle NoSQL Key-Value Graph 9

Hadoop Open source Google File System Java SDK (mittels RPC auch andere Frameworks) Verteilte Verarbeitung von großen Datenmengen Skalierbar und zuverlässig Commodity Hardware Redundante Speicherung von Datenblöcken (default: 3) Storage+Analyseframework HDFS (Hadoop Distributed Filesystem) Hadoop MapReduce Weitverbreitet Amazon/A9, Facebook, Google, IBM, Joost, Last.fm, New York Times, PowerSet, Veoh, Yahoo!... 10

MapReduce Map Reduce Map Reduce Map Reduce Map [1] http://www.recessframework.org/page/map-reduce-anonymous-functions-lambdas-php 11

MapReduce in Hadoop 12

Apache Projekte Apache Hive Pig Zu SQL ähnliche Abfragesprache und Metadaten-Repository High-level Sprache alternativ zu Hive Mahout Machine-Learning Algorithmen für Hadoop Flume Sammeln/Verarbeiten von Log- und Eventdaten Sqoop Integration mit RDBMS Oozie Workflow-Engine für Hadoop-Jobs 13

HBase Open source Google Bigtable Hadoop als Datenspeicher Schneller wahlfreier Zugriff als Ergänzung zu MapReduce Nicht relationale, verteilte Datenbank Dünnbesetzte Tabellen/Spaltenorientierte Speicherung Ausfallsicher Ziele Milliarden Zeilen Millionen Spalten Tausende Versionen Daten im Petabyte-Bereich auf tausenden von Knoten 14

HBase Datenmodell ColumnFamily1 (CF2) Timestamp qualifier1 qualifier2 qualifier3 qualifier4... rowkey1 ts3 value value ts2 value value ts1 value value rowkey2 ts5 value ts4 value ts3 value value ts2 value (rowkey, column, timestamp) -> cell column := <column_family>:<qualifier> 15

HBase Architektur Master Metadaten Koordination Regionserver Regions Queries Clients Master Metadaten Clients Regionserver Daten 16

HBase Architektur 2 17

Anwendungsfall Energieversorgung sicherstellen (an jedem Punkt der Erde) Energiemix Sonne/Wind Backup Diesel Batterien als Puffer Individuell konfigurierbar Intelligente Steuerung Wartungsarm Weitere Energiequellen zuschaltbar 18

Sensordaten Einstrahlung Windgeschwindigkeit Windrichtung Temperatur Umgebung Module Panelstellung Wechselrichter Strom Spannung Batterieladezustand 19

Erfahrungen mit HBase Messwerte sind WORM-Daten Skalierung mit der Anzahl der Energie-Container Messwerte sind nicht für jedes Gerät bzw. zu jeder Zeit verfügbar MapReduce geeignet zur Vorverarbeitung der Sensordaten Fehlerfrüherkennung Vorhersage Energieertrag Row-Key beeinflusst Skalierbarkeit des Gesamtsystems Komprimierung Datenmengen Snapshot alle 5 Minuten (~ 80 Messwerte) 1 Container 8,4 Mio. Messwerte/Jahr 170 Mio. Messwerte in 20 Jahren 170 Mrd. Messwerte bei 1000 Anlagen 20

Agenda Datenanalyse Analyse und Prognose Use Cases Vorhersage lokales Wetter Vorhersage Energiebedarf Optimierung Energieerzeugung Herausforderungen Datenanalyse, Vorhersagemodelle Techniken zur Parallelisierung MapReduce, GraphLab, GPGPU Ausblick SCCH 21

Analyse, Optimierung, Prognose Prognose und Steuerung Analyse und Optimierung Datenmanagement Sensor Netzwerke 22

Daten - Analyse Vorhersage, Soft Sensors Regression/Klassifikation: Vorhersage Resultat / Zustand / Eigenschaften eines Prozesses oder Teiles Wissens-Generierung Interpretation eines gelernter Modelle, um vorhandene Zusammenhänge explizit zu machen Diagnose Aufdecken und Erklären von Problemen, Ausreißern BigData Parallelisierung 23

2 1 0-1 -2-3 -4 0 20 40 60 80 100 1 0 12 1 13 14 15 16 17 18 19 10 2 Use Case: Vorhersage lokales Wetter 49 925mb, 0.556939, 0.92949 9 10 11 12 13 14 15 16 17 18 49 48 Salzburg Linz St. Pölten Wien Eisenstadt 48 Daten Sammlung Bregenz 47 Innsbruck Graz 47 Klagenfurt 46 9 10 11 12 13 14 15 16 17 18 46 Analyse Datenquellen Globale Wettermodelle: GFS,... Lokale Sensoren: Wettermeldungen, (Klein-)Kraftwerke,... Topographie, Expertenwissen 5 2.5 0-2.5-5 0 2 4 6 0 2 Erkenntnisse / Expertenwissen 4 6 Vorhersage Modelle -0.5 1 0.5-1 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 1 23 4 56 7 89 Alcohol 20 40 60 80 100 14.61 14.29 13.97 13.65 13.33 13.01 12.69 12.37 12.05 11.73 11.41 Ziele Eventplanung, Planung von Außenarbeiten Optimierung von Energieverbrauch/-produktion 24

Use Case: Vorhersage Gebäude-Energieverbrauch Umgebung Globalstrahlung, Temperatur, Wind, Luftfeuchtigkeit Intelligente Sensoren Wettermodelle Gewohnheiten Tages-, Wochenzyklus,... Sensoren Steuerung Jalousien, Nachtlüftung, Sollwerte Ziele Vorausschauende Anpassung Identifikation von Problemen/ Abweichungen durch Vergleich Verbrauch/Prognose 25

Use Case: Optimierung Energieerzeugung Aktuelle Durchflusswerte, Niederschläge / Temperaturen & Prognosen Schneeschmelze- und Bodenfeuchtemodell (Holzmann & Nachtnebel 2002) Datenbasierte Modelle (z.b. Ridge Regression, Neuronale Netze) Rainfall-Runoff-Model (Hebenstreit 2000) HYSIM: Wellenablauf / Niederschlagsabflussmode ll (Drabek et al. 2002) CH Legende: Laufkraftwerke der AHP Speicherkraftwerke der AHP Gemeinschaftskraftwerke der AHP Beteiligungen des Verbund INN Oberaufdorf-Ebbs Gerlos Mayrhofen Bösdornau Roßhag Braunau-Simbach Nußdorf D Passau-Ingling Schärding-Neuhaus Egglfing-Obernberg Ering-Frauenstein SALZACH INN Kreuzbergmaut Bischofshofen Urreiting Funsingau Schwarzach St. Veit Wallnerau Kaprun- Hauptstufe Häusling Kaprun-Oberstufe Reißeck-Kreuzeck Malta-Oberstufe Paternion DRAU Kellerberg Jochenstein Rosegg-St. Jakob Mühlrading Staning Garsten-St. Ulrich Rosenau Mandling Ternberg Klaus Salza Sölk Bodendorf-Paal Malta-Hauptstufe Malta-Unterstufe Villach Feistritz-Ludmannsdorf Aschach Ferlach-Maria Rain Ottensheim-Wilhering ENNS Triebenbach St. Georgen Abwinden-Asten St. Pantaleon Krippau Fisching MUR Bodendorf-Mur Wallsee-Mitterk. Leoben Friesach Graz DONAU Melk Losenstein Ybbs-Persenbeug Großraming Weyer Schönau Edling Annabrücke Altenmarkt Landl Hieflau St.Martin Lebring Lavamünd Schwabeck Altenwörth Dionysen Pernegg Laufnitzdorf Arnstein Rabenstein Peggau Weinzödl Spielfeld Greifenstein Mellach Gralla Gabersdorf Obervogau SLO CZ Freudenau SK H SAMBA: Optimierungsfunktion Optimale Gewichtung von Modellen Ziele Kurzfristig: Einbeziehung Verfügbarkeit natürlicher Ressourcen in Energieproduktionsplanung (Wasser, Wind, Sonne) Langfristig: Planung von Standorten, Auslegung von Systemen 26

Herausforderungen Datenanalyse Große Datenmengen, flexibler Zugriff nötig Lange Zeiträume für Hintergrundwissen notwendig Lokal: Viele Orte mit Messwerten Große Modellanzahl, komplexe Modellstrukturen Für jeden Ort ein Modell (mit Koppelung zwischen Modellen) Modelle für unterschiedliche Vorhersagegrößen, gemeinsame Vorverarbeitung Unterschiedliche Hardwarearchitekturen verfügbar Client-Server, Multicore, Cluster, GPGPU, heterogene Systeme Vielzahl Algorithmen Paralleles Vorverarbeiten Lineare Algebra Graphalgorithmen Pipelines 27

Techniken zur Parallelisierung MapReduce Verteilen unabhängiger ähnlicher Aufgaben auf mehrere Cores/GPGPUs Gute Integration mit Hadoop vorhanden Probleme mit iterativen Prozessen, komplexen Abhängigkeiten GraphLab Effiziente Implementation für Berechnungen mit komplexen Abhängigkeiten Datenhandling selber zu implementieren GPGPU Sehr wichtig für High Performance Anwendungen Aufwendiger Lowlevel-Code Oder Nutzung von Highlevel-Bibliotheken/-Sprachen (z.b. SaC), wobei noch kein Standard etabliert ist 28

Ausblick ParaPhrase EU-gefördertes Projekt Entwicklung von Parallel Patterns Refactoring für Parallelisierung Unterstützung unterschiedlicher Hardware 29

SCCH Anwendungsorientierte Forschung Gegründet im Juli 1999 von Instituten der Johannes Kepler Universität Linz im K plus-programm Kooperation Wissenschaft Wirtschaft Johannes Kepler Universität als starker Partner Unternehmensform: Non-Profit GmbH ~ 70 Mitarbeiter (inkl. Partnern ca. 80) 5,7 Mio. Euro Umsatz im GJ 10/11 Angesiedelt im Softwarepark Hagenberg Seit 01.01.2008 COMET-Kompetenzzentrum 30

Forschungsschwerpunkte Process and Quality Engineering Software Engineering Software-Qualität Softwareentwicklungs-prozess Models, Architectures and Tools Software Architektur modelbasierte Entwicklung Integration von Architektur und Entwicklung Data Analysis Systems automatisierte und intelligente Datenanalyse Vorhersage Wissensgewinnung Knowledge-Based Vision Systems maschinelles Sehen Objekterkennung Objektverfolgung 31

Kontakt Michael Zwick +43 7236 3343 843 michael.zwick@scch.at www.scch.at Dr. Holger Schöner +43 7236 3343 816 holger.schoener@scch.at www.scch.at 32