TECHNISCHE HERAUSFORDERUNGEN UND ANSÄTZE DER NUTZUNG VON SENTINEL-DATEN CARSTEN BROCKMANN, MARTIN BOETTCHER BROCKMANN CONSULT GMBH
BROCKMANN CONSULT Gegr. 1999, Geesthacht bei Hamburg 28 Mitarbeiter davon 11 mit PhD + 8 MA bei BG Sweden Informatiker, Physiker and Umweltwissenschaftler 2 Geschäftsbereiche: Umweltinformatik Geo-information-Dienstleistungen Entwickler der Sentinel 3, 2, 1 Toolboxen (ESA Auftrag) Calvalus Massiv parallele Verarbeitung von EO Daten
Zugriff auf Sentinel Daten warum? Systematische Erstellung von Informationsprodukten zur Wasserqualität Nord- und Ostsee Chlorophyll Concentration 3
Zugriff auf Sentinel Daten - Wasserqualität Systematische Erstellung von Informationsprodukten zur Wasserqualität Nord- und Ostsee Datenvolumina und Verarbeitung heute Input ENVISAT/MERIS ~ 135TB FR Level 1 + 25TB RR, ganze Mission MODIS Aqua ~ 17TB/Jahr (~50GB/Tag) WAQSS Dienst (Wasserqualität Nord- und Ostsee) MERIS download ~15 TB/Jahr ~40 GB/Tag Extraktion AOI + höherwertige Produkte (1.5TB/Jahr) MODIS Extraktion und höherwertige Produkte < 1TB/J Spezielle Produkte (Individualprodukte, 50TB/J) 4
Zugriff auf Sentinel Daten - Landdienste Globale und regionale thematische Landoberflächen Kartierung und Klassifikation 9 year global composite surface reflectance (2003 2011) Kartierung Vegetation & Muscheln Wattenmeer 5
Zugriff auf Sentinel Daten - Landdienste Globale und regionale thematische Landoberflächen Kartierung und Klassifikation Datenvolumina und Verarbeitung heute Input ENVISAT/MERIS ~ 135TB FR Level 1 + 25TB RR, ganze Mission SPOT-VGT ~20TB Landsat 5 + 8, 20TB (wachsend) Land Dienste Globale Landprodukte (Albedo, Landcover) ~ 50TB Regionale Produkte < 1TB 6
Zugriff auf Sentinel Daten - Binnengewässer Informationsprodukte Wasserqualität von Seen, global Datenvolumina und Verarbeitung heute Landsat 8, keine systematische Verarbeitung Demonstrationsprodukte < 1TB Abb. Eirini Politi, Uni. Dundee, GloboLakes Projekt Dominante Phytoplankton Spezies, Lake Nicaragua (Brockmann Consult) 7
Datenvolumina Sentinel Ära Sentinel input Daten S1A Level 1: ~432 TB/J (+ same amount for S1B) S2A Level 1: ~751 TB/J (+ same amount for S2B) S3A Level 1: ~451 TB/J (OLCI+SLSTR, + same amount for S3B) Küstengewässer Nord- und Ostsee (WAQSS), nur S3: OLCI S3A+B ~440 TB/Jahr (~1200 GB/Tag), Extraktion Nord- und Ostsee AOI + höherwertige Produkte ~ 40TB/J Binnengewässer (Auswahl, weltweit) Output: S2A 15TB/J + S3A 5TB/J = 20TB/J Globale Landcover Produkte Input: 300m räumliche Auflösung (OLCI) erst 220TB/J (S3A), später 440TB/J (S3A+B) 10m räuml. Auflösung, Kontinente, 750TB/J (S2A), später 1.5PB/J (S2A+B) Output ~ 5TB/J 8
Anforderungen Anwendungsfall 1: NRT Anwendungsfall 2: Zeitserien und statistische Produkte Mehrere Prozessierungen des gesamten Datensatzes erforderlich aufgrund von Agorithmenverbesserungen ENVISAT Ära Globale Prozessierung ist Treiber, Input Daten 140TB Sentinel Ära Sukkessiv anwachsendes Datenvolumen ~ 1PB/Jahr input Subsetting von AOIs und vorhalten in privater cloud Datenvolumen ~100TB/Jahr Hosted processing in privater cloud Langzeitarchivierung beim Datenoriginator oder nationaler Mirror-site 9
Calvalus Ansatz Massive-parallel Prozessierung von Erdbeobachtungsdaten Basierend auf MapReduce & Apache Hadoop Data locality Technologie im Innern der cloud Work-flows Rapid prototyping Level 2 & Level 3 Prozessierung Zeitserien, match-up Analyse Hosted Processing Daten und Software gleichbehandelt Verteilung im System 10
L2/L3 Processing Realisation MERIS RR L1, global, 10-day CoastColour C2W processor 1.5 hours (22 nodes) 1 L3 product L2 Proc. & Spat. L1 File Binning L2 Proc. & Spat. Spa.Bins (Mapper Task) L1 File Binning Spat.Bins L2 Proc. & Spat. (Mapper Task) L1 File Binning Spat.Bins L2 Proc. & Spat. (Mapper Task) L1 File Binning L2 Proc. & Spat. Spat.Bins (Mapper Task) L1 File Binning Spat.Bins (Mapper Task) L3 Temp. Binning (Reducer L3 Temp. Task) Binning (Reducer Task) Temp.Bins Temp.Bins L3 Formatting (Staging) L3 File(s)
Example: Calvalus for Land Cover CCI Quicklook generation for full mission MERIS FRS and RR reads and processes 150 TB input data in 10 hours. This is about 50 Gbit/s. Generation of 7-day composites of surface reflectance from full mission MERIS FRS and RR for CCI Land Cover is a data and computing intensive automated job that runs for 3 months on a 72 nodes Calvalus/Hadoop cluster Other full mission processes are between these two times. 12
Global Lakes Vorverarbeitungssystem Private Cloud Ansatz 13
Systematic Data Driven Work Flow 14
Collaborative Ground Segement Context 15
Fazit Wir werden Sentinel (2+3) als Fortsetzung der Europäischen Datenversorgung nutzen. Verlängerung der Zeitreihe, verbesserte Datenqualität Fortsetzung vorhandener NRT-Services, denen die Europäischen Daten ausgegangen waren Neue Services, um weitere wissenschaftliche Entwicklungen in die Nutzung zu überführen Wir werden einen Teil des Datenstroms in-house verarbeiten Retrieval eines relevanten Ausschnitts des Datenstroms (ausgewählter Sensor, ausgewählte Region) zur lokalen Prozessierung Bereitstellung für Partner und Kunden (private cloud) wiederholte Nutzung, daher auch Speicherung Anbieten von Daten Produkte Anbieten von hosted processing auf den vorverarbeiteten Daten Wir planen, zumindest in den ersten Jahren der Missionen hosted processing zu nutzen stark aggregierte Ergebnisse (von uns seltener genutzte Daten) Zugriff auf Convenience Produkt wäre sehr nützlich (S1+2+3 auf gleichem Raster, Vorklassifikation) Kosten müssten unter Transfer+Speicherung bei uns liegen, um attraktiv zu sein 16