Monitoring der GEO600-Jobs Beispiel für Applikations- Monitoring Alexander Beck-Ratzka Monitoring-WS, 28.11.2008 Alexander Beck-Ratzka Monitoring GEO600 Monitoring Workshop
Agenda Was ist GEO600 und einstein@home? einstein@home aufs Grid. Automatisierung der job submission und Fehlerbehandlung. Online Demo GEO600-Portal
GEO600 Interferometer zur Messung von Gravitationswellen. Standort: südlich von Hannover Problem: Rauschen noch über der Nachweisgrenze. Analyse der Daten mit unterschiedlichsten Parametern erforderlich -> einstein@home
einstein@home Applikation zur Analyse der Messdaten der Inferometer. Basiert auf BOINC Framework. Entwickelt am Max-Planck- Institut für Gravitationsphysik.
einstein@home Applikation zur Analyse der Berkley Open Infrastructure for Distributed Computing Messdaten der Inferometer. Basiert auf BOINC Framework. Entwickelt am Max-Planck- Institut für Gravitationsphysik.
einstein@home Executables für nahezu alle Architekturen verfügbar. Roh-Daten werden vom einstein@home-server runtergeladen; analysierte Daten zurückgespielt. Ein einstein@home-job läuft nur, wenn Prozessor idelt (BOINC). Jeder kann sich beteiligen; für abgeschlossene Läufe werden Credits vergeben
einstein@home aufs Grid 1 Ideal für das Grid: Für viele Plattformen verfügbar Gut getestete Software Einfache Requirements auf den Ressourcen Eingebaute checkpoint- und Recovery-Methoden Laufzeit kann auf die Minute genau angegeben werden Lineare Skalierung mit Anzahl der Knoten (Task Farming)
einstein@home aufs Grid 2 Automatisches Deployment Deployed wird auf Globus-Ressourcen mit einem wsgram-job Erforderliche Software (GEO600 und third party products) wird aus svn Repositories ausgecheckt, und ggf. compiliert
einstein@home aufs Grid 3 Ablauf eines einstein@home Grid-Jobs einstein@home client wird mit vorgegebenen Walltime Limit auf Workernode gestartet einstein@home client holt sich zu Beginn (falls erforderlich) Datenpaket von Server Meldet seinen Start bei zentraler mysql- Datenbank auf buran.aei.mpg.de an Nach Ablauf der Walltime werden checkpoints für Neustart geschrieben einstein@home meldet sich bei Datenbank als fertig ab Jeder einstein@home job wird mit einer eindeutigen Task-Nummer versehen
einstein@home Ablauf Execution Host Checkpoint data on localhost e@h Client einstein@home Server inspect.pl mysql-server buran.aei.mpg.de
einstein@home Ablauf Execution Host Checkpoint data on localhost einstein@home Server inspect.pl mysql-server buran.aei.mpg.de
Automatisierung Automatisierte Job-Submission mittels cron-jobs Ablaufsteuerung über config-file run gt4-fzk.gridka.de { GEO600_HOME = GEO600-1.1 FT = PBS FT_FORK = YES TIMEOUT = 1.00:00:00 JOBS_RUNNING_MAX = 2600 JOBS_QUEUE_MAX = 80 JOBS_QUEUE_MIN = 50 FLOPS = 1709 CHECK_ARCHIVE = NO USE_TMP = /tmp PREFIX = build/boinc_5.4.11_i686-pc-linux-gnu GSISSH = dgrid-fzk.gridka.de POSTSTAGE = no LOCATION = file://~/geo600-1.1/tasks ACCESS = gt4-fzk.gridka.de GT4 = gt4-fzk.gridka.de }
Automatisierung Überprüfung der Status der Tasks in mysql-datenbank Auslösen von fehlerbehenden Aktionen, wenn diese behebbar sind. Jeder Inspektionslauf schickt eine Email an den Jobadmin (cron-feature), so dass dieser bei nicht behebbaren Fehlern sofort informiert wird, und aktiv werden kann.
Automatisierung Automatische Reaktion auf Fehler in config-file einstellbar ERROR P-Done-rc127 { APPLICATION_STATE = P GLOBUS_STATE = Done GLOBUS_RC = 32512 MESSAGE = "application returned error code 127" ACTION = RESET } ERROR E-Failed-rc1 { APPLICATION_STATE = E GLOBUS_STATE = Failed GLOBUS_RC = 256 MESSAGE = "application returned errorcode 1" ACTION = RMDIR,STAGEOUT,DEANNOUNCE }
e@h Grid-Bilanz Obwohl erst seit März diesen Jahres richtig produktiv, sind wir schon auf Platz 1 aller Beitragenden escience-gruppe des AEI hat die meisten Credits gesammelt Täglich um oder etwas über 100000 CPU-Stunden auf D-Grid Ressourcen
Online Demo GEO600 Portal... Alexander Beck-Ratzka Monitoring GEO600 Monitoring Workshop
GEO600-Portal
GEO600-Portal
GEO600-Portal