Julian Kunkel. ZKI-Arbeitskreis Supercomputing

Ähnliche Dokumente
Leistungsanalyse von Rechnersystemen

Archive / Backup System für OpenVMS

Hochleistungs-Disk-I/O

TELEMETRIE EINER ANWENDUNG

4D Server v12 64-bit Version BETA VERSION

PVFS (Parallel Virtual File System)

Im Kapitel Resourc Manager werden die verschiedenen Möglichkeiten der Überwachung von Messwerten eines Server oder Benutzers erläutert.

Digicomp Microsoft Evolution Day Exchange und Lync in VDI Umgebungen Markus Hengstler Partner:

Grundlagen des Grid Computing

Dynamic Ressource Management

Smartphone Entwicklung mit Android und Java

Client-Server mit Socket und API von Berkeley

ein verteiltes und repliziertes Dateisystem XtreemOS IP project is funded by the European Commission under contract IST-FP

Systemvoraussetzungen für ConSol*CM Version Architektur Überblick

Die Sicht eines Sysadmins auf DB systeme

Projekt INF. Sensorerweiterung für 3D-Drucker. Hanna Bader, Alexandros Fouskas, Cedric Holeczek, Paul Nehlich und Robin Schweigert

CHiC Chemnitzer Hochleistungs-Linux Cluster. Stand HPC Cluster CHiC. Frank Mietke, Torsten Mehlan, Torsten Höfler und Wolfgang Rehm

Grid-Systeme. Betrachtung verschiedener Softwareplattformen zur Realisierung von Grids und Vorstellung des Globus Toolkit Grid Systeme 1

KASPERSKY SECURITY FOR VIRTUALIZATION 2015

Windows Server 2012 R2 Storage

1 Proseminar: Konzepte von Betriebssystem-Komponenten. Thema: Server OS AS/400 Referend: Sand Rainer. Server OS - AS/400

cretis service & software GmbH

Softwareverteilung. mit. m23

DW2004. XML-Datenimport in das SAP Business Information Warehouse bei Bayer Material Science. 3. November Dr. Michael Hahne, cundus AG

Datenmigration mittels HSM. Ernst M. Mutke Technical Director HMK Computer Technologies GmbH

Data Warehousing. DWH Projekte. Ulf Leser Wissensmanagement in der Bioinformatik

Einführung in Speichernetze

12.4 Sicherheitsarchitektur

Überblick. Multi-Cloud Computing Motivation Redundant Array of Cloud Storage (RACS) Zusammenfassung. c td MWCC (WS14/15) Multi-Cloud Computing 13 1

OPGCOM BS2000/OSD. Windows PC. Kommunikation zwischen BS2000 Host und PC. FILE-Send. URL-Server. udp NAC. MAIL-Server. Mail-Client EVENT-List

Alternativen für asynchrones Messaging als Teil der "Converging Infrastructure"

dsmisi Storage Lars Henningsen General Storage

Erfahrungen mit parallelen Dateisystemen

InfiniBand Low Level Protocol

Datenbanküberwachung mit Open Source-Mitteln. Markus Schmidt

Isilon Solutions + OneFS

HSM & Archivierung im Netzwerk (ILM)

Lehrveranstaltung Speichersysteme Sommersemester Kapitel 13: Parallele Dateisysteme. André Brinkmann

Performance Tuning

Verteilte Systeme. Verteilte Systeme. 9 Verteilte Dateisysteme SS 2015

Application Performance Management. Auch eine Frage des Netzwerkes?

stattdessen: geräteunabhängiges, abstraktes Format für Speicherung und Transfer von Daten Datei

Die Geheimnisse meiner SMF Daten

Client: min. Intel Pentium IV oder höher bzw. vergleichbares Produkt

Planung auf Aufbau von SharePoint-Suchinfrastrukturen

PL/SQL und Ingres. Der beste Weg, die Zukunft vorauszusagen, ist, sie zu gestalten. John Naisbitt (*1930), amerik. Prognostiker

Zabbix Performance Tuning

Storage Area Networks im Enterprise Bereich

MailUtilities: Remote Deployment - Einführung

i i apitel apitel K K Inhalt Inhalt

DOAG Demo Kino: Advisors, Monitoring Werkzeuge in der Datenbank Ulrike Schwinn Business Unit Database Oracle Deutschland B.V.

Migration Productstream Professional nach Autodesk Vault Mehr als eine reine Datenübernahme

IO Performance in virtualisierten Umgebungen

Beraterprofil. Persönliche Daten. Schwerpunkt. Besondere Qualifikation. Name: Wolfgang Berthold Geburtsjahr: 1951

Prozessarchitektur einer Oracle-Instanz

Multimandantenfähige ConfigMgr Infrastruktur

TSM-Migration Hermann Frasch Markus Bader

SolarWinds Engineer s Toolset

Michael Flachsel. Das SAN an der TUB. Aufbau und Funktion. 15. November 2007

User Level Device Driver am Beispiel von TCP

Deutsche Version. Einleitung. Verpackungsinhalt. Spezifikationen BT100. Ergänzende Spezifikationen BT100 S W E E X. C O M

Verteiltes Backup. Einleitung Grundlegende Backup Techniken Backup in Netzwerken. Client/Server Peer-to-Peer

Langzeitarchivierung von Prozessdaten und Auswertung mithilfe des Informationsservers und Processhistorian von PCS7/WinCC

ORACLE PROZESSARCHITEKTUR J O N N Y R I L L I C H

Datenbanksystem. System Global Area. Hintergrundprozesse. Dr. Frank Haney 1

Enterprise Application Integration Erfahrungen aus der Praxis

Geräte Treiber unter Unix/Linux

Wie verwende ich Twitter in MAGIC THipPro

Labor - Überwachung und Verwaltung von Systemressourcen in Windows 7

Michael Beeck. Geschäftsführer

File-Transfer-Appliance - FTA-250

Vorlesung Betriebssysteme I

Systemmanagement mit Puppet und Foreman

Tobias Flohre / Dennis Schulte codecentric AG. Spring Batch Performance und Skalierbarkeit

DBUS Interprozess-Kommunikation für Embedded-Plattformen

Anleitung zum Prüfen von WebDAV

HANA Solution Manager als Einstieg

Performanceoptimierung mit Exadata Verarbeitung extremer Datenmengen mit PL/SQL basierter Datenbewirtschaftung (Erfahrungsbericht)

glite Data Management Grid Seminar 2005 Julia Coester, Thomas Warntjen

Modern Windows OS Deployment

Web Service Discovery mit dem Gnutella Peer-to-Peer Netzwerk

Whitepaper VCI - Virtual CAN Interface Einbindung in LabWindows/CVI

Installationscheckliste Pervasive Server Engine Version 7.94, Stand

Eclipse Equinox als Basis für Smart Client Anwendungen. Christian Campo, compeople AG, Java Forum Stuttgart 2007

Betriebssysteme verteilen und aktualisieren Werkzeuge und Vorgehensweisen

Datenbanken II Speicherung und Verarbeitung großer Objekte (Large Objects [LOBs])

AFS / OpenAFS. Bastian Steinert. Robert Schuppenies. Präsentiert von. Und

Oracle Cloud Control. Seminarunterlage. Version vom

DB2 for VM / VSE 7.5. News & Experiences. Torsten Röber. GSE Frühjahrstagung April 2008, Bonn. IBM Software Group

Übung - Überwachen und Verwalten von Systemressourcen in Windows Vista

Grundlagen des Grid Computing

Ing. Gerald Böhm 3 Banken EDV GmbH Untere Donaulände 28, 4020 Linz Mobil: gerald.boehm@3beg.at

1 Application Compatibility Toolkit (ACT) 5.6

Datenbankstatistiken im Griff mit DBMS_STATS. DOAG 2012 Konferenz + Ausstellung Nürnberg 21. November 2012

Microsoft Dynamics NAV 2013 SOAP und OData Webservices mit.net nutzen Dipl.-Inf. (FH) Ingo Jansen

Configuration Manager Hardware Inventory Erweiterungen trueit TechEvent

SolarWinds Engineer s Toolset

Tipps & Tricks. Neues, Nützliches und Praktisches. Christian Dahmen con terra GmbH

Monitoring Microsoft SQL Server

Transkript:

Julian Kunkel ZKI-Arbeitskreis Supercomputing

Motivation Job-Statistiken Verfügbare Metriken Technische Umsetzung HPSS-Monitoring DKRZ, ZKI, 05.03.2010, Julian Kunkel 2

Transparenz! Unter minimalen Leistungseinbußen erfassen: Job-Statistiken: Prozessor E/A Netzwerk (Batch-System), (Betriebssystem) HSM-Nutzung Anwender-& projektbezogen Lebenszyklus der Daten DKRZ, ZKI, 05.03.2010, Julian Kunkel 3

Analyse des Job-Mixes& Datenlebenszyklus erlaubt: Aufdecken von Ineffizienzen RZ: Benutzerrückmeldung, Unterstützung Wenig Leistung => Analyse mittels Spurbasierte Werkzeuge Versionsübergreifende Leistungsanalyse von Programmen Hardware-Probleme detektieren Erstellung von Reports Planung der nächsten Rechnergeneration Abrechnung DKRZ, ZKI, 05.03.2010, Julian Kunkel 4

IBM POWER6 6 Performance Monitor Counters, 553 Events, 202 Groups 2 fest: PM_INST_CMPL, PM_RUN_CYC Relevant: FLOPS Prozessorauslastung Instructions per Cycle Cache-Nutzung DKRZ, ZKI, 05.03.2010, Julian Kunkel 6

Infiniband Host-Channel-Adapter PortCounters speichern: Anzahl Pakete Anzahl Bytes (Senden, Empfangen) Anzahl Fehler DKRZ, ZKI, 05.03.2010, Julian Kunkel 7

Eingabe/Ausgabe in GPFS Zähler für Statistiken auf Knoten Für jedes Dateisystem und Knoten aggregiert Anzahl open, close, reads, writes, readdir, inode update Datenmenge Lesen/Schreiben in Bytes Werden immer geführt Histogramme optional Gruppiert Bereiche nach Größe und Latenz DKRZ, ZKI, 05.03.2010, Julian Kunkel 8

size range 0 to 512 count 539 latency range 0.0 to 1.0 count 494 latency range 1.1 to 10.0 count 29 latency range 100.1 to 200.0 count 2 size range 513 to 1024 count 85 latency range 0.0 to 1.0 count 81 latency range 100.1 to 200.0 count 1 DKRZ, ZKI, 05.03.2010, Julian Kunkel 9

Alternativen: LoadLeveler Prolog- und Epilog-Skripte anpassen Existierende Zähler abfragen und Werte speichern Mpiexec(poe) wrappen Vorteil: Information für jedes parallele Program Automatische Instrumentierung vs. Spurwerkzeuge Werkzeuge beeinflussen sich gegenseitig LoadLeveler Queue ohne Monitoring zur Leistungsanalyse DKRZ, ZKI, 05.03.2010, Julian Kunkel 11

Prozessor Hardware Performance Monitor (HPM) Toolkit hpmcount Netzwerk Multiplexing von Ereignissgruppen und Normalisierung Ausgabe der Resultate in Datei(en) Auf jedem Knoten IB-HCA PortCounters auslesen E/A-Subsystem Mit mmpmon Zähler auslesen DKRZ, ZKI, 05.03.2010, Julian Kunkel 12

Wrapper-Skript Starten von parallelen Jobs durch Wrapper Skript <counterabfragen> poe hmpcount <options> <program> <parameter> <counterabfragen> Parser für die Ausgaben in LoadLeveler Epilog-Skript Reduktion der gesammelten Daten auf Kennzahlen Ausgabe für den Benutzer und für Administrator Ergebnisse nachträglich im Detail analysieren (pro Prozess ) DKRZ, ZKI, 05.03.2010, Julian Kunkel 13

DKRZ, ZKI, 05.03.2010, Julian Kunkel 14

Phase 1: Infrastruktur für existierende Werkzeuge Erfassen von CPU, Netzwerk, E/A-Statistiken in Dateien Zusatzlast durch Werkzeuge überprüfen Phase 2: Robustheit / Leistungsfähigkeit Datenbank-Design, zu erfassende Daten anpassen Phase 3: Aufzeichnen der GPFS-Server-Information Zusätzlich zur Client-Information speichern DKRZ, ZKI, 05.03.2010, Julian Kunkel 15

HPSS

Migration von Dateien: Kosten je angefangenes GByte berechnen Löschen von Dateien Anreiz für Löschen schaffen Aber weiterhin Platzbedarf auf Band Bis Band umkopiert wird ½ Speicherplatz für Projekt wieder freigeben RZ: Nutzerunterstützung - redundante Daten entdecken DKRZ, ZKI, 05.03.2010, Julian Kunkel 17

GPFS GHI Core Server Gatekeeper Gatekeeping site policy FTP/PFTP Mover VFS Mover HPSS DKRZ, ZKI, 05.03.2010, Julian Kunkel 18

Benötigte Informationen: Veränderungen der Metadaten Migration/Staging/Purge, lateral Move Objekt (Info verfügbar vs. ID -> DB Abfrage) Verfügbarkeit: zentral vs. dezentral Umfang der Code-Modifikation Verlust des Supports von IBM 1.117.128 LOC (*.c Dateien), Core: 250.000 LOC DKRZ, ZKI, 05.03.2010, Julian Kunkel 19

Serverseitige Protokolle(FTP-Daemon, Mover, ) Metadaten Veränderungen werden nicht aufgezeichnet Löschen von Dateien? Server-Instrumentieren Supportverlust bei Quellcode-Modifikation Gatekeeper Site-Policy nutzen Erfasst nur: Create, Open, Close, Stage Clients instrumentieren DKRZ, ZKI, 05.03.2010, Julian Kunkel 20

Abbrechnung der Nutzer mit Protokollen möglich # Realmid AcctId COS 0 #Accesses #Files Length (COS) # Realmid AcctId COS SClass #Accesses Transferred (SClass) 0 178 1 0 0 0 0 0 178 322 0 3926 2703 5174031270483 0 178 322 33 3926 12122156232666 Aber nicht für Projekte Zugriffsprotokolle enthalten: Client, op. Dauer (Open), Dateigröße & Name, Benutzer, Transfer-Typ, Class-of-Service DKRZ, ZKI, 05.03.2010, Julian Kunkel 21

Log-Information wurde bereits genutzt: In Datenbank integrieren (von IBM am DKRZ) Pro Nutzer ausgewertet: In USA: Datengrößen, # Dateien Workload-Charakterisierung Zeit bis Dateien gelesen wurden (Staging, Cache) Aber keine Metadaten, Lebenszyklus der Daten DKRZ, ZKI, 05.03.2010, Julian Kunkel 22

Erweiterung mittels shared library vorgesehen Wird vom Core Server aufgerufen Erlaubt Abweisen von Anfragen und Monitoring API für open, close, create, staging Protokolle an einer Stelle DKRZ, ZKI, 05.03.2010, Julian Kunkel 23

Wohldefiniertes Interface (viele Fkt) Viele Clients => Datenquellen Wrapper für die Funktionen schreiben Umbenennen der normalen Funktionen Hinzufügen von Wrapper Bibliothek (vgl. PMPI) Überschaubare Änderungen Alle Clients neu kompilieren Dynamisch instrumentieren z.b. mit DPCL DKRZ, ZKI, 05.03.2010, Julian Kunkel 24

Alle Anfragen gehen durch Core Server Objekte werden per IDs referenziert Lebenszyklus & MD-Operationen verfolgbar Für jede Anfrage instrumentieren Zeit/Parameter/Rückgabe in Text aufzeichnen DKRZ, ZKI, 05.03.2010, Julian Kunkel 25

Lebenszyklus von Dateien aus Protokollen rekonstruieren Mustererkennung und Gruppenbildung 1-2 GByte HDF5 file 15%: 10-11 years 80%: 4-10 month 5%:?? Read 90%: 4-10 month Read DKRZ, ZKI, 05.03.2010, Julian Kunkel 26