Seminar Grid Computing Sabine Zill Sommersemester 2004
Übersicht Komponenten und Grundlagen Replikationsarchitektur GDMP Replikation mit GDMP Dateireplikation Objektreplikation
- Benötigte Komponenten und Grundlagen
Warum Verteilte Systeme Große Datenmengen Ziele: Hohe Datenverfügbarkeit Fehlersicherheit
Benötigte Komponenten Ein zuverlässiges, sicheres und leistungsstarkes Übertragungsprotokoll Management für mehrere Kopien von Dateien und Datenkollektionen
GridFTP Erweitert FTP Vorteile von FTP: Standardprotokoll stellt eine wohldefinierte Architektur für Protokollerweiterungen bereit
Eigenschaften von GridFTP (1) Grid Security Infrastructure (GSI) Unterstützung Thrid-Party control Starten, überwachen und kontrollieren einer Datentransferoperation durch Benutzer oder Applikation Paralleler Datentransfer verbesserte Bandbreite durch mehrere parallele TCP Ströme
Eigenschaften von GridFTP (2) Verteilter Datentransfer Daten sind auf mehreren Servern verteilt mittels parallelem Datentransfer werden die verteilten Daten über mehrere TCP-Ströme transferiert Teiltransfer von Dateien
Eigenschaften von GridFTP (3) Automatisches Aushandeln des TCP Buffers automatische und manuelle Festlegung der TCP Fenstergröße Unterstützung von zuverlässigen und wiederstartbaren Datentransfer
Globus Replikationsmanagement Architektur Replikations Katalog (low-level) logische Kollektion Beziehung zwischen Dateiname, Kollektion und Speicherort low-level Manipulationsoperationen Replikationsmanagement API (high-level) erzeugen/löschen von Replikationen auf dem Speichersystem
Replika Katalog Verwaltet mehrere Kopien einer Datei Bildet Dateinamen auf mehrere physikalische Dateien ab Beinhaltet drei Eintragstypen: Logische Kollektionen Speicherorte logische Dateien
Logische Kollektionen = benutzerdefinierte Gruppe von Dateien Vorteile Zahl der Katalogeinträge wird verringert Zahl der Manipulationsoperationen ist geringer
Speicherorte Jeder Eintrag repräsentiert eine komplette oder teilweise Kopie einer logischen Kollektion Enthält alle Informationen um eine URL zu konstruieren mit der man auf einzelne Dateien der Kollektion zugreifen kann Informationen über das physikalische Speichersystem (z.b. Hostname, Port) Listet alle Dateien der Kollektion auf, die in dem bestimmten Speichersystem gespeichert sind
Replica Catalog Logical Collection C02 measurements 1998 Logical Collection C02 measurements 1999 Filename: Jan 1998 Filename: Feb 1998 Location jupiter.isi.edu Location sprite.llnl.gov Logical File Parent Filename: Mar 1998 Filename: Jun 1998 Filename: Oct 1998 Protocol: gsiftp UrlConstructor: gsiftp://jupiter.isi.edu/ nfs/v6/climate Filename: Jan 1998 Filename: Dec 1998 Protocol: ftp UrlConstructor: ftp://sprite.llnl.gov/ pub/pcmdi Logical File Jan 1998 Size: 1468762 Logical File Feb 1998
Operationen auf dem Replikationskatalog Erstellen und Löschen von Kollektionen, Speicherorten und logischen Einträgen Einfügen und Entfernen von logischen Dateinamen in Kollektionen und Speicherorten Inhalt von Kollektionen und Speicherorten auflisten Funktion um alle physikalischen Speicherorte einer Datei zu finden
Services des Replikationsmanagement Systems Kopien von Dateien oder Teilen einer Datei erzeugen Kopien im Replikations Katalog registrieren Anfragen auf den Katalog ermöglichen Beste Replikation auswählen
Replikationsarchitektur GDMP
GDMP Client Server Replikationswerkzeug zum sicheren und effizienten Kopieren von Dateien im Grid Benutzt Globus Grid Werkzeuge Verwaltet die Einträge von Replikationen im Replika Katalog
GDMP Technische Grundlagen Datei enthält hohe Anzahl an Objekten Speicherung von Objekten ist nur dann effizient, wenn viele Objekte pro Datei gespeichert sind Objekte sind read-only Objekte Jede Seite besitzt einen lokalen Replikationskatalog
GDMP-Server Ein Server für jede Seite Interagiert mit entfernten Seiten Initialisiert Anfragen zur Replikation von Mengen von Dateien Stellt GDMP Client Kommandos zur Verfügung Dateiinformationen anderen Seiten bekannt machen Benachrichtigen, wenn neue Daten verfügbar sind
GDMP Client Services Anmelden an einer entfernten Seite Veröffentlichen von neuen Dateien Datenkatalog einer entfernten Stelle beschaffen Dateien von einer entfernten Stelle übertragen Anfragen an einen GDMP Server werden durch einen Sicherheitsservice autorisiert
GDMP Client Anfragen Client Anfragen werden durch den Request Manager an den GDMP Server weitergegeben Request Manager: Modul zur Client-Server Kommunikation Implementiert die Server Funktionen um Anfragen zu bedienen Dateianfragen werden durch Data Mover Service bearbeitet
GDMP Architektur Request Manager Security Layer Replica Catalog Service Data Mover Service Storage Manager Service
Replica Catalog Service Benutzt den Replikations Katalog für einen globalen Namensraum Dateinamen werden automatisch erzeugt oder vom Benutzer vorgegeben Veröffentlichung von Dateien Dateien werden dem Replikations Katalog hinzugefügt subscribers werden benachrichtigt Benutzeranfragen möglich
Data Mover Service Bearbeitet Transferanfragen GridFTP als Transfermechanismus Muss Netzwerkfehler behandeln Fehlererkennung Fehlerkorrektur Neustart ermöglichen
Storage Manager Service Interface zum Mass Storage System Benutzt externe Werkzeuge zum Bereitstellen der Daten Triggern von Anfragen zum Bereitstellen der Daten Befindet sich Datei nicht im disk pool, wird sie vom MSS in den disk pool geladen und repliziert
Replikation mit GDMP
GDMP Zwei Arten der Replikation Datei-Replikation Daten werden auf Basis existierender Dateien repliziert Objekt-Replikation Daten werden auf Basis existierender Objekte repliziert Beziehungen zwischen den Objekten werden vernachlässigt
Probleme bei der Replikation von Daten Benutzer müssen authentifiziert werden Der Zugriff auf das Speichersystem muss kontrolliert werden Es sollten nur die interessanten Teile von Daten repliziert werden Veränderungen an dem Datenbestand müssen an die Replikationen weiter gegeben werden
Probleme bei der Datei-Replikation Replikationsmechanismus kann nicht jede Datei als eigenständig und abgeschlossen behandeln Lösung: Dateien mit Navigationsverbindungen müssen als zusammengehörige Dateien betrachtet und zusammen repliziert werden
GDMP Replikationsprozess Basiert auf Erzeuger-Verbraucher Prinzip Datenerzeugende Seite macht Menge von neu erstellten Dateien einem oder mehreren Konsumenten bekannt GDMP gewährleistet, dass die benötigten Transferoperationen erfolgreich ablaufen GDMP Server auf jeder am Replikationsprozess teilnehmender Seite
Replikationsschritte Vorbereitung Datentransfer Nachbereitung Eintrag in den Replikationskatalog
Motivation für Objektreplikation Nur bestimmte Objekte, nicht ganze Dateien sind interessant Datei-Replikation kann ineffizient werden: Bei hoher Zahl an gewünschten Objekten müssen alle Dateien, die die gesuchten Objekte enthalten, gefunden werden Eine Datei enthält nur wenige der gesuchten Objekte
Objektreplikation Objektkopierwerkzeug kopiert die Objekte in eine neue Datei Die neue Datei wird an die Zieladresse kopiert (wide area file copy) Die für die Replikation erstellte Datei kann auf der Quellseite gelöscht werden
Zusammenfassung Managemantarchitektur GDMP Integriert grundlegende - Komponenten Leistungsstarkes Protokoll (GridFTP) Komponente zum managen der Replikationen (Replika Katalog) Ermöglicht zwei Replikationsarten Dateireplikation Objektreplikation: effektivere Art der Replikation