Vorlesung "Verteilte Systeme" Sommersemester 1999. Verteilte Systeme. 13. Fehlertoleranz. Verteilte Systeme, Sommersemester 1999 Folie 13.



Ähnliche Dokumente
Vorlesung Systemsoftware II Wintersemester 2002/03

Motivation für Fehlertoleranz in VS Fehlermodelle Erreichen von Fehlertoleranz. Verteilte Systeme. 7. Fehlertoleranz

Verfügbarkeit von Applikationen und Failover Szenarien. Winfried Wojtenek.

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Hochverfügbare Virtualisierung mit Open Source

Verteilte Systeme - 5. Übung

Modes And Effect Analysis)

MESONIC WINLine Jahreswechsel. Umstellung des Wirtschaftsjahres SMC IT AG

Aktualisierung der Lizenzierungsrichtlinien für Adobe Produkte

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Hochverfügbarkeits-Szenarien

1. Bearbeite Host Netzgruppen

Man liest sich: POP3/IMAP

Verteilte Systeme F. Fehlertoleranz

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Reporting Services und SharePoint 2010 Teil 1

2 Datei- und Druckdienste

Petri-Netze / Eine Einführung (Teil 2)

Anforderungen an die HIS

Grundlagen der Technischen Informatik. Sequenzielle Netzwerke. Institut für Kommunikationsnetze und Rechnersysteme. Paul J. Kühn, Matthias Meyer

Lokales Storage Teil 1

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Peer-to-Peer Internet Telephony using the Session Initiation Protocol (SIP)

Informatik für Ökonomen II HS 09

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Konsistenzproblematik bei der Cloud-Datenspeicherung

Design Pattern - Strukturmuster. CAS SWE - OOAD Marco Hunziker Klaus Imfeld Frédéric Bächler Marcel Lüthi

12 Fehlertoleranz. Begriffe

erster Hauptsatz der Thermodynamik,

FOPT 5: Eigenständige Client-Server-Anwendungen (Programmierung verteilter Anwendungen in Java 1)

Avira Management Console Optimierung für großes Netzwerk. Kurzanleitung

Datensicherheit und Hochverfügbarkeit

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Sitzungsleitung. Dr. Urs-Peter Oberlin 1/5

Session Beans & Servlet Integration. Ralf Gitzel ralf_gitzel@hotmail.de

Lizenzierung von System Center 2012

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Microsoft Update Windows Update

Voice over IP (VoIP) PING e.v. Weiterbildung Blitzvortrag. Dennis Heitmann

Marketingplan. 1 Punkt = 1 17 % 9 % 12 % mit einem monatlichen Qualifikationszeitraum 6 % 3 %

Informationsblatt Induktionsbeweis

Rollen von Domänencontrollern (DC s) Tag 04/00 - Thomas Fakler

Eigenen WSUS Server mit dem UNI WSUS Server Synchronisieren

Datensicherung und Wiederherstellung

Robot Karol für Delphi

ProSafe-RS sicherheitsgerichtete Technik

Zwei einfache Kennzahlen für große Engagements

AUF LETZTER SEITE DIESER ANLEITUNG!!!

Inkrementelles Backup

Reservierungs-Assistent

Fachtag Gesundheit und Pflege 2011 an der Evangelischen Hochschule Nürnberg

Computer- und Medienservice Öffentliche Computerarbeitsplätze (ÖCAP) Willi Petrov

x10sure TM Die Mittelstandslösung für eine zuverlässige IT

Grundlagen verteilter Systeme

Vorhersagemodell für die Verfügbarkeit von IT-Services

Bedienungsanleitung 1

Hochschule Rhein-Main. Sommersemester 2015

Algorithmen und Datenstrukturen

Was ist Sozial-Raum-Orientierung?

Orderarten im Wertpapierhandel

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

Anmerkungen zur Übergangsprüfung

Eine Bürokratiekostenfolgenabschätzung zum zweiten Gesetz für moderne Dienstleistungen am Arbeitsmarkt im Hinblick auf die Einführung einer Gleitzone

y P (Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

Welchen Nutzen haben Risikoanalysen für Privatanleger?

Das Pflichtenheft. Dipl.- Ing. Dipl.-Informatiker Dieter Klapproth Ains A-Systemhaus GmbH Berlin

Makigami, Prozessmapping und Wertstromdesign. erstellt von Stefan Roth

Die Online-Meetings bei den Anonymen Alkoholikern. zum Thema. Online - Meetings. Eine neue Form der Selbsthilfe?

Die Post hat eine Umfrage gemacht

15 Optimales Kodieren

tegos Support 1 Kontakt tegos Support Ticketing System Support Knowledge Database Fehlerklassen Fehlermanagement...

Video Unlimited -Nutzungsbeschränkungen

Von Bits, Bytes und Raid

Hyper-V Replica in Windows Server 2012 R2. Benedict Berger Microsoft MVP Virtual Machine

aktuelle Themen Kundenworkshop 11/

Software-Validierung im Testsystem

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Secure Mail der Sparkasse Holstein - Kundenleitfaden -

Was können Schüler anhand von Primzahltests über Mathematik lernen?

Zertifikat in dakota einlesen Wie lese ich mein Zertifikat in dakota.le ein?

Internes Web-Portal der AK-Leiter

Folie 1: Fehlerbaumanalyse (FTA) Kurzbeschreibung und Ziel Die Fehlerbaumanalyse im Englischen als Fault Tree Analysis bezeichnet und mit FTA

TECHNISCHE DOKUMENTATION ZUM TURBO-FREEZER XL 3 & XE 1

White Paper - Umsatzsteuervoranmeldung Österreich ab 01/2012

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Themen. Zusammenarbeit Vorbereitung Strafbestimmungen Schüsse von der Strafstossmarke

Informatik-Sommercamp Mastermind mit dem Android SDK

An integrated total solution for automatic job scheduling without user interaction

Cisco Security Monitoring, Analysis & Response System (MARS)

Gesetzesänderungen «Nominee», Entwurf

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

AirKey Das Handy ist der Schlüssel

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss

Verwendung des IDS Backup Systems unter Windows 2000

Exception Handling, Tracing und Logging

Multicast Security Group Key Management Architecture (MSEC GKMArch)

Transkript:

Verteilte Systeme 13. Fehlertoleranz Motivation Kunde () Verteiltes System = Redundanz Rechnern Kommunikationsnetzen Grundidee Einzelne Komponente k fällt mit einer Wahrscheinlichkeit p aus Ausfallwahrscheinlichkeit bei n Replikaten von k: p n < p Replikat 1 ehemals Replikat 2 Replikat 3 Verteilte Systeme, Sommersemester 1999 Folie 13.2 (c) Peter Sturm, Universität Trier 1

Fehlermodelle Crash Ommission Timing Arbitrary Arbitrary++ Welche Fehler soll eine Anwendung tolerieren? Maskieren von Fehlern Aufeinander aufbauende Fehlerklassen Crash Sofortiger, dauerhafter und beobachtbarer Stop (Fail-and-Stop oder auch Fail-Silent Silent) Grad der Amnesie Ommission Auslassung Timing Zu früh (Echtzeitfehler) Zu spät (Performance-Fehler) Arbitrary Beliebige Fehler, aber ehrlich gemeint Arbitrary with Message Authentication Beliebige Fehler inklusive absichtlicher Fälschungen Verteilte Systeme, Sommersemester 1999 Folie 13.3 Modellvariante Crash Timing Arbitrary Ommission wird durch Wiederholungen beliebig unwahrscheinlich Übergang zu Timing-Fehlern Timing-Fehler sind zeitlich begrenzt Entdeckung in endlicher Zeit (Timeout) Arbitrary++ Verteilte Systeme, Sommersemester 1999 Folie 13.4 (c) Peter Sturm, Universität Trier 2

Ansätze gruppe Checkpoints Logging Daten Passive Redundanz Aktive Redundanz Replikation von Daten Vorteil: Einfache Realisierung Nachteil: Nicht alle Fehlerklassen maskierbar Welche nicht? Replikation von Daten Kontrollfluß Vorteil: Alle Fehlerklassen im Prinzip maskierbar Nachteil: Aufwendige Hardware- und Software-Realisierung Verteilte Systeme, Sommersemester 1999 Folie 13.5 Mathematischer Hintergrund K K` K K K K` K` K` K K K K` Einzelne Komponente hat Ausfallwahrscheinlichkeit p Ziel: : N-facheN Replikation der mit Ausfallwahrscheinlichkeit p n Ausfälle müssen unabhängige Ereignisse sein Andere Komponenten Systemsoftware Hardware Zuverlässigkeit der Komponente hängt von vielen anderen Komponenten im System ab Gesamtsystem kann nicht zuverlässiger als die unzuverlässigste Komponente werden Verteilte Systeme, Sommersemester 1999 Folie 13.6 (c) Peter Sturm, Universität Trier 3

Beispiel Open Read Write Close Dateiserver DS Einfacher, nicht fehlertoleranter Dateiserver DS Maskierung maximal eines Ausfalls Realisierung Crash? Ommission? Timing? Arbitrary? Arbitrary mit Nachrichtenauthentifizierung? Verteilte Systeme, Sommersemester 1999 Folie 13.7 Wieviel Redundanz ist notwendig Abhängig von Maskierte Fehlerklasse Tolerierbare Anzahl an gleichzeitigen Ausfällen K-Zuverlässigkeit gruppe toleriert den gleichzeitigen Ausfall von k Mitgliedern Replikationsgrad k+1 Crash, Ommission und Timing Schnellste gewinnt Replikationsgrad 2k+1 Arbitrary Mehrheitsentscheid Replikationsgrad 3k+1 Arbitrary with Message Authentication Verteilte Systeme, Sommersemester 1999 Folie 13.8 (c) Peter Sturm, Universität Trier 4

Aktive Redundanz: State-Machine Machine-Approach Zustandsmaschine Zustandsvariablen Zustandsverändernde Kommandos: a=sm.k(e) Determinismus und Atomarität a hängt nur vom initialen Zustand und der Abarbeitungsreihenfolge vorangegangener Kommandos ab Funktion der Zustandsmaschine unabhängig von Zeit Anderen Systemaktivitäten Keine Seiteneffekte Sind Zustandsmaschinen leicht realisierbar? Kommandos Verteilte Systeme, Sommersemester 1999 Folie 13.9 Ein Ensemble Replizierte State-Machines Aktive Redundanz bei Gleichtaktung Gleicher initialer Zustand Kommandos in der gleichen Reihenfolge Replikatkoordination Alle nicht-fehlerhaften Zustandsmaschinen erhalten alle Kommandos Ausführung der Kommandos in der gleichen Reihenfolge Realisierungsvarianten Eigene Implementierung Geordneter Multicast und...? Welcher Ordnungsgrad ist minimal notwendig? Ensemble Verteilte Systeme, Sommersemester 1999 Folie 13.10 (c) Peter Sturm, Universität Trier 5

Ausgaben eines Emsembles Ensemble... an andere Komponenten Erwartet wird nur ein Reply Voting 1. Reply bis Timing Nach k+1 identischen Replies sonst... an E/A-Geräte Voting im Controller Wo muß einer Voter realisiert werden? Voter Verteilte Systeme, Sommersemester 1999 Folie 13.11 Lokalisierung Voter Warum nicht als eigenständiger Prozeß? Voter ist Teil einer Laufzeitbibliothek im Adreßraum Voter Verteilte Systeme, Sommersemester 1999 Folie 13.12 (c) Peter Sturm, Universität Trier 6

Unzuverlässige s Fehlerhafte s können k-zuverlässiges Ensemble stören Trotzdem alle Aufträge in gleicher Reihenfolge bearbeitet werden Vergleichbar Denial of Service -Attacken K-zuverlässiges Ensemble k-zuverlässiges System Lösungsansätze Defensive Programmierung s ebenfalls replizieren Zu maskierende Fehlerklasse? Plazierung des serverseitigen Voters? Verteilte Systeme, Sommersemester 1999 Folie 13.13 Wirklich Fehlerklasse Arbitrary? Maskierung von Softwarefehlern Einfache Replizierung einer State-Machine reicht nicht Lösungsansätze N-Version-Programming Recovery-Blöcke Aufwand Verteilte Systeme, Sommersemester 1999 Folie 13.14 (c) Peter Sturm, Universität Trier 7

Rekonfigurierung Reaktion auf ausgefallene Replikate Fehlerklasse Crash bis Timing Erzeugung eines Ersatzservers Einphasen mit dem Ensemble Selbststabilisierende Replikate (vgl. Dijkstra 1974) Abgleich über korrektes Ensemblemitglied Fehlerklasse Arbitrary Kein Ersatz integrierbar Zuverlässigkeitsgrad wird kleiner Aufwendige und kontrollierte Neuinitialisierung bei zu geringem Zuverlässigkeitsgrad Verteilte Systeme, Sommersemester 1999 Folie 13.15 Zusammenfassung State-Machine Machine-Approach Ein Ansatz für aktive Redundanz Einschränkungen an die Replikat-Realisierung Realisierung Determinismus Atomarität Total geordneter Multicast Anwendungsunabhängige Voter Mehrheitsentscheid: Bitweiser Vergleich der Replies Materialschlacht Zuverlässigkeitsgrad k>1 selten Verteilte Systeme, Sommersemester 1999 Folie 13.16 (c) Peter Sturm, Universität Trier 8

Aktive Redundanz selbst gestrickt? Verteilte Systeme, Sommersemester 1999 Folie 13.17 Passive Redundanz: : Primary-Backup Backup-Approach Ein Primary- Backup- im Hintergrund Aktualisierung der Backup- sendet Aufträge nur an Primary Primary antwortet: : Okay Primary antwortet nicht: Failover Im Fehlerfall wird ein Backup- zum neuen Primary Backup Backup Backup Primary Aktualisierung Verteilte Systeme, Sommersemester 1999 Folie 13.18 (c) Peter Sturm, Universität Trier 9

Aktualisierungsfrequenz Hot Standby Jedes Kommando wird nachgezogen Warm Standby Periodische Übernahme des Primaryzustands Cold Standby Übernahme des Primaryzustands nach Ausfall Unterschiede in der Reaktionszeit Election bei Primaryausfall Verteilte Systeme, Sommersemester 1999 Folie 13.19 (c) Peter Sturm, Universität Trier 10