4.1 Einführung. Dimensionen der Systemqualität. 4.2 Fehlerintoleranz. Verlässliche Systeme. 4. Kapitel Konzepte der Verlässlichkeit.

Transkript

1 Verlässliche Systeme Wintersemester 2018/ Einführung Verlässlichkeitsbaum 4.1 Einführung Verlässliche Systeme 4. Kapitel Konzepte der Verlässlichkeit Christine Jakobs Professur Betriebssysteme WS 2018/19 C. Jakobs 2 / 70 osg.informatik.tu-chemnitz.de 4.1 Einführung Dimensionen der Systemqualität 4.2 Fehlerintoleranz 4.2 Fehlerintoleranz Wie umgehen mit Fehlern? vermeiden Konzept: Fehlerintoleranz Eliminierung der Ursachen von Unzuverlässigkeit durch Fehlervermeidung Fehlerbeseitigung (offline) Keine Redundanzen (online) Fehlerintoleranz bringt Verlässlichkeit durch: Einsatz sehr zuverlässiger Komponenten Ausgefeilte Entwurfstechniken Ausgefeilte Produktionstechniken Abschirmung Eingehende Tests WS 2018/19 C. Jakobs 3 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 4 / 70 osg.informatik.tu-chemnitz.de

2 4.2 Fehlerintoleranz Fehlervermeidung 4.2 Fehlerintoleranz Fehlerbeseitigung Fehlerintoleranzansatz Verhinderung des Auftretens oder der Einführung von Fehlerursachen durch Prozesse Entwicklungsprozess Wasserfall, V-Modell, Rational Unified Process,... Codeinstektionen, extreme programming, agile, MISRA-C,... Requirements engineering Organisationsprozess Capability Maturity Model (CMMI) IEC (Medizin) ISO (automotive) Fehlerintoleranzansatz Analytische Fehlerursachenentfernung Analyse der Systemrepräsentation, um Probleme zu entdecken Verlässt sich auf geeignetes Modell Beispiel: Modellüberprüfung mit UML-Diagrammen Experimentelle Fehlerursachenentfernung Duch koordiniertes Experimentieren Verhalten provozieren und beobachten Besser bekannt als testing und debugging Spezialvariante: Fehlerinjektion WS 2018/19 C. Jakobs 5 / 70 osg.informatik.tu-chemnitz.de 4.3 Fehlertoleranz 4.3 Fehlertoleranz Akzeptiert, dass ein System nicht frei ist von Fehlerursachen Führt automatischen Umgang mit Fehlerzuständen in Systemdesign ein Ziel: Rückkehr zum dormant fault Zustand External Fault Active Fault / Latent Error Detection Failure WS 2018/19 C. Jakobs 6 / 70 osg.informatik.tu-chemnitz.de Fehlertoleranz 4.3 Fehlertoleranz Fehlertoleranz benötigt stets Redundanz Redundanz im Raum Zusätzliche Hardware, Speicherbedarf,,... Redundanz in der Zeit Zusätzliche Rechenzeit, Zeit für Fehlererkennung und -behebung, etc. Informationale Redundanz Alternative Repräsentation der selben Daten Normal Activation Detected Error Redundanz ermöglicht erreichen des gleichen Ziels, obwohl etwas broken ist Internal Fault Error Handling Failure Redundant heißt nicht identisch Redundanz spielt in verschiedenen Phasen der Fehlertoleranz eine Rolle Dormant Fault Restoration Outage WS 2018/19 C. Jakobs 7 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 8 / 70 osg.informatik.tu-chemnitz.de

3 4.3 Fehlertoleranz Phasen der Fehlertoleranz [Hamner] 4.3 Fehlertoleranz Fehlertoleranzmuster [Hamner] Architektonische Muster Fehlertoleranzstrategien, die alle Teile eines Systems beeinflussen Müssen in frühen Designphasen angewandt werden Fehlererkennungsmuster Erkennung von Fehlerzuständen im System Fehlerwiederherstellungsmuster Aktivitäten, um einen neuen Fehlerfreien Zustand zu erreichen Fehlerabschwächungsmuster Maskieren den Fehlerzustand, nicht den Ausfall, und Kompensieren die Auswirkungen WS 2018/19 C. Jakobs 9 / 70 osg.informatik.tu-chemnitz.de Einheiten der Abschwächung Nur ein Teil des Systems soll potentiell in einen Fehlerzustand eintreten Einheiten der Abschwächung sind definiert, sodass sie Fehlerzustände und deren Wiederherstellungsmechanismen beinhalten Hinweise zu Granularität Architektonische Ebenen Funktionale und Ressourcenbegrenzungen (CPU, Speicher) Wahl der Wiederherstellungsaktion (z.b. Neustart) Kommunikationsintensität Einheiten ohne jegliche Wiederherstellungs- / Abschwächungsmöglichkeit sind zu klein Tradeoff: Komponentengröße vs. Fehlertoleranzoptionen WS 2018/19 C. Jakobs 10 / 70 osg.informatik.tu-chemnitz.de Fehlereindämmungsbarrieren Fehlerausbreitung erfolgt durch verschiedene Kanäle (Speicher, Nachrichten,... ) Errichten einer Fehlereindämmungsbarriere Als separate Systemkomponente behandelt Ermöglicht Fehlererkennung nahe dem Ausfall (strukturelle und zeitliche Nähe) Isoliert Fehlerzustände Löst Fehlerwiederherstellung oder -Abschwächung aus Beispiel: Quatschkopf-Problem Kommunikationsknoten verwenden gemeinsamen Systembus Fehlerhafte Knoten sollten nie die Kontrolle über den Kommunikationsbus erlangen Buswächter als Implementierung der Fehlereindämmungsbarriere WS 2018/19 C. Jakobs 11 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 12 / 70 osg.informatik.tu-chemnitz.de

4 Beispiel: Nuklearkraftwerk Beispiel: Temporäre Firewall in TTA WS 2018/19 C. Jakobs 13 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 14 / 70 osg.informatik.tu-chemnitz.de Korrekturprüfungen Replikation Datenbeschädigung kann auf Hardwareebene (Speicherfehler) und Softwareebene (Programmierfehler) passieren Fehlerzustand breitet sich leicht von fehlerhaften Daten aus Datenüberprüfung auf Basis von Korrektheitskriterien Strukturelle Eigenschaften der Datenstruktur (linked list structure, pointer boundaries,... ) Bekannte Korrelationen (mehrerer Orte, bekannte Umrechnungsfaktoren, cross linkage) Sanity checks (Wertebereiche, checksums) Direkter Vergleich (Dopplung, meist bei statischen Daten) Prüfung kann zu Korrektur, Bericht oder bewusster Unwissenheit führen Datenreplikation: Sichert Konsistenz zwischen redundanten Quellen Aktive Replikation führt die gleiche Aktivität auf allen Repliken aus Erstmalig eingeführt von Leslie Lamport als state machine replication Erfordert deterministische Verarbeitung von Aktivitäten Passive Replikation führt Aktivität auf einzelner Replik aus Andere Repliken bekommen nur die Unterschiede Primary server vs. backup servers Verzögerte Antwort im Failover-Fall Arbeitet auch mit nichtdeterministischen Prozessen Beispiel: Master-Slave vs. Master-Master replication setup WS 2018/19 C. Jakobs 15 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 16 / 70 osg.informatik.tu-chemnitz.de

5 Beisplie: PostgreSQL 9 Replicationsoptionen Wartungsschnittstelle Shared-Disk Setup Verhindert Synchronisationsmehraufwand, aber erfordert Speicher Gegenseitiger Ausschluss für aktive und passive Knoten muss sichergestellt werden Shared-Nothing Setup Block-device Replication - Betriebssystem spiegelt Dateisystemoperationen auf alle Knoten (z.b. GFS, DRBD) Point-In-time Recovery (PITR) - Passive Knoten erhalten Stream von write-ahead log (WAL) Einträgen nach jeder Transaktionsbestätigung Master-Slave / Multimaster Replication - Schubweise Updates der Tabellengranularität werden an passive Knoten gesendet Statement-Based Replication Middleware - SQL wird an alle Knoten gesendet Wartungstask für Außenwelt sichtbar machen Zusätzliche Art von Systeminput Trennung von Schnittstelle und Verarbeitung Überlastschutz sollte die Wartungsschnittstelle nicht beeinflussen Durchmischte Schnittstellen können Sicherheitsprobleme mit sich bringen Keine verborgene Falltür, aber ein gut gesicherter dedizierter Weg Verhindern, dass die Anwendungslast davon Gebrauch macht Auch nützlich für ähnliche Funktionen, wie Informationen aus Log ziehen WS 2018/19 C. Jakobs 17 / 70 osg.informatik.tu-chemnitz.de Eskalation WS 2018/19 C. Jakobs 18 / 70 osg.informatik.tu-chemnitz.de Endlose Wiederherstellungsversuche können in machen Fällen valide sein (Transiente Fehlerursachen) Aber Fehlerverarbeitung sollte angehalten werden wenn: Correcting audits bleiben unerfolgreich Rollback / roll-forward bleiben unerfolgreich Eskalation des Prozesses macht Fehler weniger lokal und drastischer Erfordert Verständnis der Fehlerursache und des Ausfallmodells Einige Optionen: Partielle Operation wiederaufnehmen, partielle Dienstverschlechterung ausführen WS 2018/19 C. Jakobs 19 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 20 / 70 osg.informatik.tu-chemnitz.de

6 Fehlerursachenkorrelation Voraussetzung: Frühe Fehlerursachenentfernung deckt gemeinsame Fehlerzustandstypen auf Betrachtung der einzigartigen Signatur eines Fehlerzustandes, um die entsprechende Fehlerkategorie zu identifizieren Ermöglicht die Aktivierung eines bekannten Fehlerzustandsabgleichs Beispiel: Viele off-by-one Fehlerzustände beim Testen gefunden, System darauf vorbereiten Bei Datenfehlerzuständen, entsprechend zu prüfende Daten sollten vorher bekannt sein Mehrere Fehlerzustände können zeitlich Dicht erfolgen Korrelation ist hilfreich, um den Ausfallort zu bestimmen Designkriterien Abdeckung (Coverage) Gesamtabdeckung Abdeckung bezüglich gegebener Fehlerarten Overhead Hardware (zusätzliche Schaltungen, zusätzlicher Speicher) Software Laufzeit (Overhead für Kodierung und Dekodierung)... Anwendungsfall Erkennung Lokalisierung Korrektur WS 2018/19 C. Jakobs 21 / 70 osg.informatik.tu-chemnitz.de Standardtechniken der Diagnose Replikationsschecks Timingchecks Reversalchecks Kodierungschecks Plausibilitätschecks Strukturchecks Diagnosechecks Algorithmische Checks WS 2018/19 C. Jakobs 22 / 70 osg.informatik.tu-chemnitz.de Replikationschecks Führe Test gegen Replik der Komponente aus Gründlich, aber teuer Varianten: Identische Kopien einer Einheit implizieren korrektes Design und unabhängige Aufälle Unterschiedliche Kopien mit der gleichen Funktionalität implizieren Designfehler Zeitliche Redundanz (wiederholte Ausführung) impliziert transiente Ausfälle INPUT C1 COMPARATOR OUTPUT C2 WS 2018/19 C. Jakobs 23 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 24 / 70 osg.informatik.tu-chemnitz.de

7 Timingchecks Überprüfung, ob Zeitbedingungen eingehalten werden Watchdog - Fortschritt setzt Timer zurück, abgelaufener Timer unterstellt defekte Komponente Erkennung von Crashs, Überlast, unendliche Schleifen; Frequenz hängt von Anwendung ab Passive gegenseitige Überwachung Broadcast timeout - Komponente sendet Nachricht während des Fortschritts, Empfänger kennen Deadline für die nächste Nachricht Aktive gegenseitige Überwachung Acknowledge timeout - Peers sollten auf Anfrage mit Antwort reagieren BUS1 BUS2 P1 P2.... P16 Kodierungschecks Kodierungstechniken realisieren informationelle Redundanz Code definiert eine Untermenge aller möglichen Informationsworte als valide Jede valide Information ist ein Codewort Fehlererkennungsmechanismus: Ist ein gegebenes Wort ein (valides) Codewort? Beispiele: Paritätsbit gerade/ungerade Berger-Code Anzahlen von 0 (oder seltener 1) Checksumme Addition von Elementen eines Blocks Hamming-Code Vergrößerung der Hamming-Distanz Cyclic Redundancy Check Ausnutzung des Lemma von Bézout (Restwerttheorem) Beispiel Tandem-Computer: I am alive im Sekundentakt, Are you okay? zweisekündlich WS 2018/19 C. Jakobs 25 / 70 osg.informatik.tu-chemnitz.de Hamming Distance (Ricard Hamming, 1950) Hammingdistanz zwischen zwei Codeworten: Anzahl der Unterschiede zwischen korrespondierenden Bitstellen Alternative Definition: Anzahl der notwendigen Substitutionen um A in B zu wandeln Alternative Definition: Anzahl an Fehlern, die A in B transformieren WS 2018/19 C. Jakobs 26 / 70 osg.informatik.tu-chemnitz.de Paritätscodes Füge Paritätsbit zum Informationswort hinzu Gerade Parität Wenn ungerade Anzahl von Einsen, füge eine hinzu um die Anzahl gerade zu machen Ungerade Parität Wenn gerade Anzahl an Einsen, füge eine hinzu um die Anzahl ungerade zu machen Minimaler Hemmingabstand: Kleinste Distanz zwischen zwei beliebigen Codeworten Um d Einbitfehler zu finden, muss ein Code mindestens Distanz d + 1 haben Wenn mindestens d + 1 Bits im übermittelten Codewort verändert werden, taucht ein neues (valides) Codewort auf Um d Einbitfehler zu korrigieren, muss die kleinste Distanz mindestens 2d + 1 sein WS 2018/19 C. Jakobs 27 / 70 osg.informatik.tu-chemnitz.de Varianten: Bit-per-word parity Bit-per-byte parity (Beispiel: Pentium data cache) Bit-per-chip parity... WS 2018/19 C. Jakobs 28 / 70 osg.informatik.tu-chemnitz.de

8 Zweidimensionale Parität m-aus-n-kode Erkennt alle 1-Bit-Fehler, alle 2- und 3-Bit-Fehler in k Worten, sowie viele weitere Lokalisiert alle 1-Bit-Fehler in k Worten Datenwort der Länge n (inklusive Codebits) stellt sicher, dass m Einsen im Wort sind Example: 2-out-of-5 code Oft in Telekommunikation und US-Postsystem genutzt 5 Bits ermöglichen 10 Kombinationen mit 2-aus-5, sodass alle Dezimalzahlen darstellbar sind Kann mit mehr als Einbitfehlern umgeben Decimal Digit 2-out-of WS 2018/19 C. Jakobs 29 / 70 osg.informatik.tu-chemnitz.de Codeeigenschaften WS 2018/19 C. Jakobs 30 / 70 osg.informatik.tu-chemnitz.de Prüfsummen Code Bits / Word Number of possible words Even Parity 4 8 Odd Parity 4 8 2/4 4 6 Coverage Any single bit error, no double-bit error, Any single bit error, no double-bit error, Any single bit error, 33% of double bit errors Multipliziere Komponenten eines Datenworts und addiere sie zu einer Prüfsumme Gut für riesige Datenblöcke, geringer Hardwareoverhead Kann erhebliche Zeit beanspruchen, Speicheroverhead 100% Abdeckung von Einzelfehlern Beispiel: ISBN 10 Prüfziffer Letzte Ziffer einer 10-Ziffern-ISBN ist Prüfziffer, berechnet durch: Multiplikation aller Datenziffern mit ihrer Position, beginnend von rechts Summe davon nehmen und Prüfziffer wählen, sodass das Ergebnis mod 11 = 0 ist Prüfziffer 10 ist durch X repräsentiert Komplexere Ansätze führen zu besserer Abdeckung (z.b. CRC) im Tauch gegen mehr CPU-Zeit WS 2018/19 C. Jakobs 31 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 32 / 70 osg.informatik.tu-chemnitz.de

9 Hammingcode Jedes Datenwort mit n Bits wird um k Kontrollbits erweitert Kontrollbits durch Paritätsansatz (gerade Parität), implementiert mit XOR Einfügung an zwei-hoch Positionen Paritätsbit p x ist für alle Positionszahlen mit X-least significant gesetzten Bits verantwortlich (z.b. p 1 ist für,red dot Positionen verantwortlich) Paritätsbits prüfen überlappende Teile der Daten Minimale Hammingdistanz von drei (Einzelbitkorrektur) Anwendung in DRAM-Speicher Konstruktion von HAMMING-Codes Konstruktion nach R.W. HAMMING, 1950 Jede j. Stelle, j = 2 i 1 mit i = 1,..., k ist ein Checkbit (Paritätsbit) c i. Die übrigen Bits sind Datenbits d l mit l = 1,..., m Beispiel für (7, 4): d 4, d 3, d 2, c 3, d 1, c 2, c 1 = h 7, h 6, h 5, h 4, h 3, h 2, h 1 Jedes Checkbit bildet eine Parität über eine Anzahl Bits Bildungsregel: c j = h 2 j 1 wird für alle Bits mit (i mod 2 j ) 2 j 1 genutzt (i bezieht sich auf h i ) Beispiel für (7, 4): Parität von h 1, h 3, h 5, h 7 c 1 = d 1 d 2 d 4 Parität von h 2, h 3, h 6, h 7 c 2 = d 1 d 3 d 4 Parität von h 4, h 5, h 6, h 7 c 3 = d 2 d 3 d 4 WS 2018/19 C. Jakobs 33 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 34 / 70 osg.informatik.tu-chemnitz.de Beispiel (7,4)-HAMMING-Codes Beispiel für einen (7, 4)-Hamming- Code Keine zwei Codewörter (dritten Spalte) haben eine Hamming- Distanz kleiner 3 Wert binär Hamming Generatormatrix HAMMING-Code ist ein linearer Code er kann mit einer Generatormatrix erzeugt werden, so dass h = c G (Multiplikation ist Modulo 2) Beispiel für (7,4)-Code: G = Beispiel: M = 3, c = (0011), h = d G = ( ) WS 2018/19 C. Jakobs 35 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 36 / 70 osg.informatik.tu-chemnitz.de

10 Paritätsmatrix Überprüfung von HAMMING-Codes Die Paritätsmatrix P gibt eine Matrizenform für die Paritätsbildung Beispiel für (7,4)-Code: P = Jede Spalte von P entspricht einer der Paritäten laut der Code-Bildungsregel Anmerkung: G P = 0 (wiederum: Multiplikation modulo 2) Ein empfangenes Codewort h wird überprüft durch Multiplikation modulo 2 mit der Paritäts-Matritze Den entstehenden Vektor S nennt man Syndrom h P = S Ist das Syndrom ein Null-Vektor, so ist die Übertragung fehlerlos (wenn die Fehlerannahme zutrifft) Bei einem Einzelfehler enthält das Syndrom die fehlerhaften Bitstelle WS 2018/19 C. Jakobs 37 / 70 osg.informatik.tu-chemnitz.de Hammingcode Hammingcodes sind bekannt dafür zwischen 10% und 40% Overhead zu erzeugen Syndrom legt fest, ob und welches Bit beschädigt ist Beispiel ECC Mehrheit der one-off Soft-Errors in DRAM sind durch Hintergrundstrahlung bedingt Dichte Pakete, niederer Spannung mit hohen Frequenzen Bekanntester Ansatz ist SECDEC Hammingcode Single error correction, double error detection (SECDEC) Hammingcode mit zusätzlicher Parität WS 2018/19 C. Jakobs 39 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 38 / 70 osg.informatik.tu-chemnitz.de Andere Checks Umkehrchecks Eins-zu-Eins Beziehung zwischen Eingabe und Ausgabe Berechnet Eingabe aus Ausgabe durch Umkehrfunktion, Verlgeich Wiederlesen der Daten nach Schreiben, mathematische Funktionen x2 = x Diagnostische Checks Prüfe bekannte Ausgabe für einige Eingaben Typischer Ansatz bei eingebauten Hardwaretests Lasttests - Ausführung auf Sättigungsniveau, auslösen abnormaler Umgebungsbedingungen Plausibilitätschecks Basieren auf Wissen um Systementwurf und Datentypen - range checks, consistency checks, type checks, e.g. 0 α < 360 WS 2018/19 C. Jakobs 40 / 70 osg.informatik.tu-chemnitz.de

11 Leaky Bucket Zähler Unterscheidung zwischen transienten und intermittierend wiederholenden Ausfällen Weise einem leaky bucket Zähler eine Abschwächungseinheit zu Erhöhung für jedes Event / jeden Ausfall Periodische Verringerung bis auf Initialwert - Ausfallereignisse werden periodisch geleaked Überschreiten des vordefinierten oberen Schwellwerts des Eimers identifiziert einen permanenten Ausfall Beispiele: Fehlerhafte Nachrichten füllen den Buffer Korrigierbare Speicherfehler Quarantäne / Konzentrierte Wiederherstellung Quarantäne Prävention von Fehlerzustandsausdehnung Verlässt sich auf Einheiten der Abschwächung in der Architektur Aktiviert Barriere um die Komponente Beispiel: Statusindikator einer voting unit Konzentrierte Wiederherstellung Minimiere Nichtverfügbarkeit durch Fokussierung sämtlicher Resourcen auf die Wiederherstellung Informiere Ausfallbeobachter über Wiederherstellungsaktivität und bleibe innerhalb der Einheit der Abschwächung Etabliere Quarantäne um die Wiederherstellungsaktivität Genutzt in Systemen mit hohem Überlebensbedarf (Telekommunikationsindustrie) WS 2018/19 C. Jakobs 41 / 70 osg.informatik.tu-chemnitz.de Checkpoint WS 2018/19 C. Jakobs 42 / 70 osg.informatik.tu-chemnitz.de Individuelle Zeitentscheidung / Datenrücksetzung Verhindere Verlust von Resultaten während der Wiederherstellung durch Sicherung globaler Zustandsinformationen Fokus auf Langzeitdaten, die schwer zu bekommen sind Datenkonsistenz und das Kontrollintervall sind relevant Das Snapshot -Problem - Wie erreicht man (globale) Konsistenz? Globaler Zustand = lokaler Zustand + Nachrichten Snapshot-Algorithmen: Erfasse den vergangenen, konsistenten, globalen Zustand Chandy & Lamport (1985) landmark paper Verlässt sich auf flush-prinzip in FIFO-Kommunikationskanälen Kontrollnachrichten,schieben ausstehende Nachrichten,raus Individuelle Zeitentscheidung Unabhängige Checkpoints: Gegenläufiger Ansatz zu globalen Checkpoints Jeder Prozess macht dynamisch lokale Snapshots, wenn nötig Overhead für Etablierung der Konsistenz bei Wiederherstellung vs. globaler Checkpoint-Overhead während der Ausführung Datenrücksetzung Erholung von nicht-korrigierbaren Datenfehlern durch Verwendung / Berechnung von Initialwerten und approximierten Werten WS 2018/19 C. Jakobs 43 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 44 / 70 osg.informatik.tu-chemnitz.de

12 Rollback / Roll-Forward Wie zur Verarbeitung zurückkehren nach der Wiederherstellung / Fehlerbehandlung? Rollback Zeitpunkt des Checkpoints / der letzten Anfrage entscheiden den Rollback-Punkt Beachtung der Nebeneffekte wiederholter Arbeit Fehlerzustände können wiederholt auftreten, die Wiederholungen sollten begrenzt sein Roll-Forward Resynchronisation von System-Tasks, die schneller sein könnten Besonders nützlich in ereignisorientierten zustandslosen Diensten Erfordert saubere Schadensabschwächung und -eindämmung Restart / Limit Retries Restart Ausführung wiederaufnehmen, wenn Wiederherstellung / Eskalation nicht möglich ist Kalt / warm Neustart - einige initiale Prüfungen übergehen, Hardware vs. Software Neustart Unterstützt durch checkpoints Limit Retries Szenario: Fehlerursachen sind deterministisch (latente Fehlerursachen -> gleiche Stimuli -> Aktivierung) Rollback kann das Problem nicht lösen, wenn der Aktivierungsgrund bestehen bleibt Beispiel:,Killer Nachrichten als unverarbeitet markiert Problem: Fehlerpropagierung in sich selbst, muss durch Begrenzung der Wiederholungen gestoppt werden Lösung: Safeguarding und roll-forward WS 2018/19 C. Jakobs 45 / 70 osg.informatik.tu-chemnitz.de Failover Wiederherstellen einer fehlerfreien Ausführung in einem aktiven Element war nicht erfolgreich Wechsel zu redundanter Ressource, basierend auf Replikation Wichtige Faktoren sind Failover-Zeit und gemeinsamer Datenzugriff Etabliere jemanden, der verantwortlich ist, zur Lenkung Benötigt korrekte Quarantäne für fehlerhaften Systemteil WS 2018/19 C. Jakobs 46 / 70 osg.informatik.tu-chemnitz.de Redundanzkonfiguration für Failover N-zu-1 und N+1 sind Spezialfälle für aktiv/passiv mit mehreren Diensten Aktiv / aktiv hat keine Downtime, aber führt zu verringerter Systemleistung N-zu-1 erfordert einen Failback-Schritt, der mit N+1 nicht nötig ist Hot Standby: Kein Hochfahren bei Failover, kein Dienstausfall für den Nutzer Natürliche Eigenschaft von aktiv/aktiv Systemen Möglich selbst mit aktiv/passiv durch kontinuierliche Replikation, zustandslose Dienste oder statische Daten Warm standby / log shipping: Passive Replikation auf Reserve Cold standby: Reserve ist deaktiviert bis Failover eintritt WS 2018/19 C. Jakobs 47 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 48 / 70 osg.informatik.tu-chemnitz.de

13 Beispiel: Duplex System Beispiel: Duplex System + Standby-Modul Output Switch Output 1 primary unit Module Switch 1 Output 2 secondary Processor 1 P1 Processor P2 2 unit Output Input 2 Switch 3 Control logic Input WS 2018/19 C. Jakobs 49 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 50 / 70 osg.informatik.tu-chemnitz.de Beispiel: Mehrere Standby-Module Beispiel: Pair and Spare Module Module 1 Switch 1 Output Comparator 2 Output 2 Input Input 3 Switch n Comparator 4 WS 2018/19 C. Jakobs 51 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 52 / 70 osg.informatik.tu-chemnitz.de

14 Beispiel: Triple Modular Redundancy (TMR) Input Module A Module B Module C Voter Voter output Voting Kombination von Replikationschecks und Failover Exact Voting: Entscheidung führt zu korrektem Resultat oder Benachrichtigung über unsichereren Zustand Inexact Voting: Vergleich kann zu mehreren korrekten Resultaten führen Non-adaptive Voting: Verwendet zulässige Resultatabweichung, durch Abweichungsminimum und -maximum Adaptive Voting: Resultate basierend auf vergangener Erfahrung ordnen Vorhersage was der korrekte Wert sein sollte und naheliegendstes Resultat verwenden Beispiel: Gewichtete Summe verschiedener Resultate R = W 1 R 1 + W 2 R 2 + W 3 R 3 mit W 1 + W 2 + W 3 = 1 Verschiedene Optimierungen für verschiedene Antwortgrößen (z.b. nur Checksum vergleichen) Kommunikationslatenz sollte die Abstimmung nicht beeinflussen WS 2018/19 C. Jakobs 53 / 70 osg.informatik.tu-chemnitz.de Voting (Forts.) WS 2018/19 C. Jakobs 54 / 70 osg.informatik.tu-chemnitz.de Beispiel: Space Shuttle Module Auswahl im Falle mehrere Ereignisse: Majority Vote (ungerade Knotenanzahl) Generalized Median Voting - wähle Median als Resultat (durch iteratives Entfernen von Extrema) Formalized Plurality Voting - teile Resultate in Partitionen, wähle zufälliges Mitglied der größten Partition Weighted Average Technik Komponenten, die (zum Teil) nicht dem Ergebnis zustimmen, werden als fehlerhaft markiert Input Space Shuttle: TMR mit zwei Standby-Modulen Aktive Module: 1,2 und 3 Modul 4: warm standby, Modul 5: cold standby Voter/Switch Output WS 2018/19 C. Jakobs 55 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 56 / 70 osg.informatik.tu-chemnitz.de

15 Beispiel: Tandem NonStop Systems I I I I Dual Master Problem Hochredundante Hardwarekonfiguration Mehrere gänzlich unabhängige Prozessoren, redundante Pfade Fail-fast-Module mit Selbstprüfungsfähigkeit (paritätsbasiert) Unterstützung von Hardwareaustausch während des Betriebs I Aktuell aktives Element kann Kontrolle im Failover-Fall nicht abgeben I Typisches Problem in hochverfügbaren Clustern I Split brain - Cluster interconnect ist beschädigt, Unterclusterpartition entsteht I Resource fencing - Nur eine Untergruppe des Clusters soll arbeiten I Amnesia - Clusterneustart mit veralteter Konfigurationsinformation Tandem NonStop processor redundancy I Quorum - The number (as a majority) of officers or members of a body that when duly assembled is legally competent to transact business [Merriam-Webster] I Nur eine Seite soll arbeiten I Quorum ermöglicht es andere Subcluster einzudämmen, ohne zu kommunizieren I Verlust der Mehrheit sollte zum Knotensuizid führen (wenn möglich) Hardware Fault Tolerance WS 2018/19 C. Jakobs 57 / osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 58 / 70 osg.informatik.tu-chemnitz.de Beispiel: Windows Multi-Site Clustered File Server Quorumansätze I Central arbitration - Manuelles Quorum, zentralisierter Server / Admin bestimmt Master I Simple majority - Mehr als die Hälfte der Knoten muss eine Gruppe bilden I Weighted majority - Stimme von jedem Knoten, Gruppe mit größter Anzahl gewinnt á Gruppenentscheidung basiert auf statischen Daten (Anzahl der Stimmen, Mehrheit nötig) I Tie-breaker - Leichtgewichtige Auflösungsstrategie vor der Entscheidung Beispiel: Ping-Antwort von gemeinsamem Upstream-Server I Wenn Konnektivität sich ändert sollte sich auch die Quorumentscheidung ändern I Split Brain hat verschiedene Gesichter I Beispiel in DRBD Dateisystem: Mehrere Replikationsmaster durch menschliche Fehler oder temporären Verbindungsverlust führt zu Problemen bei der Datenzusammenführung WS 2018/19 C. Jakobs 59 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 60 / 70 osg.informatik.tu-chemnitz.de

16 Weighted Majority with Quorum Device Mit gerader Anzahl, zusätzliche externe Stimme durch Quorumgerät Anzahl der Stimmen durch das Quorumgerät sollte kleiner sein als die Anzahl der Stimmen Ermöglicht Cluster die Ausführung mit defektem Quorumgerät Verbindungsschema eines Quorumgeräts entscheidet über valide Partitionierungsfälle Quorumgerät ist typischerweise ein geteiltes Laufwert Nur verwendet, wenn Kommunikation mit andern Knoten ausfällt Implementiert durch SCSI RESERVE, Fibre Channel, oder iscsi Marked Data Datenfehler gefunden, aber keine Wiederherstellungsoption verfügbar Daten sollten unter Quarantäne gestellt werden - nicht verwenden, keine Aktionen aus ihnen ableiten Stattdessen Defaultwert verwenden Operationen mit diesen Daten überspringen Resultate von Operationen als fehlerhaft markieren Beispiel: IEEE Standarddarstellung für binäre Fließkommazahlen Definiert,Not a Number (NaN) als Wert Resultat einer Division durch Null, Wurzel aus 1,... Regeln für Berechnungen, wenn ein Operand NaN ist WS 2018/19 C. Jakobs 61 / 70 osg.informatik.tu-chemnitz.de Load Shedding Wirf eine Minderheit an zu bedienenden Anfragen weg, um die Mehrheit zu bearbeiten So früh wie möglich, um Resourcenkonsum zu minimieren Beispiel: ICMP Typ 3: Destination Unreachable - kein Timeout des Clienten Typ 4: Source Quench - typischerweise nur zwischen Routern, also von Mailservern verwendet Typ 11: Time Exceeded - wegen Verstopfung (oder zirkulären Paketen) Beisplie: HTPP 5XX error codes 503: Service Unavailable Spezialfall: Arbeit auf Peripherie loswerden WS 2018/19 C. Jakobs 62 / 70 osg.informatik.tu-chemnitz.de Beenden laufender Arbeit / neue Arbeit vor dem Stillstand Beenden laufender Arbeit Was verarbeiten, was zurückweisen? Beschriftung der Anfragen: neu vs. fortfahren Klassifiziere Prozesse als,fortfahren basierend auf ihrer Ressourcennutzung Aggressiv versuchen Ressouce Hogs loszuwerden Kann zur Oszillation führen, wenn das System nach neuen Anfragen hungert Nach Cleanup Lösung: Kleine Menge neuer Anfragen zulassen Neue Arbeit vor dem Stillstand Wenn Anfragender aufgibt, verschwendet sein Retry noch mehr Ressourcen LIFO-Behandlung oder bevorzugte Abarbeitung für Premiumanfragen WS 2018/19 C. Jakobs 63 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 64 / 70 osg.informatik.tu-chemnitz.de

17 Slow It Down Überlastfälle bearbeiten und Sättigung verhindern durch Multi-Step-Eskalation Beschränkung der Anfragebarbeitung mit ansteigender Schwere pro Level Ziel: Dinge verlangsamen bis das System mit der Last aufgeholt hat Feedbacksystem erfordert dedizierte Resourcen für den Controller Hystereseeffekt hinzufügen, um Oszillation in der Leveländerung zu verhindern Systemausgabeverhalten hängt von vergangenem Verhalten ab, nicht nur von der Eingabe Implementierung verschiedener Auslösertypen, um ein Eskalationslevel zu betreten oder zu verlassen Wenn das System dazwischen bleibt, ändert sich der Zustand nicht Beispiel: Thermostat WS 2018/19 C. Jakobs 65 / 70 osg.informatik.tu-chemnitz.de Expansive / Protective Automatic Controls Expansive Automatic Controls Entwurf einiger Systemteile, die nur im Falle der Überlast Verwendung finden Beispiel: Keine 100%ige CPU-Auslastung im Normalbetrieb eines HPC-Clusters Beispiel: Dynamic Offloaded Work - Cloud Computing Erhöht Anfrageoverhead, nur temporäre Lösung Protective Automatic Controls Überlastoptionen: interne Arbeit abwerfen, hereinkommende Anfragen abwerfen, nichts tun Restriktion an Menge der Arbeit, die das System während des funktionierens annimmt Systemdurchsatz kann abfallen, sollte aber nicht auf Null sinken Abschiebbare Arbeit / Gerechte Resourcenallocation Abschiebbare Arbeit Hohe Last: Hereinkommende Arbeit loswerden vs. Routinewartung loswerden Routinearbeit verlegbar machen (nur im Fehlerfall relevant) Gerechte Resourcenallocation Szenario: Behandlung vieler Anfragen für eine Menge an Ressourcen, von denen einige knapp sind Anfragebehandlung würde einige Ressourcen unnötigerweise stillstehen lassen Lösung: Ähnliche Anfragen zusammenfassen und gemeinsam Ressourcen allozieren Zusätzliche Aufzeichnungen für Anfragen und deren Ressourcen nötig Kann zu Prioritätsinversion führen WS 2018/19 C. Jakobs 66 / 70 osg.informatik.tu-chemnitz.de Fehlervorhersage Schätzung der derzeitigen, zukünftigen und wahrscheinlichen Konsequenzen von Fehleraktivierung und Fehlerzuständen Generiere eine Vorhersage des Systemverhaltens Qualitative und quantitative Methoden Strukturelle und zustandsbasierte Modellierung und Analyse Siehe folgende Kapitel... WS 2018/19 C. Jakobs 67 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 68 / 70 osg.informatik.tu-chemnitz.de

18 Zusammenfassung Literatur Verschiedene Verlässlichkeitsmaße, um mit Ausfällen, Fehlerursachen und Fehlerzuständen umzugehen Kombinierte Ansätze sind häufig Testen für Fehlerursachenentfernung + Fehlertoleranz für restliche Bugs Fehlerprävention kann koordiniertes Testen und Vorhersehen unvermeidlicher Probleme beinhalten Fehlertoleranz verbessert Nutzervertrauen, aber erhöht Komplexität Kosten Senkung/Anstieg hängt vom konkreten Fall ab [Lap92] [Han13] [SS92] Jean-Claude Laprie. Dependability: Basic concepts and terminology. Springer, 1992 Robert Hanmer. Patterns for Fault Tolerant Software. John Wiley & Sons, Juli 2013 Daniel P. Siewiorek und Robert S. Swarz. Reliable Computer Systems (2Nd Ed.): Design and Evaluation. Newton, MA, USA: Digital Press, 1992 Wichtig: Es ist unnötig einen Fehler zu tolerieren, der nicht auftreten kann. WS 2018/19 C. Jakobs 69 / 70 osg.informatik.tu-chemnitz.de WS 2018/19 C. Jakobs 70 / 70 osg.informatik.tu-chemnitz.de