100GE st @ DFN Jülich Karlsruhe Aufbau, Prozeduren, Erfahrungen - Ein Überblick DFN Betriebstagung, Forum IP über WiN 27.10.2010, Robert Stoy
sts in 3 Phasen (1) Phase 1: Vorbereitung, Huawei Router @40G, back-to-back Während Wartens auf Huawei 100G Transponder und Cisco Router Interfaces: Huawei Router am KIT back-to-back verbunden mit 40G (SDH) Aufbau von 10GE angeschlossenen Endsysteme und Verifikation der Meßprozeduren Iperf parameter tuning, Traffic injector Parameter sts Phase 2: Vorbreitung, Huawei Router @ 40G, verteilt nach FZ Jülich und KIT Ziel: Tuning der Endsysteme über WAN, Iperf parameter tests Cisco Router waren aufgebaut, 100G interfaces noch unterwegs Huawei Router verteilt nach KIT and FZJ, verbunden durch 40G Wellenlänge 10GE Endsysteme an beiden Lokationen angeschlossen Seite 2
sts in 3 Phasen (2) Phase 3: sts mit 100G Inbetriebnahme 100GE Interface zwischen Cisco Routern and Huawei Transpondern -> Es war eine Herausforderung (!) Inbetriebnahme des WAN IP Links über 100GE zwischen Cisco Routern, Huawei Übertragungssystem System und GasLine Fasern Messungen zwischen 10GE angeschlossenen Endsystemen über 100G Wellenlänge (und am Ende zusätzlich gleichzeitig über parallele 40G Wellenlänge) Seite 3
stbed Aufbau, Phase 3 : 100G J 01 10.2.33.11 J 09 10.2.41.11 ms-fzj1 Endsysteme für Messungen: Linux Server, 10GE Interfaces Huawei 100GE DWDM 17 km FZ Jülich Düsseldorf 93 km Köln Bonn Gemischte Menge von Rechnern genutzt für Iperf TCP Transfers @ KIT: 9 Systeme: Dual QuadCore (Intel Xeon ) Broadcom Corporation NetXtreme II BCM57711 10-Gigabit PCIe @ FZJ: unterschiedliche Systeme 3 + 1 + 5 Drei 2 * Dual Core AMD Opteron (P 265) Ein 2 * Dual Core (Intel Xeon ) Fünf Dual QuadCore (Intel Core i7 ) Porz 88 km Koblenz Alle: Myricom Myri-10G Dual-Protocol NIC (10G-PCIE-8A) DFN Measurement Systems, Hades : OWD, OWDV Messung Iperf : Paket Verlust and Paket Vertauschung Zusätzlich am KIT: UDP Traffic Load Generator Dernbach 60 km Naurod Wiesbaden Mainz Mannheim Huawei Übertragungssystem (Zwei Wellenlängen 100G + 40G) zwischen Lokationen KIT Karlsruhe, FZ Jülich CFPs 100GBase-LR4 Cisco Router: CRS-3, Fabric Cards 140G/Slot MSC-40G + 10GE PLIMs + XENPAKs MSC-140G + 100G PLIM + CFPs 100GBase-LR4 96 km KIT Karlsruhe 64 km 29 km Frankfurt Darmstadt Gernsheim Huawei 100GE DWDM ms-kit1 hadesfzj1 hadeskit1 ti-kit1 K 01 10.2.21.11 K 09 10.2.29.11 Seite 4
Ziele Herstellung Betriebszustand des gesamten Systems Füllen der 100G Strecke mit IP Verkehr Stress st, Last + Überlast Prüfung der Stabilität Sammeln von Erfahrungen, aus Unvorhergesehenem lernen Seite 5
Phase 3: PoP Aufbau Lokation KIT, 100G Eth0 ms-kit1 g-000-400-007 Eth-Eric 2 k-000-101-452 (v) DFN-PF-174:9 (h) 1 2 3 4 5 6 7 8 9 (vorne) DFN-PF-175 (hinten) 10 1 2 3 4 5 6 7 8 9 10 Eth0 hades-kit2 Eth-Eric g-000-400-006 Eth2 ti-kit1 g-000-400-009 Eth-Ipmi 1 Eth1 switch Fe0 2 1 4 tsc-kit1 3 2 1 4 3 6 5 Fe0 2 1 4 tsc-kit2 3 2 1 4 3 6 5 Gi9/31 Gi9/29 3/1 0 1 2 3 0 trc-kit1 1 2 3 3/ 0 He0 Gi9/30 4 3/2 Gi9/39 Gi9/40 Gi9/41 Gi9/42 xr-fzk1 2 Gi9/25 Gi9/26 Gi9/28 3/3 RP0 Eth RP1 Eth Gi9/27 KIT 10GE connected endsystems X-WiN ms-kit1 DFN Iperf Measurement Station (UDP,TCP) hades-kit1 DFN OWD, OWDV Measurements LWL Single-Mode, measurement traffic Cat5e oder Cat6, measurement traffic LWL Multi-Mode, users 10GE endsystems Cat5e oder Cat6, admin access(monitoring+configuration) ti-kit1 trc-kit1 tsc-kit1, tsc-kit2 xr-fzk1 UDP Traffic Injector Cisco Router CRS-3 cisco Switch 4900 media converter SM-MM X-WiN Router, provides inband management access Seite 6
Topologie im Endausbau K1 2 1 0 0 1 2 J1 K2 4 3 1 1 3 4 J2 K3 2 tsc-kit1 1 2 2 5 tsc-fzj1 6 J3 K4 4 3 3 3 1 2 J4 K5 6 5 0 0 3 4 J5 K6 K7 K8 K9 2 4 2 4 tsc-kit2 1 3 1 3 1 2 3 3/0 trc-kit1 CRS-3 Hu0 Hu0 trc-fzj1 CRS-3 1 2 3 3/0 1 3 5 1 tsc-fzj2 2 4 6 2 J6 J7 J8 J9 6 5 3/1 3 4 ms-kit1 3/1 3/3 ms-fzj1 hadeskit2 3/2 3/3 3/2 hadesfzj2 Karlsruhe ti-kit1 distance 447km Jülich end systems, administration: KIT, FZJ, 10GE Interface: 10GBase SR end systems, administration: DFN, 10GE Interface: 10GBase LR Single-Mode Fiber Multi-Mode Fiber Seite 7
Methode Monitoring SNMP Monitoring aller Router Interfaces mit hoher zeitlicher Granularität (1min) Daten wurden in RRD Datei mit erweiterter Round Robin Zeit gespeichert (6 Monate) Router CLI Kommando Ausgaben wurden geloggt (interval 10min) Speichern der Console Logs Führung eines Online Logbuchs mit Ereignissen und manuellen Aktivitäten Aktive Messungen Paket Verluste and Paket Vertauschungen Iperf UDP Strom mit 5 Gbit/s, mit Ergebnissen und Richtungswechseln im 5min Intervall Verfügbarkeit: Permanente Pings zwischen DFN Endsystemen (1s interval) One Way Delay, One Way Delay Variation: Hades Messrechner Datenübertragung und Link Belastung Hintergrundlast erzeugt durch konfigurierte IP Schleife zwischen den Routern, und UDP Last Generator Software im Linux end system (Traffic Injector) Iperf TCP Durchsatzmessungen zwischen mehreren Endsystem.Paaren. Page 8
Topologie st 1.2.2-1 UDP/IP Flows durch IP Routing Schleife Seite 9
Topologie st 1.2.2-1 UDP/IP Flows durch IP Routing Schleife Seite 10
Topologie st 1.2.2-1 UDP/IP Flows durch IP Routing Schleife Seite 11
Topologie zur st Suite 3 K1 2 1 0 0 1 2 J1 K2 4 3 1 1 3 4 J2 K3 2 tsc-kit1 1 2 2 5 tsc-fzj1 6 J3 K4 4 3 3 3 1 2 J4 K5 6 5 0 0 3 4 J5 K6 K7 K8 K9 2 4 2 4 tsc-kit2 1 3 1 3 1 2 3 3/0 trc-kit1 CRS-3 Hu0 Hu0 trc-fzj1 CRS-3 1 2 3 3/0 1 3 5 1 tsc-fzj2 2 4 6 2 J6 J7 J8 J9 6 5 3/1 3 4 ms-kit1 3/1 3/3 ms-fzj1 hadeskit2 3/2 3/3 3/2 hadesfzj2 Karlsruhe ti-kit1 distance 447km Jülich end systems, administration: KIT, FZJ, 10GE Interface: 10GBase SR end systems, administration: DFN, 10GE Interface: 10GBase LR Single-Mode Fiber Multi-Mode Fiber Seite 12
TCP Throughput and UDP Streams, st 3.2.1 K1 2 2 0 0 J1 K2 4 4 1 1 J2 K3 2 tsc-kit1 2 2 2 tsc-fzj1 J3 K4 4 4 3 3 J4 K5 6 6 0 0 J5 K6 K7 K8 K9 2 4 2 4 6 tsc-kit2 2 4 2 4 6 1 2 3 3/0 trc-kit1 CRS-3 Hu0 x 127 Hu0 trc-fzj1 CRS-3 1 2 3 3/0 3/1 tsc-fzj2 J6 J7 J8 J9 ms-kit1 3/1 3/3 ms-fzj1 3/2 3/3 3/2 hadeskit2 hadesfzj2 Karlsruhe ti-kit1 distance 447km Jülich end systems, administration: KIT, FZJ, 10GE Interface: 10GBase SR end systems, administration: DFN, 10GE Interface: 10GBase LR Seite 13
9 TCP Streams, + UDP Background Load on Rouning Loop, + UDP Loss Measurement (st 3.2.1) Bitrate gemessen am 100GE Interface im Router, zeitliche Granularität 1min Seite 14
9 TCP Streams, + UDP Background Load on Rouning Loop, + UDP Loss Measurement (st 3.2.1) Addierte Bitraten jeweils gemessen an 10GE Interfaces, zeitliche Granularität 1min Seite 15
Topologie zur st Suite 4 K1 2 1 0 0 1 2 J1 K2 4 3 1 1 3 4 J2 K3 2 tsc-kit1 1 2 2 5 tsc-fzj1 6 J3 K4 4 3 3 3 1 2 J4 K5 6 5 0 0 3 4 J5 K6 K7 K8 K9 2 4 2 4 tsc-kit2 1 3 1 3 1 2 3 3/0 trc-kit1 CRS-3 Hu0 Hu0 trc-fzj1 CRS-3 1 2 3 3/0 1 3 5 1 tsc-fzj2 2 4 6 2 J6 J7 J8 J9 6 5 3 4 dfn-kit1 3/1 3/3 dfn-fzj1 dfn-kit2 3/2 3/3 3/2 3/1 dfn-fzj2 Karlsruhe distance 447 km Jülich end systems, administration: KIT, FZJ, 10GE Interface: 10GBase SR end systems, administration: DFN, 10GE Interface: 10GBase LR Single-Mode Fiber Multi-Mode Fiber Seite 16
TCP Streams, st 4.2.1-0. 4.2.2-0 K1 2 2 0 0 J1 K2 4 4 1 1 J2 K3 2 tsc-kit1 2 2 2 tsc-fzj1 J3 K4 4 4 3 3 J4 K5 6 6 0 0 J5 K6 K7 K8 K9 2 4 2 4 tsc-kit2 2 4 2 4 1 2 3 3/0 trc-kit1 CRS-3 Hu0 Hu0 trc-fzj1 CRS-3 1 2 3 3/0 tsc-fzj2 J6 J7 J8 J9 6 6 dfn-kit1 3/1 3/3 dfn-fzj1 dfn-kit2 3/2 3/3 3/2 3/1 dfn-fzj2 Karlsruhe distance 447 km Jülich end systems, administration: KIT, FZJ, 10GE Interface: 10GBase SR end systems, administration: DFN, 10GE Interface: 10GBase LR Seite 17
Iperf Messergebnis aufgezeichnet in einem Rechenknoten st 4.2.2-0 Iperf Messergebnis: TCP Durchsatz zwischen einem Paar der 10GE angeschlossenen Rechenknoten Validierung der Datenrate mit zeitlicher Granularität: 1s Seite 18
TCP Durchsatz FZJ -> KIT, 11 Ströme (st 4.2.2-0) Addierte Bitraten jeweils gemessen an 10GE Interfaces, zeitliche Granularität 1min Seite 19
TCP Durchsatz KIT -> FZJ, 11 Ströme (st 4.2.1-0) Effekt am Ende verursacht durch HW-Problem im Switch tsc-fzj2 bei Zuschaltung des vierten Stroms Das optische Übertragungssystem und die Router arbeiteten einwandfrei. Seite 20
Ergebnisse Das gesamte System inklusive Routern and DWDM Übertragungssystem war sehr stabil und hochverfügbar während gesamter 3 Wochen stperiode. 100 GE Interface Interoperabilität, Probleme sind behoben Inbetriebnahme der 100GE Interfaces zwischen Routern and DWDM Transponder war eine Herausforderung. Vorserienmodell - CFPs von zwei verschiedenen Herstellern waren im Einsatz. Am optischen optischen 100GBase-LR4 Interface waren CFPs von jeweils einem Hersteller erforderlich. Hersteller haben Problem mittlerweile behoben. Kein Interop-Problem an elektrischer Schnittstelle: CFPs beider Hersteller funktionierten im Cisco Router und im Huawei Transponder Ein CFP mit älterem Herstellungsdatum erzeugte im Router sehr geringe Bitfehler. Dies führte zu Packetverluste in einer Richtung. Paketverlustverhältnis ca. ~10-7 Keine Auswirkung auf TCP Durchsatz zwischen Endsystemen. Neue CFPs haben diese Probleme nicht mehr. TCP Durchsatz zwischen 10GE angeschlossenen Rechenknoten über Link mit 5ms RTT Zwischen neuer, aktueller Standard PC Server Hardware konnte TCP Durchsatz bis zum theoretischen Maximum ~ 9.5 Gbit/s problemlos erreicht werden. Ältere Hardware erforderte ausführliche Iperf parameter tests und TCP/IP kernel Tuning, bis zu 7.5 Gbit/s waren dann erreichbar. Seite 21
100GBase-LR4 Transceiver (CFP) Seite 22
Danke für Ihre Aufmerksamkeit Seite 23