Dynamic load balancing in parallel particle methods



Ähnliche Dokumente
Efficient Design Space Exploration for Embedded Systems

Group and Session Management for Collaborative Applications

Ressourcenmanagement in Netzwerken SS06 Vorl. 12,

CABLE TESTER. Manual DN-14003

Security Patterns. Benny Clauss. Sicherheit in der Softwareentwicklung WS 07/08

On the List Update Problem

Algorithms & Datastructures Midterm Test 1


Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Das neue Volume-Flag S (Scannen erforderlich)

Daten haben wir reichlich! The unbelievable Machine Company 1

Large-Scale Mining and Retrieval of Visual Data in a Multimodal Context

Kurzanleitung um Transponder mit einem scemtec TT Reader und der Software UniDemo zu lesen

Diss. ETH No SCALABLE SYSTEMS FOR DATA ANALYTICS AND INTEGRATION. A dissertation submitted to ETH ZURICH. for the degree of. Doctor of Sciences

MARKET DATA CIRCULAR DATA AMENDMENT

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

Contents. Interaction Flow / Process Flow. Structure Maps. Reference Zone. Wireframes / Mock-Up

Integer Convex Minimization in Low Dimensions

QS solutions GmbH. präsentiert das Zusammenspiel von. Ihr Partner im Relationship Management

Readme-USB DIGSI V 4.82

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

MobiDM-App Handbuch für Windows Mobile

Critical Chain and Scrum

Die Renaissance von Unified Communication in der Cloud. Daniel Jonathan Valik UC, Cloud and Collaboration

Geometrie und Bedeutung: Kap 5

Listening Comprehension: Talking about language learning

Wenn Russland kein Gas mehr liefert

Datenanpassung: Erdgas und Emissionsrechte

Algorithms for graph visualization

PONS DIE DREI??? FRAGEZEICHEN, ARCTIC ADVENTURE: ENGLISCH LERNEN MIT JUSTUS, PETER UND BOB

Informationsveranstaltung BSc zweites und drittes Studienjahr. Denise Spicher Judith Zimmermann

Preisliste für The Unscrambler X

miditech 4merge 4-fach MIDI Merger mit :

Simulation of Power System Dynamics using Dynamic Phasor Models

Exercise (Part II) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

WAS IST DER KOMPARATIV: = The comparative

Konzept zur Push Notification/GCM für das LP System (vormals BDS System)

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Internet Explorer Version 6

ANALYSIS AND SIMULATION OF DISTRIBUTION GRIDS WITH PHOTOVOLTAICS

HiOPC Hirschmann Netzmanagement. Anforderungsformular für eine Lizenz. Order form for a license

XING und LinkedIn-Integration in das erecruiter-bewerberportal

USBASIC SAFETY IN NUMBERS

Gern beraten wir auch Sie. Sprechen Sie uns an!

Customer-specific software for autonomous driving and driver assistance (ADAS)

Mock Exam Behavioral Finance

Registrierungsprozess des Boardgeräts (OBU) Inhalt Registrierung auf der Online-Benutzeroberfläche HU-GO

ecall sms & fax-portal

EEX Kundeninformation

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

KURZANLEITUNG. Firmware-Upgrade: Wie geht das eigentlich?

Was ist LDAP. Aufbau einer LDAP-Injection. Sicherheitsmaßnahmen. Agenda. LDAP-Injection. ITSB2006 WS 09/10 Netzwerkkonfiguration und Security

Ninja Trader mit Zen-Fire ist die ultimative Tradingplattform.

Task: Nmap Skripte ausführen

TTS - TinyTimeSystem. Unterrichtsprojekt BIBI

Dynamisches SQL. Folien zum Datenbankpraktikum Wintersemester 2009/10 LMU München

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

6KRSSLQJDW&DPGHQ/RFN 1LYHDX$

Titelbild1 ANSYS. Customer Portal LogIn

ITEM POWL. powered by

Für AX 4.0, den letzten Hotfix rollup einspielen. Der Hotfix wurde das erste Mal im Hotfix rollup eingeschlossen:

Objects First With Java A Practical Introduction Using BlueJ. Mehr über Vererbung. Exploring polymorphism 1.0

Untersuchung der Auswahl der Hauptfreiheitsgrade zum Import eines Modells von ANSYS nach SIMPACK

Mitglied der Leibniz-Gemeinschaft

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Englisch. Schreiben. 18. September 2015 HTL. Standardisierte kompetenzorientierte schriftliche Reife- und Diplomprüfung. Name: Klasse/Jahrgang:

Power-Efficient Server Utilization in Compute Clouds

Das Erdbeben-Risiko. Markus Weidmann, Büro für Erdwissenschaftliche Öffentlichkeitsarbeit, Chur

BATCH-WISE CHEMICAL PLANTS

BitDefender Client Security Kurzanleitung

Schreiben auf Englisch

Evaluation of Investments in Multi-Carrier Energy Systems under Uncertainty

prorm Budget Planning promx GmbH Nordring Nuremberg

Einkommensaufbau mit FFI:

Magic Figures. We note that in the example magic square the numbers 1 9 are used. All three rows (columns) have equal sum, called the magic number.

Research Collection. Digital estimation of continuous-time signals using factor graphs. Doctoral Thesis. ETH Library. Author(s): Bolliger, Lukas

Facts & Figures Aktueller Stand IPv4 und IPv6 im Internet. Stefan Portmann Netcloud AG

Finite Difference Method (FDM)

Registration of residence at Citizens Office (Bürgerbüro)

Wie man heute die Liebe fürs Leben findet

Bayesian updating in natural hazard risk assessment

EU nimmt neues Programm Mehr Sicherheit im Internet in Höhe von 55 Millionen für mehr Sicherheit für Kinder im Internet an

Formatting the TrekStor i.beat run

Folgende Voraussetzungen für die Konfiguration müssen erfüllt sein: - Ein Bootimage ab Version Optional einen DHCP Server.

job and career for women 2015

Tel.: Fax: Ein Text oder Programm in einem Editor schreiben und zu ClassPad übertragen.

Klassenentwurf. Wie schreiben wir Klassen, die leicht zu verstehen, wartbar und wiederverwendbar sind? Objektorientierte Programmierung mit Java

Communications & Networking Accessories

Künstliches binäres Neuron

Preisvergleich ProfitBricks - Amazon Web Services M3 Instanz

Über uns. HostByYou Unternehmergesellschaft (haftungsbeschränkt), Ostrastasse 1, Meerbusch, Tel , Fax.

Daniel Burkhardt (Autor) Möglichkeiten zur Leistungssteigerung und Garnqualitätsverbesserung beim Rotorspinnen

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

Zurich Open Repository and Archive. Anatomie von Kommunikationsrollen. Methoden zur Identifizierung von Akteursrollen in gerichteten Netzwerken

Content Strategy for Mobile

DEUTSCH 3 Päckchen 7

Wir unterscheiden folgende drei Schritte im Design paralleler Algorithmen:

Fast alle pdfs sind betroffen, Lösungsmöglichkeiten siehe Folgeseiten

Transkript:

Diss. ETH No. 22042 Dynamic load balancing in parallel particle methods A dissertation submitted to ETH Zurich for the degree of Doctor of Sciences presented by Ömer Demirel M.Sc. Computational Science and Engineering Technische Universität München, Germany born on March 20, 1983 citizen of Turkey accepted on the recommendation of Prof. Dr. Peter Widmayer Dr. Ivo F. Sbalzarini Prof. Dr. Erik Meijering 2014

Abstract Contemporary scientific simulations require vast computing power to solve complex problems in natural and life sciences. High-performance computing (HPC) enables fast execution of scientific simulation codes by parallelizing the computational workload across processing elements (PEs). This is usually done by decomposing the computational domain into smaller subdomains and assigning each subdomain to a PE. The subdomains encapsulate computational elements such as computational meshes or particles. The workload of each PE is defined by the number of operations done using these computational elements. In many scientific simulations, the initial load balance is not preserved during the course of simulation. Outside factors (e.g., congestion in the cluster network) as well as simulation dynamics (e.g., movement of particles in the computational domain) may alter the loads of PEs and may cause load imbalance. In such situations, overloaded PEs require more time to finish their tasks while underloaded PEs remain idle and wait for the overloaded PEs. This protracts simulation runtime and results in redundant energy consumption and wasting resources, which we would like to avoid to the extend possible. To handle these load imbalance situations efficiently, dynamic load balancing (DLB) techniques have been developed. In DLB, one is interested in making fast corrections to the load imbalance. As opposed to static load balancing, DLB tries to avoid a brand new subdomain-to-pe assignment. III

In this thesis, we investigate DLB solutions for parallel particle methods. First, we look at domain-decomposition-based [5] parallel simulations. We analyze different models used in the literature to model computational loads (i.e., subdomain costs). We argue that considering the loads indivisible and real valued is the best way to model loads since subdomain costs are closely related to wall-clock times of PEs, which are measured and stored as real numbers. Following that, we discuss how a DLB protocol could be designed such that it offers a scalable and fast solution to redistributing loads across PEs. In this context, we analyze distributed DLB protocols based on Balancing Circuit Model (BCM) [6] and develop theoretical bounds on the expected load imbalance when indivisible, real valued loads need to be balanced. Further, we explain several distributed DLB protocols, which can be employed to solve the load imbalance problem efficiently. By combining best features of these DLB protocols, we come up with a HybridBalancer which can reduce an initial load imbalance by 3x in just a few DLB iterations in a network of more than a million PEs. Second, we take a particular numerical method and investigate possible DLB solutions that it can benefit from. Particle filters (PFs) [7 10] are sequential Monte Carlo methods (SMC) [11 13] developed to solve estimation problems optimally in nonlinear and non-gaussian state-space models using particles as main data structure. Here, we focus on tracking of sub-cellular objects in biological images and discuss several parallel PF algorithms that would allow us to use HPC systems to tackle these problems faster. Parallel PF algorithms suffer from two types of load imbalance, namely, particle imbalance and particle weight imbalance. In this work, we improve existing parallel PF algorithms by discussing advanced DLB strategies. These DLB methods help us increase tracking efficiency by more than 20x and runtime performance by 9%. Later, we introduce a new parallel PF called Box Exchange Method (BEM), which reduces communication overhead in the DLB step and accelerates parallel execution of a PF. BEM outperforms the fastest parallel PF algorithm by more than 2x. Moreover, a detailed look at the classical PF algorithm allows us to develop an approximation algorithm (pcsir), which provides on par tracking accuracy but offers remarkable performance improvements of up to several orders of magnitude. IV

Kurzfaßung Moderne wissenschaftliche Simulationen erfordern große Rechenleistung, um komplexe Probleme in Natur- und Lebenswissenschaften zu lösen. High-Performance Computing (HPC) ermöglicht eine schnelle Ausführung von wissenschaftlichen Simulationen durch Parallelisierung der Rechenlast auf Rechenelementen (REs). Dieses kann in der Regel durch Teilen des Rechengebietes in kleinere Subdomains und Zuordnung jeder Subdomain auf eine RE erreicht werden. Die Subdomains beinhalten Rechenelemente wie Gitter oder Partikel. Die Rechenlast der einzelnen REs wird durch die Anzahl von Operationen unter Verwendung dieser Rechenelementen definiert. In vielen wissenschaftlichen Simulationen kann der anfängliche Lastausgleich im Verlauf einer Simulation nicht erhalten werden. Sowohl äußere Faktoren (z.b. Staus in dem Cluster-Netzwerk) als auch Simulationsdynamiken (z.b. die Bewegung der Partikel im Rechengebiet) können die Lasten von REs verändern und dadurch ein Lastungleichgewicht verursachen. In solchen Situationen benötigen die überlasteten REs mehr Zeit, um ihre Aufgaben zu beenden. Währenddessen bleiben die unterbelasteten REs untätig und warten auf die überlasteten REs. Dadurch verlängert sich die Simulationslaufzeit und es erzeugt einen redundanten Energieverbrauch und eine Verschwendung von Ressourcen, die wir auf ein Minimum reduzieren wollen. Um mit diesem Lastungleichgewicht effizient umzugehen, wurde die dynamische Lastverteilung (DLV) entwickelt. Im Gegensatz zu der statischen Lastverteilung versucht DLV eine neue Subdomain-zu-RE V

Zuordnung zu vermeiden. In dieser Doktorarbeit untersuchen wir DLV für parallele wissenschaftliche Simulationen. Zunächst betrachten wir parallele Simulationen basierend auf Domain-Dekomposition [5]. Wir analysieren verschiedene Modelle aus der Literatur, um die Rechenlast, bzw. Kosten der Subdomain, zu modellieren. Wir argumentieren, die beste Art die Rechenlast zu modellieren, ist sie als unteilbare und reellwertige Zahl zu definieren. Da die Subdomainkosten eng mit den gemessenen RE-Zeiten, die auch als reelle Zahlen gespeichert sind, verknüpft sind, ist es natürlich, die Lasten als unteilbare und reelle Zahlen zu speichern. Danach besprechen wir, wie ein DLV- Protokoll geplant werden sollte, um eine schnelle skalierbare Lösung für einen neuen Lastausgleich zu finden. In diesem Zusammenhang analysieren wir die verteilten DLV-Protokolle basierend auf dem Balancing Circuit Model (BCM) [6] und entwickeln theoretische Grenzen für das erwartete Lastungleichgewicht, wenn unteilbare und reellwertige Lasten auf REs ausbalanciert werden müssen. Weiterhin erklären wir mehrere verteilte DLV-Protokolle, die angewandt werden können, um das Lastungleichgewichtsproblem effizient zu lösen. Durch die Kombination der besten Eigenschaften dieser DLV-Protokolle entwickeln wir einen HybridBalancer, der das anfängliche Lastungleichgewicht in einem Netzwerk von mehr als einer Million REs in wenigen DLV-Schritten dreimal verringern kann. Zweitens nehmen wir uns ein sequenzielles Monte-Carlo-Verfahren [11 13], die Partikel-Filter, als Beispiel und diskutieren, wie es von den DLV- Protokollen profitieren kann. Diese Partikel-Filter (PF) [7 10] sind entwickelt worden, um Zustandschätzungsprobleme in nichtlinearen und nicht- Gaußschen Zustandsraummodellen unter Verwendung von Partikeln als Hauptdatenstruktur zu lösen. Hier konzentrieren wir uns auf die Verfolgung von subzellulären biologischen Objekten in Bildern. Wir diskutieren mehrere parallele PF-Algorithmen, die die Verwendung von HPC- Systemen ermöglichen, um solche Verfolgungsprobleme schneller lösen zu können. In parallelen PF-Algorithmen gibt es zwei Arten vom Lastungleichgewicht: Das Partikel-Ungleichgewicht und das Partikelgewicht-Ungleichgewicht. In VI

dieser Arbeit verbessern wir zunächst die schon bestehenden parallelen PF- Algorithmen, indem wir fortschrittliche DLV-Strategien einbauen. Diese DLV-Methoden helfen uns die Verfolgungseffizienz um das 20-fache zu erhöhen und die Laufzeit der Simulationen um 9% zu kürzen. Später stellen wir einen neuen parallelen PF, die Box Exchange Methode (BEM), vor. Diese Methode reduziert den Kommunikationsaufwand in der DLV- Phase, wodurch sich die Ausführung eines parallelen PFs beschleunigt. Es übertrifft den vormals schnellsten parallelen PF um mehr als das 2- fache. Desweiteren gibt uns ein detaillierter Blick auf den klassischen PF- Algorithmus die Möglichkeit eine Annäherungsmethode für PF, die pcsir, zu entwickeln. Die pcsir bietet eine sehr ähnliche Verfolgungsgenauigkeit wie der originale PF, liefert jedoch Laufzeitverbesserungen bis auf mehrere Größenordnungen. VII