Dipl.-Wi.-Inform. (FH) Robert Siegfried



Ähnliche Dokumente
Statistische Thermodynamik I Lösungen zur Serie 1

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Primzahlen und RSA-Verschlüsselung

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Data Mining: Einige Grundlagen aus der Stochastik

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

1 Mathematische Grundlagen

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

BONUS MALUS SYSTEME UND MARKOV KETTEN

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Zeichen bei Zahlen entschlüsseln

Lineare Gleichungssysteme

Fotios Filis. Monte-Carlo-Simulation

AUTOMATISIERTE HANDELSSYSTEME

Grundlagen der Monte Carlo Simulation

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

R ist freie Software und kann von der Website.

W-Rechnung und Statistik für Ingenieure Übung 11

A1.7: Entropie natürlicher Texte

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Künstliches binäres Neuron

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

(1) Problemstellung. (2) Kalman Filter

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Beispiel Zusammengesetzte Zufallsvariablen

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

QM: Prüfen -1- KN

Codierungstheorie Rudolf Scharlau, SoSe


1.3 Die Beurteilung von Testleistungen

Ausarbeitung des Seminarvortrags zum Thema

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Theoretische Grundlagen der Informatik WS 09/10

Plotten von Linien ( nach Jack Bresenham, 1962 )

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Aufgabenset 1 (abzugeben an LK@wacc.de)

Kapiteltests zum Leitprogramm Binäre Suchbäume

Professionelle Seminare im Bereich MS-Office

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Einführung in die Algebra

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Gitterherstellung und Polarisation

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Aufabe 7: Baum-Welch Algorithmus

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

Theoretische Grundlagen der Informatik

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Berechnungen in Access Teil I

Excel Fortgeschrittene Techniken. Peter Wies. 1. Ausgabe, März 2013 EX2013F

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

7 Rechnen mit Polynomen

Konzepte der Informatik

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Lineare Gleichungssysteme

Das Briefträgerproblem

Grundbegriffe der Informatik

Brewsterscher Winkel ******

Bestimmung einer ersten

Mengensysteme, Wahrscheinlichkeitsmaße

Klausur zur Vorlesung Stochastische Modelle in Produktion und Logistik im SS 09

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Zwei einfache Kennzahlen für große Engagements

Statistische Auswertung:

Modellbildungssysteme: Pädagogische und didaktische Ziele

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

IRF2000 Application Note Lösung von IP-Adresskonflikten bei zwei identischen Netzwerken

1 topologisches Sortieren

Algorithmen und Datenstrukturen

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Zahlenoptimierung Herr Clever spielt optimierte Zahlen

Objektorientierte Programmierung für Anfänger am Beispiel PHP

Physik 4, Übung 8, Prof. Förster

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Kapitel 3: Etwas Informationstheorie

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Algorithmen II Vorlesung am

Wir arbeiten mit Zufallszahlen

4. Versicherungsangebot

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Grundlagen der Theoretischen Informatik, SoSe 2008

Berechnung der Erhöhung der Durchschnittsprämien

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Microsoft Excel 2010 Mehrfachoperation

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

DynaTraffic Einstiegsaufgaben

Eine Logikschaltung zur Addition zweier Zahlen

Das Black-Scholes Marktmodell

Absolute Stetigkeit von Maßen

Fachschaft Mathematik und Informatik (FIM) LA I VORKURS. Herbstsemester gehalten von Harald Baum

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Transkript:

Dipl.-Wi.-Inform. (FH) Robert Siegfried Analyse von multikanonischen Monte Carlo Simulationen für Anwendungen aus dem Gebiet der optischen Nachrichtentechnik Masterarbeit Hochschule Mittweida (FH) University of Applied Sciences Fachbereich Mathematik / Physik / Informatik Fachrichtung Diskrete und computerorientierte Mathematik Mittweida, 18. August 2006

Dipl.-Wi.-Inform. (FH) Robert Siegfried Analyse von multikanonischen Monte Carlo Simulationen für Anwendungen aus dem Gebiet der optischen Nachrichtentechnik Masterarbeit Hochschule Mittweida (FH) University of Applied Sciences Fachbereich Mathematik / Physik / Informatik Fachrichtung Diskrete und computerorientierte Mathematik Mittweida, 18. August 2006 Referent (Hochschule): Referent (Unternehmen): Prof. Dr. Klaus Dohmen Dr. Sebastian Randel Hochschule Mittweida (FH) Siemens AG, CT IC ONT Tel. (0 37 27) 58-13 32 Tel. (0 89) 6 36-4 58 03 dohmen@htwm.de sebastian.randel@siemens.com

Siegfried, Robert: Analyse von multikanonischen Monte Carlo Simulationen für Anwendungen aus dem Gebiet der optischen Nachrichtentechnik. - 2006. - 103 S. Mittweida, Hochschule Mittweida (FH), Fachbereich Mathematik/Physik/Informatik, Masterarbeit, 2006. Zusammenfassung: Der zentrale Aspekt dieser Arbeit ist die Untersuchung verschiedener Monte Carlo Simulationsverfahren im Hinblick auf die Möglichkeiten zur Steigerung der Effizienz bzw. der Genauigkeit. Nach der Darlegung der mathematischen Grundlagen der untersuchten Monte Carlo Simulationen, zu denen insbesondere das Importance Sampling sowie Markov-Ketten Monte Carlo Algorithmen und die multikanonische Monte Carlo Simulation gehören, werden die vorgestellten Verfahren anhand von drei Anwendungsbeispielen aus der optischen Nachrichtentechnik detailliert erläutert und verglichen. Die untersuchten Anwendungsbeispiele umfassen hierbei verschiedene Simulationen der Polarisationsmodendispersion sowie die Simulation von Rauschstatistiken. Es wird gezeigt, dass die multikanonische Monte Carlo Simulation sehr flexibel sowie vielseitig einsetzbar ist und durchweg sehr gute Ergebnisse erzielt. Verglichen mit den Standard Monte Carlo Verfahren ist die multikanonische Monte Carlo Simulation zudem deutlich schneller und erfordert teilweise erheblich weniger Vorwissen über das zu simulierende System. Die negativen Aspekte der multikanonischen Monte Carlo Simulation, welche insbesondere den zugrunde liegenden Markov-Prozess betreffen, werden ebenfalls detailliert beschrieben. iii

Inhaltsverzeichnis Abbildungsverzeichnis.............................. vi Tabellenverzeichnis................................ viii Abkürzungen und Symbole........................... ix 1 Einleitung und Problemstellung 1 1.1 Einleitung.................................. 1 1.2 Problemstellung............................... 1 1.3 Aufbau der Arbeit............................. 2 2 Grundlagen der Monte Carlo Simulation 4 2.1 Zufallszahlen................................ 4 2.2 Markov-Prozesse.............................. 5 2.3 Allgemeine Vorgehensweise........................ 8 2.4 Fortgeschrittene Monte Carlo Verfahren................. 11 2.4.1 Importance Sampling....................... 11 2.4.2 Multiple Importance Sampling.................. 12 2.4.3 Markov-Ketten Monte Carlo Simulation............. 13 2.5 Multikanonische Monte Carlo Simulation................ 17 3 Polarisation 19 3.1 Modellierung................................ 19 3.1.1 Grundlagen............................. 19 3.1.2 Stokes-Modell............................ 20 3.1.3 Jones-Modell............................ 23 3.2 Polarisationsmodendispersion....................... 24 3.2.1 Optische Grundlagen und Ursachen............... 24 3.2.2 Der PMD-Vektor.......................... 26 4 Simulation der Polarisationsmodendispersion 28 4.1 Modellierung einer Übertragungsstrecke................. 28 4.1.1 Standardmodell........................... 28 4.1.2 Hinge-Modell............................ 30 4.1.3 Festlegungen............................ 31 4.2 Standard Monte Carlo Simulation.................... 32 4.2.1 Ergebnisse.............................. 32 4.2.2 Eigenschaften............................ 34 4.3 Importance Sampling............................ 35 4.3.1 Ergebnisse.............................. 36 iv

Inhaltsverzeichnis 4.3.2 Eigenschaften............................ 36 4.4 Multiple Importance Sampling...................... 39 4.4.1 Ergebnisse.............................. 40 4.4.2 Eigenschaften............................ 42 4.5 Multikanonische Monte Carlo Simulation................ 43 4.5.1 Ergebnisse.............................. 43 4.5.2 Eigenschaften............................ 47 4.6 Exkurs: Monte Carlo Algorithmus von Wang/Landau......... 49 4.7 Simulation des Hinge-Modells....................... 50 5 Simulation der Ausfallwahrscheinlichkeit aufgrund von PMD 54 5.1 Modellierung................................ 54 5.1.1 Allgemeine Vorgehensweise.................... 54 5.1.2 Kenngrößen............................. 56 5.1.3 Untersuchte Modulationsformate................. 58 5.2 Standard Monte Carlo Simulation.................... 59 5.2.1 Ergebnisse.............................. 60 5.2.2 Eigenschaften............................ 62 5.3 Multikanonische Monte Carlo Simulation................ 62 5.3.1 Ergebnisse.............................. 64 5.3.2 Eigenschaften............................ 70 6 Simulation von Rauschstatistiken 73 6.1 Grundlagen................................. 73 6.2 Modellierung................................ 75 6.3 Simulation.................................. 75 6.4 Ergebnisse.................................. 78 7 Zusammenfassung 81 Anhang 84 A Erläuterungen zum Pseudocode 85 B Literaturverzeichnis 86 C CD 93 D Eidesstattliche Erklärung 94 v

Abbildungsverzeichnis 2.1 Beispiel für ein absolutes Histogramm.................. 10 2.2 Beispiel für ein relatives Histogramm................... 10 2.3 Beispiel für eine Wahrscheinlichkeitsverteilung.............. 10 3.1 Schematische Darstellung der grundlegenden Polarisationszustände.. 20 3.2 Dreidimensionale Darstellung der grundlegenden Polarisationszustände als Überlagerung von zwei Basiswellen.................. 21 3.3 Parameter zur Beschreibung eines elliptischen Polarisationszustandes. 21 3.4 Darstellung der Polarisationszustände mit Hilfe der Poincaré-Kugel.. 22 3.5 Schematische Darstellung einer Glasfaser................. 24 3.6 Intrinsische und extrinsische Einflüsse, die zu Doppelbrechung führen. 25 3.7 Schematische Darstellung der Polarisationsmodendispersion...... 25 3.8 Darstellung des PMD-Vektors Ω #» im 3-dimensionalen Stokes-Raum.. 26 4.1 Modellierung einer Glasfaser als Folge von doppelbrechenden Segmenten 28 4.2 Beispielhafte Darstellung des Hinge-Modells............... 30 4.3 Simulation der DGD mittels Standard Monte Carlo Algorithmus... 33 4.4 Wichtigkeitsverteilung p α (cos θ) für verschiedene Werte von α..... 36 4.5 Simulation der DGD mittels Importance Sampling........... 37 4.5 Simulation der DGD mittels Importance Sampling........... 38 4.6 Simulation der DGD mittels Multiple Importance Sampling...... 41 4.7 Simulation der DGD mittels Multiple Importance Sampling...... 41 4.8 Simulation der DGD mittels der multikanonischen Monte Carlo Simulation.................................... 45 4.9 Simulation der DGD mittels der multikanonischen Monte Carlo Simulation.................................... 46 4.10 Simulation der DGD mittels der multikanonischen Monte Carlo Simulation.................................... 48 4.11 Simulation der DGD mittels des Algorithmus von Wang/Landau... 51 4.12 Standard Monte Carlo Simulation des Hinge-Modells.......... 52 4.13 Multiple Importance Sampling des Hinge-Modells............ 52 4.14 Multikanonische Monte Carlo Simulation des Hinge-Modells...... 52 5.1 Back-To-Back-Modell........................... 56 5.2 Ideales Augendiagramm und degeneriertes Augendiagramm...... 57 5.3 Non-Return-To-Zero-Modell........................ 58 5.4 Differential Phase Shift Keying-Modell.................. 59 vi

Abbildungsverzeichnis 5.5 Simulation der Ausfallwahrscheinlichkeit................. 61 5.6 Simulation der Ausfallwahrscheinlichkeit................. 61 5.7 Simulation der Augenöffnungseinbuße.................. 65 5.8 Simulation der Augenöffnungseinbuße.................. 65 5.9 Simulation der Augenöffnungseinbuße.................. 66 5.10 Gegenüberstellung der Gewichtsfaktoren und Wahrscheinlichkeitsverteilungen.................................. 66 5.11 Akzeptanzraten............................... 67 5.12 Entwicklung der Ausfallwahrscheinlichkeit und der Akzeptanzrate... 68 5.13 Entwicklung der Ausfallwahrscheinlichkeit................ 69 5.14 Simulation der Ausfallwahrscheinlichkeit................. 71 6.1 Schematische Darstellung der Rauschstatistik und Bitfehlerrate.... 74 6.2 Modell für die Simulation der Rauschstatistiken............. 75 6.3 Simulation der Rauschstatistik...................... 79 6.4 Simulation der Rauschstatistik...................... 79 6.5 Iterative Darstellung der Simulation der Rauschstatistik........ 80 vii

Tabellenverzeichnis 4.1 Laufzeiten und quadratische Abweichungen bei der Standard Monte Carlo Simulation.............................. 34 4.2 Laufzeiten und quadratische Abweichungen beim Importance Sampling 38 4.3 Laufzeiten und quadratische Abweichungen beim Multiple Importance Sampling.................................. 42 4.4 Laufzeiten, quadratische Abweichungen und Akzeptanzraten bei der multikanonischen Monte Carlo Simulation................ 46 4.5 Faserparameter für das Hinge-Modell................... 53 5.1 DGDs der Referenz-Übertragungsstrecke................. 55 5.2 Laufzeiten der multikanonischen Monte Carlo Simulation....... 70 viii

Abkürzungen und Symbole Abk. Abkürzung Alg. Algorithmus AWGN Additive White Gaussian Noise BER Bit Error Rate DGD Differential Group Delay DPSK Differential Phase Shift Keying EO Eye Opening EOP Eye Opening Penalty Gl. Gleichung i. d. R. in der Regel NRZ Non-Return-To-Zero OSNR Optical Signal To Noise Ratio PMD Polarisationsmodendispersion PSP Principal States of Polarization SOP State of Polarization Tab. Tabelle Symbol τ H H(i) Ω #» Ω #» Ω i Bedeutung Differential Group Delay [ps] Histogramm i-te Spalte des Histogramms H Phasenraum, Zustandsraum PMD-Vektor PMD-Vektor des i-ten Segments einer Übertragungsstrecke ix

1 Einleitung und Problemstellung 1.1 Einleitung To calculate the probability of a successful outcome of a game of solitaire is a completely intractable task.... Obviously the practical procedure is to produce a large number of examples and then to examine the relative proportion of successes. [MU49] Die optische Nachrichtentechnik, insbesondere die Informationsübertragung über Glasfaser, ist eine wesentliche Schlüsseltechnologie für die zukünftige Informationsgesellschaft. Dies wird auch vor dem Hintergrund exponentiell ansteigender Datenübertragungsraten sowie der rasant ansteigenden Zahl von Breitbandanschlüssen deutlich (vgl. [Agr92, S. 3ff.], [SA04, S. 26f.]). Daher betreibt die Siemens AG (Corporate Technology, Information & Communications, Optical Networks & Transmission) Forschung, Prototyping und Entwicklung auf den verschiedensten Gebieten der optischen Nachrichtentechnik. 1 Ein gemeinsamer Schlüsselaspekt ist hierbei immer die Erhöhung der Datenübertragungsrate bei gleichzeitiger Beibehaltung oder Verbesserung der entsprechenden relevanten Kenngrößen bzw. Fehlerraten. Die Simulation von Übertragungsstrecken und einzelnen Komponenten bzw. den Einflüssen und Auswirkungen ausgewählter Parameter spielt in diesem Umfeld eine zentrale Rolle. Begründet durch ihre Effizienz, einfache Anwendbarkeit und Erweiterbarkeit, sowie Flexibilität, sind hierbei häufig Computersimulationen, sog. Monte Carlo Simulationen, das Mittel der Wahl. [KJN02, S. 772f.] 1.2 Problemstellung Diese Arbeit beschäftigt sich mit der Analyse von Monte Carlo Simulationen für Anwendungen aus dem Gebiet der optischen Nachrichtentechnik. Die Hauptaufgabe ist die Untersuchung von Möglichkeiten zur Steigerung der Effizienz bzw. der Genauigkeit. Dabei soll ausgehend von Standard Monte Carlo Simulationen zu Markov-Ketten Monte Carlo Simulationen und insbesondere zu multikanonischen Monte Carlo Simulationen übergegangen werden. Die Analyse dieser Frage- 1 Vgl. http://www.ct.siemens.de 1

1 Einleitung und Problemstellung stellungen soll insbesondere im Hinblick auf die folgenden drei Anwendungsbeispiele aus der optischen Nachrichtentechnik erfolgen: 1. Simulation der Polarisationsmodendispersion (1. Ordnung) und Bestimmung der Wahrscheinlichkeitsverteilung des differenziellen Laufzeitunterschieds. 2. Ermittlung der Systemausfallwahrscheinlichkeit aufgrund von Polarisationsmodendispersion. 3. Simulation von Rauschstatistiken und Bestimmung der Bitfehlerrate. Hierzu ist zum einen die vorhandene wissenschaftliche Literatur auszuwerten und der aktuelle Stand der Forschung darzulegen. Zum anderen sind empirische Vergleiche der verschiedenen Methoden im Hinblick auf die ausgewählten Anwendungsbeispiele durchzuführen. Dies bedingt eine beispielhafte Implementierung der zu vergleichenden Simulationsmethoden sowie anschließend einen klar strukturierten Vergleich der Ergebnisse (Benchmarking). Die Ergebnisse sind geeignet auszuwerten und zu interpretieren. Auf Grundlage der Literaturauswertung und der Ergebnisse des Benchmarkings sind die Vor- und Nachteile der jeweiligen Simulationsmethode sowie die bevorzugten Anwendungsgebiete der einzelnen Simulationsverfahren darzulegen. Falls möglich, sind für die multikanonischen Monte Carlo Simulationen Aussagen bezüglich einer guten Parameterwahl zu treffen bzw. entsprechende empirische Empfehlungen abzugeben. Ergänzend hierzu sind die theoretischen Grundlagen zu erläutern. Dies beinhaltet sowohl die Mathematik auf der die Simulationsmethoden basieren als auch die Grundlagen in Optik und Nachrichtentechnik bezüglich der betrachteten optischen Kommunikationssysteme. 1.3 Aufbau der Arbeit Zu Beginn dieser Arbeit werden die theoretischen Grundlagen vermittelt, d. h. zunächst wird in Kap. 2 eine Einleitung in die Thematik der Monte Carlo Simulationen gegeben. Aufbauend auf die mathematischen Grundlagen der Standard Monte Carlo Simulation werden die fortgeschrittenen Monte Carlo Verfahren vorgestellt. Im darauf folgenden Kap. 3 werden die Grundlagen der Polarisation sowie der untersuchten optischen Effekte dargelegt und die unterschiedlichen mathematischen Modellierungsmethoden vorgestellt. In Kapitel 4 werden die vorgestellten Monte Carlo Verfahren detailliert anhand der Simulation der Wahrscheinlichkeitsverteilung des differenziellen Laufzeitunterschieds aufgrund der Polarisationsmodendispersion verglichen, d. h. insbesondere werden die Algorithmen und Ergebnisse vorgestellt, sowie eine kurze Bewertung der verschiedenen Simulationsmethoden vorgenommen. Die Kapitel 5 und 6 befassen sich mit der multikanonischen Monte Carlo Simulation von Ausfallwahrscheinlichkeiten aufgrund der Polarisationsmodendispersion sowie der Simulation von Rauschstatistiken. 2

1 Einleitung und Problemstellung Eine vergleichende Betrachtung und Zusammenfassung aller Ergebnisse und Simulationsverfahren folgt in Kap. 7. Den Schluss bildet der Anhang, welcher weiterführende Dokumentationen und das Quellenverzeichnis enthält. 3

2 Grundlagen der Monte Carlo Simulation The use of random numbers has given this game its name. [BH88, S. 7f.] Der Ursprung der Monte Carlo Simulationen geht hauptsächlich auf zwei Gebiete zurück: Die statistische Physik und die Berechnung von (höherdimensionalen) Integralen. Eine der ersten grundlegenden Veröffentlichungen erfolgte 1949 von Nicholas Metropolis und Stanislaw Ulam. [MU49] Zu dieser Zeit war die Monte Carlo Simulation zwar bereits theoretisch durchdacht, jedoch fehlte es an der notwendigen Rechenkapazität. Dies änderte sich jedoch sehr schnell, so dass bereits 1953 die Monte Carlo Simulation eine erste praktische Anwendung erfuhr. [MRR + 53] Seitdem hat sich die Simulation zu einer dritten Säule der Physik neben der Experimentalphysik und der theoretischen Physik entwickelt. [BH88, S. 1] [Rad06] Im Folgenden sollen die Grundlagen dargelegt werden, auf denen alle Monte Carlo Simulationen basieren. Hierzu gehört im Wesentlichen die Erzeugung und Verwendung von Zufallszahlen bzw. Pseudozufallszahlen. Des Weiteren werden kurz die Grundlagen der Markov-Prozesse dargelegt, um hierauf aufbauend die für den Verlauf der weiteren Arbeit wichtigen Varianten von Monte Carlo Simulationen zu erläutern, wobei zuerst die Standard Monte Carlo Methode erläutert wird und darauf aufbauend die erweiterten und verbesserten Simulationsverfahren. 2.1 Zufallszahlen Sämtliche in der folgenden Arbeit dargelegten und angewendeten Monte Carlo Simulationen basieren letztlich auf der Verwendung von Zufallszahlen. Daher werden an dieser Stelle kurz und prägnant die wichtigsten Anforderungen an die Zufallszahlengeneratoren und deren allgemeine Eigenschaften skizziert. Da die Verwendung echter Zufallszahlen i. d. R. nicht sinnvoll möglich ist (Generierung, Effizienz), basieren Monte Carlo Methoden auf sogenannten Pseudozufallszahlen. Diese Pseudozufallszahlen beruhen nicht auf natürlichen zufälligen Prozessen (wie z. B. dem radioaktiven Zerfall), sondern lassen sich mittels relativ einfacher Algorithmen erzeugen. Das Ziel dieser Zufallszahlengeneratoren ist es also, Zahlen x mittels eines deterministischen Algorithmus zu erzeugen, so dass diese x nach einer vorgegebenen Wahrscheinlichkeitsverteilung verteilt sind. Aus praktischen Gründen erzeugen die meisten Generatoren gleichverteilte Zufallszahlen x mit 0 x < 1. Des Weiteren werden die folgenden Anforderungen an die Generatoren gestellt: [Ber04, S. 6] [MZT90] 4

2 Grundlagen der Monte Carlo Simulation 1. Zufälligkeit 2. Große Periode 3. Effiziente Berechenbarkeit 4. Wiederholbarkeit 5. Portabilität 6. Homogenität Zur Erzeugung von [0, 1]-gleichverteilten Zufallszahlen existiert eine große Anzahl verschiedener Typen von Generatoren. Die Erzeugung von Zufallszahlen, welche nach einer anderen Verteilungen verteilt sind, ist ebenfalls möglich und basiert oft auf der Verwendung bzw. Transformation von [0, 1]-gleichverteilten Zufallszahlen. Da alle Monte Carlo Simulationen (per Definition) auf die Verwendung von Zufallszahlen angewiesen sind, ist es von extrem großer Wichtigkeit, dass die verwendeten Pseudozufallszahlen möglichst zufällig sind und keine bzw. nur sehr wenige Regelmäßigkeiten aufweisen. Aus diesem Grund ist es immer ratsam, öffentlich verfügbare Zufallszahlengeneratoren zu verwenden, welche ausgiebig getestet worden sind. Getestet bedeutet in diesem Zusammenhang, dass die von diesen Generatoren erzeugten Zufallszahlen eine große Bandbreite von statistischen Tests bestehen. [Mur03, S. 7ff.] Insbesondere für die o. g. Erzeugung [0, 1]-gleichverteilter Zufallszahlen gibt es viele sehr ausgereifte Generatoren. Die hohe Bedeutung [0, 1]-gleichverteilter Zufallszahlen ergibt sich zu einem großen Teil daraus, dass diese erstens sehr häufig direkt verwendet werden und andererseits die Erzeugung beliebig verteilter Zufallszahlen nahezu immer auf der Verwendung [0, 1]-gleichverteilter Zufallszahlen beruht. Detailliertere Informationen zur Generierung von Pseudozufallszahlen finden sich u. a. in [PP02, S. 284ff.], [Jan02], [MZT90]. 2.2 Markov-Prozesse Im Folgenden werden grundlegende Definitionen und Eigenschaften von stochastischen Prozessen und insbesondere Markov-Prozessen dargelegt. Ausführlichere Darstellungen finden sich u. a. in [PP02], [JBS00]. Definition 1 (Stochastischer Prozess) Eine Folge P = {X t } mit t T und X t Ω von Zufallsvariablen heißt stochastischer Prozess. Hierbei heißt T Indexmenge und Ω Wertebereich oder Zustandsraum. P heißt stochastischer Prozess mit diskreter Zeit, falls T isomorph zu N ist. Andernfalls heißt P stochastischer Prozess mit stetiger Zeit. Bemerkung 1 Da viele der später verwendeten Konzepte der Monte Carlo Simulationen aus der statistischen Physik entstammen, bedienen sich viele Publikationen auch der Sprache der Physik. Daher wird im Folgenden an passender Stelle auf äquivalente Begriffe bzw. Formulierungen der statistischen Physik hingewiesen. 5

2 Grundlagen der Monte Carlo Simulation In diesem Sinne gilt, dass der Zustandsraum von den Physikern i. d. R. als Phasenraum bezeichnet wird. Mit der oben gegebenen Definition eines stochastischen Prozesses ist ein Markov- Prozess wie folgt definiert: Definition 2 Ein stochastischer Prozess P heißt Markov-Prozess, genau dann, wenn er die Markov-Eigenschaft besitzt, d. h. für alle t i T mit t n+1 > t n gilt: P (X tn+1 = x tn+1 X tn = x tn, X tn 1 = x tn 1,..., X t1 = x t1 ) = P (X tn+1 = x tn+1 X tn = x tn ) (2.1) Anschaulich bedeutet dies, dass der Übergang eines Markov-Prozesses von einem Zustand in den nächsten Zustand, lediglich von dem aktuellen Zustand abhängt, jedoch nicht von den vorherigen Zuständen. Der stochastische Prozess P wird daher auch als gedächtnislos bezeichnet. Bemerkung 2 Markov-Prozesse werden auch als Irrfahrt (engl. random walk) bezeichnet. Umgekehrt ist jedoch zu beachten, dass nicht jede Irrfahrt ein Markov-Prozess ist. Weiterführende Informationen zu Irrfahrten finden sich u. a. in [PP02], [BH88]. Definition 3 Es sei ein Markov-Prozess mit diskreter Zeit gegeben. Dann heißt p k,l (s, t) = P (X t = x l X s = x k ) (2.2) mit t > s die Übergangswahrscheinlichkeit vom Zustand k in den Zustand l, wobei sich der Markov-Prozess zum Zeitpunkt s im Zustand k befindet und zum Zeitpunkt t im Zustand l. Gilt für alle s T p k,l (s, s + 1) = p k,l (2.3) d. h. hängen die Übergangswahrscheinlichkeiten nicht vom Zeitpunkt des Übergangs ab, so heißt der Markov-Prozess homogen. Ein Spezialfall der Markov-Prozesse sind die Markov-Ketten: Definition 4 Ein Markov-Prozess mit endlichem oder abzählbar unendlichem Zustandsraum Ω heißt Markov-Kette. Im Folgenden werden nur homogene Markov-Ketten mit diskreter Zeit betrachtet, sodass vereinfachend immer p k,l für die Übergangswahrscheinlichkeit von k nach l geschrieben werden kann. Definition 5 Eine Markov-Kette ist eindeutig definiert durch die Angabe aller Übergangswahrscheinlichkeiten (in der sog. Übergangsmatrix P ): P = (p k,l ) (2.4) Dabei gilt: p k,l 0 (k, l) Ω Ω und l Ω p k,l = 1 k Ω. 6

2 Grundlagen der Monte Carlo Simulation Definition 6 Eine Zustandsverteilung #» π [0; 1] Ω mit #» π := (π s ) s=1,..., Ω heißt stationäre Verteilung, falls #» π T P = #» π T (2.5) #» π T #» 1 = 1 (2.6) gilt. Es lässt sich zeigen, dass eine stationäre Verteilung eindeutig ist, falls sie existiert. Definition 7 Die Wahrscheinlichkeit in n Schritten in einer homogenen Markov-Kette vom Zustand k in den Zustand l zu gelangen, wird als n-schritt-übergangswahrscheinlichkeit p (n) k,l bezeichnet. Von besonderem Interesse bei der Betrachtung einer Markov-Kette ist die Frage, ob die gegebene Markov-Kette nach einer endlichen Zahl von Schritten in eine stationäre Verteilung mündet, d. h. die Frage nach der sog. Ergodizität. Definition 8 Sei P eine homogene Markov-Kette mit Übergangsmatrix P. Dann heißt P ergodisch, genau dann, wenn eine stationäre Verteilung #» π := (π s ) s=1,..., Ω existiert, welche die folgenden Bedingungen erfüllt: 1. Der Grenzwert lim n p (n) k,l = π l existiert für alle l = 1,..., Ω und ist nicht von k abhängig. 2. Für alle s = 1,..., Ω gilt: π s > 0 3. Ω s=1 π s = 1 Bemerkung 3 Äquivalent zu der o. g. Definition der Ergodizität sind die folgenden beiden Definitionen: 1. Eine Markov-Kette ist ergodisch, genau dann, wenn jeder Zustand von jedem Zustand mittels der gegebenen Zustandsübergänge erreicht werden kann. [Rei80, S. 166] [MRR + 53, S. 1088] (Vgl. auch [GH00, S. 95].) 2. Ein System ist ergodisch, falls Zeitmittelung und Ensemblemittelung identisch sind. Kurz auch: Scharmittelung ist gleich Zeitmittelung. [Rei80, S. 217] [JBS00, S. 333] Insbesondere die zweite Aussage dieser Bemerkung ist von großer Bedeutung, da sie besagt, dass in ergodischen Systemen die Ensemblemittelung durch die Zeitmittelung ersetzt werden kann. Dies bedeutet, dass aus einer einzigen Trajektorie des stochastischen Prozesses alle relevanten statischen Kenngrößen ermittelt werden können. In der statistischen Physik ist dieser Sachverhalt unter der Bezeichnung Ergodenhypothese (nach Ludwig Boltzmann) bekannt. 1 [Rei80, S. 216ff.] [LP80, S. 12] 1 Siehe auch: http://plato.stanford.edu/entries/statphys-boltzmann/ 7

2 Grundlagen der Monte Carlo Simulation 2.3 Allgemeine Vorgehensweise Allgemein geht es bei einer Monte Carlo Simulation darum, gewisse Eigenschaften bzw. Kenngrößen eines realen oder fiktiven Systems durch Simulieren zu bestimmen. Das zu simulierende System kann hierbei verschiedene Zustände bzw. Konfigurationen einnehmen. Die Menge aller Zustände bzw. Konfigurationen eines Systems bildet den Zustandsraum bzw. Phasenraum Ω. Die zu simulierenden Eigenschaften werden auch als Observable bezeichnet und sind sog. Phasenraumfunktionen: O : Ω R (2.7) Eine Folge von Konfigurationen wird als Trajektorie im Phasenraum bezeichnet. Die einfachste Variante der Monte Carlo Simulation besteht darin, statistisch unabhängige Stichproben zu ziehen (random sampling, simple sampling). [Ber04, S. 138] Dies bedeutet, dass aus dem Zustandsraum statistisch unabhängig und identisch verteilte Konfigurationen gezogen werden. Dieses Vorgehen sei im Nachfolgenden am Beispiel der numerischen Berechnung eines Integrals dargstellt. Dieses Beispielintegral wird auch zur Veranschaulichung der verbesserten Monte Carlo Verfahren verwendet und dient somit als durchgängiges Beispiel. Beispiel 1 (Numerische Berechnung eines Integrals) Gegeben sei das folgende Integral: I = b a f(x)dx (2.8) Um dieses Integral approximativ zu bestimmen, können zufällig und unabhängig identisch verteilte Zufallszahlen x i aus dem Intervall [a, b] gezogen und I durch I N wie folgt angenähert werden: I N = (b a) 1 N N f(x i ) (2.9) Hierbei sei N die Anzahl der zufällig gezogenen Konfigurationen (in diesem Fall also Zahlen). Für den Grenzfall N folgt, dass I N I. Als ein weiteres Beispiel soll die Berechnung des Mittelwertes der Funktion h(x) dienen, wobei x die Realisierung einer Zufallsvariablen X sei. Der Mittelwert h(x) berechnet sich demnach wie folgt: h f = + i=1 h(x)f(x)dx (2.10) Hierbei ist f(x) die Wahrscheinlichkeitsverteilung der Zufallsvariablen X und h(x) heißt gewöhnlich Scorefunktion. h f wird nun wie folgt geschätzt: h N = 1 N N h(x i ) (2.11) wobei die x i nach f(x) verteilt sind. Für den Grenzfall N ergibt sich wieder h N h f. i=1 8

2 Grundlagen der Monte Carlo Simulation Das o. g. Beispiel veranschaulicht die prinzipielle Vorgehensweise bei Monte Carlo Simulationen. Da im Folgenden aber oft nicht bloß ein einzelner Wert (z. B. der Mittelwert) geschätzt werden soll, sondern die gesamte Wahrscheinlichkeitsverteilung einer Zufallsvariablen ermittelt werden soll, muss die Vorgehensweise bei der Simulation etwas abgeändert werden. Gegeben sei ein stochastischer Prozess P, sowie eine zu ermittelnde Kenngröße K dieses Prozesses. Dieser Prozess wird N-mal simuliert und die Werte k i (i = 1,..., N) der Kenngröße K ermittelt. Die k i werden zu einem Histogramm H zusammengefasst, wobei H aus N Bins Intervallen besteht und alle Intervalle gleich groß sind, nämlich genau H = Hmax H min N Bins. Hierbei bezeichnen H max und H min die obere bzw. untere Grenze der Werte der Kenngröße K, welche in diesem Histogramm berücksichtigt werden. Weiterhin bezeichne H(j) die Anzahl der k i, die im Intervall [H min + H (j 1) < k i H min + H j] aufgetreten sind, während der N Simulationsläufe. In Abbildung 2.1 ist beispielhaft ein solches absolutes Histogramm gezeigt. Das relative Histogramm H rel (Abb. 2.2) ergibt sich dann durch H rel (j) = H(j)/ N Bins i=1 H(i). Liegt der Simulation ein diskreter Wahrscheinlichkeitsraum zugrunde, so entspricht das relative Histogramm bereits der gesuchten Wahrscheinlichkeitsverteilung, d. h. es gilt: p = H rel. Für den Fall eines stetigen Wahrscheinlichkeitsraums erfolgt noch eine Normierung, so dass gilt: p(j) = 1 H H rel (j) für alle j = 1,..., N Bins. Es ist offensichtlich, dass die Güte der simulierten Wahrscheinlichkeitsverteilung p von zumindest drei Parametern abhängt: 1. Je größer die Anzahl der Intervalle N Bins des Histogramms H ist, desto genauer wird das Histogramm und damit auch die Wahrscheinlichkeitsverteilung. 2. Je größer der Stichprobenumfang N ist, desto genauer wird die Simulation. 3. Alle möglichen Konfigurationen des Systems müssen genügend oft simuliert werden. Dies gilt insbesondere auch für (sehr) seltene Konfigurationen bzw. Ereignisse. Die ersten beiden Punkte sind verhältnismäßig leicht zu erfüllen, der dritte Punkt hingegen jedoch nicht. Ist die Eintrittswahrscheinlichkeit eines Ereignisses sehr gering, so ist es nicht mehr möglich über eine reine Erhöhung der Stichprobenanzahl eine relevante Anzahl dieser Ereignisse zu erzeugen. [SSG97] Dies wird auch in dem folgenden Zitat sehr pointiert formuliert: The shotgun approach is likely to miss the needles in the haystack. [GH00, S. 97] In diesem Fall sind fortgeschrittene (engl. advanced) Monte Carlo Verfahren notwendig, von denen die für diese Arbeit relevanten Verfahren in den folgenden Abschnitten vorgestellt werden. 9

2 Grundlagen der Monte Carlo Simulation 1400 1200 1000 Absolute Häufigkeit 800 600 400 200 0 0 2 4 6 8 10 12 14 16 Kenngröße K Abbildung 2.1: Beispiel für ein absolutes Histogramm. (H min = 0, H max = 15, N Bins = 30) 0.14 0.12 0.1 Relative Häufigkeit 0.08 0.06 0.04 0.02 0 0 2 4 6 8 10 12 14 16 Kenngröße K Abbildung 2.2: Beispiel für ein relatives Histogramm. (H min = 0, H max = 15, N Bins = 30) 0.35 0.3 0.25 0.2 p(k) 0.15 0.1 0.05 0 0 2 4 6 8 10 12 14 16 Kenngröße K Abbildung 2.3: Beispiel für eine Wahrscheinlichkeitsverteilung. 10

2 Grundlagen der Monte Carlo Simulation 2.4 Fortgeschrittene Monte Carlo Verfahren 2.4.1 Importance Sampling Wie im vorherigen Abschnitt dargelegt, ist es oft nicht sinnvoll, die zufälligen Konfigurationen x i gleichverteilt aus einem bestimmten Zustandsraum zu ziehen, da hierbei sehr seltene Konfigurationen unter Umständen zu selten bzw. gar nicht erzeugt werden. Die Konfigurationen x i werden daher im Folgenden nicht mehr gleichverteilt gewählt, sondern vorzugsweise aus den Regionen des Zustandsraums, welche die größte Signifikanz besitzen. Dies bedingt natürlich a priori Wissen über die Eigenschaften des zu simulierenden Systems bzw. den zugrunde liegenden Zustandsraum. Analog zum vorherigen Abschnitt erfolgt die einleitende Beschreibung anhand des vorher eingeführten Beispiels. Beispiel 2 (Forts.) Um den Mittelwert der Funktion h(x) zu bestimmen, werden die x i in Zukunft nicht mehr nach f(x) gezogen, sondern nach einer neuen Wahrscheinlichkeitsverteilung g(x), der sogenannten Wichtigkeitsdichte oder Wichtigkeitsverteilung (engl. biasing probability distribution function). Entscheidend hierbei ist, dass die Verteilungsfunktion g(x) der dem Integral I zugrunde liegenden Funktion h(x) ähnlicher ist als f(x) es ist. Weiterhin sei H(x) = h(x) f(x) g(x) (2.12) eine modifizierte Scorefunktion. Der Erwartungswert H g von H(x) unter g(x) ist, wie im Folgenden gezeigt wird, identisch mit dem Erwartungswert h f von h(x) unter f(x): H g = = = + + + Somit lässt sich H g näherungsweise bestimmen durch H N = 1 N H(x)g(x)dx (2.13) h(x) f(x) g(x)dx (2.14) g(x) h(x)f(x)dx (2.15) = h f (2.16) N H(x i ) = 1 N i=1 N i=1 h(x i ) f(x i) g(x i ) (2.17) wobei die x i nach g(x) verteilt sein und für den Grenzfall N gilt wiederum, dass H N H g = h f. Wie im vorherigen Fall beim Simple Sampling ist es auch beim Importance Sampling das Ziel, die gesamte Wahrscheinlichkeitsverteilung einer Zufallsvariablen zu bestimmen. Dazu wird ebenfalls die Histogramm-Technik verwendet. Anstatt jedoch für jeden 11

2 Grundlagen der Monte Carlo Simulation ermittelten Wert k i der relevanten Kenngröße K den entsprechenden Histogrammeintrag H(j) um Eins zu erhöhen, wird der jeweilige Histogrammeintrag beim Importance Sampling um den sog. Reweighting-Faktor f(x i )/g(x i ) erhöht. Das Histogramm enthält in diesem Fall also keine natürlichen Zahlen als Einträge mehr, sondern reelle Zahlen. [Mur03, S. 16] [JBS00, S. 712] Die weitere Vorgehensweise zur Gewinnung der Wahrscheinlichkeitsverteilung ist unverändert. Importance Sampling ist allem Anschein nach die beste Möglichkeit, deutliche Laufzeitverringerungen zu erzielen. Dennoch beinhaltet diese Monte Carlo Methode verschiedene Unsicherheiten, da jeder Einsatz des Importance Samplings a priori-wissen über das zu simulierende System erfordert und der Erfolg des Importance Samplings somit wesentlich von der Wahl der Wichtigkeitsverteilung und den eventuell vorhandenen freien Parametern abhängt. [JBS00, S. 710ff.] [SSG97, S. 598, 605] 2.4.2 Multiple Importance Sampling In vielen praktischen Fällen ist die schlichte straight-forward-anwendung von Importance Sampling ungenügend, da mit nur einer Wichtigkeitsverteilung nicht alle Regionen mit interessanten Ereignissen effizient durchmustert werden. Dies ist deshalb negativ, da im Verlauf einer Simulation möglichst aus allen Regionen des Zustandsraums eine möglichst gleich große Anzahl von Konfigurationen erzeugt werden sollte. In den Fällen, wo dies mit der Verwendung lediglich einer Wichtigkeitsverteilung nicht möglich ist, ist es sinnvoll, mehrere Simulationen mit Importance Sampling und unterschiedlichen Wichtigkeitsverteilungen durchzuführen, um so alle interessanten Regionen des Zustandsraums gleichmäßig abzudecken. Dieser kombinierte Einsatz mehrerer Importance Sampling Simulationen heißt Multiple Importance Sampling. Die Schwierigkeit bei der Verwendung von J Simulationen mit unterschiedlichen Wichtigkeitsverteilungen liegt darin, die erhaltenen J Wahrscheinlichkeitsverteilungen im Anschluss an die Simulation sinnvoll zu gewichten und zu einer Gesamtverteilung zu kombinieren. Die Auswahl dieser Gewichte ist nahezu genauso entscheidend wie die Auswahl der einzelnen Wichtigkeitsverteilungen und daher von großer Bedeutung für ein gutes Endresultat. [BKM04, S. 1204] Die naheliegendste Lösung ist es nun, die Ergebnisse aller einzelnen Importance Sampling Simulationen, d. h. die erhaltenen Wahrscheinlichkeitsverteilungen, gleich zu gewichten mit W j (x) = 1 J für alle j = 1,..., J. Eine bessere Variante ist die sogenannte Balance Heuristic, wobei die Gewichte W j (x) hier wie folgt gewählt werden: W j (x) = N j p j (x) J k=1 N k p k (x) (2.18) Hierbei ist N j die Anzahl der Stichproben die in der j-ten Simulation gezogen werden, p j die Wichtigkeitsverteilung der j-ten Simulation und x die aktuell betrachtete Konfiguration. Das Gewicht, welches mit der Konfiguration x verbunden ist, ist also die relative Wahrscheinlichkeit diese Konfiguration mit der j-ten Wichtigkeitsverteilung zu erzeugen im Verhältnis zu der Wahrscheinlichkeit, diese Konfiguration mit 12

2 Grundlagen der Monte Carlo Simulation einer der J Wichtigkeitsverteilungen zu realisieren. Es kann gezeigt werden, dass keine andere Kombinationsstrategie (d. h. Wahl der Gewichte W j (x)) zu deutlich besseren Ergebnissen bei der Kombination der Ergebnisse der einzelnen Importance Sampling Simulationen führt. [Vea97, S. 263ff.] [BKM04, S. 1204] [BK04, S. 24] 2.4.3 Markov-Ketten Monte Carlo Simulation Die Schwierigkeit beim Importance Sampling und Multiple Importance Sampling liegt im Wesentlichen in der Auswahl der Wichtigkeitsverteilung(en) und damit automatisch auch in der direkten Erzeugung von Zufallszahlen bzw. Konfigurationen nach dieser Verteilung. Oftmals ist es jedoch nicht möglich, Zufallszahlen bzw. Konfigurationen direkt nach einer bestimmten, vorgegebenen Verteilung zu erzeugen oder die Erzeugung ist sehr kompliziert bzw. aufwändig. Jedoch kann es sein, dass diese Konfigurationen als Teil des stationären Zustandes einer Markov-Kette gefunden werden können. [Ber04, S. 143] [Has70] Die Idee der Markov-Ketten Monte Carlo Algorithmen liegt darin, die Konfigurationen x i nicht unabhängig voneinander zu wählen bzw. zu erzeugen, sondern eine Markov-Kette zu konstruieren, wobei die Konfiguration x i+1 aus der vorhergehenden Konfiguration x i mittels einer geeigneten Übergangsvorschrift konstruiert wird. Es ist nun möglich, die Übergangswahrscheinlichkeiten der Markov-Kette so geschickt zu wählen, dass für den Grenzfall N die Wahrscheinlichkeitsverteilung der Zustände eine stationäre Verteilung ist, welche der vorgegebenen Wichtigkeitsverteilung entspricht. Dem Zustandsraum Ω der Markov-Kette entspricht hierbei die Menge der Konfigurationen, d. h. der Phasenraum Ω. Bedingt durch die i. d. R. enorme Anzahl von Zuständen wird die Übergangsmatrix dieser Markov-Kette niemals explizit erzeugt bzw. im Computer gespeichert. [Mur03, S. 25] [Ber04, S. 143] Bemerkung 4 Da (wie bereits erwähnt) viele Methoden der Monte Carlo Simulation aus der Physik entstammen, hat sich oft auch der etwas großzügige Sprachgebrauch der Physiker durchgesetzt. So wird i. d. R. immer von Markov-Ketten Monte Carlo Simulationen gesprochen, auch wenn der Zustandsraum stetig ist und die korrekte Bezeichnung daher eigentlich eher Markov-Prozess Monte Carlo Simulation wäre. Es sei p n (i) die Wahrscheinlichkeit, dass sich das System zum Zeitpunkt n im Zustand i befindet. Dann gilt die folgende Grundgleichung für homogene Markov-Ketten mit diskreter Zeit (engl. discrete time master equation): [Mur03, S. 25] (Vgl. auch [Rei80, S. 157ff., insbesondere S. 162]) p n+1 (i) = ( p n (j)p j,i + p n (i) 1 ) p i,j (2.19) j Ω j Ω j i j i = ) (p n (j)p j,i p n (i)p i,j + p n (i) (2.20) j Ω 13

2 Grundlagen der Monte Carlo Simulation Da im stationären Regime, d. h. im Grenzfall n, für alle i Ω p n+1 (i) = p n (i) = π i (2.21) gelten muss, kann das Erreichen eines Gleichgewichtszustandes sichergestellt werden, indem garantiert ist, dass alle Terme in der Summe über j Ω in Gleichung 2.20 Null sind. Dies stellt eine hinreichende Bedingung dar, die sog. detailed balance condition: und impliziert wegen π i p i,j = π j p j,i (2.22) π i π j = p j,i p i,j (2.23) dass nicht die einzelnen Übergangswahrscheinlichkeiten von Interesse sind, sondern lediglich das Verhältnis der Zustandswahrscheinlichkeiten der stationären Zustandsverteilung. [Ber04, S. 143ff.] [Bau87] [Has70, S. 99] [Mur03, S. 25] Im Umkehrschluss bedeutet dies, dass zur Konstruktion der Markov-Kette kein direktes Wissen über die Übergangswahrscheinlichkeiten notwendig ist, sondern lediglich die gewünschte stationäre Zustandsverteilung bekannt sein muss. Der erste Markov-Ketten Monte Carlo Algorithmus beruht auf der Arbeit von Metropolis, et al. und erzeugt Konfigurationen gemäß der Boltzmann-Verteilung. [MRR + 53, Yev03b] Da sich der Algorithmus im Wesentlichen durch seine Einfachheit und gute Adaptierbarkeit an neue Situationen auszeichnet, werden Abwandlungen von diesem Algorithmus heutzutage sehr häufig eingesetzt und alle diese Algorithmen als Metropolis-Algorithmen bezeichnet. [Ber04, S. 147] [Yev03b] Der Algorithmus 2.1 zeigt beispielhaft den Metropolis-Algorithmus. Wie aus Al- Algorithmus 2.1 Metropolis-Algorithmus 1: Wähle eine beliebige Konfiguration x akt Ω. 2: for run = 1 to N Runs do 3: Überführe die aktuelle Konfiguration x akt in eine neue Konfiguration x evtl durch eine (kleine) zufällige Veränderung. 4: if π(x evtl ) π(x akt ) then 5: Akzeptiere x evtl als neue aktuelle Konfiguration x akt. 6: else 7: Akzeptiere die Konfiguration x evtl mit Wahrscheinlichkeit π(x evtl) π(x akt ) als neue aktuelle Konfiguration x akt. 8: end if 9: Verwende die aktuelle Konfiguration x akt in der Simulation. 10: end for gorithmus 2.1 ersichtlich ist, wird ausgehend von einer aktuellen Konfiguration x akt durch eine (geringe) zufällige Veränderung eine neue Konfiguration x evtl generiert. Da 14

2 Grundlagen der Monte Carlo Simulation diese neue, vorgeschlagene Konfiguration lediglich auf der vorhergehenden Konfiguration beruht, ist an dieser Stelle die Markov-Eigenschaft des Prozesses gesichert. Die neue, vorgeschlagene Konfiguration wird nun mit folgender Wahrscheinlichkeit angenommen: { 1 falls π(xevtl ) π(x akt ) p akt, evtl = π(x evtl ) π(x akt ) falls π(x evtl ) < π(x akt ) ( = min 1, π(x ) evtl) π(x akt ) (2.24) (2.25) Es ist leicht nachprüfbar, dass die nach 2.25 ermittelten Übergangswahrscheinlichkeiten die Bedingungen der detailed balance erfüllen. Ein entscheidender und häufig fehlerhaft implementierter Punkt beim Metropolis-Algorithmus findet sich in Zeile 9. Wird die neue Konfiguration x evtl akzeptiert, so wird diese Konfiguration für die Simulation verwendet. Andernfalls wird die alte (beibehaltene) Konfiguration x akt erneut für die Simulation verwendet. [MRR + 53] [Ber04, S. 147] Beispiel 3 In der statistischen Physik ist es oft notwendig, Konfigurationen gemäß der Boltzmann-Verteilung zu erzeugen, d. h. jeder Konfiguration x ist ihr Boltzmann- Gewicht π B (x) = e βe(x) (2.26) zugeordnet und jede Konfiguration x soll daher mit der Wahrscheinlichkeit p B (x) = c B π B (x) = c B e βe(x) (2.27) erzeugt werden. (c B ist Normalisierungskonstante, β = 1/T ) [Ber04, S. 142ff.] Hierbei ist E(x) die Energiefunktion, d. h. die Funktion, die einer Konfiguration eine bestimmte Energie zuordnet. Diese Funktion wird auch Hamiltonfunktion genannt und daher oft auch mit dem Buchstaben H bezeichnet. Die Übergangswahrscheinlichkeiten werden nun wie folgt gewählt: { p B akt, evtl = 1 falls E(x evtl ) E(x akt ) e β(e(x (2.28) evtl) E(x akt )) falls E(x evtl ) > E(x akt ) ( ) = min 1, πb (x evtl ) π B (2.29) (x akt ) Ein Beweis für die Behauptung, dass mit dieser Wahl der Übergangswahrscheinlichkeiten die gewünschte stationäre Verteilung generiert wird, findet sich beispielsweise in [BH88, S. 17ff.]. Bemerkung 5 Der Metropolis-Algorithmus hat Ähnlichkeit mit dem Simulated Annealing und kann als stochastisches Optimierungsverfahren zum Finden eines globalen Optimums verstanden werden. Im vorigen Beispiel (Bsp. 3) wird beispielsweise eine Konfiguration mit minimaler Energie gesucht. 15

2 Grundlagen der Monte Carlo Simulation Bemerkung 6 Eine allgemeinere Herleitung der Übergangswahrscheinlichkeiten findet sich in [Has70, S. 99f.]. Hierbei ergeben sich die Übergangswahrscheinlichkeiten nach Metropolis als ein Sonderfall, wobei auch andere Übergangswahrscheinlichkeiten möglich sind. Die Verallgemeinerung auf mehrdimensionale Verteilungen ist ebenfalls recht einfach möglich, wobei hierzu verschiedene Möglichkeiten Verwendung finden. [Has70, S. 101ff.] Es ist bei Metropolis-Algorithmen i. d. R. sinnvoll, die Akzeptanzrate bzw. die Ablehnungsrate für jede Simulation zu ermitteln. Die Akzeptanzrate ist hierbei definiert als der Anteil der akzeptierten vorgeschlagenen Konfigurationen x evtl an der Gesamtzahl der vorgeschlagenen Konfigurationen. Die Ablehnungsrate wird umgekehrt analog definiert, d. h. als Anteil der Konfigurationen bei denen x n+1 = x n gilt. Die Akzeptanzbzw. Ablehnungsrate kann Aufschluss über die Güte des verwendeten Algorithmus geben. Insbesondere können sie ein Indikator für eine schlecht gewählte Startkonfiguration, eine ungünstige Übergangsmatrix oder einen Fehler in der Implementierung sein. [Has70, S. 100] Jedoch gibt es nur sehr wenige allgemeingültige Regeln für gute oder schlechte Akzeptanz- bzw. Ablehnungsraten. Gebräuchliche Daumenregeln fordern eine Akzeptanzrate von etwa 50 % und stimmen partiell auch sehr gut mit theoretischen Erkenntnissen überein. [GRG96] Entscheidend zur Beurteilung der erzielten Akzeptanzraten bleibt jedoch in weiten Teilen empirisches Wissen über den zugrunde liegenden Prozess. Bemerkung 7 Die Effizienz von Metropolis-Algorithmen lässt sich unter Umständen erhöhen, indem auch die vorgeschlagenen, aber nicht akzeptierten Konfigurationen in die Simulation mit einbezogen werden. [Tje04] Zusammenfassend liegt der größte positive Aspekt der Markov-Ketten Monte Carlo Algorithmen darin, dass Konfigurationen gemäß beliebigen Verteilungsfunktionen generiert werden können. [Has70, S. 103] Allerdings sind die Probleme bei Markov-Ketten Monte Carlo Algorithmen weitgehend dieselben wie beim Importance Sampling: Entscheidend sind gute Kenntnisse von der stationären Verteilung bzw. die Kenntnis passender Gewichte (z. B. Boltzmann-Gewicht). [Ber97, Ber98] Daher gilt ebenso wie für das Importance Sampling, dass Markov-Ketten Monte Carlo Algorithmen (mit, wie hier vorgestellt, festen a priori bekannten Gewichten) nur dann anwendbar sind, wenn die wichtigen Regionen des Parameterraumes bekannt sind, d. h. diejenigen Regionen, die von besonderer Wichtigkeit bzw. Bedeutung sind. [Yev03a] Eine Möglichkeit, dieses Problem zu umgehen, bietet beispielsweise der Einsatz von multikanonischen Monte Carlo Simulationen. Bemerkung 8 Importance Sampling war lange Zeit (bis etwa Mitte der 70er) beschränkt auf die Boltzmann-Verteilung. Obwohl der theoretische Nutzen von sog. Non- Boltzmann-Verteilungen schon lange bekannt war, erfolgte die erste konkrete Anwendung in Form des Umbrella-Sampling erst in der Mitte der 70er Jahre. [Mur03, S. 54ff.] [GH00, S. 95] 16

2 Grundlagen der Monte Carlo Simulation 2.5 Multikanonische Monte Carlo Simulation Der größte Nachteil der Importance Sampling Methoden ist es, dass im vornhinein eine sinnvolle Wichtigkeitsverteilung π bekannt sein muss. Bei der multikanonischen Monte Carlo Simulation wird dagegen anfangs eine (nahezu) beliebige Wichtigkeitsverteilung verwendet und diese im Laufe des Verfahrens geeignet angepasst. [Ber97, Ber98, Ber04] Daher wird diese Methode oft auch als adaptive Monte Carlo Simulation bezeichnet. [Men05, S. 22] Der Algorithmus 2.2 zeigt beispielhaft den Ablauf einer multikanonischen Monte Carlo Simulation. Zu Beginn des Algorithmus wird eine beliebige Wichtigkeitsverteilung w 0 gewählt (Zeile 2) nach der im Folgenden die Konfigurationen erzeugt werden. Als eine einfache Wahl der Initialisierung bietet sich hier eine Gleichverteilung an. Algorithmus 2.2 Multikanonische Monte Carlo Simulation 1: Setze i = 0. 2: Wähle eine beliebige Wichtigkeitsverteilung w i (x). 3: while Histogramm nicht flach do 4: for run = 1 to N Runs do 5: Führe den Metropolis-Algorithmus aus, um Konfigurationen gemäß w i (x) zu erzeugen. Ein Zustandsübergang ( ) von k nach l erfolgt hierbei mit Wahrscheinlichkeit wk,l i = min 1, wi (l). w i (k) 6: Verwende die aktuelle Konfiguration für die Simulation und aktualisiere das Histogramm H i. 7: end for 8: Berechne aus H i die aktuelle Wahrscheinlichkeitsverteilung p i. 9: Berechne die neue Wichtigkeitsverteilung: w i+1 (x) 1 p i (x). 10: i = i + 1 11: end while 12: Auswertung der simulierten Daten. Nach der Initialisierung erfolgt die eigentliche Simulation, welche sich aus mehreren Iterationen zusammensetzt (while-schleife, Zeilen 3 11). In jeder Iteration werden mittels des Metropolis-Algorithmus N Runs Konfigurationen gemäß der aktuellen Gewichtsfaktoren w i erzeugt (Zeilen 4 7). Erfolgt die Initialisierung der Gewichte w 0, wie oben vorgeschlagen, mit einer Gleichverteilung, so werden in dem ersten Durchlauf alle Konfigurationsübergänge akzeptiert (vgl. Zeile 5). In diesem Fall entspricht die erste Iteration einer Standard Monte Carlo Simulation. Am Ende einer Iteration wird aus dem erhaltenen Histogramm H i die aktuelle Wahrscheinlichkeitsverteilung p i berechnet. Anschließend werden die Gewichtsfaktoren für die nächste Iteration ermittelt (vgl. Zeile 9). Um in der Folgeiteration Konfigurationen zu bevorzugen, welche in der aktuellen Konfiguration selten generiert wurden, werden die neuen Gewichtsfaktoren umgekehrt proportional zu der aktuell erhaltenen Wahrscheinlichkeitsverteilung gewählt. [GH00] [Yev03c, Yev03a] [Ber97, Ber98] 17

2 Grundlagen der Monte Carlo Simulation Bemerkung 9 Die Wahrscheinlichkeitsverteilungen nach der die Konfigurationen x erzeugt werden, werden mit w i (x) bezeichnet, da die w i (x) auch als Gewichte bzw. Gewichtsfaktoren (engl. weights) bezeichnet werden. Die durch die Simulation ermittelten Wahrscheinlichkeitsverteilungen werden mit p i (x) bezeichnet. Besondere Aufmerksamkeit bei diesem Algorithmus wird noch der Abbruchbedingung der while-schleife zuteil (vgl. Zeile 3). Da es das Ziel der multikanonischen Monte Carlo Simulation ist, dass alle Konfigurationen des Zustandsraums gleich häufig generiert werden, ist eine mögliche Abbruchbedingung, zu testen, ob das erzeugte Histogramm über einen weiten Bereich ausreichend flach ist. Eine praktischere und häufig anzufindende Variante ist es, diese Abbruchbedingung durch eine fest vorgegebene Anzahl von Iterationen zu ersetzen. Zusammenfassend lässt sich sagen, dass der Schlüsselfaktor der multikanonischen Monte Carlo Simulation die adaptive Veränderung der Gewichtsfaktoren und damit des zugrunde liegenden Markov-Prozesses ist. Somit liegt der wesentliche Vorteil der multikanonischen Monte Carlo Simulationen darin, dass die Gewichtsfaktoren nicht im vornherein bekannt sein müssen. Des Weiteren ist die multikanonische Monte Carlo Simulation prinzipiell eine recht einfache Erweiterung der bereits vorher vorgestellten Monte Carlo Methoden. Daher lassen sich bestehende Monte Carlo Simulationen recht einfach zu multikanonischen Monte Carlo Simulationen erweitern. [GH00] Bemerkung 10 Die Bezeichnung multikanonisch rührt von den physikalischen Ursprüngen dieser Simulationsmethode her. In der ersten Veröffentlichung [BN91] wurden die Gewichtsfaktoren so parametrisiert, dass nicht nur eine kanonische Verteilung generiert wird, sondern für unterschiedliche Bereiche unterschiedliche kanonische Verteilungen (vgl. auch [GH00, S. 100] und [BN92]). 18

3 Polarisation Building simulation models and running simulations are activities that call upon a wide variety of skills and considerations which we might divide into two broad categories: the art and the science of simulation. [JBS00, S. 13] 3.1 Modellierung 3.1.1 Grundlagen Die Ausbreitung von Licht (oder allgemeiner: von Transversalwellen) im dreidimensionalen Raum wird durch vektorielle Größen beschrieben. Dies ist einerseits der Wellenvektor #» k, welcher in die Ausbreitungsrichtung der Welle zeigt und andererseits der Feldvektor #» E des elektrischen Feldes, welcher immer orthogonal zu dem Wellenvektor #» k ausgerichtet ist. Das Licht heißt natürlich oder nicht-polarisiert, falls die Richtung von #» E sich schnell und zufällig verändert. Verhält sich #» E jedoch geordnet bzw. deterministisch, so heißt das Licht polarisiert. Bemerkung 11 Polarisation ist eine Eigenschaft, welche nicht auf Licht beschränkt ist, sondern bei allen Arten von Vektorwellen (z. B. elektromagnetische Wellen, elastische Wellen und Spinwellen in Festkörpern) gegeben ist und das zeitabhängige Verhalten eines zu der Welle gehörigen Feldvektors beschreibt. [AB77, S. 1] Wie in Abb. 3.1 veranschaulicht, werden drei wesentliche Polarisationszustände unterschieden: 1. Lineare Polarisation: Der Feldvektor #» E schwingt stets in eine konstante Richtung. 2. Zirkulare Polarisation: Der Feldvektor #» E rotiert mit konstanter Amplitude in der x y-ebene bzw. um den Wellenvektor #» k. 3. Elliptische Polarisation: Der Feldvektor #» E rotiert mit variierender Amplitude in der x y-ebene bzw. um den Wellenvektor #» k. Es ist leicht ersichtlich, dass die lineare und die zirkulare Polarisation lediglich Sonderfälle der elliptischen Polarisation sind. Bei der zirkularen und elliptischen Polarisation wird zudem zwischen rechts- und links-polarisiertem Licht unterschieden. Wie aus Abb. 3.2 ersichtlich ist, kann die Polarisation einer Welle als Überlagerung zweier orthogonaler Basiswellen verstanden werden. Der jeweilige Polarisationszustand 19