Ermittlung der prädiktiven Unsicherheit von hydrologischen Modellsimulationen und Vorhersagen



Ähnliche Dokumente
Probabilistische Bewertung von hydrologischen Multi-Model-Ensembles

Statistische Thermodynamik I Lösungen zur Serie 1

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Forschungsstatistik I

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

QM: Prüfen -1- KN

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Binäre abhängige Variablen

Quantilsschätzung als Werkzeug zur VaR-Berechnung

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

W-Rechnung und Statistik für Ingenieure Übung 11

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

Korrelation - Regression. Berghold, IMI

1.3 Die Beurteilung von Testleistungen

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Die Optimalität von Randomisationstests

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Statistische Auswertung:

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Zeichen bei Zahlen entschlüsseln

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

(1) Problemstellung. (2) Kalman Filter

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

Stochastische Eingangsprüfung,

Statistik II für Betriebswirte Vorlesung 2

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Musterlösung zu Serie 14

9. Schätzen und Testen bei unbekannter Varianz

Additional Cycle Index (ACIX) Thomas Theuerzeit

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Plotten von Linien ( nach Jack Bresenham, 1962 )

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

4. Erstellen von Klassen

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Ausarbeitung des Seminarvortrags zum Thema

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Value at Risk Einführung


Lineare Gleichungssysteme

5.12. Variable Temperaturgradienten über dem Scheibenzwischenraum

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Interne und externe Modellvalidität

Überblick über die Verfahren für Ordinaldaten

AUTOMATISIERTE HANDELSSYSTEME

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Korrelation (II) Korrelation und Kausalität

Naturgefahrenbeurteilungein integrativer Ansatz

Data Mining: Einige Grundlagen aus der Stochastik

Risiko und Symmetrie. Prof. Dr. Andrea Wirth

Task: Nmap Skripte ausführen

Fortgeschrittene Statistik Logistische Regression

Die Interferenz von flexiblen Arbeitszeiten mit der Nutzbarkeit arbeitsfreier Zeit Ein Prädiktor für soziale Beeinträchtigungen

Primzahlen und RSA-Verschlüsselung

F-Praktikum Physik: Photolumineszenz an Halbleiterheterostruktur

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Professionelle Seminare im Bereich MS-Office

Einfache statistische Auswertungen mit dem TI-Nspire

Mitarbeiterbefragung als PE- und OE-Instrument

Einführung in statistische Analysen

Kapitalerhöhung - Verbuchung

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

14. Minimale Schichtdicken von PEEK und PPS im Schlauchreckprozeß und im Rheotensversuch

Derivate und Bewertung

Corporate Actions in epoca

Elementare Bildverarbeitungsoperationen

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Stichprobenauslegung. für stetige und binäre Datentypen

Mean Time Between Failures (MTBF)

Das Black-Scholes Marktmodell

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

Vorstellung eines Verfahrens zur operationell optimalen Auswahl von Korrekturverfahren für die Abflussvorhersage

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Künstliches binäres Neuron

Ein möglicher Unterrichtsgang

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Beispiel Zusammengesetzte Zufallsvariablen

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Transkript:

Bastian Klein, Dennis Meißner, Robert Pinzinger und Dmytro Lisniak Ermittlung der prädiktiven Unsicherheit von hydrologischen Modellsimulationen und Vorhersagen mit Copulas Estimation of the predictive uncertainty of hydrological model simulations and forecasts using copulas In diesem Artikel wird eine bis dato wenig verbreitete Methode für die Ermittlung der prädiktiven Unsicherheit von hydrologischen Modellsimulationen und Vorhersagen vorgestellt. Die Wahrscheinlichkeitsverteilung der Unsicherheit wird aus der statistischen Analyse der Modellperformanz in der Vergangenheit ermittelt. Die bedingte Wahrscheinlichkeitsverteilung der vorherzusagenden Größe, hier Abfluss, in Abhängigkeit von der Modellprognose wird über Copulas ermittelt. Mit Hilfe von Copulas wird die gemeinsame Wahrscheinlichkeitsverteilung mehrerer Zufallsvariablen über einen funktionalen Zusammenhang der univariaten Randverteilungen beschrieben. Diese Methode wird an zwei Pegeln im Rheingebiet beispielhaft angewendet und mit anderen existierenden Methoden zur Ermittlung der prädiktiven Unsicherheit verglichen. Schlagwörter: Copulas, hydrologische Modellsimulation, hydrologische Vorhersage, prädiktive Unsicherheit, Wahrscheinlichkeitsverteilung A method to estimate the predictive uncertainty of hydrological model simulations and forecasts based on the model performance in the past is presented in this paper. Copulas are applied to estimate the probability distribution of the real value of interest (e.g. observed runoff) conditional on the hydrological model simulation. The joint probability distribution of correlated random variables can be expressed in terms of the univariate marginal distributions and a copula function. This method is applied to hydrological model simulations at two gauges in the River Rhine Basin and the results are compared to existing methods to estimate the predictive uncertainty. Keywords: Copulas, hydrological forecasts, hydrological model simulation, predictive uncertainty, probability distribution 1 Einleitung Wie sich bei dem jüngsten Hochwasserereignis im Juni 2013 wieder gezeigt hat, sind hydrologische Echtzeit-Vorhersagen von Wasserstand und Abfluss eine entscheidende Grundlage für das Risikomanagement von Hochwasserereignissen. Daneben sind sie eine wichtige Entscheidungshilfe für die wirtschaftlichoptimale Nutzung der Gewässer, z.b. als Verkehrsträger. Der tatsächliche Nutzen eines operationellen Vorhersagesystems für die Gesellschaft ist abhängig von der Zuverlässigkeit und Genauigkeit der hydrologischen Vorhersagen. Zu große Unsicherheiten in der Vorhersage können diesen Nutzen im Entscheidungsprozess reduzieren. Verallgemeinert können Unsicherheiten in zwei Kategorien eingeteilt werden (HALL 2003): Aleatorische Unsicherheiten bezeichnen die systeminhärente Variabilität in Raum und Zeit, wie z.b. das deterministisch-chaotische Verhalten des Klimasystems, das die Vorhersagbarkeit des Wetters begrenzt. Diese Unsicherheiten sind in der Regel nur über einen probabilistischen Ansatz im Sinne der Ensembletechnik bzw. über eine definierte Annahme im Sinne der Szenariotechnik fassbar. Epistemische Unsicherheiten hingegen resultieren aus dem unvollkommenen Wissen über das zu modellierende System. Sie sind u.a. der Modellstruktur, der ungenauen Kenntnis der Modellparameter und den nicht oder nur vereinfacht betrachteten Prozessen zuzuschreiben. Messfehler der Zustands- und der Antriebsvariablen zählen ebenfalls zu dieser Unsicherheitskategorie. Unsicherheitsquellen in der meteorologischen-hydrologischen Vorhersagekette sind die Unsicherheiten in den meteorologi- schen Beobachtungsdaten (Messfehler und Bestimmung der raum-zeitlichen Verteilung durch Interpolation) und numerischen Wettervorhersagen (chaotisch-deterministisches Verhalten in der Erdatmosphäre, z.b. PALMER & HAGEDORN 2006), die strukturelle Modellunsicherheit und Parameterunsicherheit des hydrologischen/hydrodynamischen Modells sowie die unsichere Schätzung der Anfangs- und Randbedingungen des hydrologischen/hydrodynamischen Modells. Strukturelle Modellunsicherheit entsteht durch die vereinfachte Abbildung der Realität durch die Modellstruktur, in der evtl. entscheidende Prozesse nicht dargestellt werden, und durch die Diskretisierung des Modells. Parameterunsicherheit entsteht aus der Kalibrierung des Modells, da viele Modellparameter nicht direkt gemessen werden können und im Allgemeinen an dem gemessenen Abfluss eines Pegels kalibriert werden müssen. Da der simulierte Abfluss eine integrierte Systemantwort des hydrologischen Modells darstellt, ist es nicht mehr möglich, einen einzigen gültigen Parametersatz zu bestimmen. Nach dem Prinzip der Equifinalität (BEVEN & BINLEY 1992) führen unterschiedliche Parametersätze zu ähnlich guten Simulationsergebnissen (s. TYRALLA & SCHUMANN 2014). Ziel in der hydrologischen Vorhersagepraxis ist die Reduzierung der oben beschriebenen Unsicherheiten durch Methoden wie z.b. Vorhersage-Fehlerkorrektur (BOGNER et al. 2014, PINZINGER et al. 2014) und Datenassimilation (BLÖSCHL et al. 2014, LISNIAK et al. 2014). Nichtsdestotrotz verbleibt insbesondere auf Grund der aleatorischen Unsicherheitsquellen eine Rest-Unsicherheit, die durch statistische Post-Prozessierung zu quantifizieren ist. Entscheidungen, z.b. Öffnung der Hochwasserpolder zur Reduktion des Hochwasser-Scheitels, hängen von einer Prognose des 95

Fachartikel I DOI: 10.5675/HyWa_2014,2_5 Klein et al.: Ermittlung der prädiktiven Unsicherheit von hydrologischen... HW 58. 2014, H. 2 unbekannten Wertes der vorherzusagenden Größe (Prädikant z.b. Wasserstand, Abfluss) in der Zukunft ab. Im optimalen Fall kann über eine Risiko-Nutzen-Kosten Betrachtung die beste Entscheidung ermittelt werden. Daher ist die Unsicherheit der unbekannten hydrologischen Variablen y in der Zukunft in der Form einer bedingten Wahrscheinlichkeitsverteilung, in Abhängigkeit aller, zum Vorhersagezeitpunkt verfügbarer Informationen, von essentieller Bedeutung für eine rationale Entscheidungsfindung (KRZYSZTOFOWICZ 1999). In der Wissenschaft hat der Paradigmenwechsel von der deterministischen zur probabilistischen Vorhersage bereits stattgefunden (z.b. BARTHOLMES et al. 2009, CLOKE & PAPPENBERGER 2009, THIELEN et al. 2009, WEERTS et al. 2011), aber auch in der operationellen Vorhersagepraxis in Deutschland findet in den letzten Jahren verstärkt ein Wechsel hin zu einer Unsicherheitsbetrachtung und -quantifizierung statt (z.b. HAAG et al. 2013, LAURENT et al. 2010, VOGELBACHER 2014). Ein Hindernis in der Anwendung von probabilistischen Vorhersagen ist hierbei die adäquate Kommunikation der Unsicherheitsinformationen an den Endnutzer der Vorhersage (MEIßNER et al. 2014). In diesem Artikel wird eine Methode zur Ermittlung der prädiktiven Unsicherheit von hydrologischen Vorhersagen vorgestellt, bei der die bedingte Wahrscheinlichkeitsverteilung der vorherzusagenden Größe in Abhängigkeit von Modellprognosen über Copulas ermittelt wird. In Abschnitt 2 werden einige gängige Verfahren zur Ermittlung der prädiktiven Unsicherheit vorgestellt, in Abschnitt 3 kurz die Theorie von Copulas beschrieben und in Abschnitt 4 die Anwendung von gemischten Wahrscheinlichkeitsverteilungen für die Schätzung der univariaten Randverteilungen erläutert. In dem Anwendungsbeispiel in Abschnitt 5 wird die vorgestellte Methode mit zwei anderen Methoden zur Ermittlung der prädiktiven Unsicherheit an zwei Pegeln im Rheineinzugsgebiet verglichen. 2 Verfahren zur Ermittlung der prädiktiven Unsicherheit Die Unsicherheit des realen Wertes der Variablen y (z.b. Abfluss, Wasserstand) zum Zeitpunkt t ist eine bedingte Wahrscheinlichkeitsverteilung f ( y t ŷ t ) in Abhängigkeit von der hydrologischen Modellvorhersage ŷ, die in der Praxis dem zum Vorhersagezeitpunkt verfügbaren Wissen über die Zukunft entspricht. Diese Unsicherheit wird nach TODINI (2008) auch als prädiktive Unsicherheit Predictive uncertainty bezeichnet. Diese prädiktive oder auch Prognoseunsicherheit ist abhängig von dem verwendeten Modell, dem Parametersatz des Modells und den gegebenen externen Antriebsdaten. Durch die Integration weiterer Unsicherheits-Informationen, wie z.b. der Parameterunsicherheit, kann die prädiktive Unsicherheit über Bayes sche Ansätze reduziert werden (z.b. TODINI 2008). Bei den hydrologischen Modellvorhersagen ŷ kann es sich um eine deterministische Vorhersage eines hydrologischen Modells, aber auch um Vorhersagen mehrerer hydrologischer Modelle (Multi-Model Ensemble) mit demselben meteorologischen Input oder um meteorologische Ensemblevorhersagen handeln. In der praktischen Anwendung wird diese Unsicherheitsdefinition oft mit der nach TODINI (2011) als Validierungsunsicherheit Validation uncertainty bezeichneten Unsicherheit vermischt (Abb. 1). Die Validierungsunsicherheit, in manchen Publikatio- Abbildung 1 Validierungsunsicherheit (linke Seite), die die Unsicherheit der Prognose eines beobachteten Wertes charakterisiert, und prädiktive Unsicherheit (rechte Seite), die die Unsicherheit der Beobachtung in Abhängigkeit eines simulierten Wertes beschreibt (nach TODINI 2011) Validation uncertainty (left), describing the uncertainty of the prediction of an observed value, and predictive uncertainty (right), describing the uncertainty of observed values conditional on a prediction (after TODINI 2011) nen auch als Modellunsicherheit bezeichnet (z.b. EHRET 2012), beschreibt die Güte eines Modells, die Realität abzubilden. Sie beschreibt also die Unsicherheit der Prognose ŷ in Abhängigkeit von der bekannten Beobachtung y: f (ŷ t y t ). Diese Unsicherheit ist wichtig für die Bewertung der Güte des Modells. Um diese hinsichtlich Modellstruktur und Parameterschätzung zu verbessern, ist die Validierungsunsicherheit zu minimieren. Für die Ermittlung der bedingten Wahrscheinlichkeitsverteilung der vorherzusagenden Größe in Abhängigkeit von Modellprognosen wurden in der Vergangenheit mehrere Methoden entwickelt. Hierbei ist zu unterscheiden, ob die Unsicherheit aus einer deterministischen Modellvorhersage oder aus Ensemblevorhersagen (hydrologisches Multi-Model Ensemble oder meteorologisches Ensemble) ermittelt wird. KRZYSZTOFOWICZ (1999) stellt ein Bayesianisches Vorhersage Framework vor, in dem die hydrologische Modellunsicherheit über den Hydrological Uncertainty Processor (HUP) und die meteorologische Vorhersageunsicherheit über den Input Uncertainty Processor (IUP) getrennt ermittelt und über einen Integrator zu einer Gesamtunsicherheit zusammengeführt werden (BOGNER et al. 2014). In dem Hydrological Uncertainty Processor (KRZYSZTOFOWICZ 1999, KRZYSZTOFOWICZ & KELLY 2000) werden also alle oben beschriebenen Quellen der hydrologischen Modellunsicherheit zusammengefasst. Er basiert auf dem Theorem von Bayes in Verbindung mit einem linearen Regressionsmodell zwischen den normalisierten Werten der Simulation und Beobachtung als Likelihood-Funktion. Kern ist hierbei die Transformation der Werte in den normalen Raum mit der Normal-Quantil-Transformation NQT (VAN DER WAERDEN 1952, VAN DER WAERDEN 1953a, VAN DER WAERDEN 1953b). Für eine detaillierte Ermittlung der Normal-Quantil-Transformation und die Bestimmung der Parameter des HUP siehe TODINI (2008). Als a priori Modell in dem Theorem nach Bayes wird angenommen, dass der Wasserstand bzw. Abfluss mit einem autoregressiven Markov-Prozess der ersten Ordnung modelliert werden kann. Diese Annahme ist eine der Schwächen des HUP, da mit einem Markov-Prozess der ersten Ordnung insbesondere bei Hochwasserwellen die an- und absteigenden Äste nicht adäquat modelliert werden können. In REGGIANI & WEERTS (2008) wird der Markov-Prozess für das a 96

priori Modell im Uncertainty Prozessor durch ein lineares Regressions-Modell ersetzt, das mehrere Beobachtungen an mehreren Pegeln berücksichtigt. Zusätzlich berücksichtigen die Autoren auch die meteorologische Vorhersage-Unsicherheit direkt in dem Unsicherheits-Prozessor. MONTANARI & GROSSI (2008) und MONTANARI & BRATH (2004) wenden ebenfalls ein lineares Regression-Modell an, um den statistischen Zusammenhang zwischen den normalisierten Werten der Modellsimulation und dem normalisierten Fehler zwischen Modellsimulation und Beobachtung zu beschreiben, um daraus die Verteilung der Unsicherheit zu bestimmen. Auch hier findet eine Transformation der Werte über eine NQT in den normalen Raum statt. Die bisher vorgestellten Ansätze setzen eine Homoskedastizität der Fehlervarianz der Modellsimulation im normalen Raum voraus, was bedeutet, dass die Varianz des Fehlers unabhängig von dem Wert der Simulation ist. Dies ist bei der Fehlerstruktur von hydrologischen Modellen selten der Fall, da zumeist extreme Abflussbereiche, insbesondere Hochwasser, weniger exakt abgebildet werden als mittlere Zustände. Auch durch die Transformation der Werte in den normalen Raum wird oftmals keine Homoskedastizität des Fehlers erreicht. Um die Heteroskedastizität in der Fehlervarianz bei der Unsicherheitsanalyse zu berücksichtigen, wenden WEERTS et al. (2011) das Verfahren der Quantil-Regression (KOENKER 2005) zur Ermittlung der prädiktiven Unsicherheit an. Im Gegensatz zu den klassischen Regressionsverfahren wird bei der Quantil-Regression nicht auf den Mittelwert der abhängigen Variablen optimiert, sondern auf die Quantile. Für jede Quantile wird eine eigene Regressionsgerade im normalen Raum ermittelt. Dadurch können die relevanten Quantile der bedingten Wahrscheinlichkeitsverteilung ermittelt werden. WEERTS et al. (2011) führen die Quantil-Regression zwischen der Modellsimulation und dem Modellfehler durch. Da für jede Quantile ein eigenes lineares Regressionsmodell mit zwei Parametern geschätzt werden muss, ergibt sich bei der Quantil- Regression eine große Anzahl von Parametern. TODINI (2008) führt den Model Conditional Prozessor MCP ein, bei dem die bedingte Wahrscheinlichkeitsverteilung des Prädikants in Abhängigkeit von mehreren Modellvorhersagen über eine multivariate Normal-Verteilung beschrieben wird. Um das oben beschriebene Problem der Heteroskedastizität in der Fehlervarianz zu umgehen, erweitern COCCIA & TODINI (2011) den MCP um das Prinzip der gestutzten gemeinsamen Normal- Verteilung, in dem die gemeinsame Wahrscheinlichkeitsverteilung im normalen Raum durch zwei (oder mehrere) gestutzte Normal-Verteilungen beschrieben wird. Durch diese Aufteilung der multivariaten Wahrscheinlichkeitsverteilung kann auch eine Heteroskedastizität in der Fehlervarianz modelliert werden. Ein weiteres Verfahren für die Ermittlung der Unsicherheit in Abhängigkeit von mehreren Modellprognosen ist das Bayesian Model Averaging (z.b. RAFTERY et al. 2005). Ziel des Bayesian Model Averaging ist die Bestimmung des Mittelwertes und der Standardabweichung der Verteilung für jeden zukünftigen Wert des Prädikanten in Abhängigkeit von mehreren Modellvorhersagen. Der Originalansatz geht davon aus, dass der Prädikant und die Modellvorhersagen annähernd normalverteilt sind. Für weitere Details zu dieser Methode siehe HEMRI et al. (2014). Alle bisher vorgestellten Verfahren sind parametrische Verfahren. Ein Ansatz für die nicht-parametrische Schätzung der Unsicherheit auf der Grundlage von Ensemble-Vorhersagen wird in BROWN & SEO (2013) vorgestellt und funktioniert ähnlich wie das Indikator Co-Kriging in der Geostatistik. 3 Ermittlung der prädiktiven Unsicherheit mit Copulas Da an dieser Stelle nur ein kurzer Überblick über die Theorie von Copulas gegeben werden kann, wird zwecks einer umfassenden Beschreibung der Theorie von Copulas auf JOE (1997), NELSEN (1999) sowie SALVADORI et al. (2007) verwiesen. Die Copula ist eine Funktion, die die Abhängigkeitsstruktur zwischen korrelierten Zufallsvariablen unabhängig von den Randverteilungen beschreibt. Auf Grund der Flexibilität von Copulas werden sie immer häufiger auch in der Hydrologie zur multivariaten Analyse von Zufallsvariablen angewendet (eine ausführliche Literatur- Referenzliste von Copula-Anwendungen in der Hydrologie findet sich auf der Internetseite www.stahy.org der International Commission on Statistical Hydrology). Im Bereich der Vorhersage wenden MADADGAR et al. (2012) Copulas zur statistischen Post- Prozessierung von hydrologischen Vorhersageensembles an. Nach dem Theorem von SKLAR (1959) kann die gemeinsame multivariate Verteilungsfunktion von n korrelierten Zufallsvariablen X 1, X 2, X n mit den univariaten Randverteilungsfunktionen Fx 1 (x 1 ), Fx 2 (x 2 ),..., Fx n (x n ) über die Copula Funktion C beschrieben werden: Da Copulas unter der Bedingung von streng steigenden Transformationen von X 1, X 2, X n invariant sind, werden im Weiteren die gleichverteilten Zufallsvariablen u 1, u 2,, u n [0,1], die als u 1 = Fx 1 (x 1 ), u 2 = Fx 2 (x 2 ),... u n = Fx n (x n ), definiert werden, betrachtet. Die Dichtefunktion c der Copula ergibt sich zu Eine große Anzahl von Copula-Funktionen ist verfügbar, um die Abhängigkeit der Zufallsvariablen zu modellieren (z.b. JOE 1997, NELSEN 1999). Im Weiteren wird nur der in dieser Anwendung relevante zweidimensionale Anwendungsfall von Copulas mit den beiden Zufallsvariablen X und Y betrachtet. Es gibt mehrere Methoden, die Parameter der Copulas zu schätzen (z.b. GENEST & FAVRE 2007). Die in dieser Anwendung verwendete Schätzmethode ist die Maximum Pseudo-Likelihood Methode, bei der die auf Rangzahlen basierende Log-Likelihood-Funktion: maximiert wird, wobei R i der Rang von X i {X 1... X n } der Stichprobe der Länge n und S i der Rang von Y i {Y 1... Y n } ist. Durch die Verwendung der Rangzahlen wird die Abhängigkeitsstruktur der beiden Zufallsvariablen unabhängig von der unsicheren Schätzung der Randverteilungen ermittelt. (1) (2) (3) 97

Fachartikel I DOI: 10.5675/HyWa_2014,2_5 Klein et al.: Ermittlung der prädiktiven Unsicherheit von hydrologischen... HW 58. 2014, H. 2 Um das beste Copula-Modell zur Modellierung der Abhängigkeitsstruktur der Zufallsvariablen auszuwählen, wird das Akaike's Informations-Kriterium AIC (AKAIKE 1974) als Gütemaß verwendet: mit k der Anzahl der Parameter. Das beste Modell hat hierbei den kleinsten Wert. Der Log-Likelihood wird über Gleichung (3) ermittelt. Die gemeinsame bivariate Wahrscheinlichkeitsverteilung der Zufallsvariablen X und Y ergibt sich über die Copula Dichte c nach Gleichung (2) zu: die bedingte Wahrscheinlichkeitsverteilung von der Zufallsvariable X in Abhängigkeit von Y zu: und die bedingte Wahrscheinlichkeitsdichtefunktion von X in Abhängigkeit von Y zu: Unter Verwendung von Gleichungen (6) und (7) kann die prädiktive Unsicherheit des realen Wertes der Variable y in Abhängigkeit von der Modellprognose ŷ unter Verwendung der Copula Theorie beschrieben werden. 4 Ermittlung der Randverteilung mit gemischten Verteilungsfunktionen In sehr vielen Anwendungen der in Abschnitt 2 beschriebenen Verfahren zur Ermittlung der Unsicherheit werden die Variablen in den normalen Raum transformiert, die bedingte Wahrscheinlichkeitsverteilung im normalen Raum ermittelt und die Quantile wieder in den realen Raum zurücktransformiert. Methoden für die Transformation der Daten in den normalen Raum sind die Box-Cox Transformation (BOX & COX 1964), log-sinh Transformation (WANG et al. 2012) und die Normal Quantil Transformation (VAN DER WAERDEN 1952, VAN DER WAERDEN 1953a, VAN DER WAERDEN 1953b). Bei der Normal Quantil Transformation NQT wird über die empirische Wahrscheinlichkeit der Werte im realen Raum der Zusammenhang zwischen den Quantilen im realen und normalen Raum ermittelt. Eine ausführliche Beschreibung zur Anwendung der NQT in der Praxis findet sich in TODINI (2008). Problematisch hierbei ist das Auftreten von größeren Werten als die bei der Ermittlung der NQT-Beziehung berücksichtigten, da die Beziehung über die empirischen Wahrscheinlichkeiten ermittelt wird. Für diese in der Praxis erforderliche Extrapolation existieren verschiedene Verfahren (z.b. COCCIA & TODINI 2011 und BOGNER et al. 2012). Wirklich befriedigend ist dieses Problem aus Sicht der Autoren aber bisher noch nicht gelöst. Bei der hier beschriebenen Anwendung mit Copulas werden die Randverteilungen der Zufallsvariablen mit parametrischen Verteilungsfunktionen beschrieben. Theoretisch könnte die bedingte Wahrscheinlichkeitsverteilung der prädiktiven Unsicherheit (4) (5) (6) (7) über Gleichung (6) auch über den Zusammenhang zwischen den Quantilen im realen Raum und den empirischen Wahrscheinlichkeiten ermittelt werden, aber auf Grund der oben beschriebenen Probleme bei der Extrapolation und unter Berücksichtigung der geplanten Erweiterung der hier vorgestellten Copula-Methode für die Ermittlung der prädiktiven Unsicherheit in Abhängigkeit von mehreren Modellprognosen wird der Ansatz mit den parametrischen Verteilungsfunktionen verwendet. Bei der Anpassung von Verteilungsfunktionen an kontinuierliche Daten, wie z.b. mittlerer täglicher Abfluss oder auch tägliche Niederschlagssummen, ergibt sich das Problem, dass im Allgemeinen nicht die gesamte Verteilung der Daten mit einer Verteilungsfunktion beschrieben werden kann. Dies ist auch unwahrscheinlich, da in der Stichprobe der täglichen Daten Werte aus komplett unterschiedlichen Ereignistypen enthalten sind. Bei Abflussdaten sind z.b. Hochwasserereignisse, die aus der Frühjahrs-Schneeschmelze und aus sommerlichen Starkniederschlägen entstanden sind, in der gleichen Stichprobe enthalten. Ebenso entstehen im Datensatz vorhandene Niedrig- und Mittelwasser aus anderen meteorologischen Situationen als die Hochwasserereignisse. Aus diesem Grund wurden gemischte Verteilungsfunktionen entwickelt, um die Verteilung der Werte besser abbilden zu können. Um die Extremwerte bei der täglichen Niederschlagsverteilung besser abzubilden, wenden HUNDECHA et al. (2009) eine Mischung aus einer Gamma- und einer Generalized Pareto-Verteilung an, wobei die beiden Verteilungen je nach Niederschlagssumme unterschiedlich gewichtet werden. Mit zunehmender Niederschlagssumme nimmt das Gewicht der Gamma-Verteilung ab und das Gewicht der Generalized Pareto-Verteilung zu. FURRER & KATZ (2008) modellieren die tägliche Niederschlagssumme bis zu einem Schwellenwert mit einer Gamma-Verteilung und verwenden ab dem Schwellenwert eine Generalized Pareto- Verteilung. SOLARI & LOSADA (2012) erweitern diesen Ansatz, indem drei Verteilungsfunktionen in unterschiedlichen Abschnitten der Verteilungsfunktion verwendet werden. Letzterer Ansatz wird in diesem Artikel für die Schätzung der Randverteilungen der Zufallsvariablen angewendet. Durch die Berücksichtigung von zwei Schwellenwerten u 1 und u 2 ergibt sich die Wahrscheinlichkeitsdichte und die Verteilungsfunktion der gemischten Verteilung zu: Die Multiplikation von der unteren Verteilung f m (x) mit F c (u 1 ) und der oberen Verteilung f M (x) mit [1 F c (u 2 )] ist erforderlich, um die Fläche der Wahrscheinlichkeitsdichte von eins zu garantieren. Für die untere Verteilung wird eine Minima Generalized Pareto- Verteilung und für die obere Verteilung eine Generalized Pareto- (8) (9) 98

Verteilung verwendet. Die Art der mittleren Verteilungsfunktion kann unabhängig von der oberen und unteren Verteilung frei gewählt werden, solange diese in dem Bereich u 1 und u 2 definiert ist. Die Wahrscheinlichkeitsdichtefunktion der Minima Generalized Pareto-Verteilung ist die gespiegelte (x = x) Dichtefunktion der Generalized Pareto-Verteilung, im weiteren Kontext als Maxima Generalized Pareto-Verteilung definiert, und die Wahrscheinlichkeitsdichte und die Wahrscheinlichkeitsverteilung ergeben sich zu: (10) (11) Die Minima-GP-Verteilung ist für k kleiner Null nach oben mit dem oberen Grenzwert u 1 beschränkt x u 1 ; k 1 < 0 und für k größer Null nach oben und nach unten beschränkt, u 1 a 1 / k 1 x u 1 ; k 1 > 0. Die Wahrscheinlichkeitsdichte und die Verteilungsfunktion der Maxima Generalized Pareto-Verteilung ergeben sich zu: (12) (13) Die Maxima-GP-Verteilung ist für k kleiner Null nach unten mit dem unteren Grenzwert u 2 beschränkt u 2 x; k 2 < 0 und für k größer Null nach oben und nach unten beschränkt u 2 x u 2 + a 2 / k 2 ; k 2 > 0. Durch die Parameterwahl der Minima und Maxima Generalized Pareto-Verteilungen muss sicher gestellt werden, dass die Wahrscheinlichkeitsdichtefunktion stetig ist und somit keine Sprünge an den Grenzen u 1 und u 2 der Verteilungsfunktionen auftreten. Über die Gleichungen (8), (10) und (12) ergeben sich aus f c (x = u 1 ) = f m (x = u 1 ) F c (u 1 ) und f m (x = u 2 ) = f m (x = u 2 ) [1 F c (u 2 )] die Parameter a 1 und a 2 der GP-Verteilungen zu: (14) Da die GP-Verteilungen für k > 0 nach unten (Minima GP) bzw. nach oben (Maxima GP) begrenzt sind, kann über die Wahl der Formparameter die gemischte Verteilungsfunktion nach unten mit dem Grenzwert b l und/oder nach oben mit dem Grenzwert b u begrenzt werden. Die Formparameter k 1 und k 2 ergeben sich dann zu: (15) SOLARI & LOSADA (2012) verwenden eine zweiparametrige Log- Normal-Verteilung als mittlere Verteilungsfunktion f c. Um die Ver- teilung der täglichen Abflussdaten möglichst optimal abzubilden, testen wir in der hier vorgestellten Anwendung unterschiedliche Verteilungsfunktionen, unter anderem die für die Randverteilungen ausgewählte 3-parameterige Log-Normal-Verteilung 3PLN, Log-Weibull-Verteilung LWB und Weibull-Verteilung WB für die mittlere Verteilung f c. Details zu den verwendeten Verteilungsfunktionen siehe RAO & HAMED (2010). Die Parameterschätzung der gemischten Verteilungsfunktionen erfolgt über die Maximum-Likelihood-Methode. 5 Anwendung Im Anwendungsbeispiel wird die prädiktive Unsicherheit des im operationellen Vorhersagesystem der Bundesanstalt für Gewässerkunde für die Bundeswasserstraße Rhein (MEIßNER & RADE- MACHER 2010) eingesetzten HBV-Modells (BERGSTROEM 1995) für zwei ausgewählte Pegel mit unterschiedlichen Einzugsgebietsgrößen ermittelt (Tab. 1). Die Lage der Pegel im Rheineinzugsgebiet ist in Abbildung 3 von MEIßNER et al. (2014) dargestellt. Die Vorhersagen der beiden Pegel bilden im operationellen Betrieb Randbedingungen für das hydrodynamische Modell zur Berechnung der Wasserstandsvorhersagen. Der verwendete meteorologische Antrieb des hydrologischen Modells sind die auf die 134 Teileinzugsgebiete interpolierten gemessenen Stationsdaten. Die meteorologische Vorhersageunsicherheit wird somit bei dieser Unsicherheitsbetrachtung nicht berücksichtigt, sondern nur die Unsicherheiten quantifiziert, die aus dem Mess- und Interpolationsfehler der meteorologischen Messdaten, der Unsicherheit aus der Modellstruktur, der Parameterunsicherheit und der unsicheren Schätzung der Anfangsbedingungen des Modells entstehen. Für diese Untersuchung werden aus den simulierten Stundenwerten des Abflusses im Zeitraum 1.11.1997 31.10.2012 Tagesmittelwerte ermittelt. Bei den verwendeten Beobachtungsdaten des Abflusses handelt es sich um die im operationellen Betrieb aus den gemessenen Wasserständen über eine Wasserstands-Abflussbeziehung umgerechneten Abflüsse. Hierbei ist zu beachten, dass der Pegel Trier bei einem Abfluss kleiner als 160 m³/s durch die unterhalb gelegene Staustufe rückstaubeeinflusst ist und die Wasserstands-Abfluss- Beziehung in diesem Bereich eigentlich nicht mehr gültig ist. Dies ist bei der späteren Interpretation der Ergebnisse zu berücksichtigen. Im Fall des Pegels Kalkofen ist die Rückstaubeeinflussung im Bereich des mittleren Niedrigwasserabflusses vernachlässigbar. Drei verschiedene Verfahren zur Ermittlung der Prognoseunsicherheit kommen hier zur Anwendung: der in Abschnitt 3 vorgestellte Copula-Ansatz, die Quantil-Regression (KOENKER 2005, WEERTS et al. 2011) und die Anwendung einer multivariaten Normal-Verteilung zur Beschreibung der gemeinsamen Wahrscheinlichkeitsverteilung (z.b. MONTANARI & BRATH 2004, TODINI 2008). Tabelle 1 Untersuchungspegel Validation gauges Pegel Fluss Einzugsgebietsgröße [km²] Mittlerer Abfluss [m³/s] Trier Mosel 23.857 282 Kalkofen Lahn 5.304 47 99

Fachartikel I DOI: 10.5675/HyWa_2014,2_5 Klein et al.: Ermittlung der prädiktiven Unsicherheit von hydrologischen... HW 58. 2014, H. 2 Da der Copula-Ansatz und die Quantil-Regression eine Heteroskedastizität in der Fehlervarianz modellieren können, wird mit der multivariaten Normal-Verteilung zu Demonstrationszwecken zusätzlich ein Ansatz berücksichtigt, der eine homoskedastische Fehlervarianz im normalen Raum voraussetzt. Aus diesen Gründen wird nicht der erweiterte Ansatz mit den gestutzten Normal-Verteilungen aus COCCIA & TODINI (2011) angewendet, da dieser ebenso eine heteroskedastische Fehlervarianz abbilden kann. Mit allen Verfahren wird der Zusammenhang zwischen der Beobachtung und der Simulation beschrieben und nicht, wie z.b. in WEERTS et al. (2011) und MONTANARI & BRATH (2004), der Zusammenhang zwischen Simulation und Simulationsfehler. Des Weiteren erfolgt die Transformation der Werte aus dem realen Raum in den normalen Raum nicht, wie bei WEERTS et al. (2011), MONTANARI & BRATH (2004) und TODINI (2008), über die NQT, sondern über die für die Copula-Methode angepassten Randverteilungen. Hierdurch wird eine direkte Vergleichbarkeit der Methoden sichergestellt. Alle Analysen werden mit der freien Statistik-Software R (R CORE TEAM 2013) durchgeführt. Für die Quantil-Regression wird das Package quantreg (KOENKER 2013) und für die Ermittlung der Copula-Funktionen das Package VineCopula (SCHEPSMEIER et al. 2013) angewendet. Die Ermittlung der prädiktiven Unsicherheit erfolgt für jedes Jahr separat, wobei für die Bestimmung der Parameter der unterschiedlichen statistischen Modelle nur die Abflussdaten aus den anderen Jahren verwendet werden, damit keine Daten gleichzeitig für die Anpassung der statistischen Modelle und die Validierung verwendet werden. So werden z.b. für die Ermittlung der prädiktiven Unsicherheit des hydrologischen Jahrs 2000 (1.11.1999 31.10.2000) nur die Simulations- und Beobachtungsdaten der Zeiträume 1.11.1997 31.10.1999 und 1.11.2000 31.10.2012 für die Bestimmung der Parameter der jeweiligen Verfahren verwendet. Für die täglichen Abflusswerte der Beobachtung und Simulation der beiden Pegel wird die in Abschnitt 4 vorgestellte dreigeteilte gemischte Verteilungsfunktion angepasst. Bei der Schätzung der Parameter wird ein oberer und unterer Grenzwert der Verteilungsfunktion vorgegeben: der untere Grenzwert b l mit 0 m³/s und der obere Grenzwert b u mit dem Dreifachen des Maximums in der Stichprobe. Somit sind nach Gleichungen (14) und (15) nur die Parameter der mittleren Verteilungsfunktion und die Grenzen u 1 und u 2 zu ermitteln. Da der Maximum-Likelihood der Verteilungsfunktionen und damit auch Gütemaße wie der AIC in Gleichung (4) sehr stark durch die große Anzahl von kleinen und mittelgroßen täglichen (und damit sehr wahrscheinlichen) Abflusswerten dominiert ist, wird die mittlere Verteilungsfunktion vorrangig über die visuelle Anpassung im Bereich der Werte mit geringer Überschreitungswahrscheinlichkeit in der kumulierten Verteilungsfunktion (Abb. 2) ausgewählt. Mit folgenden mittleren Wahrscheinlichkeitsverteilungen ergibt sich die beste Anpassung der gemischten Verteilungsfunktion an die Stichprobe: bei den beobachteten Werten am Pegel Trier die Weibull-Verteilung, bei den simulierten Werten am Pegel Trier die 3-parametrige Log-Normal-Verteilung, bei den beobachten Werten am Pegel Kalkofen ebenfalls die 3-parametrige Log-Normal- Verteilung und bei den simulierten Werten am Pegel Kalkofen die Log-Weibull-Verteilung. In Abbildung 2 ist beispielhaft die Anpassung der kumulierten Wahrscheinlichkeitsverteilung an die Beobachtungswerte der beiden Pegel dargestellt. In dem Package VineCopula (SCHEPSMEIER et al. 2013) ist eine große Anzahl unterschiedlicher Copula-Funktionen zur Modellierung der stochastischen Abhängigkeit zwischen der Beobachtung und der Simulation an beiden Pegeln implementiert. Die Auswahl der Copula mit der besten Anpassung an die Abhängigkeitsstruktur erfolgt über den AIC nach Gleichung (4). Für beide Pegel ergibt die Gumbel-Hougaard Copula die beste Anpassung an die Daten. Abbildung 2 Kumulierte Verteilungsfunktion der an die beobachteten Tagesmittel des Abflusses am Pegel Trier (links) und Pegel Kalkofen (rechts) angepassten gemischten Wahrscheinlichkeitsverteilungen mit den beiden Grenzwerten u 1 und u 2. Bei der Darstellung der kumulierten Verteilungsfunktion sind die Wahrscheinlichkeiten auf der x-achse im doppel-logarithmischen Maßstab aufgetragen. Die mittlere Verteilungsfunktion der gemischten Wahrscheinlichkeitsverteilung ist am Pegel Trier die Weibull-Verteilung (WB) und am Pegel Kalkofen die 3-parametrige Log-Normal-Verteilung (3PLN). Cumulative distribution function (cdf) plots of the mixture distributions fitted to the observed daily mean runoff of the gauges Trier (left) and Kalkofen (right) and the two thresholds u 1 and u 2. The probabilities on the x-axis of the cdf are in a log-log scale. The central distribution of the mixture distribution at the gauge Trier is the Weibull distribution (WB) and at the gauge Kalkofen the 3-parametric Log-Normal distribution (3PLN). Die Ergebnisse der unterschiedlichen Verfahren zur Bestimmung der prädiktiven Unsicherheit werden in Bezug auf drei Gütekriterien validiert und verglichen: Die Validierung der Genauigkeit ( Accuracy ) erfolgt über die Anpassungsgüte des Erwartungswertes der prädiktiven Unsicherheit an die Beobachtung, die Vertrauenswürdigkeit ( Reliability ) der ermittelten Quantile wird mit dem probability integral transform (PIT) und die Schärfe ( Sharpness ) über die Breite der 5 % 95 % Quantile bewertet. Als Gütestatistik für die Anpassung des Erwartungswertes der prädiktiven Unsicherheit an die Beobachtung wird neben der Nash-Sutcliffe Effizienz NSE 100

die in KLING et al. (2012) modifizierte Version der Kling-Gupta- Effizienz KGE (GUPTA et al. 2009) und deren Teilkomponenten verwendet: (16) mit dem Korrelationskoeffizient r zwischen Simulation und Beobachtung, der Bias-Ratio β als Verhältnis zwischen dem Mittelwert simuliert und beobachtet, und der Variability-Ratio γ als Verhältnis der beiden Variationskoeffizienten. Da der Erwartungswert der bedingten Wahrscheinlichkeitsverteilungen im normalen Raum nicht mit dem Erwartungswert im realen Raum übereinstimmt, wird der Erwartungswert der prädiktiven Unsicherheit näherungsweise über den Mittelwert der 1 %, 2 %, 99 % Quantile berechnet. In Tabelle 2 sind die Gütemaße der Anpassung der Simulation des hydrologischen Modells und der Erwartungswerte der prädiktiven Unsicherheit an die Beobachtung dargestellt. Die HBV-Simulation am Pegel Trier weist einen erkennbaren Bias auf, der vor allem aus der Verwendung der operationellen Beobachtungsdaten des Abflusses entsteht. Wie schon oben beschrieben, verliert die durch Messungen belegte Wasserstands- Abfluss-Beziehung bei niedrigen Abflüssen ihre Gültigkeit, und die Abflüsse sind vom Wasserstand weitestgehend entkoppelt. Dadurch ergeben sich bei der Anwendung einer verlängerten Wasserstands-Abfluss-Beziehung in dem Bereich der niedrigen Abflüsse im Allgemeinen zu hohe Beobachtungswerte des Abflusses. Aus diesem zu hoch angesetzten beobachteten Abfluss im Vergleich zur Simulation resultiert der große negative Bias des Modells, wobei theoretisch im Niedrigwasserfall die Modellsimulation eine bessere Schätzung des wahren Abflusses ist als der in dieser Anwendung angesetzte beobachtete Abfluss. einer deutlichen Verbesserung der Variability-Ratio. Die Varianz der Simulation entspricht also nach der statistischen Post-Prozessierung ungefähr der Varianz der Beobachtung. Bei dem Probability Integral Transform (PIT) Histogramm wird der Anteil der Beobachtungen in vordefinierten Quantil-Intervallen bestimmt. Hierbei sollte der prozentuale Anteil der Beobachtungen der Breite des jeweiligen Quantil-Intervalls entsprechen (HEMRI et al. 2014). Als Quantil-Intervalle werden hier 0 % 10 %, 10 % 20 %,, 90 % 100 % verwendet. Tabelle 2 Gütemaße Nash-Sutcliffe Efficiency (NSE), modifizierte Kling-Gupta Efficiency KGE und deren Einzelkomponenten der Simulation mit dem HBV-Modell (HBV) sowie dem Erwartungswert der Prognose-Unsicherheit mit Copulas (COP), Quantile Regression (QR) und Multivariate Normal-Verteilung (MN) verglichen mit der Beobachtung für den Zeitraum 1.11.1997 31.10.2012 für die Pegel Trier und Kalkofen. Goodness-of-fit measures Nash-Sutcliffe Efficiency (NSE), modified Kling- Gupta Efficiency KGE and its different decomposition components of the HBV model simulations and the expected values of the predictive uncertainty of the copula method (COP), quantile regression (QR) and multivariate normal distribution (MN) compared with the observation of the period 1997/11/01 2012/10/31 for the gauges Trier and Kalkofen. Modell NSE KGE Korrelation r Bias-Ratio β Var-Ratio γ Pegel Trier HBV 0,83 0,71 0,94 0,79 1,2 COP 0,87 0.93 0,94 1,01 1,03 QR 0,88 0,93 0,94 1 0,97 MN 0,88 0,92 0,94 1,00 0,95 Pegel Kalkofen HBV 0,85 0,86 0,93 0,93 0,89 COP 0,85 0,92 0,92 0,98 0,98 QR 0,85 0,86 0,92 0,98 0,89 MN 0,85 0,86 0,92 0,99 0,88 Dieser Bias wird durch die statistische Post-Prozessierung korrigiert, die niedrigen Modellsimulationen werden also auf die höheren Beobachtungsdaten berichtigt. Alle angewendeten Verfahren führen am Pegel Trier zusätzlich zu einer Verbesserung der Nash-Sutcliffe Effizienz und der Variability-Ratio. Die Ergebnisse der einzelnen Verfahren untereinander unterscheiden sich nicht wesentlich. Am Pegel Kalkofen ergibt sich keine Verbesserung der Nash- Sutcliffe Effizienz gegenüber der Simulation. Hier führt das Copula Verfahren im Vergleich zu den anderen Methoden zu Abbildung 3 Probability Integral Transform (PIT)-Histogramme für die Pegel Trier (oben) und Kalkofen (unten) für die verschiedenen Verfahren zur Ermittlung der Prognose-Unsicherheit; Copula (links), Quantile Regression QR (Mitte) und Multi-Normal-Verteilung (rechts) Probability Integral Transform (PIT)-Histograms of the different uncertainty estimation methods copula (left), quantile regression QR (center) and multi-normal distribution (right) for the gauge Trier (top) and Kalkofen (bottom) 101

Fachartikel I DOI: 10.5675/HyWa_2014,2_5 Klein et al.: Ermittlung der prädiktiven Unsicherheit von hydrologischen... HW 58. 2014, H. 2 Nach Abbildung 3 zeigt die Quantil-Regression bei beiden Pegeln die höchste Vertrauenswürdigkeit der ermittelten Quantile. Das flache PIT-Histogramm belegt, dass in jedes Quantil-Intervall ungefähr 10 % der Beobachtungswerte fallen. Die Form der Histogramme deutet im Fall der multivariaten Normal-Verteilung auf einen Überdispersionsfehler hin, d.h. eine zu große Streuung der Unsicherheitsverteilung. Bei der Interpretation der Ergebnisse ist zu berücksichtigen, wie viele Parameter pro Modell angepasst werden. Bei der Copula- Methode und der multivariaten Normal-Verteilung wird die Abhängigkeit zwischen Simulation und Beobachtung mit einem Parameter modelliert, bei der Quantil-Regression werden für jedes Quantil 2 Parameter angepasst. Bei der Validierung mit dem PIT- Histogramm werden 9 Quantile (10 %, 20 %,, 90 %) ermittelt und somit für die Quantil-Regression 18 Parameter angepasst. Aus diesem Grund ist die gute Performanz des Verfahrens beim PIT-Histogramm auch nicht weiter verwunderlich. Die Verteilung der Breite der 5 % 95 % Quantile zur Validierung der Vorhersageschärfe wird über Box-Whisker-Plots dargestellt. Bei dem Box-Whisker-Plot entspricht die Box dem 25 % bis 75 % Quantil, der Median wird als durchgezogener Strich dargestellt und die Antennen (Whisker) gehen bis zum größten Wert innerhalb des 1,5-Fachen des Interquartilsabstandes, Werte außerhalb des 1,5-Fachen des Interquartilabstandes (Ausreißer) werden als Punkte dargestellt. Je schmaler das Unsicherheitsband der Verteilung ist, desto schärfer ist die probabilistische Prognose. Abbildung 4 Verteilung der Breite des 5 % 95 % Prognose-Intervalls der unterschiedlichen Verfahren zur Ermittlung der Prognose-Unsicherheit, Copula COP, Quantile Regression QR und multivariate Normal-Verteilung MN als Box- Whisker-Plot für die Pegel Trier (links) und Pegel Kalkofen (rechts) Distribution of the 5 % 95 % quantile widths as box-whisker plots estimated using the different uncertainty estimation methods: copula COP, quantile regression QR and multivariate normal distribution MN for gauge Trier (left) and gauge Kalkofen (right) Die Copula-Methode und die Quantil-Regression zeigen nach Abbildung 4 an beiden Pegeln deutlich schmalere Unsicherheitsbänder als die multivariate Normal-Verteilung. Diese höhere Schärfe beider Verfahren belegt den Vorteil von Verfahren, die eine Heteroskedastizität in der Fehlervarianz berücksichtigen können. Der Vergleich der prädiktiven Unsicherheit für das Hochwasserereignis im Januar 2011 am Pegel Trier zeigt die unterschiedlichen Ergebnisse der drei angewendeten Verfahren. Insbesondere im Bereich der hohen Abflüsse haben die Copula-Methode und die Quantil-Regression ein deutlich schmaleres Unsicherheitsband als die multivariate Normal-Verteilung. 5 Zusammenfassung und Ausblick Abbildung 5 Prädiktive Unsicherheit der verschiedenen Verfahren für das Ereignis Januar 2011 am Pegel Trier: Copula- Methode (links oben), Quantile Regression QR (rechts oben) und multivariate Normal-Verteilung (unten) Estimated predictive uncertainty of the different methods for the January 2011 flood event at the gauge Trier: copula-method (top left), quantile regression QR (top right), and multivariate normal distribution (bottom) Die Betrachtung von Unsicherheiten in der Vorhersage und deren Quantifizierung hat in den letzten Jahren in der hydrologischen Vorhersagepraxis zunehmend an Bedeutung gewonnen. Es wurde eine Vielzahl von Methoden entwickelt, um die prädiktive Unsicherheit von hydrologischen Modellvorhersagen abzuschätzen. In diesem Artikel wurden drei Verfahren zur Ermittlung der Unsicherheit beispielhaft für die hydrologischen Modellsimulationen an 102

zwei Pegeln im Rheineinzugsgebiet angewendet. Bei der ersten Methode wird die gemeinsame Wahrscheinlichkeitsverteilung zwischen Beobachtung und Simulation über eine multivariate Normal-Verteilung ermittelt, bei der Quantil-Regression wird im normalen Raum für jede Quantile eine eigene Regressionsgerade zwischen Beobachtung und Simulation bestimmt. Bei beiden Verfahren müssen die Werte der Simulation und der Beobachtung von dem realen Raum in den normalen Raum transformiert und die ermittelten Quantile in den realen Raum zurücktransformiert werden. Bei der vorgestellten Copula-Methode zur Bestimmung der Unsicherheit wird die gemeinsame Wahrscheinlichkeitsverteilung zwischen Beobachtung und Simulation über Copula-Funktionen modelliert. Die erforderlichen univariaten Randverteilungen der mittleren täglichen Abflüsse werden hierbei über gemischte Verteilungsfunktionen geschätzt. Bei dem Vergleich der drei Verfahren an den Pegeln Trier (Mosel) und Kalkofen (Lahn) hat sich gezeigt, dass die Copula-Methode und die Quantil-Regression ähnlich gute Ergebnisse liefern und der multivariaten Normal-Verteilung, insbesondere bei der Vertrauenswürdigkeit der ermittelten Quantile und der Vorhersageschärfe, überlegen sind. Dies liegt unter anderem daran, dass die multivariate Normal-Verteilung eine Homoskedastizität der Fehlervarianz im normalen Raum voraussetzt. Daher sollten bei der Anwendung multivariater Normal-Verteilungen zur Ermittlung der prädiktiven Unsicherheit erweiterte Verfahren wie z.b. die gestutzten multivariaten Normal-Verteilungen (COCCIA & TODINI 2011) zum Einsatz kommen, die auch eine Heteroskedastizität in der Fehlervarianz abbilden können. Auf Grund der Art der Parameterschätzung liefert die Quantil- Regression das beste Ergebnis bei der Validierung der Vertrauenswürdigkeit der Quantile über das Probability Integral Transform (PIT)-Histogram, der Nachteil ist aber die weitaus größere Anzahl der angepassten Parameter und damit die möglicherweise geringe Robustheit der Methode. Zusammenfassend hat sich gezeigt, dass die Quantil-Regression und das vorgestellte Copula-Verfahren sehr gut geeignet sind, die prädiktive Unsicherheit von hydrologischen Modellen zu ermitteln. Im nächsten Schritt wird das hier vorgestellte Copula-Verfahren zur Schätzung der prädiktiven Unsicherheit auf Stundenwerte angewendet und validiert, wobei sich auf Grund der starken Autokorrelation der stündlichen Abflusswerte Probleme bei der Schätzung der Randverteilungen ergeben. Zusätzlich wird das Verfahren erweitert, um Prognosen mehrerer hydrologischer Modelle bei der Ermittlung der prädiktiven Unsicherheit zu berücksichtigen. Hierbei wird der Copula-Ansatz über die so genannten Pair Copulas (AAS et al. 2009) von dem bivariaten Anwendungsfall auf den multivariaten Anwendungsfall erweitert. Da die Fehlerstruktur von hydrologischen Modellen sehr stark ereignisabhängig ist und z.b. bei Schneeschmelzereignissen andere Fehlercharakteristiken zeigt als bei Starkniederschlagsereignissen, werden in weiteren Anwendungen unterschiedliche Copula-Modelle für unterschiedliche hydrologische Ereignistypen angepasst und die prädiktive Unsicherheit ereignisabhängig ermittelt. Summary and outlook The assessment of forecast uncertainty has become more and more important in operational hydrological forecasting in the last years. A lot of different methods have been developed to estimate the predictive uncertainty of the variable of interest conditional on forecasts of hydrological models. In this paper, three methods have been applied to derive the predictive uncertainty of hydrological model simulations at two gauges in the River Rhine Basin. In the first method, a multivariate normal distribution is applied to estimate the joint probability distribution of the observation and simulation in the normal space. In the quantile regression method, for every quantile of interest a linear regression model is fitted to the pairs of the transformed observed and simulated runoff values. In both methods the values are transformed from the real space to the normal space and the derived quantiles are transformed back to the real space. By applying the proposed copula method to estimate the predictive uncertainty, the joint bivariate probability distribution of the observation and simulation is expressed using a copula function. The univariate marginal distributions of the random variables are modelled with a mixture probability distribution using two generalized pareto distributions to represent the upper and the lower tail of the distribution. The application of the three methods to the runoff simulations at the two gauges Trier (River Moselle) and Kalkofen (River Lahn) showed that the copula method and the quantile regression perform similarly well and that both methods are superior to the multivariate normal distribution method especially in terms of reliability of the derived quantiles and forecast sharpness. The violation of the homoscedasticity of error variance in the normal space assumption of the multivariate normal distribution approach leads to this lack of accuracy. Hence extended versions of the multivariate normal approach, such as the truncated normal distributions (COCCIA & TODINI 2011) should be applied for the estimation of the predictive uncertainty, to account for heteroscedasticity of the error variance of hydrological model simulations. Due to the estimation of a linear regression model for each quantile, the quantile regression approach leads to the best results in reliability validation via the Probability Integral Transform (PIT)- Histogram. This advantage simultaneously constitutes the largest disadvantage of the approach due to the large number of fitted parameters and therefore the potentially lower robustness of this approach. In summary, the quantile regression method and the copula method are suitable to estimate the predictive uncertainty conditional on hydrological model simulations. In further work the presented copula method to estimate the predictive uncertainty will be applied and validated for hourly runoff simulations. The challenge involved is the estimation of the univariate marginal distribution of the hourly runoff values due to the strong auto-correlation of the values. Additionally, the approach will be extended to estimate the predictive uncertainty conditional on several hydrological model simulations. To build these joint multivariate probability distributions, pair copulas (AAS et al. 2009) are used to extend the bivariate case to the multivariate case. As the error structure of hydrological models is strongly eventdependent, i.e. there is a different model error structure in modelling snow melt and heavy rainfall events, in future applications, different copula models will be estimated for different hydrological event types and the predictive uncertainty will be estimated depending on these event types. 103

Fachartikel I DOI: 10.5675/HyWa_2014,2_5 Klein et al.: Ermittlung der prädiktiven Unsicherheit von hydrologischen... HW 58. 2014, H. 2 Anschrift der Verfasser: Dr. B. Klein D. Meißner R. Pinzinger D. Lisniak Bundesanstalt für Gewässerkunde Am Mainzer Tor 1, 56068 Koblenz klein@bafg.de Literaturverzeichnis AAS, K., C. CZADO, A. FRIGESSI & H. BAKKEN (2009): Pair-copula constructions of multiple dependence. Insurance Mathematics & Economics 44 (2), 182 198 AKAIKE, H. (1974): A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6), 716 723 BARTHOLMES, J.C., J. THIELEN, M.H. RAMOS & S. GENTILINI (2009): The European flood alert system EFAS Part 2: Statistical skill assessment of probabilistic and deterministic operational forecasts. Hydrology and Earth System Sciences 13 (2), 141 153 BERGSTROEM, S. (1995): The HBV model. In: V.P. Singh (Ed.): Computer Models of Watershed Hydrology. Water Resources Publications, Highlands Ranch, CO. BEVEN, K. & A. BINLEY (1992): The future of distributed models: model calibration and uncertainty prediction. Hydrological Processes 6, 279 298 BLÖSCHL, G., T. NESTER, J. PARAJKA & J. KOMMA (2014): Hochwasserprognosen an der österreichischen Donau und Datenassimilation. Hydrologie und Wasserbewirtschaftung 58 (2), 64 72 BOGNER, K., F. PAPPENBERGER & H.L. CLOKE (2012): Technical Note: The normal quantile transformation and its application in a flood forecasting system. Hydrology and Earth System Sciences 16 (4), 1085 1094 BOGNER, K., F. PAPPENBERGER & P. SALAMON (2014): Korrektur von Modell- und Vorhersagefehlern und Abschätzung der prädiktiven Unsicherheit in einem probabilistischen Hochwasservorhersagesystem. Hydrologie und Wasserbewirtschaftung 58 (2), 73 75 BOX, G.E.P. & D.R. COX (1964): An analysis of transformations. Journal of the Royal Statistical Society Series B 26 (2), 211 243 BROWN, J.D. & D.J. SEO (2013): Evaluation of a nonparametric post-processor for bias correction and uncertainty estimation of hydrologic predictions. Hydrological Processes 27 (1), 83 105 CLOKE, H.L. & F. PAPPENBERGER (2009): Ensemble flood forecasting: A review. Journal of Hydrology 375 (3 4), 613 626 COCCIA, G. & E. TODINI (2011): Recent developments in predictive uncertainty assessment based on the model conditional processor approach. Hydrology and Earth System Sciences 15 (10), 3253 3274 EHRET, U. (2012): (Un-)sicherheiten in der hydrologischen Modellierung und Vorhersage. KW Korrespondenz Wasserwirtschaft 5 (6), 316 321 FURRER, E.M. & R.W. KATZ (2008): Improving the simulation of extreme precipitation events by stochastic weather generators. Water Resources Research 44,W12439; DOI:10.1029/2008WR007316 GENEST, C. & A.C. FAVRE (2007): Everything you always wanted to know about copula modeling but were afraid to ask. Journal of Hydrologic Engineering 12 (4), 347 368 GUPTA, H.V., H. KLING, K.K. YILMAZ & G.F. MARTINEZ (2009): Decomposition of the mean squared error and NSE performance criteria: Implications for improving hydrological modelling. Journal of Hydrology 377 (1 2), 80 91 HAAG, I., U. EHRET, N. DEMUTH & K. MORITZ (2013): ProFoUnD: Ein Werkzeug zur statistischen Analyse von Abfluss- und Wasserstandsvorhersagen und zur Ermittlung von Vorhersageunsicherheiten. In: M. Casper & O. Gronz (Eds.): Simulation hydrologischer Systeme Wie nah kommen wir der Realität? Beiträge zum 3. Trierer Workshop zur Niederschlags-Abfluss-Modellierung am 17. und 18. September 2012 in Trier. Forum für Hydrologie und Wasserbewirtschaftung H. 33.13 HALL, J.W. (2003): Handling uncertainty in the hydroinformatic process. Journal of Hydroinformatics 5, 215 232 HEMRI, S., D. LISNIAK & B. KLEIN (2014): Ermittlung probabilistischer Abflussvorhersagen unter Berücksichtigung zensierter Daten. Hydrologie und Wasserbewirtschaftung 58 (2), 84 94 HUNDECHA, Y., M. PAHLOW & A. SCHUMANN (2009): Modeling of daily precipitation at multiple locations using a mixture of distributions to characterize the extremes. Water Resources Research 45, W12412; DOI:10.1029/2008WR007453 JOE, H. (1997): Multivariate Models and Dependence Concepts. Chapman and Hall, New York KLING, H., M. FUCHS & M. PAULIN (2012): Runoff conditions in the upper Danube basin under an ensemble of climate change scenarios. Journal of Hydrology 424, 264 277 KOENKER, R. (2005): Quantile Regression. Econometric Society Monographs, Cambridge University Press, 366 p. KOENKER, R. (2013): quantreg: Quantile Regression. R package version 4.98; http://cran.r-project.org/package=quantreg KRZYSZTOFOWICZ, R. (1999): Bayesian theory of probabilistic forecasting via deterministic hydrologic model. Water Resources Research 35 (9), 2739 2750 KRZYSZTOFOWICZ, R. & K. S. KELLY (2000): Hydrologic uncertainty processor for probabilistic river stage forecasting. Water Resources Research 36 (11), 3265 3277 LAURENT, S., U. EHRET, I. MEYER, K. MORITZ & A. VOGELBACHER (2010): Dealing with Uncertainty of Hydrological Forecasts in the Bavarian Danube Catchment. In: M. Brilly (Ed.): Hydrological Processes of the Danube River Basin. Springer, Dordrecht LISNIAK, D., D. MEIßNER, B. KLEIN & R. PINZINGER (2014): Konzept zur Nachführung von Anfangszuständen eines operationellen hydrologischen Modells für die Verbesserung der Abflussvorhersagen. Hydrologie und Wasserbewirtschaftung 58 (2), 106 118 104

MADADGAR, S., H. MORADKHANI & D. GAREN (2012): Towards improved post-processing of hydrologic forecast ensembles. Hydrological Processes; DOI:10.1002/hyp.9562 MEIßNER, D., B. KLEIN, D. LISNIAK & R. PINZINGER (2014): Probabilistische Abfluss- und Wasserstandsvorhersagen Kommunikationsstrategien und Nutzungspotenziale am Beispiel der Binnenschifffahrt. Hydrologie und Wasserbewirtschaftung 58 (2), 119 127 MEIßNER, D. & S. RADEMACHER (2010): Die verkehrsbezogene Wasserstandsvorhersage für die Bundeswasserstraße Rhein. KW Korrespondenz Wasserwirtschaft 3 (9), 485 491 MONTANARI, A. & A. BRATH (2004): A stochastic approach for assessing the uncertainty of rainfall-runoff simulations. Water Resources Research 40 (1); DOI: 10.1029/2003WR002540 MONTANARI, A. & G. GROSSI (2008): Estimating the uncertainty of hydrological forecasts: A statistical approach. Water Resources Research 44 (12); DOI: 10.1029/2008WR006897 NELSEN, R.B. (1999): An Introduction to Copulas. Springer, New York PALMER, T. & R. HAGEDORN (Eds.) (2006): Predictability of weather and climate. Cambridge University Press, Cambridge PINZINGER, R., B. KLEIN, D. MEIßNER & D. LISNIAK (2014): Probabilistische Abfluss- und Wasserstandsvorhersagen Kommunikationsstrategien und Nutzungspotenziale am Beispiel der Binnenschifffahrt. Hydrologie und Wasserbewirtschaftung 58 (2), 128 137 R CORE TEAM (2013): R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna Austria; http://www.r-project.org/ RAFTERY, A.E., T. GNEITING, F. BALABDAOUI & M. POLAKOWSKI (2005): Using Bayesian model averaging to calibrate forecast ensembles. Monthly Weather Review 133 (5), 1155 1174 RAO, A.R. & K.H. HAMED (2010): Flood Frequency Analysis. CRC Press, Boca Raton REGGIANI, P. & A.H. WEERTS (2008): A Bayesian approach to decision-making under uncertainty: An application to realtime forecasting in the river Rhine. Journal of Hydrology 356 (1 2), 56 69 SALVADORI, G., C. DE MICHELE, N.T. KOTTEGODA & R. ROSSO (2007): Extremes in Nature: An Approach Using Copulas. Water Science and Technology Library 56. Springer, Dordrecht SCHEPSMEIER, U., J. STOEBER & E.C. BRECHMANN (2013): VineCopula: Statistical inference of vine copulas. R package version 1.1-1; http://cran.r-project.org/package=vinecopula SKLAR, A. (1959): Fonctions de répartition à n dimensions et leurs marges. Publ. Inst. Stat. Univ. Paris Vol. 8, 229 231 SOLARI, S. & M.A. LOSADA (2012): A unified statistical model for hydrological variables including the selection of threshold for the peak over threshold method. Water Resources Research 48 (10); DOI: 10.1029/2011WR011475 THIELEN, J., J. BARTHOLMES, M.H. RAMOS & A. DE ROO (2009): The European Flood Alert System Part 1: Concept and development. Hydrology and Earth System Sciences 13 (2), 125 140 TODINI, E. (2008): A model conditional processor to assess predictive uncertainty in flood forecasting. International Journal of River Basin Management 6 (2), 123 137 TODINI, E. (2011): History and perspectives of hydrological catchment modelling. Hydrology Research 42 (2 3), 73 85 TYRALLA, C. & A. SCHUMANN (2014): Die numerische Integration von HBV 96 und LARSIM ME als Unsicherheitsquelle. Hydrologie und Wasserbewirtschaftung 58 (2), 138 147 VAN DER WAERDEN, B.L. (1952): Order Tests for Two-Sample Problem and their Power I. Indagationes Mathematicae 14, 453 458 VAN DER WAERDEN, B.L. (1953a): Order Tests for Two-Sample Problem and their Power II. Indagationes Mathematicae 15, 303 310 VAN DER WAERDEN, B.L. (1953b): Order Tests for Two-Sample Problem and their Power III. Indagationes Mathematicae 15, 311 316 VOGELBACHER, A. (2014): Zuverlässigkeitsaussagen in der Praxis der Hochwasserwarnung und -vorhersage in Bayern. Hydrologie und Wasserbewirtschaftung 58 (2), 148 154 WANG, Q.J., D.L. SHRESTHA, D.E. ROBERTSON & P. POKHREL (2012): A log-sinh transformation for data normalization and variance stabilization. Water Resources Research 48, W05514; DOI 10.1029/2011WR010973 WEERTS, A.H., H.C. WINSEMIUS & J.S. VERKADE (2011): Estimation of predictive hydrological uncertainty using quantile regression: examples from the National Flood Forecasting System (England and Wales). Hydrology and Earth System Sciences 15 (1), 255 265 105