Analyse von Extremwerten Interdisziplinäres Seminar: Statistische Verfahren in den Geowissenschaften Anna Hamann betreut durch Prof. Dr. Helmut Küchenhoff, Institut für Statistik Ludwig Maximilians Universität München. 3.Dezember 2009
Inhaltsverzeichnis 1 Einleitung 2 2 Die Generalisierte Extremwertverteilung 3 2.1 Der zentrale Grenzwertsatz................... 3 2.2 Das Theorem von Fisher Tippet................. 3 2.2.1 Die drei Extremwertverteilungen............ 4 2.2.2 Beweis-Idee........................ 5 2.3 Domain of Attraction....................... 6 2.3.1 Der Domain of Attraction der Fréchet-Verteilung Φ α. 6 2.3.2 Der Domain of Attraction der Weibull-Verteilung Ψ α. 7 2.3.3 Der Domain of Attraction der Gumbel-Verteilung Λ. 9 3 Inferenz 11 3.1 Methode der Block-Maxima................... 11 3.1.1 Maximum-Likelihood-Methode............. 11 4 Beispiel: Luftverschmutzung in München 13 5 Zusammenfassung 16 1
Kapitel 1 Einleitung Die klassische Statistik befasst sich mit durchschnittlichen Werten, beschreibt das Verhalten von Zufallsvariablen ausgehend von ihrem Mittelwert. Damit können etliche Problemstellungen gelöst werden. Interessiert man sich aber etwa dafür, wie stabil ein Haus in einem erdbebengefährdeten Gebiet gebaut werden muss, wie viel ein Deich aushalten muss, wie sportliche Rekorde zusammenhängen oder wie oft hohe Konzentrationen von Luftschadstoffen einen Grenzwert überschreiten, so sind durchschnittliche Werte nicht interessant, sondern vielmehr die Ausnahmen, die extremen Ereignisse. Diese extremen Ereignisse liegen in den Ausläufern der Verteilung der Zufallsvariablen und ihr Verhalten wird daher nur schlecht durch diese Verteilung erklärt. Mit Hilfe der Extremwerttheorie lässt sich das Verhalten dieser extremen Ereignisse modellieren. Betrachtet man die Globale Magnitudenhäufigkeit (vgl.wassermann Folien) abhängig von der Magnitudenstärke, so kann man mit Hilfe der Extremwerttheorie die erwarteten N-Year-Return-Levels von sehr seltenen, starken Erdbeben schätzen. Außerdem ist es möglich auch eine Prognose für ein noch nie dagewesenes Ereigniss zu treffen. 2
Kapitel 2 Die Generalisierte Extremwertverteilung 2.1 Der zentrale Grenzwertsatz Der Zentrale Grenzwertsatz ist eine wesentliche Grundlage für die statistische Analyse von Mittelwerten und Varianzen von Zufallsvariablen. Er besagt, dass die zentrierte und normierte Summe von unabhängig identisch verteilten Zufallsvariablen annähernd normalverteilt ist. n i=1 X i µn σ/ D N(0, 1) (2.1) n Durch den Zentralen Grenzwertsatz spielt die Normalverteilung in der Statistik eine besonders wichtige Rolle. 2.2 Das Theorem von Fisher Tippet In der Extremwerttheorie gibt es eine Art Analogon zum Zentralen Grenzwertsatz, das Theorem von Fisher und Tippet. Man betrachtet, wie auch beim zentralen Grenzwertsatz, unabhängig identisch verteilte Zufallsvariablen {X i } i=1,...,n mit Verteilungsfunktion F(x). In der Extremwerttheorie ist jedoch nicht der durchschnittliche Wert von Interesse, man interessiert sich vielmehr für die maximalen Werte der Zufallsvariablen. Das Stichprobenmaximum sei durch M 1 = X 1, M n = max(x 1,..., X n ) n 2 gegeben. Die Verteilung des Stichprobenmaximums erhält man direkt aus der Verteilung F, der Verteilung der X i. P (M n x) = P (X 1 x,..., X n x) = P (X 1 x)... P (X n x) = F n (x) 3
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 4 Das Theorem von Fisher und Tippet: Das Theorem besagt, dass zwei feste Folgen a n > 0 und b n R existieren, so dass M n b n a n D G(X) (2.2) Die Verteilungsfunktion G gehört dabei zum Typ der Weilbull-, Gumbeloder Frechet-Verteilungen, also einer Extremwertverteilung. Im Folgenden werden zunächst die drei Extremwertverteilungen vorgestellt, anschließend werden die wichtigsten Punkte der Beweisidee vorgestellt. 2.2.1 Die drei Extremwertverteilungen GumbelverteilungΛ G(x) = exp( exp(x)), x R Féchetverteilung Φ α { exp( x α ), x (0, ) und α > 0 G(x) = 0, sonst Weibullverteilung Ψ α { exp( ( x) α ), x (, 0) und α > 0, G(x) = 1, x [0, ) Fasst man die drei Extremwertverteilungen zusammen, so erhält man die Generalisierte Extremwertverteilung. { exp( (1 + γ( y µ 1 G γ (y) = σ )) γ ), γ 0 (2.3) exp( exp( x)), γ = 0 Die Parameter µ R und σ > 0 sind der Orts- und der Skalen-Parameter. Der Parameter γ wird als shape-parameter bezeichnet und bestimmt die Klasse der Verteilung. Er ist also entscheidend für die Extremwerttheorie und wird daher Extremwertindex genannt. γ = α 1 > 0 entspricht der Fréchetverteilung, γ = 0 entspricht der Gumbelverteilung und γ = α 1 < 0 entspricht der Weibullverteilung.
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 5 2.2.2 Beweis-Idee Die Beweis-Idee für das Theorem von Fisher und Tippet besteht im wesentlichen aus 3 Punkten: Eindeutigkeit der Grenzverteilung G bis auf affine Transformation G ist Grenzverteilung G ist max-stabil G ist max-stabil G ist vom Typ Weibull, Gumbel oder Fréchet Eine wichtige Definition für die Beweisskizze ist die der Max-Stabilität sowie, das darauffolgende Lemma. Max-stabile Verteilung: Eine Verteilungsfunktion heißt max-stabil, falls für geeignete Konstanten a n > 0 und b n R G n ( x a n + b n ) = G(x) max(x 1,..., X n ) D = a n X + b n x R Lemma: Sei G max-stabil, dann existieren zwei messbare Funktionen a und b, so dass G s (a(s)x + b(s)) = G(x) Zurück zur Beweisidee: Betrachtet man den zweiten Punkt: G ist Grenzverteilung G ist max-stabil : ergibt sich aus der Definition der Maxstabilität : Annahme: F n (a n x + b n ) G(x) lim n F nk (a n x + b n ) = ( lim n F n (a n x + b n )) k = G k (x)
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 6 außerdem ( lim n F nk (a nk x + b nk )) = G(x) dann existieren Konstanten ã k > 0 und b k R, so dass damit gilt a nk b nk b n lim = ã k lim n a n n a n max(y 1,..., Y k ) D = ã k Y 1 + b k = b k Die Eindeutigkeit der Grenzverteilung bis auf eine lineare Transformation ist durch die Existenz von ã k > 0 und b k R gegeben. Die Eindeutigkeit und die Max-Stabilität sind gezeigt, es bleibt also nur noch die Frage nach dem Typ der Grenzverteilungen: G ist max-stabil G ist vom Typ Weibull, Gumbel oder Fréchet lässt sich einfach nachrechnen. ist deutlich komplizierter zu zeigen. Die Idee dabei ist, dass die Funktionalgleichung aus dem Lemma nur durch die drei Typen, Gumbel, Weibull und Frechet gelöst werden kann. 2.3 Domain of Attraction Der Domain of Attraction bezeichnet die Menge aller möglichen Verteilungen F, also die Verteilung der X i, für die die Folge gegen die spezifische Grenzverteilung G konvergiert und wird als D(G) definiert. Aufgrund der drei unterschiedlichen Grenzverteilungen gibt es auch drei verschiedene Typen des Domain of Attraction. Es stellt sich die Frage welche Verteilungen gegen welchen Typ der Grenzverteilungen konvergieren. Da sich das Maximum am rechten Rand der Verteilung befindet, ist eben genau das Verhalten der Verteilung F am rechten Rand ausschlaggebend für die Zugehörigkeit. 2.3.1 Der Domain of Attraction der Fréchet-Verteilung Φ α Die Verteilungsfunktion F ist Element des Domain of Attraction der Fréchet- Verteilung, α > 0, genau dann, wenn F (x) = x α L(x) für eine langsam variierende Funktion L und wenn x F =. Ist F D(Φ α ), dann a 1 D n M n Φα
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 7 wobei die Normierungskonstante a n folgendermaßen gewählt werden kann: a n = F 1 (1 n 1 ) = (1/ F ) 1 (n). Da eine Zentrierungskonstante nicht notwendig ist, wird b n = 0 gesetzt D.h. der Domain of Attraction von Φ α besteht genau aus den Verteilungen F, deren rechter Rand polynomial fällt und mit dem Index α variiert. Eine paar Beispiele für Verteilungen F D(Φ α ) und deren Normierungskonstanten sind in folgender Tabelle aufgelistet: Verteilungen F D(Φ α) Dichte/Tailquantilfunktion Konstanten a n, b n Cauchy f(x) = (π(1 + x 2 )) 1, a n = n/π x R Pareto F Kx α, K, α > 0 a n = (Kn) 1/α Loggamma f(x) = αβ Γ(β) (lnx)β 1 x α 1, x > 1, α, β > 0 a n = ((Γ(β)) 1 (lnn) β 1 n) 1/α Beispiel Cauchy-Verteilung: F = (πx) 1, damit ist P (M n nx π ) = (1 F ( nx π ))n = (1 1 nx + o(1))n exp( x 1 ) = Φ 1 (x) 0.0 0.2 0.4 0.6 0.8 1.0 Fréchet n = 5 n = 10 1 0 1 2 3 4 5 x 2.3.2 Der Domain of Attraction der Weibull-Verteilung Ψ α Die Verteilungsfunktion F ist im Domain of Attraction der Weibullvereilung Ψ α, α > 0 enthalten, geanu dann, wenn x F < und F (x F x 1 ) = x α L(x)
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 8 für eine langsam variierende Funktion L. Falls F D(Ψ α ), dann a 1 n (M n b n ) D Ψ α Die Konstanten a n und b n können dabei wie folgt gewählt werden: a n = x F F 1 (1 n 1 ) und b n = x F D.h. der Domain of Attraction von Ψ α enthält Verteilungen F, deren Endpunkt x F endlich ist. Außerdem sind D(Ψ α ) und D(Φ α ) miteinander verknüpft, da Ψ α ( x 1 ) = Φ α (x). Eine paar Beispiele für Verteilungen F D(Φ α ) und deren Normierungskonstanten sind in folgender Tabelle aufgelistet: Verteilungen F D(Φ α) Dichte/Tailquantilfunktion Uniform f(x) = 1, x (0, 1) Polynomial F = K(xF x) α, x F K 1/α x x F Beta f(x) = Γ(a+b) Γ(a)Γ(b) xa 1 (1 x) b 1, 0 < x < 1, a, b > 0 Konstanten a n, b n a n = n 1 b n = 1 a n = (Kn) 1/α b n = x F a n = (n Γ(a+b) Γ(a)Γ(b+1) ) 1/b b n = 1 Beispiel Gleichverteilung: x F = 1 und F (1 x 1 ) = x 1 a n = 1/n und b n = 1, damit ist P (a 1 n (M n b n ) x) = P (M n xa n + b n ) = F n (xa n + b n ) F n ( x n + 1) = (x n + 1)n exp(x) = Ψ 1 0.0 0.2 0.4 0.6 0.8 1.0 Weibull n = 5 n = 10 3 2 1 0 1 2 3 x
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG 9 2.3.3 Der Domain of Attraction der Gumbel-Verteilung Λ Sei F eine Von-Mises-Funktion, d.h. x 1 F (x) = c exp( a(t) dt) mit Konstante c > 0, einer positiven, stetigen Hilfsfunktion a, für deren Dichte a gilt a (x) x x F 0 und z < x F. Dann ist F im Domain of Attraction der Gumbelverteilung Λ enthalten. Mögliche Normierungskonstanten sind gegeben durch: b n = F 1 (1 n 1 ) und a n = a(b n ) D.h. das Verhalten von F am rechen Rand ist exponentiell. z Verteilungen F D(Λ) Dichte/Tailquantilfunktion Konstanten a n, b n F (x) = K exp( λx) a n = λ 1, K, λ > 0 b n = λ 1 ln(kn) Exponentiallike Weibull-like F = Kx α exp( cx τ ), K, c, τ > 0, α R Gamma f(x) = βα ) Γ(α) xα 1 exp( x βx ), x > 0, α, β > 0 Normal ϕ(x) = 1 exp( x 2 /2), 2π x R Lognormal f(x) = 1 2πσx exp( (lnx µ)2 2σ 2 ), x, σ > 0, µ R a n = (cτ) 1 (c 1 ln(n)) 1/τ 1, b n = (c 1 ln(n)) 1/τ + 1 τ (c 1 ln(n)) 1/τ 1 ( α cτ ln(c 1 ln(n)) + ln K ) c a n = β 1, b n = β 1 (ln(n)+(α 1)ln(ln(n)) ln(γ(α))) a n = (2ln(n)) 1/2, b n = 2ln(n) ln(4π)+ln(ln(n)) 2(2ln(n)) 1/2 a n = σ(2ln(n)) 1/2 b n, b n = exp(µ+σ( 2ln(n) ln(4π)+ln(ln(n)) 2(2ln(n)) 1/2 )) Beispiel Exponentialverteilung: F = exp( λx) F (x) = 1 exp( x) für x > 0. Dann ist P ( M n b n a n x) = P (M n a n x + b n ) = F n (a n x + b n ) Man wähle a n = 1 und b n = log(n) F n (x+log(n)) = (1 exp( (x+log(n)))) n = (1 1 n exp( x))n exp(exp( x)) = Λ
KAPITEL 2. DIE GENERALISIERTE EXTREMWERTVERTEILUNG10 0.0 0.2 0.4 0.6 0.8 1.0 Fréchet n = 5 n = 10 1 0 1 2 3 4 5 x
Kapitel 3 Inferenz 3.1 Methode der Block-Maxima Die Idee der Block-Maxima besteht darin, die Daten in m disjunkte Blöcke zu teilen (z.b.monate) und dann die Maxima der Blöcke zu betrachten. Diese werden im folgenden als Y i bezeichnet, so dass man aus den m Stichproben m Maxima erhält. Diese bilden wiederum eine unabhängige Stichprobe. Diese Maxima können beispielsweise die maximalen monatlichen Schadstoffwerte sein. Wie zuvor schon gezeigt, sind die normierten Maxima GEV- verteilt. Das Ziel der Block- Maxima- Methode ist nun, die Parameter der GEV aus den Daten zu schätzen. Die Parameter der Verteilung können zum einen durch die Maximum-Likelihood- Methode geschätzt werden, zum anderen aber auch durch die Probability-Weighted-Moments-Methode. 3.1.1 Maximum-Likelihood-Methode Die Log-Likelihood-Funktion sieht folgendermaßen aus: Für γ 0 und 1 + γ y i µ σ > 0: logl(σ, γ, µ) = mlog(σ) ( 1 γ +1) m Für γ = 0: logl(σ, 0, µ) = mlog(σ) i=1 log(1+γ y i µ σ m i=1 m ) exp( y i µ ) σ i=1 m i=1 (1+γ y i µ σ ( y i µ σ ) ) 1/γ Durch das Maximieren (numerisch) der Loglikelihoods erhält man die ML- Schätzer (ˆσ, ˆγ, ˆµ). Eigenschaften des ML-Schätzers: 11
KAPITEL 3. INFERENZ 12 Erwartungstreue: E(ˆσ, ˆγ, ˆµ) m (σ, γ, µ) Asymptotische Normalität unter der Restriktion γ > 0.5: m((ˆσ, ˆγ, ˆµ) (σ, γ, µ)) D N(0, V ) V ist dabei die inverse Fischerinformationsmatrix. Bei der ML-Methode wird als Likelihood die GEV verwendet, die jedoch nur die asymptotische Verteilung ist. Somit ist diese Methode gerade bei kleinem Stichprobenumfang kritisch zu betrachen. Eine Alternative zur ML-Schätzung ist die PWM-Methode die auf der Schätzung der Momente beruht.
Kapitel 4 Beispiel: Luftverschmutzung in München Im Beispiel werden die tägliche Werte von Ozon und Nitrogen Dioxiden an zwei Messstationen in München (Lothstr. und Stachus) untersucht. Die Daten stammen aus dem Zeitraum Januar 1980 bis Oktober 1992. Von Interesse sind die maximalen Werte, somit werden die monatlichen Maxima der durchschnittlichen Tageswerte betrachtet. Die Zeitreihen der täglichen Durchschnittswerte von Ozon (Lothstr.) und Nitrogen Dioxid (Stachus) sind in folgenden Graphiken dargestellt. 13
KAPITEL 4. BEISPIEL: LUFTVERSCHMUTZUNG IN MÜNCHEN 14 Man kann erkennen, dass die Konzentrationen korrelliert sind, zudem sind beim Ozon eine saisonale Unterschiede zu erkennen. Deshalb werden die Monate April bis August separat von den Monaten September bis März behandelt. Die Verteilung der monatlichen Maxima kann durch eine Generalisierte Extremwertverteilug modelliert werden. Die Unabhängigkeit der Maxima kann damit begründet werden, dass die Maxima meistens durch ein paar Tage getrennt sind. Die Parameter der GEV basierend auf der Block-Maxima- Methode durch die PWM-Methode geschätzt, da diese bei kleinem Stichprobenumfang besser geeignet ist. Der Parameter γ wurde als nicht signifikant verschieden von 0 getestet. Somit sind die monatlichen Maxima approximativ gumbelverteilt. Eine Größe, die häufig von Interesse ist, ist das N-Month-Return-Level, es ist definiert als der Wert der beobachteten Konzentrationen, der erwartungsgemäß einmal während einer N-month Period überschritten wird. G 1 (1 1/N). N > 1 Die Tabelle zeigt, dass der Standard für Nitrogen Dioxid (0.1mg/m 3 ) erwartungsgemäß alle zwei Monate überschritten wird. Das Standard-Luftqualitäts- Ozon-Level beträgt 0.05mg/m 3. Dieser Wert wird erwartungsgemäß im Winterhalbjahr nur alle vier Monate überschritten, im Sommer dagegen liegt er
KAPITEL 4. BEISPIEL: LUFTVERSCHMUTZUNG IN MÜNCHEN 15 erwärtungsgemäß immer darüber.
Kapitel 5 Zusammenfassung Das Theorem von Fisher und Tippet zeigt, dass es in der Extremwerttheorie wie in der klassischen Statistik einen wichtigen Grenzwertsatz gibt. Es gibt drei verschiedene Grenzwertverteilungen für Maxima von iid Zufallsstichvariablen, die Frechet-, die Weibull- und die Gumbelverteilung. Die Menge der Verteilungen, die gegen eine der Grenzverteilungen konvergiert, ist durch den Domain of Attraction definiert, dabei ist die Zugehörigkeit der Verteilung F zu einem der Domain of Attractions durch die Tails der Verteilungen gegeben. Verhält sich der rechte Tail exponentiell, so gehört die Verteilung zum Domain of Attraction der Gumbelverteilung, verhält er sich polynomial, so gehört die Verteilung zum Domain of Attraction der Fréchetverteilung, ist er nach oben beschränkt, so gehört die Verteilung zum Domain of Attraction der Weibullverteilung. Durch die Block-Maxima-Methode können die Parameter der GEV geschätzt werden und mit Hilfe dieser wichtige Werte, wie z.b. die N-Month-Return- Levels berechnet werden. 16
Literaturverzeichnis Embrechts P.& Klüppelberg C.& Mikosch T. (1997): Modelling Extremal Events, Berlin, Heidelberg, New York: Springer. Beirlant J.& Goegebeur Y.& Segers J. & Teugles J. (2004): Statistics of Extremes: Theory and Applications, John Wiley& Sons. Küchenhoff H.& Thamerus M. (1995): Extreme value analysis of Munich airpollution data. Sonderforschungsbereich 386, Discussion Paper 4 Hothorn T. (2008): Skript zu Statistik III und IV Küchenhoff H.(2008): http://www.statistik.lmu.de/ helmut/geo/stat_geo_12_folien.pdf 17