Nonparametric estimation of the probability of default 1

Ähnliche Dokumente
Übung 2 im Fach "Biometrie / Q1"

Statistische Analyse von Ereigniszeiten

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Diagnose und Prognose: Kurzfassung 4

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Coole Biometrie Eiskalt erwischt!

Einführung in die Maximum Likelihood Methodik

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Analyse von Ereignisdaten Univ.-Prof. DI Dr. Andrea Berghold Institut für Med. Informatik, Statistik und Dokumentation

Glossar und Formelsammlung. Hazard Rate. Hazard Ratio =

Analyse von Ereigniszeiten

Stochastik Praktikum Parametrische Schätztheorie

Ergebnisse VitA und VitVM

7.5 Erwartungswert, Varianz

Überlebenszeitanalyse. Tempus neminem manet

10 Statistisches Schätzen

Statistik I für Betriebswirte Vorlesung 13

Willkommen zur Vorlesung Statistik (Master)

Cox-Regression. Ausgangspunkt Ansätze zur Modellierung von Einflussgrößen Das Cox-Modell Eigenschaften des Cox-Modells

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Statistik I für Betriebswirte Vorlesung 13

Statistik Einführung // Stichprobenverteilung 6 p.2/26

p = h n (K)= Juli vl smart vp qk notebook Praktische Lösung des Problems: mit den Werten

Statistik K urs SS 2004

So berechnen Sie einen Schätzer für einen Punkt

Überlebenszeit- und Rezidivanalysen

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm./HST) FS 2014

Schätzung von Überlebensraten

J. Wulff, Südwestsächsisches Tumorzentrum Zwickau e.v.

Survival Analysis (Modul: Lebensdaueranalyse)

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Willkommen zur Vorlesung Statistik (Master)

Stochastik Praktikum Lineare Modelle

Seminararbeit: Nonparametric Estimation for Incomplete Obeservations - Kaplan and Meier, 1956

Empirische Wirtschaftsforschung

Statistik II SoSe 2006 immer von 8:00-9:30 Uhr

Einführung in die (induktive) Statistik

OLS-Schätzung: asymptotische Eigenschaften

Klausur zu Statistik II

y = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Überlebenszeitanalyse

Tests für Erwartungswert & Median

Hypothesentests für Erwartungswert und Median. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Distribution-free calculation of the standard error of Chain Ladder reserve estimates

Gepaarter und ungepaarter t-test. Statistik (Biol./Pharm.) Herbst 2012

Zusammenfassung PVK Statistik

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Kapitel 3 Schließende Statistik

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Wahrscheinlichkeit und Statistik BSc D-INFK

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

8. Übung Umgang mit zensierten Daten

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Mehrdimensionale Zufallsvariablen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Seminararbeit. Der Lograng Test. Philipp Rütimann Thomas Hettinger

Frequentisten und Bayesianer. Volker Tresp

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Survival Analysis. December 6, 2007

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

3.3 Methoden zur Evaluierung von Schätzern

6. Schätzverfahren für Parameter

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Biostatistik, WS 2013/2014 Konfidenzintervalle

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Einführung in Panel-Verfahren

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Interne und externe Modellvalidität

Das empirische VaR bzw. CVaR

1.3 Wiederholung der Konvergenzkonzepte

Kaplan- Meier- Schätzer

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

SigmaStat Nina Becker, Christoph. Rothenwöhrer. Copyright 2004 Systat Software, Inc.

Deskriptive Statistik. (basierend auf Slides von Lukas Meier)

After Work Statistics

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

Statistische Methoden für Bauingenieure WS 13/14

i =1 i =2 i =3 x i y i 4 0 1

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Mathematische Statistik Aufgaben zum Üben. Schätzer

Tumorregister München

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Statistik II. Regressionsanalyse. Statistik II

Statistik und Wahrscheinlichkeitsrechnung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

3.2 Maximum-Likelihood-Schätzung

2. Fehlerhafte Auswahl der exogenen Variablen (Verletzung der A1-Annahme)

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Zusammenfassung: Kapitel 5, Zusammenhangsmaße

Transkript:

probability of default 1

probability of default 2

probability of default 3

Fixierte Studienzeit Fixierter Anteil an Toten (z.b. 80%) Fixierte Beobachtungsz. A B C D E 10 20 30 A B C D E 10 20 35 A B C D probability of default 4

accidential loss: Kontakt mit dem Patienten geht verloren controlled loss: z.b Begrenzung der Studienzeit loss aus einem Grund, der nicht Gegenstand der Studie ist Frage: Was bedeutet eine Datenzensierung im Bankwesen? probability of default 5

Wieso sind zensierte Daten ein Problem? Beobachteter Zeitpunkt des Ausfalls = Zeitpunkt der Zensierung falls die Daten zensiert werden probability of default 6

Survival time- Sei T- S(t)- Daten, die die Zeit bis ein bestimmtes Ereignis messen (Tod, Kreditausfall usw.) Survival time Kumulative Überlebensrate (cumulative survival rate) Eigenschaften: nicht steigend S(t)=1 für t=0 (keiner ist tot bevor Anfang der Studie bzw. Es werden keine Kredite an insolvente Unt. vergeben S(t)=0 für t= (Lebenszeiten sind endlich) Was bedeutet es im Kreditkontext? probability of default 7

Beispiele für survival functions: 1 Verteilungsfkt. 1 Verteilungsfkt. pdf pdf t t 1 Steilere SF kürzere Überlebenszeit 1 flachere SF längere Überlebenszeit t probability of default 8 t

probability of default 9

probability of default 10

1.Fall: keine Datenzensierung: allgemeine Vorgehensweise zur Ermittlung eines nichtparam. Schätzers Stichprobe ziehen Ordne die beobachteten Überlebenszeiten (survival times) so dass t₁<t₂<t₃<... Ermittlung der survival function von 1 ausgehend: Ŝ(ti)= (n i)/n wobei i=anzahl der Kreditausfälle falls mehrere ti-s gleich sind, Benutze das größte i Ann: Es gelten die Annahmen für eine SF 2. Fall: mit Datenzensierung: probability of default 11

A probability of default 12

probability of default 13

probability of default 14

Anteil an Patienten/Kredite, die(...) aus dem Experiment/Kreditportfolio Bsp: Ŝ(2)=P(2 Jahre überleben/nicht ausfallen gegeben, dass 1. Jahr überlebt)x P(Überleben im 1.Jahr) Ŝ(k)=p₁xp₂xp₃x...xpk Ŝ(t)=Ŝ(t 1)p(t) => Bemerkung: PL Schätzer sind ML Schätzer Bsp. zur Ermittlung des PL Schätzers bei zensierten Daten: Gegeben: 10(=n) Pat. ->gestorben in 3; 6,5;6,5;10;12;15 ->zensiert in:8,4 ->noch nicht gestorben gegen Ende des Experimenten in 4;5,7;10 probability of default 15

Alle beobachteten ZPzensierte und nicht zens. geordnet Entspr. Rank Rank nur für nicht zensierte Daten abschreiben Wahrsch., dass in Per.t überlebt Wahrsch., dass bis Per. t überlebt remission rank r (n r)/(n r+1)=pt Ŝ(t) 3 1 1 (10 1)/10=9/10 0.9000 4 2 5.7 3 6.5 4 4 0.8571 0.7714 6.5 5 5 0.8333 * 0.6429 8.4 6 10 7 7 0.7500 0.4821 10 8 12 9 9 0.5000 0.2411 15 10 10 0.0000 0.0000 * Falls 2 Zeitpunkte übereinstimmen, benutze Ŝ(ti), das dem größten i entspricht probability of default 16

Survival function als Treppenfunktion: Anmerkung: wenn die größte beobachtete t nicht zensiert ist=> PL(tmax)=0 zensiert ist=> PL Schätzer kann nie 0 werden probability of default 17

Formale Darstellung des Kaplan-Meier Schätzers: wobei n= Anzahl der Kredite, dessen survival time (zensiert oder nicht) beobachtet wird Median survival time: t, für das gilt Ŝ(t)=0,5 probability of default 18

2. Alternative zur Ermittlung des Kaplan-Meier Schätzers: Ŝ : Seien t < t < < ( 1) (2)... ( r) t geordnete Überlebenszeiten n j sei die Anzahl an Versuchsobjekten, die bis j überlebt haben d j sei die Anzahl Ausfälle in Zeitpunkt tj Bzgl. Ausfälle und Zensierungen genau im tj: o Ausfälle in tj werden subtrahiert o aber Zensierungen in tj sind in nj enthalten!!! Bsp: Zensierung und Ausfall gleichzeitig=> Zensierung nach Ausfall (Idee: wenn bis tj überlebt wahrscheinlich, dass auch danach weiterlebt probability of default 19

Schätzer für die mittlere Überlebenszeit µ Ŝ t dt 0 Fläche unterhalb der geschätzten SF Erwartungstreu, da Ŝ(t) erwartungstreu* Nicht definiert falls Ŝ(t) nicht überall def. µ 1.t 1 Ŝ t 1. t 2 t 1 Ŝ t 2. t 3 t 2 Ŝ t m 1. t m t m 1 Summe der Vierecke unterhalb der SF Problem: Falls die letzte Beobachtung (größtes t) zensiert ist und für t(m) benutzt wird=> µ kann zu gering sein! Irwin: Wähle eine Zeitgrenze B und schätze mittlere Überlebenszeit bis zur Zeitgrenze B. Setze B=t(m) probability of default 20

Zu zeigen: 1. Erwartungstreue von Ŝ(t) 2. Erwartungstreue von µ 3. Greenwood Formel für var[ŝ(t)] 4. Var(µ) ermitteln 5. Konsistenz des Kaplan-Meier Schätzers intuitiv probability of default 21

Beweis*: Ε[Ŝ(t)] S(t) Fazit: Der Kaplan-Meier Schätzer Ŝ(t) ist unverzerrt => µ auch erwartungstreuer Schätzer für mittlere Überlebenszeit probability of default 22

Herleitung: Anwendung der Delta-Methode var Ŝ t Ŝ t 2 1 n r n r 1 Anwendung der Delta-Methode zum 2. Mal Substituiere pj=(nj-dj)/nj für πj (Greenwood Formel) =1 =(n-r+1) =(n-r) probability of default 23

Zurück zum Beispiel... Berechnung von gesch. var(ŝ(10)): = 2 0,482 1 9.10 + (n-r)(n-r+1) 1 6.7 + 1 5.6 + 1 3.4 Summe über alle r von 1 bis 7 =0,0352 remission rank r (n r)/(n r+1)=ptŝ(t) 3 1 1 0.90 0.9000 4 2 5.7 3 6.5 4 4 0.8571 0.7714 6.5 5 5 0.8333 0.6429 8.4 6 10 7 7 0.7500 0.4821 10 8 12 9 9 0.5000 0.2411 15 10 10 0.0000 0.0000 se(ŝ(10))= 0,1876 Konfidenzintervalle für die einzelnen Ŝ(t) ermitteln probability of default 24

var(µ) = 2 Ar ( n r)( n r + 1) r Wobei Ar:= Fläche unter der Funktion rechts von t(r): Ŝ remission rank r (n r)/(n r+1)=ptŝ(t) 3 1 1 0.90 0.9000 4 2 5.7 3 6.5 4 4 0.8571 0.7714 6.5 5 5 0.8333 0.6429 8.4 6 10 7 7 0.7500 0.4821 10 8 12 9 9 0.5000 0.2411 15 10 10 0.0000 0.0000 Am Bsp: Berechnung von var(µ) A1=Ŝ(t1)[t2-t1]+Ŝ(t2)[t3-t2]+Ŝ(t3)[t4-t3]+ Ŝ(t4)[t5-t4]+Ŝ(t5)[t6-t5]=7,088 A4=Ŝ(t2)[t3-t2]+Ŝ(t3)[t4-t3]+ Ŝ(t4)[t5-t4]+Ŝ(t5)[t6-t5]=3,938 A5=3,938; A7=1,688; A9=0,724; A10=? var(µ)= 1,942 => aber verzerrt =>korrigiere mit m/(m-1), wobei m = (n-zensierungen) probability of default 25

Falls median survival time nicht eindeutig ist. Ŝ(t) Ŝ(t) 0,5 0,5 t1 t2 t t1 t2 t Falls weniger als 50% der Beobachtungen nicht zensiert sind und die grösste Beobachtung zensiert ist probability of default 26

Annahme war: Zensierung ist unabhängig von survival time (der Grund wieso eine Beobachtung zensiert wird ist unkorreliert mit der Ursache für den Tod/Ausfall). Annahme verletzt wenn: o Bei Krediten wird die Beobachtung/das Kredit terminiert bevor ein Kreditausfall tatsächlich eingetreten ist, aber trotzdem einzutreten droht: Kündigungsrechte des Kreditgebers o Andere Ursachen für Tod/Ausfall, die am besten aus der Betrachtung herausgenommen werden. probability of default 27

Kaplan Meier Schätzer ist asympthotisch normalverteilt Der Konfidenzintervall des Kaplan-Meier Schätzers ist interessanter als der Punktschätzer: [Ŝ(t)+/-1.96se(t)] =>95% Konf.intervall Zusammenfassung Kaplan-Meier Schätzer: i. Konsistent ii. asympthotisch normalverteilt iii. unter bestimmten Annahmen (iid loss) unverzerrt probability of default 28