Statistische Inferenz bei ROC Kurven. Notation. Man unterscheidet:

Transkript

1 Statistische Inferenz bei ROC Kurven Notation Man unterscheidet: 1. Nichtparametrische, empirische Methoden zur Berechnung der empirischen ROC Kurve 2. Parametrische Ansätze, die recht starke Annahmen an die Verteilung der Testergebnisse stellt 3. Parametrische, aber verteilungsfreie Verfahren, die die ROC Kurve parametrisch modellieren. Hier werden nur die Ränge der Testergebnisse verwendet. ROC-GLM Schätzer. Wir nehmen an dass Testergebnisse bei den Fällen und Testergebnisse bei den Kontrollen vorliegen: {Y D,i, i = 1,..., } und {Y D,i, i = 1,..., }. Diese stammen jeweils aus identischen Verteilungen mit Survivorfunktion S D (y) = P (Y D,i y) bzw. S D(y) = P (Y D,i y). Manchmal wird zusätzlich Unabhängigkeit der Beobachtungen gefordert, insbesondere wenn die Variabilität der Schätzungen von Interesse ist. Biostatistische Methoden 1 Biostatistische Methoden 2 1. Die empirische ROC Kurve Eigenschaften der empirischen ROC Kurve Die empirische ROC Kurve ROC e trägt TPF(c) gegen FPF(c) für alle c (, ) auf, wobei TPF(c) = FPF(c) = I[Y D,i c]/ I[Y D,i c]/ Alternativ lässt sich ROC e (t) = ŜD(Ŝ 1 (t)) über die empirischen Survivorfunktionen ŜD und Ŝ D von Y D bzw. Y D D darstellen. Da FPF(c) nur Werte in der Menge {0, 1/, 2/,..., 1} annehmen kann, ist ROC e keine stetige Funktion. In der Praxis werden aufeinanderfolgende Punkte linear verbunden. Falls keine Bindungen vorliegen, ergibt sich eine Treppenfunktion mit Sprunghöhen 1/ und Sprungbreiten 1/. Bei Bindungen ergeben sich andere Muster, je nachdem ob Beobachtungen von jeweils kranken, jeweils gesunden, oder gesunden und kranken Individuuen identisch sind. ROC e ist nur eine Funktion der Ränge von Y und somit invariant bzgl. streng monoton wachsenden Transformationen. Biostatistische Methoden 3 Biostatistische Methoden 4

2 Beispiel: Genexpressionsdaten Empirische ROC Kurve Relative Genexpressionsintensitäten eines bestimmten Gens wurden bei 23 gesunden und 30 kranken Gewebeproben gemessen. Orginal Skala Logarithmierte Skala Orginal Skala cases controls Logarithmierte Skala cases controls True positive rate False positive rate True positive rate False positive rate Biostatistische Methoden 5 Biostatistische Methoden 6 Variabilität der empirischen ROC Kurve Das empirische AUC Man unterscheidet: Eine simultane Konfidenzregion für FPF und TPF bei festem Schwellenwert c. Ein Konfidenzintervall für ROC(t) bei festem t bzw. für ROC 1 (v) bei festem v Konfidenzbänder für die gesamte ROC Kurve. Definition ist klar: ÂUC e = 1 Interessant ist folgende Umformung: 1 ÂUC e = n D j=1 0 ROC e (t)dt { I[Y D,i > Y D,j ] + 1 } 2 I[Y D,i = Y D,j ], d.h. ÂUC e ist die Mann-Whitney U-Statistik. Im Beispiel ergibt sich ÂUC e = 0.81 Biostatistische Methoden 7 Biostatistische Methoden 8

3 Das empirische AUC ohne Bindungen Liegen keine Bindungen vor, vereinfacht sich die Formel zu ÂUC e = 1 = 1 n D j=1 n D j=1 { I[YD,i > Y D,j ] } { I[YD,i Y D,j ] } Im Folgenden nehmen wir an, dass keine Bindungen vorliegen. Die Varianz des empirischen AUC Man kann zeigen dass asymptotisch gilt: V ar( AUC d 1 e ) = {AUC(1 AUC)+( 1)(Q 1 AUC 2 )+( 1)(Q 2 AUC 2 )}, wobei Q 1 = P (Y D,i > Y D,j, Y D,i > Y D,j ) Q 2 = P (Y D,i > Y D,j, Y D,i > Y D,j ) und (Y D,i, Y D,i ) und (Y D,j, Y D,j ) zufällig ausgewählte Paare von Beobachtungen aus der kranken bzw. gesunden Population sind. Schätzung durch Einsetzen der entsprechenden empirischen Größen. Biostatistische Methoden 9 Biostatistische Methoden 10 Platzierungswerte ( placement values ) Der Platzierungswert eines Testergebnisses y bzgl. der gesunden Population ist P (Y D y) = S D(y). Die ROC Kurve kann als Verteilungsfunktion der Platzierungswerte der kranken Individuen bzgl. der gesunden Population aufgefasst werden: Gleichzeitig gilt: P (S D(Y D ) t) = S D (S 1 (t)) = ROC(t) D AUC = 1 E(S D(Y D )) = E(S D (Y D)) Empirische Platzierungswerte Der empirische Platzierungswert eines Testergebnisses y ist entsprechend Ŝ D(y). Hier gehen also die Beobachtungen der gesunden Individuen bei der Berechnung von Ŝ D ein. Die empirische ROC Kurve kann entsprechend als empirische Verteilungsfunktion der Platzierungswerte der kranken Individuen bzgl. der gesunden Individuen aufgefasst werden. Ferner gilt: ÂUC e = 1 Ŝ D(Y D,i ) = j=1 Ŝ D (Y D,j ) Biostatistische Methoden 11 Biostatistische Methoden 12

4 Berechnung der Platzierungswerte im Beispiel Platzierungswerte im Beispiel rocdata <- read.table("rocdata.txt") # add noise to delete ties rocdata[,1] <- rocdata[,1] + rnorm(nrow(rocdata), sd=0.0001) cases <- rocdata[rocdata[,2]==1,1] controls <- rocdata[rocdata[,2]==0,1] ecdf(pcases) ecdf(pcontrols) # Berechnung der Platzierungswerte pcases <- cases*na pcontrols <- controls*na for(i in 1:length(cases)) pcases[i] <- mean(controls>=cases[i]) Fn(x) Fn(x) pcases pcontrols for(j in 1:length(controls)) pcontrols[j] <- mean(cases>=controls[j]) x x Biostatistische Methoden 13 Biostatistische Methoden 14 Varianz von AUC basierend auf Platzierungswerten Asymptotisch gilt nun: was durch V ar(âuc e) = V ar(s D(Y D )) V ar(âuc e) = V ar(ŝ D(Y D,i )) + + V ar(s D(Y D)) V ar(ŝd(y D,j )) geschätzt wird. KI für AUC bzw. besser für logit AUC basierend auf -Regel. Vergleich von empirischen AUC Werten Zur Varianzberechnung von ÂUC e = ÂUC A,e ÂUC B,e gibt es zwei Varianten: Bei unverbundenen und unabhängigigen Stichproben summieren sich einfach die einzelnen Varianzen. Bei verbunden Stichproben gibt es eine veränderte Formel, da ÂUC e nun mit Hilfe der Differenzen der Platzierungswerte geschrieben werden kann: d AUC e = = X Ŝ D,A (Y D,i,A ) Ŝ D,B(Y D,i,B ) X j=1 Ŝ D,A (Y D,j,A ) ŜD,B(Y D,j,B ) Biostatistische Methoden 15 Biostatistische Methoden 16

5 Berechnung des empirischen AUC Beispiel: Genexpressionsdaten # Berechnung von AUC auc <- 1 - mean(pcases) # oder auch: auc2 <- mean(pcontrols) auc.var <- var(pcases)/length(cases)+var(pcontrols)/length(controls) auc.se <- sqrt(auc.var) # 95% -KI lower <- auc *auc.se upper <- auc *auc.se In diesem Beispiel ergibt sich ÂUC e = mit symmetrischem 95%-KI: (0.688, 0.935). Konstruiert man stattdessen das 95%-KI auf der Logit-Skala, ergibt sich das 95%-KI (0.657, 0.906). Alternativ könnte man auch Bootstrap-KI konstruieren. # 95% -KI auf logit-skala logit.auc <- log(auc/(1-auc)) logit.auc.se <- auc.se/(auc*(1-auc)) lower2 <- 1/(1+exp(-(logit.auc *logit.auc.se))) upper2 <- 1/(1+exp(-(logit.auc *logit.auc.se))) Biostatistische Methoden 17 Biostatistische Methoden Parametrische Ansätze Geschätzte binormale ROC Kurven im Beispiel Beispiel: Binormale ROC Kurve Schätzung von den Parametern µ D, σd 2, µ D und σ 2 D liefert durch plug-in Schätzung von ROC und AUC. Problem: Ansatz nicht invariant! Im Beispiel ergibt sich ÂUC e = 0.758, ÂUC e = bzw. ÂUC e = mit geschätzten ROC Kurven ROC(t) = Φ( Φ 1 (t)) bei untransformierteaten ROC(t) = Φ( Φ 1 (t)) bei log-transformierteaten ROC(t) = Φ( Φ 1 (t)) bei wurzel-transformierteaten TPF original log transformed sqrt transformed FPF Biostatistische Methoden 19 Biostatistische Methoden 20

6 3. Der ROC-GLM Schätzer Ein neuerer, sehr orgineller Ansatz zur Schätzung von parametrischen ROC Kurven verwendet von Platzierungswerten abgeleitete Größen und binäre Regression. Da nur die Ränge der Daten eingehen, ist dieser Ansatz invariant bzgl. monoton wachsenden Transformationen der Daten. Es gibt keine Verteilungsannahmen für die Testergebnisse, nur eine parametrische Form für die ROC Kurve. Gibt es keine Bindungen, so gehen letztendlich nur die Größen I[Y D,i Y D,j ] ein, denen wir ja schon bei der Berechnung des empirischen AUC Wertes begegnet sind. Idee des ROC-GLM Schätzer Sei U it = I[S D(Y D,i ) t] eine binäre Variable, die angibt, ob der Platzierungswert der i-ten Beobachtung größer als t ist oder nicht. Dann gilt: E(U it ) = P (U it = 1) = P (S D(Y D,i ) t) = ROC(t) was stark an binäre Regressionsmodelle erinnert. Die binormale ROC Kurve erhält man bekanntlich durch ROC(t) = Φ(a + bφ 1 (t)) d.h. Φ 1 (E(U it )) = a + bφ 1 (t). Biostatistische Methoden 21 Biostatistische Methoden 22 ROC-GLM Schätzung Nach Fixierung einer Menge T = {t 1,..., t nt }, t i (0, 1), können die Parameter a und b also geschätzt werden durch binäre Probit-Regression mit Intercept, Responsevariable Ûit = I[Ŝ D(Y D,i ) t] und Kovariable Φ 1 (t). Auch komplexere parametrische Modelle Wahl von T Liegen keine Bindungen vor, so ist T = {1/,..., ( 1)/} eine naheliegende Wahl. In diesem Fall ergeben sich ( 1) Beobachtungen {Ûit, t T, i = 1,..., } = {I[Y D,i Y D,j ]} g(e(u it )) = s lassen sich so leicht schätzen. α s h s (t) für i = 1,...,, j = 1,..., 1. Alternativ kann auch eine kleinere Menge T gewählt werden, was bei n T 50 i.a. nur einen geringen Einfluss auf die Effizienz des Verfahrens hat. Biostatistische Methoden 23 Biostatistische Methoden 24

7 Varianzschätzungen Die Standardfehler von â und ˆb (bzw. daraus abgeleiteter Größen wie ÂUC = Φ(â/ 1 + ˆb 2 ), die sich aus der GLM- Prozedur ergeben, können nicht verwendet werden, da diese die kranken Beobachtungen als fest ansehen. Ferner werden die Standardfehler von n T abhängen. Ansätze, die sowohl die Variabilität der kranken als auch der gesunden Individuen berücksichtigen, basieren entweder auf asymptotischen Abschätzungen oder verwenden Bootstrap- Resampling Methoden. Anwendung auf den Beispieldatensatz Unter Annahme eines binormalen Modells für die ROC Kurve ergibt sich â = 1.253, ˆb = und ÂUC e = Der verwendete R-Code lautet: ind <- matrix(nrow=length(cases),ncol=length(controls)-1, NA) for(i in 1:length(cases)) for(j in 1:length(controls)-1) ind[i,j] <- (cases[i] >= controls[j]) t <- c((length(controls)-1):1)/length(controls) y <- as.vector(t(ind)) x <- rep(qnorm(t), length(cases)) glm1 <- glm(y~x, family=binomial (link=probit)) print(glm1$coef) Biostatistische Methoden 25 Biostatistische Methoden 26 Empirische und ROC-GLM Schätzung True positive rate False positive rate Biostatistische Methoden 27