Statistische Inferenz bei ROC Kurven. Notation. Man unterscheidet:
|
|
- Maike Elke Weber
- vor 6 Jahren
- Abrufe
Transkript
1 Statistische Inferenz bei ROC Kurven Notation Man unterscheidet: 1. Nichtparametrische, empirische Methoden zur Berechnung der empirischen ROC Kurve 2. Parametrische Ansätze, die recht starke Annahmen an die Verteilung der Testergebnisse stellt 3. Parametrische, aber verteilungsfreie Verfahren, die die ROC Kurve parametrisch modellieren. Hier werden nur die Ränge der Testergebnisse verwendet. ROC-GLM Schätzer. Wir nehmen an dass Testergebnisse bei den Fällen und Testergebnisse bei den Kontrollen vorliegen: {Y D,i, i = 1,..., } und {Y D,i, i = 1,..., }. Diese stammen jeweils aus identischen Verteilungen mit Survivorfunktion S D (y) = P (Y D,i y) bzw. S D(y) = P (Y D,i y). Manchmal wird zusätzlich Unabhängigkeit der Beobachtungen gefordert, insbesondere wenn die Variabilität der Schätzungen von Interesse ist. Biostatistische Methoden 1 Biostatistische Methoden 2 1. Die empirische ROC Kurve Eigenschaften der empirischen ROC Kurve Die empirische ROC Kurve ROC e trägt TPF(c) gegen FPF(c) für alle c (, ) auf, wobei TPF(c) = FPF(c) = I[Y D,i c]/ I[Y D,i c]/ Alternativ lässt sich ROC e (t) = ŜD(Ŝ 1 (t)) über die empirischen Survivorfunktionen ŜD und Ŝ D von Y D bzw. Y D D darstellen. Da FPF(c) nur Werte in der Menge {0, 1/, 2/,..., 1} annehmen kann, ist ROC e keine stetige Funktion. In der Praxis werden aufeinanderfolgende Punkte linear verbunden. Falls keine Bindungen vorliegen, ergibt sich eine Treppenfunktion mit Sprunghöhen 1/ und Sprungbreiten 1/. Bei Bindungen ergeben sich andere Muster, je nachdem ob Beobachtungen von jeweils kranken, jeweils gesunden, oder gesunden und kranken Individuuen identisch sind. ROC e ist nur eine Funktion der Ränge von Y und somit invariant bzgl. streng monoton wachsenden Transformationen. Biostatistische Methoden 3 Biostatistische Methoden 4
2 Beispiel: Genexpressionsdaten Empirische ROC Kurve Relative Genexpressionsintensitäten eines bestimmten Gens wurden bei 23 gesunden und 30 kranken Gewebeproben gemessen. Orginal Skala Logarithmierte Skala Orginal Skala cases controls Logarithmierte Skala cases controls True positive rate False positive rate True positive rate False positive rate Biostatistische Methoden 5 Biostatistische Methoden 6 Variabilität der empirischen ROC Kurve Das empirische AUC Man unterscheidet: Eine simultane Konfidenzregion für FPF und TPF bei festem Schwellenwert c. Ein Konfidenzintervall für ROC(t) bei festem t bzw. für ROC 1 (v) bei festem v Konfidenzbänder für die gesamte ROC Kurve. Definition ist klar: ÂUC e = 1 Interessant ist folgende Umformung: 1 ÂUC e = n D j=1 0 ROC e (t)dt { I[Y D,i > Y D,j ] + 1 } 2 I[Y D,i = Y D,j ], d.h. ÂUC e ist die Mann-Whitney U-Statistik. Im Beispiel ergibt sich ÂUC e = 0.81 Biostatistische Methoden 7 Biostatistische Methoden 8
3 Das empirische AUC ohne Bindungen Liegen keine Bindungen vor, vereinfacht sich die Formel zu ÂUC e = 1 = 1 n D j=1 n D j=1 { I[YD,i > Y D,j ] } { I[YD,i Y D,j ] } Im Folgenden nehmen wir an, dass keine Bindungen vorliegen. Die Varianz des empirischen AUC Man kann zeigen dass asymptotisch gilt: V ar( AUC d 1 e ) = {AUC(1 AUC)+( 1)(Q 1 AUC 2 )+( 1)(Q 2 AUC 2 )}, wobei Q 1 = P (Y D,i > Y D,j, Y D,i > Y D,j ) Q 2 = P (Y D,i > Y D,j, Y D,i > Y D,j ) und (Y D,i, Y D,i ) und (Y D,j, Y D,j ) zufällig ausgewählte Paare von Beobachtungen aus der kranken bzw. gesunden Population sind. Schätzung durch Einsetzen der entsprechenden empirischen Größen. Biostatistische Methoden 9 Biostatistische Methoden 10 Platzierungswerte ( placement values ) Der Platzierungswert eines Testergebnisses y bzgl. der gesunden Population ist P (Y D y) = S D(y). Die ROC Kurve kann als Verteilungsfunktion der Platzierungswerte der kranken Individuen bzgl. der gesunden Population aufgefasst werden: Gleichzeitig gilt: P (S D(Y D ) t) = S D (S 1 (t)) = ROC(t) D AUC = 1 E(S D(Y D )) = E(S D (Y D)) Empirische Platzierungswerte Der empirische Platzierungswert eines Testergebnisses y ist entsprechend Ŝ D(y). Hier gehen also die Beobachtungen der gesunden Individuen bei der Berechnung von Ŝ D ein. Die empirische ROC Kurve kann entsprechend als empirische Verteilungsfunktion der Platzierungswerte der kranken Individuen bzgl. der gesunden Individuen aufgefasst werden. Ferner gilt: ÂUC e = 1 Ŝ D(Y D,i ) = j=1 Ŝ D (Y D,j ) Biostatistische Methoden 11 Biostatistische Methoden 12
4 Berechnung der Platzierungswerte im Beispiel Platzierungswerte im Beispiel rocdata <- read.table("rocdata.txt") # add noise to delete ties rocdata[,1] <- rocdata[,1] + rnorm(nrow(rocdata), sd=0.0001) cases <- rocdata[rocdata[,2]==1,1] controls <- rocdata[rocdata[,2]==0,1] ecdf(pcases) ecdf(pcontrols) # Berechnung der Platzierungswerte pcases <- cases*na pcontrols <- controls*na for(i in 1:length(cases)) pcases[i] <- mean(controls>=cases[i]) Fn(x) Fn(x) pcases pcontrols for(j in 1:length(controls)) pcontrols[j] <- mean(cases>=controls[j]) x x Biostatistische Methoden 13 Biostatistische Methoden 14 Varianz von AUC basierend auf Platzierungswerten Asymptotisch gilt nun: was durch V ar(âuc e) = V ar(s D(Y D )) V ar(âuc e) = V ar(ŝ D(Y D,i )) + + V ar(s D(Y D)) V ar(ŝd(y D,j )) geschätzt wird. KI für AUC bzw. besser für logit AUC basierend auf -Regel. Vergleich von empirischen AUC Werten Zur Varianzberechnung von ÂUC e = ÂUC A,e ÂUC B,e gibt es zwei Varianten: Bei unverbundenen und unabhängigigen Stichproben summieren sich einfach die einzelnen Varianzen. Bei verbunden Stichproben gibt es eine veränderte Formel, da ÂUC e nun mit Hilfe der Differenzen der Platzierungswerte geschrieben werden kann: d AUC e = = X Ŝ D,A (Y D,i,A ) Ŝ D,B(Y D,i,B ) X j=1 Ŝ D,A (Y D,j,A ) ŜD,B(Y D,j,B ) Biostatistische Methoden 15 Biostatistische Methoden 16
5 Berechnung des empirischen AUC Beispiel: Genexpressionsdaten # Berechnung von AUC auc <- 1 - mean(pcases) # oder auch: auc2 <- mean(pcontrols) auc.var <- var(pcases)/length(cases)+var(pcontrols)/length(controls) auc.se <- sqrt(auc.var) # 95% -KI lower <- auc *auc.se upper <- auc *auc.se In diesem Beispiel ergibt sich ÂUC e = mit symmetrischem 95%-KI: (0.688, 0.935). Konstruiert man stattdessen das 95%-KI auf der Logit-Skala, ergibt sich das 95%-KI (0.657, 0.906). Alternativ könnte man auch Bootstrap-KI konstruieren. # 95% -KI auf logit-skala logit.auc <- log(auc/(1-auc)) logit.auc.se <- auc.se/(auc*(1-auc)) lower2 <- 1/(1+exp(-(logit.auc *logit.auc.se))) upper2 <- 1/(1+exp(-(logit.auc *logit.auc.se))) Biostatistische Methoden 17 Biostatistische Methoden Parametrische Ansätze Geschätzte binormale ROC Kurven im Beispiel Beispiel: Binormale ROC Kurve Schätzung von den Parametern µ D, σd 2, µ D und σ 2 D liefert durch plug-in Schätzung von ROC und AUC. Problem: Ansatz nicht invariant! Im Beispiel ergibt sich ÂUC e = 0.758, ÂUC e = bzw. ÂUC e = mit geschätzten ROC Kurven ROC(t) = Φ( Φ 1 (t)) bei untransformierteaten ROC(t) = Φ( Φ 1 (t)) bei log-transformierteaten ROC(t) = Φ( Φ 1 (t)) bei wurzel-transformierteaten TPF original log transformed sqrt transformed FPF Biostatistische Methoden 19 Biostatistische Methoden 20
6 3. Der ROC-GLM Schätzer Ein neuerer, sehr orgineller Ansatz zur Schätzung von parametrischen ROC Kurven verwendet von Platzierungswerten abgeleitete Größen und binäre Regression. Da nur die Ränge der Daten eingehen, ist dieser Ansatz invariant bzgl. monoton wachsenden Transformationen der Daten. Es gibt keine Verteilungsannahmen für die Testergebnisse, nur eine parametrische Form für die ROC Kurve. Gibt es keine Bindungen, so gehen letztendlich nur die Größen I[Y D,i Y D,j ] ein, denen wir ja schon bei der Berechnung des empirischen AUC Wertes begegnet sind. Idee des ROC-GLM Schätzer Sei U it = I[S D(Y D,i ) t] eine binäre Variable, die angibt, ob der Platzierungswert der i-ten Beobachtung größer als t ist oder nicht. Dann gilt: E(U it ) = P (U it = 1) = P (S D(Y D,i ) t) = ROC(t) was stark an binäre Regressionsmodelle erinnert. Die binormale ROC Kurve erhält man bekanntlich durch ROC(t) = Φ(a + bφ 1 (t)) d.h. Φ 1 (E(U it )) = a + bφ 1 (t). Biostatistische Methoden 21 Biostatistische Methoden 22 ROC-GLM Schätzung Nach Fixierung einer Menge T = {t 1,..., t nt }, t i (0, 1), können die Parameter a und b also geschätzt werden durch binäre Probit-Regression mit Intercept, Responsevariable Ûit = I[Ŝ D(Y D,i ) t] und Kovariable Φ 1 (t). Auch komplexere parametrische Modelle Wahl von T Liegen keine Bindungen vor, so ist T = {1/,..., ( 1)/} eine naheliegende Wahl. In diesem Fall ergeben sich ( 1) Beobachtungen {Ûit, t T, i = 1,..., } = {I[Y D,i Y D,j ]} g(e(u it )) = s lassen sich so leicht schätzen. α s h s (t) für i = 1,...,, j = 1,..., 1. Alternativ kann auch eine kleinere Menge T gewählt werden, was bei n T 50 i.a. nur einen geringen Einfluss auf die Effizienz des Verfahrens hat. Biostatistische Methoden 23 Biostatistische Methoden 24
7 Varianzschätzungen Die Standardfehler von â und ˆb (bzw. daraus abgeleiteter Größen wie ÂUC = Φ(â/ 1 + ˆb 2 ), die sich aus der GLM- Prozedur ergeben, können nicht verwendet werden, da diese die kranken Beobachtungen als fest ansehen. Ferner werden die Standardfehler von n T abhängen. Ansätze, die sowohl die Variabilität der kranken als auch der gesunden Individuen berücksichtigen, basieren entweder auf asymptotischen Abschätzungen oder verwenden Bootstrap- Resampling Methoden. Anwendung auf den Beispieldatensatz Unter Annahme eines binormalen Modells für die ROC Kurve ergibt sich â = 1.253, ˆb = und ÂUC e = Der verwendete R-Code lautet: ind <- matrix(nrow=length(cases),ncol=length(controls)-1, NA) for(i in 1:length(cases)) for(j in 1:length(controls)-1) ind[i,j] <- (cases[i] >= controls[j]) t <- c((length(controls)-1):1)/length(controls) y <- as.vector(t(ind)) x <- rep(qnorm(t), length(cases)) glm1 <- glm(y~x, family=binomial (link=probit)) print(glm1$coef) Biostatistische Methoden 25 Biostatistische Methoden 26 Empirische und ROC-GLM Schätzung True positive rate False positive rate Biostatistische Methoden 27
5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung
5 Konfidenzschätzung 5. Einige Grundbegriffe zur Konfidenzschätzung Diesem Kapitel liegt das parametrische Modell {X, B X, P } mit P {P Θ} zugrunde. {Θ, B Θ } sei ein Meßraum über Θ und µ ein σ-finites
MehrFall-Kontroll Studien und Selection Bias. 1.4 Fall-Kontroll Studien: Vorbemerkungen
1.4 Fall-Kontroll Studien: Vorbemerkungen Fall-Kontroll Studien und Selection Bias Fall-Kontroll Studien versuchen in gewisser Weise, eine Kohortenstudie zu imitieren, aber auf das oft zeit- und kostenaufwendige
Mehri =1 i =2 i =3 x i y i 4 0 1
Aufgabe (5+5=0 Punkte) (a) Bei einem Minigolfturnier traten 6 Spieler gegeneinander an. Die Anzahlen der von ihnen über das gesamte Turnier hinweg benötigten Schläge betrugen x = 24, x 2 = 27, x = 2, x
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrLineare Regression. Kapitel Regressionsgerade
Kapitel 5 Lineare Regression 5 Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße x ab: y = yx) ; zb: Verkauf y eines Produkts in Stückzahl] hängt vom Preis in e] ab Das Modell
MehrKapitel 5 Erneuerungs- und Semi-Markov-Prozesse
Kapitel 5 Erneuerungs- und Semi-Markov-Prozesse Definition: Erneuerungsprozess Sei {T n, n N} eine Folge unabhängiger, nichtnegativer Zufallsvariablen mit Verteilungsfunktion F, mit F () < 1. Dann heißt
MehrEinführung in die Induktive Statistik: Regressionsanalyse
Einführung in die Induktive Statistik: Regressionsanalyse Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Regressionsanalyse Ziel: Analyse
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrSeminar zur Energiewirtschaft:
Seminar zur Energiewirtschaft: Ermittlung der Zahlungsbereitschaft für erneuerbare Energien bzw. bessere Umwelt Vladimir Udalov 1 Modelle mit diskreten abhängigen Variablen 2 - Ausgangssituation Eine Dummy-Variable
MehrVarianzkomponentenschätzung
Qualitas AG Varianzkomponentenschätzung Peter von Rohr Qualitas AG Peter von Rohr Folien ZL I+II LFW C11 October 29, 2015 2 / 23 Multiple Lineare Regression Annahmen Modell y = Xb + e Varianz der Fehler
MehrBootstrap: Konfidenzintervalle
Resampling Methoden Dortmund, 2005 (Jenő Reicigel) Bootstrap: Konfidenintervalle Konfidenintervall Sei T ein Schäter für θ, und nehmen wir an, dass die Verteilung von T θ bekannt ist. Notwendige Bedingung
Mehrlimhatewerzeoelhiniii
limhatewerzeoelhiniii Vorwort 13 Kapitel 1 Einleitung 15 1.1 Wozu brauchen wir Statistik? 16 1.2 Medizinische Statistik 16 1.3 Beschreibende und schließende Statistik 17 1.4 Das Buch in Kürze 17 Kapitel
MehrInferenz im multiplen Regressionsmodell
1 / 29 Inferenz im multiplen Regressionsmodell Kapitel 4, Teil 1 Ökonometrie I Michael Hauser 2 / 29 Inhalt Annahme normalverteilter Fehler Stichprobenverteilung des OLS Schätzers t-test und Konfidenzintervall
Mehr7. Stochastische Prozesse und Zeitreihenmodelle
7. Stochastische Prozesse und Zeitreihenmodelle Regelmäßigkeiten in der Entwicklung einer Zeitreihe, um auf zukünftige Entwicklung zu schließen Verwendung zu Prognosezwecken Univariate Zeitreihenanalyse
MehrBinomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.
Binomialverteilung Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht. X = Häufigkeit, mit
MehrPermutationstests II.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Permutationstests II. 1. Zwei-Stichprobentest auf Variabilität 2. Mehrere Stichproben: Vergleich von Mittelwerten 3. Kurzer Exkurs: Präzision von Monte
Mehrf(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212
1.6.2 Poisson Verteilung Eine weitere wichtige diskrete Verteilung ist die Poisson-Verteilung. Sie modelliert die Anzahl (eher seltener) Ereignisse in einem Zeitintervall (Unfälle, Todesfälle; Sozialkontakte,
MehrEinfaktorielle Varianzanalyse
Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel
MehrProf. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft
Prof. Dr. Marc Gürtler WS 015/016 Prof. Dr. Marc Gürtler Klausur zur 10/1 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft Lösungsskizze Prof. Dr. Marc Gürtler WS 015/016 Aufgabe 1: (11+5+1+8=56
MehrKonfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert
Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrKlassen diskreter Variablen
Modelle diskreter Variablen Klassen diskreter Variablen binär multinomial Weitere Klassifizierung multinomialer diskreter Variablen: kategorial y = 1, falls Einkommen < 3000 e. y = 2, falls Einkommen zw.
MehrTeil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller
Woche 10: Lineare Regression Patric Müller Teil XII Einfache Lineare Regression ETHZ WBL 17/19, 03.07.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrUE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe
UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe 1 Aufgabe UE-II.1 Generieren Sie je 1000 Stichproben (samples) mit Umfang 5/30/100/500 für die Normalverteilung N(µ, σ 2 ) = N(4,
MehrEinführung in Bootstrap
Kapitel 5 Einführung in Bootstrap Literatur zum Thema: - Efron B, Tibshirani RJ: An Introduction to the Bootstrap (1993) - Hall P: The Bootstrap and Edgeworth Expansion (1992) - Davison AC: Recent Developments
MehrDas (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell
1 Lineare Regression Parameterschätzung 13 Im einfachen linearen Regressionsmodell sind also neben σ ) insbesondere β 1 und β Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrBootstrap: Punktschätzung
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Bootstrap: Punktschätzung 1. Die Grundidee 2. Plug-in Schätzer 3. Schätzung des Standardfehlers 4. Schätzung und Korrektur der Verzerrung 5. Konsistenz
MehrLösung parametrischer Bootstrap
Lösung parametrischer Bootstrap Aus Statistik II ist der Momentenschätzer für die Exponentialverteilung bekannt: ˆλ = 1 x = 1 1 n n 1 x. i Damit ergibt sich der Schätzer ˆλ = 1/mean(x) 0.00289 aus den
MehrStatistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!
Statistik 2 1. Klausur Sommersemester 2013 Hamburg, 26.07.2013 A BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrÜbung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
Mehry = b 0 + b 1 x 1 x 1 ε 1. ε n b + b 1 1 x n 2) Hat die Größe x einen Einfluss auf y, d.h. gilt die Hypothese: H : b 1 = 0
8 Lineare Modelle In diesem Abschnitt betrachten wir eine spezielle Klasse von statistischen Modellen, in denen die Parameter linear auftauchen Wir beginnen mit zwei Beispielen Beispiel 8 (lineare Regression)
MehrMathematik für Biologen
Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 12. Januar 2011 1 Vergleich zweier Erwartungswerte Was heißt verbunden bzw. unverbunden? t-test für verbundene Stichproben
MehrStatistik II. Weitere Statistische Tests. Statistik II
Statistik II Weitere Statistische Tests Statistik II - 19.5.2006 1 Überblick Bisher wurden die Test immer anhand einer Stichprobe durchgeführt Jetzt wollen wir die statistischen Eigenschaften von zwei
MehrStatistische Tests zu ausgewählten Problemen
Einführung in die statistische Testtheorie Statistische Tests zu ausgewählten Problemen Teil 4: Nichtparametrische Tests Statistische Testtheorie IV Einführung Beschränkung auf nichtparametrische Testverfahren
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 11. Juli 016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrDeskriptive Beschreibung linearer Zusammenhänge
9 Mittelwert- und Varianzvergleiche Mittelwertvergleiche bei k > 2 unabhängigen Stichproben 9.4 Beispiel: p-wert bei Varianzanalyse (Grafik) Bedienungszeiten-Beispiel, realisierte Teststatistik F = 3.89,
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrD-CHAB Frühlingssemester 2017 T =
D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme
Mehrunendlich-dimensionalen lästigen Parameter auffassen.
Näherungen mit Bootstrap Werner Stahel, Seminar für Statistik, ETH Zürich, 8. 4. 2009 Dieser Text kann dazu dienen, die Ideen des Bootstrap zusammenzufassen. Es fehlen hier Beispiele. 1 Fragestellung a
MehrWahrscheinlichkeit und Statistik BSc D-INFK
Prof. Dr. M. Schweizer ETH Zürich Sommer Wahrscheinlichkeit und Statistik BSc D-INFK. a) (iii) b) (ii) c) (i) d) (ii) e) (ii) f) (iii) g) (ii) h) (i) i) (ii) j) (i). Für ein heruntergeladenes Dokument
MehrNichtparametrische statistische Methoden
Herbert Büning / Götz Trenkler Nichtparametrische statistische Methoden 2., erweiterte und völlig überarbeitete Auflage w DE G_ Walter de Gruyter Berlin New York 1994 Inhaltsverzeichnis Vorwort zur zweiten
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrAllgemeine lineare Modelle
262 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine harmlose" Verallgemeinerung der multiplen lin. Regr. Beispiele: Gumbel-Regression,
MehrStatistik I für Betriebswirte Vorlesung 3
Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests Nach Verteilungsannahmen: verteilungsabhängig: parametrischer [parametric] Test verteilungsunabhängig: nichtparametrischer [non-parametric] Test Bei parametrischen Tests
MehrKendall s Tau. Betrachte Paare von Beobachtungen (x i, y i ) und (x j, y j ) Ein Paar heißt:
Kendall s Tau Betrachte Paare von Beobachtungen (x i, y i ) und (x j, y j ) Ein Paar heißt: konkordant, diskordant, falls x i < x j und y i < y j oder x i > x j und y i > y j falls x i < x j und y i >
MehrEin- und Zweistichprobentests
(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrBeispiel: Multiples Modell/Omitted Variable Bias I
4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3 Beispiel: Multiples Modell/Omitted Variable Bias I Beispieldatensatz mit Daten zur Lohnhöhe (y i ), zu den Ausbildungsjahren über den Hauptschulabschluss
MehrKlausur zur Vorlesung
Institut für Mathematische Stochastik WS 2006/2007 Universität Karlsruhe 12. Februar 2007 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Aufgabe 1 (15 Punkte) Klausur zur Vorlesung Statistik für Biologen
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrKapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
MehrSozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
Mehr- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.
Normalverteilung und Standardnormalverteilung als Beispiel einer theoretischen Verteilung - Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden. - Stetige (kontinuierliche),
MehrT-Test für unabhängige Stichproben
T-Test für unabhängige Stichproben Wir gehen von folgendem Beispiel aus: Wir erheben zwei Zufallstichproben, wobei nur die Probanden der einen Stichprobe einer speziellen experimentellen Behandlung (etwa
MehrWahrscheinlichkeitsrechnung und Statistik
10. Vorlesung - 2018 Grundbegriffe der Statistik statistische Einheiten = Objekte an denen interessierende Größen erfaßt werden z.b. Bevölkerung einer Stadt; Schüler einer bestimmten Schule; Patienten
MehrWahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme
Binomialverteilung Wahrscheinlichkeitsfunktion Konstruktionsprinzip: Ein Zufallsexperiment wird n mal unabhängig durchgeführt. Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder
MehrTeil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie
Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrEin Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen
Ein Vergleich von 2-Stichproben-Verfahren mit Berücksichtigung von Baselinewerten bei ordinalen Zielvariablen Alexander Siemer Abteilung Medizinische Statistik Universität Göttingen 47. Biometrisches Kolloquium
Mehr1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik 1-Stichproben-Mittelwert-Tests 1-Stichproben-Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test
MehrVorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
MehrX =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
MehrJohn Komlos Bernd Süssmuth. Empirische Ökonomie. Eine Einführung in Methoden und Anwendungen. 4y Springer
John Komlos Bernd Süssmuth Empirische Ökonomie Eine Einführung in Methoden und Anwendungen 4y Springer 1 Einführung 1 1.1 Ökonometrie 1 2 Vorüberlegungen und Grundbegriffe 7 2.1 Statistik als Grundlage
Mehr1 Einführung Ökonometrie... 1
Inhalt 1 Einführung... 1 1.1 Ökonometrie... 1 2 Vorüberlegungen und Grundbegriffe... 7 2.1 Statistik als Grundlage der Empirischen Ökonomie... 7 2.2 Abgrenzung und Parallelen zu den Naturwissenschaften...
MehrINFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße
DAS THEMA: INFERENZSTATISTIK III INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße Inferenzstatistik für Lagemaße Standardfehler
MehrSchätzung im multiplen linearen Modell VI
Schätzung im multiplen linearen Modell VI Wie im einfachen linearen Regressionsmodell definiert man zu den KQ/OLS-geschätzten Parametern β = ( β 0, β 1,..., β K ) mit ŷ i := β 0 + β 1 x 1i +... β K x Ki,
MehrTeil VIII Hypothesentests für zwei Stichproben
Woche 9: Hypothesentests für zwei Stichproben Teil VIII Hypothesentests für zwei Stichproben WBL 15/17, 22.06.2015 Alain Hauser Berner Fachhochschule, Technik und Informatik Berner
MehrDas Zweistichprobenproblem
Kapitel 5 Das Zweistichprobenproblem In vielen Anwendungen will man überprüfen, ob sich zwei oder mehr Verfahren, Behandlungen oder Methoden in ihrer Wirkung auf eine Variable unterscheiden. Wir werden
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
Mehrx t2 y t = 160, y = 8, y y = 3400 t=1
Aufgabe 1 (25 Punkte) 1. Eine Online Druckerei möchte die Abhängigkeit des Absatzes gedruckter Fotos vom Preis untersuchen. Dazu verwendet die Firma das folgende lineare Regressionsmodell: wobei y t =
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrSozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Testen von Hypothesen
Mehr5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)
5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte
MehrKapitel XIV - Anpassungstests
Institut für Volkswirtschaftslehre (ECON) Lehrstuhl für Ökonometrie und Statistik Kapitel XIV - Anpassungstests Induktive Statistik Prof. Dr. W.-D. Heller Hartwig Senska Carlo Siebenschuh 2. Grundannahme:
Mehr9 Robuste Methoden. 9.1 Einfluss und Robustheit. i (x i x) 2 = i x iy i. c 1 = x 2 + i (x i x) 2. Einfache Regression: 9.1 Einfluss und Robustheit 205
9.1 Einfluss und Robustheit 205 9 Robuste Methoden 9.1 Einfluss und Robustheit a Sensitivität. Eine Beobachtung hinzufügen. Effekt? Einfache Regression: β = i(x i x)y i i (x i x) 2 = i x iy i β = β+ x,
MehrNachteile: STD existiert nur für Verteilungen mit E(FL 2 ) <, d.h. nicht ansetzbar bei leptokurtischen ( fat tailed ) Verlustverteilungen;
Risikomaße basierend auf die Verlustverteilung Sei F L := F Ln+1 die Verteilung der Verlust L n+1. Die Parameter von F Ln+1 werden anhand von historischen Daten entweder direkt oder mit Hilfe der Risikofaktoren
MehrForschungsstatistik II
Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-3 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik II Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
Mehr1.4 Stichproben aus einer Normalverteilung
1.4 Stichproben aus einer Normalverteilung Die Normalverteilung ist wohl das am stärksten verbreitete Modell. Stichproben daraus führen zu nützlichen Eigenschaften der Statistiken und ergeben bekannte
MehrStatistik I für Betriebswirte Vorlesung 4
Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrErneuerungs- und Semi-Markov-Prozesse
Kapitel 5 Erneuerungs- und Semi-Markov-Prozesse Für den Poisson-Prozess und (reguläre) diskrete Markov-Prozesse impliziert die Markov-Eigenschaft, dass die Zwischenzeiten bzw. Verweildauern exponentialverteilt
MehrTeil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele
Woche 7: Maimum-Lielihood-Schätzung Patric Müller ETHZ Teil IX Verteilungen an Daten anpassen ( fitten ): Maimum-Lielihood-Schätzung WBL 17/19, 12.06.2017 Wahrscheinlicheit
Mehr0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1
Aufgabe 1 (2 + 2 + 2 + 1 Punkte) Gegeben sei folgende gemeinsame Wahrscheinlichkeitsfunktion f(x, y) = P (X = x, Y = y) der Zufallsvariablen X und Y : 0.2 x = 1, y = 1 0.3 x = 2, y = 1 f(x, y) = 0.45 x
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
Mehr