Statistische Methoden der Datenanalyse. Übung XIII

Albert-Ludwgs-Unverstät Freburg Wntersemester 2012/2013 Statstsche Methoden der Datenanalyse Marus Schumacher, Stan La, Floran Kss Übung XIII 05.2.2013, 08.2.2013 Anwesenhetsaufgaben Aufgabe 67 Profle Lelhood für de Entdecung enes neuen Telchens Betrachtet wrd folgendes Szenaro: Ene Theore sagt de Exstenz enes neuen Telchens mt ener Masse von 8 GeV vorher, welches m Experment als ene resonante Überhöhung über enem exponentell vertelten Untergrund (τ = 10 GeV) beobachtet werden önnte. De Wahrschenlchetsdchtefunton für den Untergrund se also ene Exponentalvertelung, und de für das Sgnal ene Gaussfunton mt Mttelwert 8 GeV und Standardabwechung 0. 5 GeV, da wr weterhn annehmen, dass de durch de Detetorauflösung beobachtete Brete der Resonanz sofern se exstert 0. 5 GeV betrage. Des Weteren sagt unsere bsherge Standardtheore ene Gesamtanzahl von Untergrunderegnssen von N UG = 10000 voraus, sowe unsere neue Theore N Sg = 175 Sgnaleregnsse. Im Folgenden soll mttels der Profle-Lelhood-Methode, de n der Vorlesung und der letzten Hausaufgabe besprochen wurde, de Senstvtät des Experments auf ene eventuelle Entdecung untersucht werden. De Profle-Lelhood st defnert über das Verhältns λ = L( x H 0) L( x H 1 ), wobe x de beobachteten Daten, L de unter der betreffenden Hypothese maxmerte Lelhoodfunton, H 0 de nur-untergrund Hypothese und H 1 de Sgnal und Untergund Hypothese snd. Zumest wrd dann de Größe q = 2 ln λ betrachtet. Für en Experment mt nur-untergrund sollte q( x UG ) vertelt sen we ene χ 2 -Vertelung mt enem Frehetsgrad. Im Folgenden soll de Monte-Carlo-Methode benutzt werden, um Pseudoexpermente enersets nur mt Untergrund, als auch mt Sgnal- und Untergrund durchzuführen. Mttels deser Pseudoexpermente önnen dann de Vertelungen von q( x UG ) q 0 und von q( x Sg.+UG ) q 1 erzeugt werden, um festzustellen, we senstv das Experment auf das vorhergesagte neue Telchen st. Zur Durchführung der Pseudoexpermente sollen mt float data = Fun.GetRandom(); Zufallszahlen erzeugt werden, de nach der Untergrund- bzw. Sgnal-WDF vertelt snd. De m jewelgen Pseudoexperment zu genererende Anzahl von Untergrund- bzw. Sgnaleregnssen bestmmen Se nach der Possonvertelung mttels myrandom.posson(nbg);. Achten Se jewels darauf, dass jewels sowohl en Pseudoexperment mt nur Untergrund und enes mt Sgnal und Untergrund gemacht wrd. Im Weteren sollen dre verschedene Suchstrategen nach desem neuen Telchen besprochen werden. Im Maro /home/sla/statstcscourse/ps12/aufgabe64_anfang.c befndet sch en Bespelmaro, n dem enge der (auch später) benötgten Funtonen und Hstogramme schon vordefnert snd. De Bnbreten und Vorgabewerte snd her berets aufenander angepasst, so dass später Zet gespart werden ann.

() Als en erster Ansatz soll en renes Zählexperment n enem sogenannten Massenfenster gemacht werden, d.h. man zählt nur de Anzahl der Eregnsse n enem bestmmten Massengebet. Im folgenden soll deses Massengebet de 2σ-Umgebung um de Poston des Sgnals sen, also das Intervall zwschen 7 und 9 GeV. Weterhn wollen wr unserer bshergen Theore n Bezug auf de Untergrundvorhersage absolut vertrauen, de erwartete Anzahl B von Untergrunderegnssen m Massenfenster st also gegeben durch das Integral über de Untergrund-WDF multplzert mt der mttleren Gesamtanzahl von Untergrunderegnssen. Wenn man n der so defnerten Sgnalregon x Eregnsse beobachtet, ergbt sch nach ener enfachen Rechnung der q-wert zu: Gehen Se nun we folgt vor: q = 2x ln B + 2B + 2x ln x 2x. a) Bestmmen Se de Anzahl B der erwarteteten Untergrunderegnsse m Massenfenster mttels FunUG.Integral(Double_t low, Double_t hgh) und der beannten erwarteten Gesamtanzahl nbg. b) Führen Se 10000 Pseudoexpermente nur mt Untergrund durch. Ermtteln Se de Anzahl der zu nehmenden Messwerte n jedem Zufallsexperment mttels nt nbg_desesexperment=myrandom.posson(nbg);. Würfeln Se dann entsprechend nbg_desesexperment-mal zufällg enen Wert gemäß FunUG und zählen de Anzahl von Eregnssen m Massenfenster. Wenn das Zufallsexperment vollständg erfolgt st (also de Schlefe über de nbg_desesexperment Zufallszahlen beendet st), berechnen Se für jedes Experment den q-wert, m folgenden q 0 genannt. Füllen Se desen n en Hstogramm. Im Bespelmaro st enes vorgegeben (qvalue_bgonly). c) Führen Se das selbe für Pseudoexpermente mt Sgnal- und Untergrund durch. Se önnen her de glechen Untergrunderegnsse we vorher verwenden und nur Sgnaleregnsse hnzufügen. Ermtteln Se de Anzahl an Sgnaleregnssen mttels nt nsg_desesexperment=myrandom.posson(nsg);. Würfeln Se dann entsprechend nsg_desesexperment-mal zufällg enen Wert gemäß FunSg und zählen de Anzahl von Eregnssen m Massenfenster. Beachten Se, dass zur Ermttlung der q-werte nun de Summe von Sgnal- und Untergrunderegnssen benötgt wrd, da de Hypothese H 1 smulert wrd. Ermtteln Se de erhaltenen q-werte (q 1 ) und füllen Se se n en weteres Hstogramm (ebenfalls vorgegeben: qvalue_sgplusbg). d) Stellen Se de Vertelungen von q 0 bzw. q 1 graphsch dar, nachdem Se 10000 Zufallsexpermente durchgeführt haben. e) Verfzeren Se, dass es sch be der Vertelung von q 0 um ene χ 2 -Vertelung mt enem Frehetsgrad handelt. In /home/sla/statstcscourse/ps12/ch2snppet.c befndet sch ene defnerte Funton, nebst geegneten Startwerten für ene Anpassung. Se önnen auch de Normerung und de Anzahl der Frehetsgrade fxeren (FxParameter statt SetParameter) und dese Kurve zum Verglech n ener anderen Farbe (z.b. SetLneColor(Red)) mt enzechnen. Um de Vertelung besser sehen zu önnen, önnen Se mttels gpad.setlogy(); ene halblogarthmsche Darstellung wählen. f) Berechnen Se den Medan der Vertelung von q 1. Des önnen Se z.b. we folgt machen: double xq[1]; // poston where to compute the quantles n [0,1] double yq[1]; // array to contan the quantles xq[0]=0.5; qvalue_sgplusbg.getquantles(1,yq,xq); float medan=yq[0]; g) We groß wäre also für Expermente mt Sgnal- und Untergrund m Medan der q-wert? Warum önnte man n desem Fall den p-wert für de Hypothese H 0 (nur Untergrund) ncht so enfach mt solchen Pseudoexpermenten ermtteln? () Als nächstes wollen wr von der Annahme, dass wr den Untergrund m Massenfenster exat ennen, was ncht besonders realstsch st, abrücen, und stattdessen annehmen, dass wr nur de Form des Untergrundes perfet ennen. Man defnert sch dann bespelswese en Setenband über de Forderung, mehr als 4σ von der Sgnalposton entfernt zu sen. Das Verhältns τ zwschen Setenband- und Sgnalregon st dann gegeben durch das Verhältns der Integrale der Untergrund- WDF n desen beden Gebeten. Deses Setenband wrd dann zur Messung des Untergrundes n

den Daten verwendet. Wenn dann n der Sgnalregon x und m Setenband y Eregnsse gesehen werden, ergbt sch der q-wert zu: ( ) x + y 2(x ln(x) + y ln(y) (x + y) ln y ln(τ)). 1 + τ a) Bestmmen Se τ für den Fall der beschrebenen Sgnal- und Setenbandregon. b) Führen Se weder 10000 Pseudoexpermentze mt nur Untergrund sowe Sgnal- und Untergrund durch und füllen Se q 0 bzw. q 1 n en Hstogramm. c) Verfzeren Se weder das Verhalten von q 0 sowe den Medan der q 1 -Vertelung. Was fällt Ihnen auf? () Wr haben also gesehen, dass es de Profle-Lelhood ermöglcht, sehr enfach p-werte auszurechnen, da der Satz von Wles für de Nullhypothese de Vorhersage macht, dass de q-werte nach χ 2 vertelt sen sollen. Da für Entdecungen m allgemenen p-werte n der Größenordnung von 10 7 (entsprechend q-werten um 25) betrachtet werden, wäre ene MC-Smulaton deser Vertelung sehr zetaufwändg. We vele Pseudoexpermente müßte man bespelswese durchführen, wenn man be enem erwarteten q von 25 den p-wert auf 10% genau bestmmen wollte? Aufgabe 68 Fsher-Dsrmnante Im Folgenden soll de sogenannte Fsher-Dsrmnante zur Trennung zwschen zwe Eregnslassen benutzt werden. Dabe werden.a. n trennende Varablen x 1,... x n benutzt. De Fsher-Dsrmnante st dann gegeben durch t = n a x 1 2 =1 n =1 a ( x (1) + x (2) ), (1) wobe x (1,2) de Mttelwerte der Observablen der Klasse 1 bzw. 2 snd. De a ergeben sch aus den Kovaranzmatrzen der Klasse j V (j) m = 1 (x (j) m x (1) m )(x (j) N x (1) ), (2) wobe über enen Tranngsdatensatz der Größe N summert wrd, zu: a = N (V 1 ) ( x (1) x (2) ) mt: V m = 1 2 ( V (1) m + V (2) m Im Folgenden wollen wr de folgende Stuaton betrachten: Ene Sgnallasse C S und ene Untergrundlasse C B sollen durch ene Fsher-Dsrmnante n den Varablen (x 1,x 2 ) optmal getrennt werden. De Sgnaleregnsse sollen gemäß ener zwedmensonalen Gaussvertelung mt Mttelwerten (0. 7,0. 35) und σ = 0. 15, und de Untergrunderegnsse ebenfalls nach ener zwedmensonalen Gaußvertelung mt glechem σ und Mttelwerten (0. 4,0. 75) vertelt sen. Das Maro /home/sla/statstcscourse/ps13/aufgabe68_anfang.c enthält berets de Konstruton der Fsher-Dsrmnanten gemäß obger Vorschrft und nach den beschrebenen Wahrschenlchetsdchtefuntonen. Se snd gerne engeladen, sch von der Rchtget deses Maros zu überzeugen. Erwetern Se deses Maro, um folgende Aufgaben durchzuführen. () Erzeugen Se nochmals 10000 Sgnal- und Untergrunderegnsse, z.b. für Sgnaleregnsse mttels: x[0]=rnd.gaus(sgnalmeanx,sgnalsgmax); x[1]=rnd.gaus(sgnalmeany,sgnalsgmay); Ermtteln Se für jedes erzeugte Wertepaar den Wert der Fsher-Dsrmnante und tragen hn n Hstogramme für Sgnal- und Untergrund en. Benutzen Se für Sgnal- und Untergrund dasselbe Bnnng. Stellen Se de Hstogramme für Sgnal- und Untergrunderegnsse n verschedenen Farben überenandergelegt dar. De Lnenfarbe des Hstogramms önnen Se bespelswese mt TH1::SetLneColor(Red) ändern. () Zur Separaton zwschen Sgnal- und Untergrund ann man also Schntte der Form t > t cut anwenden. Fahren Se enen solchen Schntt durch und ermtteln Se für jeden Schnttwert t cut de Effzenz ɛ und de Renhet π, de defnert snd durch ɛ = N S(t > t cut ) N S π = ). N S (t > t cut ) N S (t > t cut ) + N B (t > t cut ). (3)

Das Durchfahren des Schnttes ann über de berets erstellten Hstogramme der Fsherdsrmnanten für Sgnal- und Untergrund erfolgen. Schreben Se dazu enfach ene Schlefe über de Hstogrammbns, ermtteln mttels hst.integral(,nbns+1) de Anzahl an Sgnal- bzw. Untergrunderegnssen de oberhalb des gerade atuell betrachteten Bns legen. Des entsprcht genau der Anwendung enes Schnttes mt dem Schnttwert bem unteren Rand des Hstogrammbns. Stellen Se enen passenden TGraph beret, n den Se de ermttelten Werte für Effzenz und Renhet als Wertepaare engeben. Stellen Se damt de Renhet n Abhängget von der Effzenz graphsch dar. Beachten Se, dass Se den Fall von 0 Sgnal- und 0 Untergrunderegnssen nach dem Schntt auf t abfangen müssen, da es sonst bem Ausrechnen der Renhet zu ener Dvson durch Null ommt. () Erstellen Se enen Scatterplot der Meßgrößen x 1 und x 2 für Sgnal- und Untergrunderegnsse. Benutzen Se dazu zwe wetere TGraph-Objete. Se önnen de Farbe der Punte mttels graph.setmarercolor(red); verändern um Sgnal- und Untergrund unterscheden zu önnen. (v) Zechnen Se n desen Graphen Lnen mt onstantem t en. Benutzen Se dazu ene Funton vom Typ TF1. Überlegen Se sch, we dese Funton aussehen muss. Betrachten Se dazu, we de Fsherdsrmnante berechnet wrd. Schreben Se sch dese auf, setzen Se se auf enen belebgen Wert t cut und lösen nach y auf. De übrgblebenden Parameter snd als Parameter der TF1-Funton zu benutzen und entsprechend mt SetParameter zu setzen. De Lnenfarbe der Funton önnen Se mttels fun.setlnecolor(green) verändern. (v) Sollte noch Zet bleben: Führen Se de obgen Aufgaben auch durch, wenn Se nur n ener Varablen, z.b. x 1 schneden. Verglechen Se de Effzenz-Renhetsurve mt derjengen der Fsher- Dsrmnanten.

Hausaufgaben Aufgabe 69 Fsherdsrmante und Lelhoodverhältns 0 Punte Betrachten Se enen Satz von Observablen x, de unter den Hypothesen H 0 und H 1 durch zwe multdmensonale Gaussvertelungen mt dentschen Kovaranzmatrzen V 0 = V 1 = V als Wahrschenluchetsdchtefuntonen beschreben werden sollen. De WDFs unter den verschedenen Hypothesen lauten also: f( x H ) = [ 1 (2π) n/2 exp 1 ] V 1/2 2 ( x µ ) T V 1 ( x µ ) () Zegen Se, dass das Lelhoodverhältns gegeben st durch wobe t de Fsherdsrmnante r = f( x H 0) f( x H 1 ) = exp(t), t( x) = a 0 + ( µ 0 µ 1 ) T V 1 x {0,1}. mt enem belebgen Schwellenwert a 0 st. Dementsprechend st ene Optmerung des Lelhoodverhältnsses äquvalent zu ener Optmerung der Fsherdsrmnante. () Benutzen Se das Bayes-Theorem mt A-Prorwahrschenlcheten π 0 und π 1 für H 0 und H 1, um zu zegen, dass de bedngte Wahrschenlchet für H 0 be gegebenen Daten x gegeben st durch P (H 0 x) = 1 1 + exp( t) = s(t) wobe de s(t) de logstsche Funton st. Betrachten Se dazu ene neue Defnton des Schwellenwertes von der Form a 0 = a 0 + log π 0 π 1.