Statistische Methoden der Datenanalyse. Übung XIII

Ähnliche Dokumente
Arbeitsgruppe Radiochemie Radiochemisches Praktikum P 06. Einführung in die Statistik. 1. Zählung von radioaktiven Zerfällen und Statistik 2

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Lösungen. Übungsklausur Wahrscheinlichkeit und Regression Die Lösungen

2 Zufallsvariable und Verteilungen

Lösungen zum 3. Aufgabenblock

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

-70- Anhang: -Lineare Regression-

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Klasse : Name1 : Name 2 : Datum : Nachweis des Hookeschen Gesetzes und Bestimmung der Federkonstanten

Die Annäherung der Binomialverteilung durch die Normalverteilung am Beispiel eines Modells der Schadenversicherung

(Theoretische) Konfidenzintervalle für die beobachteten Werte: Die Standardabweichung des Messfehlers wird Standardmessfehler genannt:

Stochastische Prozesse

Die hierzu formulierte Nullhypothese H lautet: X wird durch die Verteilungsdichtefunktion h(x)

Fallstudie 1 Diskrete Verteilungen Abgabe: Aufgabentext und Lösungen schriftlich bis zum

Definition des linearen Korrelationskoeffizienten

Gruppe. Lineare Block-Codes

Abbildung 3.1: Besetzungszahlen eines Fermigases im Grundzustand (a)) und für eine angeregte Konfiguration (b)).

Grundlagen der Mathematik I Lösungsvorschlag zum 12. Tutoriumsblatt

Resultate / "states of nature" / mögliche Zustände / möglicheentwicklungen

1 Mehrdimensionale Analysis

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

2πσ. e ax2 dx = x exp. 2πσ. 2σ 2. Die Varianz ergibt sich mit Hilfe eines weiteren bestimmten Integrals: x 2 e ax2 dx = 1 π.

Item-response Theorie (Probablistiche Testtheorie) Grundidee der item-response Theorie ist, dass die Antworten auf die Testitems lediglich

Prof. Dr. Roland Füss Statistik II SS 2008

Prof. Dr. P. Kischka WS 2012/13 Lehrstuhl für Wirtschafts- und Sozialstatistik. Klausur Statistische Inferenz

Fallstudie 4 Qualitätsregelkarten (SPC) und Versuchsplanung

Statistik und Wahrscheinlichkeitsrechnung

Facility Location Games

Maße der zentralen Tendenz (10)

An dem Ergebnis eines Zufallsexperiments interessiert oft nur eine spezielle Größe, meistens ein Messwert.

Eine kurze Einführung in die Dichtefunktionaltheorie (DFT)

Stochastische Prozesse

Hauptprüfung Abiturprüfung 2014 (ohne CAS) Baden-Württemberg

Grundgedanke der Regressionsanalyse

Entfaltungs-Methoden in der Datenanalyse. Matthias Bartelt Universität Dortmund

3. Lineare Algebra (Teil 2)

FORMELSAMMLUNG STATISTIK (I)

Sicherheit von Π MAC2

Methoden der innerbetrieblichen Leistungsverrechnung

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

z.b. Münzwurf: Kopf = 1 Zahl = 2 oder z.b. 2 Würfel: Merkmal = Summe der Augenzahlen, also hier: Bilde die Summe der Augenzahlen der beiden Würfel!

Statistik und Wahrscheinlichkeit

Elemente der Mathematik - Sommer 2016

Rotation (2. Versuch)

Streuungs-, Schiefe und Wölbungsmaße

e dt (Gaußsches Fehlerintegral)

Grundlagen der Technischen Informatik. 12. Übung. Christian Knell Keine Garantie für Korrekt-/Vollständigkeit

Bedingte Entropie. Bedingte Entropie. Bedingte Entropie. Kapitel 4: Bedingte Entropie I(X;Y) H(X Y) H(Y) H(X) H(XY)

Weitere NP-vollständige Probleme

SS 2017 Torsten Schreiber

Course Dec 15, Statistische Mechanik plus. Course Hartmut Ruhl, LMU, Munich. People involved. Rationale

1 Finanzmathematik. 1.1 Das Modell. Sei Xt

Gauss sche Fehlerrrechnung

Optimierung 4.3 A2 : Warenhauszentrale a 2 +b 2 =c 2 Materialbörse Mathematik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Auswertung univariater Datenmengen - deskriptiv

Nernstscher Verteilungssatz

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

Vermessungskunde für Bauingenieure und Geodäten

Konkave und Konvexe Funktionen

1 Definition und Grundbegriffe

Versuch Nr. 6. Chemische Kinetik Aktivierungsenergie (Inversion von Saccharose)

Analysis I. Vorlesung 17. Logarithmen. R R, x exp x,

Statistik Exponentialfunktion

Aufgabe 1: Portfolio Selection

6. Modelle mit binären abhängigen Variablen

Informatik II. Minimalpolynome und Implikanten. Minimalpolynome. Minimalpolynome. Rainer Schrader. 27. Oktober Was bisher geschah: Definition

AUFGABEN ZUR INFORMATIONSTHEORIE

Standardnormalverteilung / z-transformation

Protokoll zum Grundversuch Mechanik

Vermessungskunde für Bauingenieure und Geodäten

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/ ω Additionstheorem: 2 sin 2 2

Klausur zur Vorlesung Lineare Modelle SS 2006 Diplom, Klausur A

5 Gemischte Verallgemeinerte Lineare Modelle

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Netzwerkstrukturen. Entfernung in Kilometer:

1.11 Beispielaufgaben

Z Z, kurz { } Zählt die Reihenfolge der Buchstaben (ja/nein) Daraus ergeben sich wiederum vier Möglichkeiten, Wörter der Länge k zu bilden.

Sei T( x ) die Tangente an den Graphen der Funktion f(x) im Punkt ( x 0, f(x 0 ) ) : T( x ) = f(x 0 ) + f (x 0 ) ( x - x 0 ).

Theoretische Physik II Elektrodynamik Blatt 2

Protokoll zu Versuch C1-Mischungsvolumina

Erwartungswert, Varianz, Standardabweichung

Die Leistung von Quicksort

Diskrete Mathematik 1 WS 2008/09

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

Multilineare Algebra und ihre Anwendungen. Nr. 6: Normalformen. Verfasser: Yee Song Ko Adrian Jenni Rebecca Huber Damian Hodel

6. Übung zur Linearen Algebra II

Schriftliche Prüfung aus Systemtechnik am

Das Bayessche Theorem ist ein Ergebnis aus der Wahrscheinlichkeitstheorie und liefert einen Zusammenhang zwischen bedingten Wahrscheinlichkeiten.

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Regressionsgerade. x x 1 x 2 x 3... x n y y 1 y 2 y 3... y n

Statistik der Extremwertverteilungen

Dynamisches Programmieren

NSt. Der Wert für: x= +1 liegt, erkennbar an dem zugehörigen Funktionswert, der gesuchten Nullstelle näher.

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Polygonalisierung einer Kugel. Verfahren für die Polygonalisierung einer Kugel. Eldar Sultanow, Universität Potsdam,

Auswertung univariater Datenmengen - deskriptiv

Das zum dualen Problem (10.2) gehörige Barriere-Problem lautet analog

Algorithmen und ihre Programmierung -Teil 3-

4.6 Das Pumping-Lemma für reguläre Sprachen:

Teil IV: Drei Musterklausuren

Transkript:

Albert-Ludwgs-Unverstät Freburg Wntersemester 2012/2013 Statstsche Methoden der Datenanalyse Marus Schumacher, Stan La, Floran Kss Übung XIII 05.2.2013, 08.2.2013 Anwesenhetsaufgaben Aufgabe 67 Profle Lelhood für de Entdecung enes neuen Telchens Betrachtet wrd folgendes Szenaro: Ene Theore sagt de Exstenz enes neuen Telchens mt ener Masse von 8 GeV vorher, welches m Experment als ene resonante Überhöhung über enem exponentell vertelten Untergrund (τ = 10 GeV) beobachtet werden önnte. De Wahrschenlchetsdchtefunton für den Untergrund se also ene Exponentalvertelung, und de für das Sgnal ene Gaussfunton mt Mttelwert 8 GeV und Standardabwechung 0. 5 GeV, da wr weterhn annehmen, dass de durch de Detetorauflösung beobachtete Brete der Resonanz sofern se exstert 0. 5 GeV betrage. Des Weteren sagt unsere bsherge Standardtheore ene Gesamtanzahl von Untergrunderegnssen von N UG = 10000 voraus, sowe unsere neue Theore N Sg = 175 Sgnaleregnsse. Im Folgenden soll mttels der Profle-Lelhood-Methode, de n der Vorlesung und der letzten Hausaufgabe besprochen wurde, de Senstvtät des Experments auf ene eventuelle Entdecung untersucht werden. De Profle-Lelhood st defnert über das Verhältns λ = L( x H 0) L( x H 1 ), wobe x de beobachteten Daten, L de unter der betreffenden Hypothese maxmerte Lelhoodfunton, H 0 de nur-untergrund Hypothese und H 1 de Sgnal und Untergund Hypothese snd. Zumest wrd dann de Größe q = 2 ln λ betrachtet. Für en Experment mt nur-untergrund sollte q( x UG ) vertelt sen we ene χ 2 -Vertelung mt enem Frehetsgrad. Im Folgenden soll de Monte-Carlo-Methode benutzt werden, um Pseudoexpermente enersets nur mt Untergrund, als auch mt Sgnal- und Untergrund durchzuführen. Mttels deser Pseudoexpermente önnen dann de Vertelungen von q( x UG ) q 0 und von q( x Sg.+UG ) q 1 erzeugt werden, um festzustellen, we senstv das Experment auf das vorhergesagte neue Telchen st. Zur Durchführung der Pseudoexpermente sollen mt float data = Fun.GetRandom(); Zufallszahlen erzeugt werden, de nach der Untergrund- bzw. Sgnal-WDF vertelt snd. De m jewelgen Pseudoexperment zu genererende Anzahl von Untergrund- bzw. Sgnaleregnssen bestmmen Se nach der Possonvertelung mttels myrandom.posson(nbg);. Achten Se jewels darauf, dass jewels sowohl en Pseudoexperment mt nur Untergrund und enes mt Sgnal und Untergrund gemacht wrd. Im Weteren sollen dre verschedene Suchstrategen nach desem neuen Telchen besprochen werden. Im Maro /home/sla/statstcscourse/ps12/aufgabe64_anfang.c befndet sch en Bespelmaro, n dem enge der (auch später) benötgten Funtonen und Hstogramme schon vordefnert snd. De Bnbreten und Vorgabewerte snd her berets aufenander angepasst, so dass später Zet gespart werden ann.

() Als en erster Ansatz soll en renes Zählexperment n enem sogenannten Massenfenster gemacht werden, d.h. man zählt nur de Anzahl der Eregnsse n enem bestmmten Massengebet. Im folgenden soll deses Massengebet de 2σ-Umgebung um de Poston des Sgnals sen, also das Intervall zwschen 7 und 9 GeV. Weterhn wollen wr unserer bshergen Theore n Bezug auf de Untergrundvorhersage absolut vertrauen, de erwartete Anzahl B von Untergrunderegnssen m Massenfenster st also gegeben durch das Integral über de Untergrund-WDF multplzert mt der mttleren Gesamtanzahl von Untergrunderegnssen. Wenn man n der so defnerten Sgnalregon x Eregnsse beobachtet, ergbt sch nach ener enfachen Rechnung der q-wert zu: Gehen Se nun we folgt vor: q = 2x ln B + 2B + 2x ln x 2x. a) Bestmmen Se de Anzahl B der erwarteteten Untergrunderegnsse m Massenfenster mttels FunUG.Integral(Double_t low, Double_t hgh) und der beannten erwarteten Gesamtanzahl nbg. b) Führen Se 10000 Pseudoexpermente nur mt Untergrund durch. Ermtteln Se de Anzahl der zu nehmenden Messwerte n jedem Zufallsexperment mttels nt nbg_desesexperment=myrandom.posson(nbg);. Würfeln Se dann entsprechend nbg_desesexperment-mal zufällg enen Wert gemäß FunUG und zählen de Anzahl von Eregnssen m Massenfenster. Wenn das Zufallsexperment vollständg erfolgt st (also de Schlefe über de nbg_desesexperment Zufallszahlen beendet st), berechnen Se für jedes Experment den q-wert, m folgenden q 0 genannt. Füllen Se desen n en Hstogramm. Im Bespelmaro st enes vorgegeben (qvalue_bgonly). c) Führen Se das selbe für Pseudoexpermente mt Sgnal- und Untergrund durch. Se önnen her de glechen Untergrunderegnsse we vorher verwenden und nur Sgnaleregnsse hnzufügen. Ermtteln Se de Anzahl an Sgnaleregnssen mttels nt nsg_desesexperment=myrandom.posson(nsg);. Würfeln Se dann entsprechend nsg_desesexperment-mal zufällg enen Wert gemäß FunSg und zählen de Anzahl von Eregnssen m Massenfenster. Beachten Se, dass zur Ermttlung der q-werte nun de Summe von Sgnal- und Untergrunderegnssen benötgt wrd, da de Hypothese H 1 smulert wrd. Ermtteln Se de erhaltenen q-werte (q 1 ) und füllen Se se n en weteres Hstogramm (ebenfalls vorgegeben: qvalue_sgplusbg). d) Stellen Se de Vertelungen von q 0 bzw. q 1 graphsch dar, nachdem Se 10000 Zufallsexpermente durchgeführt haben. e) Verfzeren Se, dass es sch be der Vertelung von q 0 um ene χ 2 -Vertelung mt enem Frehetsgrad handelt. In /home/sla/statstcscourse/ps12/ch2snppet.c befndet sch ene defnerte Funton, nebst geegneten Startwerten für ene Anpassung. Se önnen auch de Normerung und de Anzahl der Frehetsgrade fxeren (FxParameter statt SetParameter) und dese Kurve zum Verglech n ener anderen Farbe (z.b. SetLneColor(Red)) mt enzechnen. Um de Vertelung besser sehen zu önnen, önnen Se mttels gpad.setlogy(); ene halblogarthmsche Darstellung wählen. f) Berechnen Se den Medan der Vertelung von q 1. Des önnen Se z.b. we folgt machen: double xq[1]; // poston where to compute the quantles n [0,1] double yq[1]; // array to contan the quantles xq[0]=0.5; qvalue_sgplusbg.getquantles(1,yq,xq); float medan=yq[0]; g) We groß wäre also für Expermente mt Sgnal- und Untergrund m Medan der q-wert? Warum önnte man n desem Fall den p-wert für de Hypothese H 0 (nur Untergrund) ncht so enfach mt solchen Pseudoexpermenten ermtteln? () Als nächstes wollen wr von der Annahme, dass wr den Untergrund m Massenfenster exat ennen, was ncht besonders realstsch st, abrücen, und stattdessen annehmen, dass wr nur de Form des Untergrundes perfet ennen. Man defnert sch dann bespelswese en Setenband über de Forderung, mehr als 4σ von der Sgnalposton entfernt zu sen. Das Verhältns τ zwschen Setenband- und Sgnalregon st dann gegeben durch das Verhältns der Integrale der Untergrund- WDF n desen beden Gebeten. Deses Setenband wrd dann zur Messung des Untergrundes n

den Daten verwendet. Wenn dann n der Sgnalregon x und m Setenband y Eregnsse gesehen werden, ergbt sch der q-wert zu: ( ) x + y 2(x ln(x) + y ln(y) (x + y) ln y ln(τ)). 1 + τ a) Bestmmen Se τ für den Fall der beschrebenen Sgnal- und Setenbandregon. b) Führen Se weder 10000 Pseudoexpermentze mt nur Untergrund sowe Sgnal- und Untergrund durch und füllen Se q 0 bzw. q 1 n en Hstogramm. c) Verfzeren Se weder das Verhalten von q 0 sowe den Medan der q 1 -Vertelung. Was fällt Ihnen auf? () Wr haben also gesehen, dass es de Profle-Lelhood ermöglcht, sehr enfach p-werte auszurechnen, da der Satz von Wles für de Nullhypothese de Vorhersage macht, dass de q-werte nach χ 2 vertelt sen sollen. Da für Entdecungen m allgemenen p-werte n der Größenordnung von 10 7 (entsprechend q-werten um 25) betrachtet werden, wäre ene MC-Smulaton deser Vertelung sehr zetaufwändg. We vele Pseudoexpermente müßte man bespelswese durchführen, wenn man be enem erwarteten q von 25 den p-wert auf 10% genau bestmmen wollte? Aufgabe 68 Fsher-Dsrmnante Im Folgenden soll de sogenannte Fsher-Dsrmnante zur Trennung zwschen zwe Eregnslassen benutzt werden. Dabe werden.a. n trennende Varablen x 1,... x n benutzt. De Fsher-Dsrmnante st dann gegeben durch t = n a x 1 2 =1 n =1 a ( x (1) + x (2) ), (1) wobe x (1,2) de Mttelwerte der Observablen der Klasse 1 bzw. 2 snd. De a ergeben sch aus den Kovaranzmatrzen der Klasse j V (j) m = 1 (x (j) m x (1) m )(x (j) N x (1) ), (2) wobe über enen Tranngsdatensatz der Größe N summert wrd, zu: a = N (V 1 ) ( x (1) x (2) ) mt: V m = 1 2 ( V (1) m + V (2) m Im Folgenden wollen wr de folgende Stuaton betrachten: Ene Sgnallasse C S und ene Untergrundlasse C B sollen durch ene Fsher-Dsrmnante n den Varablen (x 1,x 2 ) optmal getrennt werden. De Sgnaleregnsse sollen gemäß ener zwedmensonalen Gaussvertelung mt Mttelwerten (0. 7,0. 35) und σ = 0. 15, und de Untergrunderegnsse ebenfalls nach ener zwedmensonalen Gaußvertelung mt glechem σ und Mttelwerten (0. 4,0. 75) vertelt sen. Das Maro /home/sla/statstcscourse/ps13/aufgabe68_anfang.c enthält berets de Konstruton der Fsher-Dsrmnanten gemäß obger Vorschrft und nach den beschrebenen Wahrschenlchetsdchtefuntonen. Se snd gerne engeladen, sch von der Rchtget deses Maros zu überzeugen. Erwetern Se deses Maro, um folgende Aufgaben durchzuführen. () Erzeugen Se nochmals 10000 Sgnal- und Untergrunderegnsse, z.b. für Sgnaleregnsse mttels: x[0]=rnd.gaus(sgnalmeanx,sgnalsgmax); x[1]=rnd.gaus(sgnalmeany,sgnalsgmay); Ermtteln Se für jedes erzeugte Wertepaar den Wert der Fsher-Dsrmnante und tragen hn n Hstogramme für Sgnal- und Untergrund en. Benutzen Se für Sgnal- und Untergrund dasselbe Bnnng. Stellen Se de Hstogramme für Sgnal- und Untergrunderegnsse n verschedenen Farben überenandergelegt dar. De Lnenfarbe des Hstogramms önnen Se bespelswese mt TH1::SetLneColor(Red) ändern. () Zur Separaton zwschen Sgnal- und Untergrund ann man also Schntte der Form t > t cut anwenden. Fahren Se enen solchen Schntt durch und ermtteln Se für jeden Schnttwert t cut de Effzenz ɛ und de Renhet π, de defnert snd durch ɛ = N S(t > t cut ) N S π = ). N S (t > t cut ) N S (t > t cut ) + N B (t > t cut ). (3)

Das Durchfahren des Schnttes ann über de berets erstellten Hstogramme der Fsherdsrmnanten für Sgnal- und Untergrund erfolgen. Schreben Se dazu enfach ene Schlefe über de Hstogrammbns, ermtteln mttels hst.integral(,nbns+1) de Anzahl an Sgnal- bzw. Untergrunderegnssen de oberhalb des gerade atuell betrachteten Bns legen. Des entsprcht genau der Anwendung enes Schnttes mt dem Schnttwert bem unteren Rand des Hstogrammbns. Stellen Se enen passenden TGraph beret, n den Se de ermttelten Werte für Effzenz und Renhet als Wertepaare engeben. Stellen Se damt de Renhet n Abhängget von der Effzenz graphsch dar. Beachten Se, dass Se den Fall von 0 Sgnal- und 0 Untergrunderegnssen nach dem Schntt auf t abfangen müssen, da es sonst bem Ausrechnen der Renhet zu ener Dvson durch Null ommt. () Erstellen Se enen Scatterplot der Meßgrößen x 1 und x 2 für Sgnal- und Untergrunderegnsse. Benutzen Se dazu zwe wetere TGraph-Objete. Se önnen de Farbe der Punte mttels graph.setmarercolor(red); verändern um Sgnal- und Untergrund unterscheden zu önnen. (v) Zechnen Se n desen Graphen Lnen mt onstantem t en. Benutzen Se dazu ene Funton vom Typ TF1. Überlegen Se sch, we dese Funton aussehen muss. Betrachten Se dazu, we de Fsherdsrmnante berechnet wrd. Schreben Se sch dese auf, setzen Se se auf enen belebgen Wert t cut und lösen nach y auf. De übrgblebenden Parameter snd als Parameter der TF1-Funton zu benutzen und entsprechend mt SetParameter zu setzen. De Lnenfarbe der Funton önnen Se mttels fun.setlnecolor(green) verändern. (v) Sollte noch Zet bleben: Führen Se de obgen Aufgaben auch durch, wenn Se nur n ener Varablen, z.b. x 1 schneden. Verglechen Se de Effzenz-Renhetsurve mt derjengen der Fsher- Dsrmnanten.

Hausaufgaben Aufgabe 69 Fsherdsrmante und Lelhoodverhältns 0 Punte Betrachten Se enen Satz von Observablen x, de unter den Hypothesen H 0 und H 1 durch zwe multdmensonale Gaussvertelungen mt dentschen Kovaranzmatrzen V 0 = V 1 = V als Wahrschenluchetsdchtefuntonen beschreben werden sollen. De WDFs unter den verschedenen Hypothesen lauten also: f( x H ) = [ 1 (2π) n/2 exp 1 ] V 1/2 2 ( x µ ) T V 1 ( x µ ) () Zegen Se, dass das Lelhoodverhältns gegeben st durch wobe t de Fsherdsrmnante r = f( x H 0) f( x H 1 ) = exp(t), t( x) = a 0 + ( µ 0 µ 1 ) T V 1 x {0,1}. mt enem belebgen Schwellenwert a 0 st. Dementsprechend st ene Optmerung des Lelhoodverhältnsses äquvalent zu ener Optmerung der Fsherdsrmnante. () Benutzen Se das Bayes-Theorem mt A-Prorwahrschenlcheten π 0 und π 1 für H 0 und H 1, um zu zegen, dass de bedngte Wahrschenlchet für H 0 be gegebenen Daten x gegeben st durch P (H 0 x) = 1 1 + exp( t) = s(t) wobe de s(t) de logstsche Funton st. Betrachten Se dazu ene neue Defnton des Schwellenwertes von der Form a 0 = a 0 + log π 0 π 1.