Untersuchung von Random Forests auf Monte-Carlo-Daten des FACT-Teleskopes

Größe: px
Ab Seite anzeigen:

Download "Untersuchung von Random Forests auf Monte-Carlo-Daten des FACT-Teleskopes"

Transkript

1 Untersuchung von Random Forests auf Monte-Carlo-Daten des FACT-Teleskopes Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science vorgelegt von Volker Andreas Austrup geboren in Dannenberg/Elbe Lehrstuhl für Experimentelle Physik Vb Fakultät Physik Technische Universität Dortmund 2014

2 1. Gutachter : Prof. Dr. Dr. Wolfgang Rohde 2. Gutachter : Prof. Dr. Carsten Westphal Datum des Einreichens der Arbeit: 16. Juli 2014

3 Kurzfassung Das FACT-Teleskop ist ein abbildendes atmosphärisches Cherenkov-Teleskop, mit dessen Hilfe hochenergetische kosmische Gammastrahlung detektiert werden kann. Dazu muss jedoch das Signal von einem deutlich größeren hadronischen Untergrund separiert werden, etwa mit einem Random Forest. Ziel dieser Arbeit ist die Untersuchung dieses Verfahren anhand von Daten aus Monte-Carlo-Simulationen. Dazu werden verschiedene Parametereinstellungen getestet und die Ergebnisse mit unterschiedlichen statistischen Hilfsmitteln ausgewertet. Daraus werden die Einstellungen ermittelt, die eine gute Performance liefern. Abstract The FACT telescope is an imaging atmosperic Cherenkov telescope to detect highenergy cosmic gamma rays. To fulfill this purpose the signal has to be separated from a much higher background consisting of hadrones. One method to do this is a Random Forest. The aim of this thesis is to study Random Forest using data from Monte Carlo simulations by varying the parameter settings and analyzing the results with various statistical measures. From that, the settings providing a good performance can be determined.

4 Inhaltsverzeichnis Inhaltsverzeichnis Abbildungsverzeichnis IV V 1 Einleitung 1 2 Theoretische Hintergründe VHE-Gammastrahlung Entstehung von Cherenkov-Licht FACT Gamma-Hadron-Separation von Monte-Carlo-Daten Vorbereitung der Daten Random Forest Aufbau eines Random Forest Kreuzvalidierung Maße zur Beurteilung der Klassifikation durch den Random Forest RapidMiner und Weka-Erweiterung Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten ROC-Kurven Q-Faktoren Reinheit, gewichtete Reinheit und Effizienz Abhängigkeit von der Anzahl der Bäume I Abhängigkeit von der Anzahl der Attribute k Korrelationsplots Zusammenfassung und Ausblick 25 IV

5 Abbildungsverzeichnis 2.1 FACT-Teleskop auf La Palma Vergleich der Parameterverteilungen der Gamma- und der Protonereignisse Aufbau eines Entscheidungsbaums Schematische Darstellung einer Kreuzvalidierung Beispiel einer ROC-Kurve Minimalbeispiel für einen Prozess im RapidMiner Verlauf von Reinheit und Effizienz bei verschiedenen Konfidenzschnitten ROC-Kurven für unterschiedliche Anzahlen an Attributen ROC-Kurven für unterschiedliche Anzahlen an Bäumen Q-Faktoren für verschiedene Parametereinstellungen Reinheit in Abhängigkeit von der Anzahl der Bäume Effizienz in Abhängigkeit von der Anzahl der Bäume Effizienz in Abhängigkeit von der Anzahl der Attribute Reinheit in Abhängigkeit von der Anzahl der Attribute Protoneffizienz in Abhängigkeit von der Anzahl der Attribute Korrelationsplot zwischen Length und Width Korrelationsplot zwischen Size und Width V

6

7 Kapitel 1 Einleitung Zur Beobachtung und Untersuchung hochenergetischer Prozesse im Universum wird die Gammaastronomie genutzt, deren Gegenstand äußerst energiereiche Photonen sind. Diese besitzen keine elektrische Ladung, weshalb sie unbeeinflusst von elektromagnetischen Feldern ihre Richtungsinformation beibehalten. Bei der Gammaastronomie handelt sich um einen relativ jungen Zweig der Astronomie, erste Gammastrahlen im Weltraum wurden erst 1961/2 im Rahmen des Explorer-Programms der NASA nachgewiesen [1]. Da die Atmosphäre jedoch intransparent für Gammastrahlung ist, ist ein direkter Nachweis am Erdboden nicht möglich [2]. Heutzutage kann kosmische Gammastrahlung allerdings durch indirekte Messungen auch am Boden erfasst werden. Im sogenannten VHE-Bereich (Very High Energy), der Energien von einigen zehn GeV bis zu einigen hundert TeV umfasst, kommen dabei abbildende atmosphärische Cherenkov-Teleskope (engl. Imaging Atmospheric Cherenkov Telescope, IACT) zum Einsatz [3]. Diese nutzen die Erdatmosphäre als Kalorimeter, indem sie Cherenkov-Strahlung detektieren. Diese Strahlung wird ausgelöst von Schauern aus Sekundärteilchen, die beim Auftreffen der Gammastrahlung auf die Atmosphäre entstehen. Ein Beispiel für ein solches IACT ist FACT (First G-APD Cherenkov Telescope), das seit Herbst 2011 in Betrieb ist und Gegenstand der vorliegenden Bachelorarbeit ist [4]. Cherenkov-Licht entsteht allerdings nicht nur, wenn Gammateilchen auf die Atmosphäre treffen, sondern wird beispielsweise auch von kosmischen Hadronen hervorgerufen. Der dadurch auftretende hadronische Untergrund ist um einige Größenordnungen größer als das eigentlich zu messende Signal und muss daher von den Messdaten separiert werden [5]. Dazu wird in diesem Fall ein Random Forest verwendet. Ziel dieser Arbeit ist die Untersuchung dieses Verfahrens mit Hilfe der Data-Mining-Umgebung RapidMiner zur Bestimmung der Parameterkombination für bestmögliche Performance des Random Forests. Im ersten Teil dieser Arbeit soll ein kurzer Überblick über den theoretischen Hintergrund der physikalischen Prozesse geliefert werden. Anschließend wird auf die statistischen Analysewerkzeuge eingegangen. Danach sollen die verwendeten Daten behandelt werden und die Ergebnisse vorgestellt werden. Im letzten Teil werden die Ergebnisse zusammengefasst und ein Ausblick auf mögliche zukünftige Arbeitsschritte und Entwicklungen vorgenommen. 1

8 Kapitel 2 Theoretische Hintergründe 2.1 VHE-Gammastrahlung Der Bereich der sehr hochenergetischen Gammastrahlung umfasst Energien von einigen zehn GeV bis hin zu einigen hundert TeV. Zur Entstehung dieser Strahlung tragen insbesondere zwei Prozesse bei, die auf Wechselwirkungen von Photonen mit relativistischen Elektronen bzw. Nukleonen beruhen. Dies ist zum einen der Inverse Compton-Effekt (IC-Effekt). Dabei treten relativistische Elektronen in Wechselwirkung mit niederenergetischen Photonen. Bei der Wechselwirkung wird Energie vom Elektron auf das Photon übertragen und dieses somit beschleunigt. Dieser Vorgang findet häufig in der Nähe von Sternen statt, wo sich aufgrund von thermischer Emission oder von Synchrotronstrahlung viele niederenergetische Photonen befinden. Der zweite wichtige Prozess ist der Zerfall eines neutralen π 0 -Mesons. Dieses entsteht etwa bei einer Wechselwirkung von relativistischen Nukleonen mit Teilchen in ihrer Umgebung und besitzt eine Lebensdauer von s. Im Anschluss zerfällt es mit 99-prozentiger Wahrscheinlichkeit gemäß oder alternativ in etwa einem Prozent der Fälle gemäß π 0 γγ (2.1) π 0 e + e γ. (2.2) Es gibt also sowohl hadronische als auch leptonische Beschleunigungsmechanismen.[6] VHE-Gammastrahlung kann sowohl in galaktischen als auch in extra-galaktischen Quellen ihren Ursprung haben. Zu ersteren gehören Pulsare, Pulsarwind-Nebel (PWN) und Supernova-Überreste (engl. Supernova Remnant, SNR), zu letzteren Aktive Galaktische Kerne (AGN) und Gammastrahlenblitze (engl. Gamma Ray Bursts, GRB). GRBs sind kurze und äußerst helle Ausbrüche von Gammastrahlung. Sie besitzen Lebensdauern im Bereich von Millisekunden bis hin zu einigen hundert Sekunden, wobei ihr Fluss in dieser Zeit höher sein kann als derjenige aller anderen Gammaquellen [7]. Ihre Entstehung konnte bisher noch nicht eindeutig geklärt werden, es gibt allerdings 2

9 2.2. Entstehung von Cherenkov-Licht verschiedene Modelle, die unter anderem auf Supernovas oder der Kollision von Neutronensternen beruhen [8]. AGNs bestehen aus einem massiven schwarzen Loch in der Mitte einer Galaxie. Dieses nimmt große Mengen an Materie und demzufolge an Energie aus seiner Umgebung auf. Ein Teil dieser Energie kann aus dem Inneren der Galaxie entkommen und wird in Form von Materiejets abgestrahlt, in denen geladene Teilchen auf relativistische Geschwindigkeiten beschleunigt werden können [8]. SNRs sind die Überreste einer Supernova- Explosion. In der Schockwelle, die bei der Ausbreitung entsteht, werden die Partikel darin durch Prozesse der Fermibeschleunigung auf hohe Geschwindikeiten beschleunigt [9]. PWNs entstehen in einer Supernova, in deren Zentrum sich ein schnell drehender Pulsar befindet. Die Rotationsenergie dieses Pulsars wird dabei an Elementarteilchen in der Umgebung weitergegeben und beschleunigt diese so auf relativistische Geschwindigkeiten [10]. 2.2 Entstehung von Cherenkov-Licht Trifft hochenergetische kosmische Strahlung auf die Erdatmosphäre, kommt es zu Wechselwirkungen zwischen den Teilchen der Strahlung und den Molekülen der Atmosphäre. Dabei werden hochenergetische Sekundärteilchen produziert, die sich schauerförmig entlang der Trajektorie des Primärteilchens mit Geschwindigkeiten bewegen, die größer sein können als die Phasengeschwindigkeit des Lichts in der Atmosphäre [11]. Bewegt sich ein geladenes Teilchen durch ein Medium, erzeugt es darin eine elektrische Polarisation, es entstehen elektrische Dipolschwingungen, in deren Folge die Atome des Mediums Licht abstrahlen. Für Teilchengeschwindigkeiten v < c n mit der Lichtgeschwindigkeit im Vakuum c und dem Brechungsindex des Mediums n interferieren die ausgesandten Wellen destruktiv, sodass kein Licht wahrzunehmen ist. Für größere Geschwindigkeiten interferieren die Wellen konstruktiv, sodass Licht mit einem Öffnungswinkel von cosθ = 1 nβ (2.3) mit β = v c ausgesandt wird, das am Erdboden mit entsprechenden Teleskopen detektiert werden kann. Das Cherenkov-Licht kann also als elektromagnetisches Analogon zum Überschallknall angesehen werden. Cherenkov-Licht, ausgelöst von kosmischer Gammastrahlung in der Luft, besitzt einen Öffnungswinkel θ 1.4, abhängig von der Geschwindigkeit der einzelnen Sekundärteilchen [11]. 2.3 FACT Das FACT-Teleskop, wie es in Abbildung 2.1 zu sehen ist, befindet sich auf La Palma, Kanarische Inseln, auf dem Gelände des Observatorio del Roque de los Mucha- 3

10 Kapitel 2. Theoretische Hintergründe Abbildung 2.1: Das FACT-Teleskop auf La Palma. Quelle: [12]. chos auf etwa 2200 m über Meereshöhe. Es besitzt bei einem abbildendem Durchmesser von 3.7 m eine Spiegeloberfläche von 9.5 m 2 und unterscheidet sich von gängigen Cherenkov-Teleskopen dadurch, dass für die Kamera im Gegensatz zu den derzeit gebräuchlichen Photomultipliertubes (PMT) Halbleiterdetektoren, sogenannte Geigermode Avalanche Photodioden (G-APD), auch Silicon PhotoMultiplier (SiPM) genannt, verwendet werden [13]. Diese haben unter anderem den Vorteil, dass sie robust unter starkem Lichteinfall sind, sodass Langzeitbeobachtungen auch bei starkem Hintergrundlicht, etwa in Vollmondnächten, möglich sind. So ist das hauptsächliche Ziel des FACT-Teleskopes abgesehen vom Beweis der Funktionsfähigkeit von G-APDs in IACTs auch die langfristige Beobachtung von hellen Blazaren im TeV-Bereich [14]. Zudem besitzen sie eine höhere Photondetektionseffizienz (engl. Photon Detection Efficiency, PDE) von potentiell bis zu 50% im Vergleich zu 20 bis 30% herkömmlicher PMTs und benötigen eine kleinere Betriebsspannung von circa 70 V [16], was die Kosten eines Baus eines solchen Teleskops verringert. Zudem ist es möglich, den Großteil der benötigten Technik in der Kamera unterzubringen, während die Technik anderer IACTs deutlich mehr Platz einnimmt.[13] Ein Effekt von G-APDs ist jedoch, dass der Gain stark abhängig ist von äußeren Parametern wie etwa der Temperatur oder dem Hintergrundlicht des Nachthimmels (engl. Night Sky Background, NSB), sodass die Betriebsspannung ständig angepasst werden muss, um eine konstante Verstärkung gewährleisten zu können. Zusätzlich können die einzelnen Zellen der G-APDs auch durch elektrische Felder oder thermische Effekte ausgelöst werden. Diese Rate, mit der die G-APDs auch ohne äußeren Lichteinfall ausgelöst werden, wird als Dark Count Rate (DCR) bezeichnet. Sie ist allerdings bei Raumtemperatur mit einer Frequenz in der Größenordnung von 5 MHz im Vergleich zum NSB mit mehr als 50 MHz kleiner und stört deshalb nicht. [15]. 4

11 Kapitel 3 Gamma-Hadron-Separation von Monte-Carlo-Daten Ziel dieser Arbeit ist es, herauszufinden, für welche Kombinationen von Parametern des Random-Forest-Algorithmus die Performance der Gamma-Hadron-Separation am besten ist. Dazu werden die Parameter des Random Forest variiert und die entsprechenden Parameterkombinationen systematisch anhand verschiedener Kennzahlen untersucht. Die Separation wird auf Daten angewendet und getestet, die auf Monte- Carlo-Simulationen basieren. Diese Daten werden mithilfe der Software CORSIKA erstellt. Dabei handelt es sich um ein Programm zur detaillierten Simulation großer Teilchenschauer in der Luft, die von hochenergetischer kosmischer Strahlung ausgelöst werden [17]. Anschließend wird mittels der Software MARS (Magic Analysis and Reconstruction Software) das Spiegelsystem und die Kameraelektronik simuliert. Aus den mit CORSIKA generierten Daten ergibt sich daraus ein Kamerabild, das im Anschluss kalibriert und von Untergrund bereinigt wird. Aus dem so bereinigten Kamerabild werden dann die verschiedenen Parameter zu ihrer Beschreibung extrahiert, auf denen die folgende Separation durchgeführt werden soll. Bei diesen Parametern handelt es sich um die sogenannten Hillas-Parameter [19]. 3.1 Vorbereitung der Daten Die verwendeten Daten entstammen Monte-Carlo-Simulationen für Gamma- und für Protonen-Ereignisse. Die Simulationsdaten der Gammaschauer wurden dabei mit einem spektralen Index von γ = 2.7 in einem Energiebereich zwischen 200 GeV und 50 TeV erstellt. Die Simulationsdaten der Protonschauer wurden mit einem spektralen Index von γ = 2.7 bzw. γ = 1.7 bei Energien zwischen 100 GeV bzw. 200 GeV und 30 GeV simuliert. Monte-Carlo-Daten für andere kosmische Primärteilchen wie etwa Myonen, Pionen oder schwerere Atomkerne, die auf die Erdatmosphäre treffen und Teilchenschauer auslösen, werden hier nicht mit einbezogen, da sie einen im Rahmen dieser Arbeit vernachlässigbaren Untergrund darstellen. Nach dem Einlesen der Daten werden zunächst unvollständige Ereignisse mit fehlenden Werten herausgefiltert und die 5

12 Kapitel 3. Gamma-Hadron-Separation von Monte-Carlo-Daten Qualitätsschnitte angewandt. Mit letzteren werden einerseits Ereignisse entfernt, die nicht vernünftig rekonstruiert werden können, etwa weil sie zu klein oder unvollständig sind, und andererseits solche, die mit hoher Wahrscheinlichkeit keine Gammaereignisse sind. Die verwendeten Bedingungen für die Qualitätsschnitte lauten: Size > 100, log(concentration1pixel Size) < 2.28, NumberIslands <= 6, LeakageBorder < 0.1, LeakageSecondBorder < 0.35, NumberShowerPixel >= 12, 0.13 < conccore < 0.615, conccog > 0.12, 0.15 < timespread < 2.4, Length < 75, Width < 40, Concentration1Pixel < 0.2, m3trans < 40, m3long < 70. Im Anschluss werden überflüssige Attribute entfernt. Dazu zählen solche, die keine Auskunft geben über die Art des Primärteilchens, beispielsweise der Zenithwinkel oder die Energie. Im Folgenden soll auf die im Random Forest verwendeten Attribute näher eingegangen werden. Diese sind Area, Concentration1Pixel, Distance, Length, NumberIslands, Size, Width, conccog, m3long, m3trans sowie log 1 0(Size)/(Width Length). Die Attribute Length und Width werden als halbe Länge der großen Halbachsen der Ellipse bzw. analog als halbe Länge der Halbachsen senkrecht dazu und Distance als Abstand der Ellipse vom Centre of Gravity (COG) zum Mittelpunkt der Kamera definiert. Aus den Attributen Length und Width setzt sich das Attribut Area zusammen, das als Fläche der Ellipse mit Area = π Length Width (3.1) 6

13 3.1. Vorbereitung der Daten berechnet wird. Mit der Size wird die rekonstruierte Anzahl an Photonäquivalenten in einem Kamerabild beschrieben, die bei einem Ereignis auftritt. Der Parameter concentration1pixel beschreibt die Konzentration des Schauersim hellsten Pixel des Schauers. Die Attribute m3long und m3trans stellen jeweils das dritte statistische Moment, die Schiefe, entlang der großen bzw. senkrecht zur großen Halbachse dar, die ein Maß für die Asymmetrie einer gegebenen Verteilung ist. Die Konzentration der drei nächsten Pixel vom COG wird als conccog bezeichnet. Das Attribut NumberIslands enthält Informationen über die Anzahl der Inseln, welche die Anzahl der von der eigentlichen Ellipse abgetrennten, belichteten Bereiche in einem Schauerabbild ist. Abbildung 3.1: Vergleich der Parameterverteilungen der Gamma- und der Protonereignisse aus den Monte-Carlo-Daten nach den Qualitätsschnitten. Die Verteilungen sind jeweils auf 1 normiert. Die Verteilungen einzelner Attribute nach den Qualitätsschnitten sind beispielhaft in den Histogrammen in Abbildung 3.1 dargestellt. Oben sind die Attribute Size und m3long jeweils mit logarithmierter y-achse zu sehen. Für kleine Werte für m3long verhalten sich die Verteilungen von Gammas und Protonen ähnlich, für Werte ab 25 sind Abweichungen erkennbar, die nach rechts anwachsen, da die Anzahl der Protonen deutlich sanfter abfällt als die der Gammas. Ähnliches ist auch für das Attribut Size 7

14 Kapitel 3. Gamma-Hadron-Separation von Monte-Carlo-Daten zu beobachten, wo allerdings der Anteil der Protonen schneller abfällt. In den beiden unteren Histogrammen sind die Verteilungen der Attribute Width und Distance enthalten. Für ersteres ähneln sich die Formen der der Gamma- und der Protonverteilung. Allerdings ist diejenige der Gammas deutlich kompakter. Der Großteil der Ereignisse besitzt eine Width zwischen 5 und 10, während die Verteilung der Protonen bis hin zu einer Width von 15 reicht. In der Distance unterscheiden sich zudem die Formen der Verteilungen. Während die Anzahl der Gammas nahezu symmetrisch um eine Distance bei etwa 70 verteilt ist, steigt die Anzahl der Protonen zunächst langsam an, um am Ende abrupt abzufallen. 3.2 Random Forest In diesem Abschnitt sollen kurz der Grundgedanke hinter dem verwendeten Random- Forest-Algorithmus sowie die Kreuzvalidierung, die zur Fehlerabschätzung und zur Verhinderung von Überanpassung verwendet wird, erklärt werden. Anschließend werden verschiedene Maßstäbe vorgestellt, mit denen eine Beurteilung der erfolgten Separation vorgenommen werden kann Aufbau eines Random Forest Random Forests, zuerst von Leo Breiman vorgeschlagen, bilden ein Ensemble von randomisierten, un- Abbildung 3.2: Grundsätzlicher Aufbau eines Entscheidungsbaums mit Schnitten auf den Attributen a, d, b. Prinzipiell ist auch eine mehrmalige Auswahl eines Attributes möglich korrelierten Entscheidungsbäumen, die jeder für sich nur einen schwachen Klassifikator darstellen, bei Kombination einer genügend großen Anzahl jedoch einen guten Klassifikator ergeben [21]. Ein Entscheidungsbaum ist grundsätzlich aufgebaut wie in Abbildung (3.2) dargestellt. Der Aufbau einer solchen Klassifikationsvorschrift wird mit Hilfe von bereits gelabelten Daten, in diesem Fall aus Monte-Carlo-Simulationen, bewerkstelligt. Von diesen ist bereits bekannt, zu welcher Klasse, in diesem Fall Signal (Gamma) oder Untergrund (Proton), ein einzelnes Ereignis gehört. An jedem Knoten wird das Attribut ausgesucht, das den besten Schnitt erlaubt. Besagter Schnitt kann auf unterschiedliche Arten bestimmt werden, etwa durch die Minimalisierung der Informationsentropie. In vorliegendem Falle wird jedoch der 8

15 3.2. Random Forest Gini-Index hierfür genutzt. Dieser wird aus den Anteilen p i der mit i gelabelten Daten im gesamten Set mit IG = 1 i p 2 i (3.2) berechnet und nimmt Werte zwischen 0 und 1 an, wobei ein kleiner Gini-Index einer ähnlichen Verteilung entspricht, während ein großer Index große Ungleichheit bedeutet [5][22]. Der Prozess wird so lange fortgesetzt, bis in jedem Knoten des Baumes die Daten in Signal oder Untergrund aufgeteilt wurden bzw. bis die Daten nicht weiter getrennt werden können oder eine vorher festgelegte Abbruchbedingung erreicht wurde. Um nun Daten mit unbekannter Klassenzugehörigkeit zuzuordnen, durchlaufen sie entsprechend der in den Knoten festgelegten Regeln den gesamten Baum und können so klassifiziert werden. Durch Einführung zweier Ebenen von Zufallsentscheidungen kann dieses Prinzip zu einem Random Forest erweitert werden. Zum einen werden aus dem eigentlichen Trainingsset der Größe N für jeden Baum ein zufälliges Subset, ebenfalls bestehend aus N Objekten, mit Zurücklegen gezogen (Bootstrapping/Bagging), auf dem der jeweilige Baum trainiert wird. Zudem werden an jedem Knoten eines Baumes nur k < M der M Attribute der Daten auf den bestmöglichen Schnitt untersucht, die ebenfalls zufällig ausgewählt werden. Die Erweiterung des Prinzips von Entscheidungsbäumen auf ein Ensemble randomisierter Bäume hat den Vorteil, dass dadurch die Empfindlichkeit gegenüber Daten sinkt, die mit Rauschen behaftet sind [21]. Soll ein Ereignis klassifiziert werden, wird es von jedem einzelnen Baum klassifiziert. Aus der Menge dieser Klassifikationen kann mit S = 1 I I S i (3.3) i=1 die sogenannte Signalness S eines Ereignisses bestimmt werden. I entspricht dabei der Anzahl der Bäume im Random Forest und S I kann die Werte 0 für Untergrundereignisse oder 1 für Signalereignisse annehmen. Die Signalness liegt zwischen 0 und 1, je größer sie ist, desto größer ist auch die Wahrscheinlichkeit, dass es sich bei dem Ereignis um ein Signal handelt, sie gibt also die Konfidenz an, mit der der Random Forest das Event als Signal klassifiziert Kreuzvalidierung Um die Ergebnisse von Prognosen wie beispielsweise Klassifizierungen richtig interpretieren zu können, muss der Fehler dieser Prozesse abgeschätzt werden. Dies lässt sich zum Beispiel einfach mit Hilfe der sogenannten Kreuzvalidierung bewerkstelligen. Diese ist ein Verfahren zur Beurteilung der Stabilität eines Modells. 9

16 Kapitel 3. Gamma-Hadron-Separation von Monte-Carlo-Daten Um eine n-fache Kreuzvalidierung durchzuführen, wird der Trainings- Datensatz in eine Anzahl n annähernd gleich großer, zueinander disjunkter Mengen aufgeteilt. Auf n 1 dieser Mengen wird das Modell trainiert, auf der n-ten im Anschluss getestet. Dieser Vorgang wird insgesamt n-mal durchgeführt, wobei die Trainings- und Testmengen durchiteriert werden. In Abbildung 3.3 ist eine schematische Darstellung einer vierfachen Kreuzvalidierung dargestellt. Im entsprechenden Fall wird jeweils auf drei Mengen trainiert und auf einer getestet. Über die Ergebnisse der einzelnen Schritte können dann der Mittelwert und die Varianz ermittelt werden. Letztere kann dabei als Fehlerschätzer genutzt werden [23]. Abbildung 3.3: Schematische Darstellung einer Kreuzvalidierung am Beispiel von n = 4 Validierungsschritten. Die helleren Kästchen stellen jeweils das Trainingsset dar, die dunkleren das Testset Maße zur Beurteilung der Klassifikation durch den Random Forest Die Beurteilung der Klassifikation durch den Random Forest lässt sich anhand verschiedener Kennzahlen abschätzen [24]. Diese setzen sich zusammen aus: den richtig klassifizierten Signalereignissen (engl. true positive, tp), den falsch klassifizierten Signalereignissen (engl. false negative, fn), den richtig klassifizierten Untergrundereignissen (engl. true negative, tn), den falsch klassifizierten Untergrundereignissen (engl. false positive, fp). Eine dieser Kennzahlen ist die Reinheit des klassifizierten Datensets. Sie gibt an, wie viele tatsächliche Signalereignisse sich in der Menge der als Signal klassifizierten Ereignisse finden. Sie ergibt sich demnach zu R = Als gewichtete Reinheit oder purity wird P = N tp N tp + N fp. (3.4) N tp N tp + g N fp (3.5) 10

17 3.2. Random Forest definiert mit einem Gewichtungsfaktor g, der das reale Verhältnis zwischen Signal und Untergrund darstellt. In dieser Arbeit wird der Gewichtungsfaktor g = 1000 verwendet. Dieser gilt jedoch nur für sehr starke γ-quellen wie den Krebs-Nebel. Für andere, schwächere Quellen besitzt der Gewichtungsfaktor Werte von g = oder höher. Eine weitere Kennzahl ist die Effizienz, die ein Maß dafür darstellt, welcher Anteil der echten Signalereignisse als Signal klassifiziert wird. Sie wird also gemäß der Formel E = N tp N tp + N fn (3.6) ermittelt. Als Maß für die Qualität der Separation wird zudem oft der Q-Faktor Q = E G EP (3.7) mit der Gamma-Effizienz E G und der Proton-Effizienz E P betrachtet. Dieser wird maximal, wenn die Unterdrückung der Untergrundes und die Gamma-Effizienz maximal werden [25]. Im Falle der Gamma-Hadron-Separation können Gamma- und Protonen-Effizienz ebenfalls in Reciever- Operating-Characteristic-Kurven (ROC-Kurven) verwendet werden. Dazu wird erstere gegen letztere aufgetragen. In Abbildung 3.4 ist ein Beispiel dargestellt. Abbildung 3.4: Beispiel einer ROC-Kurve mit den von einem Random Forest klassifizierten Daten in blau, der idealen Kurve in rot und der Geraden, die einem Zufallsprozess entspräche, in grün. 11

18 Kapitel 3. Gamma-Hadron-Separation von Monte-Carlo-Daten Für ideale Prozesse ergäbe sich eine Gerade mit konstanter E G = 100%. Ein Prozess, bei dem die Separation nur auf Zufallsentscheidungen beruht, würde unter der Annahme gleicher Wahrscheinlichkeiten und gleicher Ereigniszahlen für Signal oder Untergrund auf eine Diagonale führen, da diese gerade einer gleichen Trefferquote für true positives und für false positives entspräche. Liegt die ROC-Kurve unterhalb der Diagonalen, ist davon auszugehen, dass zuvor falsche Einstellungen gewählt wurden und Signal als Untergrund erfasst wird und umgekehrt [24]. 3.3 RapidMiner und Weka-Erweiterung Der Großteil der in der vorliegenden Arbeit beschriebenen Prozesse wird mit Hilfe der Data-Mining-Umgebung RapidMiner, ehemals YALE (Yet Another Learning Environment), realisiert. RapidMiner, entwickelt von der gleichnamigen Firma, ist eine Open-Source-Software, die komfortable Möglichkeiten liefert, große Datenmengen zu verarbeiten und zu analysieren. Sie bietet ein grafisches User Interface, mit dessen Hilfe sich ohne tiefgreifende Programmierkenntnisse datenanalytische Prozesse zusammensetzen lassen, die zudem als XML-Dateien gespeichert werden. Dazu sind verschiedenste Prozesse in Form von Blöcken wie z.b. in Abbildung 3.5 implementiert, die sich zu einer großen Anzahl an Prozessen kombinieren lassen. Darunter befinden sich unter anderem Operatoren für den Im- und Export sowie die Vorverarbeitung unterschiedlicher Datentypen, für das Erstellen von Modellen oder für Visualisierungen[26]. Abbildung 3.5: Minimalbeispiel für einen im RapidMiner aufgebauten Prozess, in diesem Fall ein Operator zum Lesen und einer zum Schreiben von csv-files Der Funktionsumfang des RapidMiners kann zudem durch externe Erweiterungen vergrößert werden. So wird in der vorliegenden Arbeit anstelle des standardmäßig mitgelieferten Random Forests der Algorithmus aus dem WEKA-Paket (Waikato Environment of Knowledge Analysis) verwendet, das als Open-Source-Programm an der University of Waikato, Neuseeland, entwickelt wurde und eine Sammlung an Prozessen für das maschinelle Lernen liefert [27]. 12

19 Kapitel 4 Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten Im folgenden Abschnitt werden die Ergebnisse der Separation mithilfe des Random- Forest-Algorithmus vorgestellt und besprochen. Dieser wird mit einem Sample von jeweils Gamma- und Protonereignissen bei fünffacher Kreuzvalidierung trainiert. Für die Kreuzvalidierung wird dabei der in RapidMiner implementierte X-Validation- Operator verwendet. Für den Prozess stehen die insgesamt 11 in Kapitel 3.1 bereits besprochenen Attribute zur Verfügung. Um die Ergebnisse der Separation richtig einordnen zu können, werden zunächst ROC-Kurven und Q-Faktoren betrachtet. Im Anschluss daran werden die Abhängigkeiten der Kennzahlen Reinheit, gewichtete Reinheit und Effizienz von der Anzahl der Bäume I und der Anzahl der zufälligen Attribute k untersucht. Außerdem wird auf die Klassifizierungen der Separation eingegangen und diese werden mit den Monte-Carlo-Wahrheiten verglichen. Als Orientierung, um in den folgenden Abschnitten erste Erkenntnisse aus der Untersuchung der ROC-Kurven und der Q-Faktoren einordnen zu können, ist in Abbildung 4.1 der Verlauf der Reinheit und der Effizienz in Abhängigkeit vom angewandten Konfidenzschnitt bei k = 3 und I = 100 zu sehen. Diese Parametereinstellungen wurden so gewählt, da sie sich später als eine mögliche Wahl für eine gute Performance erweisen. Wie es zu erwarten ist, steigt die Reinheit gegen 100% an, da bei hohen Konfidenzen nur noch Ereignisse als Signal gezählt werden, die mit hoher Wahrscheinlichkeit auch als Signal gelabelt sind. Die Effizienz dagegen fällt mit steigenden Konfidenzen ab, da Ereignisse, die als Signal gelabelt sind, aber eine zu geringe Konfidenz aufweisen, nicht als Signalereignis gezählt werden. Es ist außerdem gut zu erkennen, dass die Protoneffizienz schon für kleine Konfidenzen stark absinkt, während die Gammaeffizienz erst für größere Konfidenzen stärker sinkt. Der Random Forest erfüllt also die Anforderung, den Untergrund möglichst stark zu unterdrücken, ohne dabei zu viele Signalereignisse zu verlieren. In der Abbildung ist auch zu sehen, dass die Fehlerbalken zum einen insgesamt klein sind, was von einem stabilen Modell zeugt, da die Ergebnisse der ein- 13

20 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten zelnen Kreuzvalidierungsschritte nur in einem sehr geringen Maße schwanken. Zum anderen ist, mit Ausnahme der Protoneffizienz, bei den Datenpunkten die Tendenz zu einer Vergrößerung der Fehlerbalken mit steigendem Konfidenschnitt erkennbar. Diese Zunahme liegt daran, dass mit steigendem Konfidenzschnitt immer mehr Ereignisse weggeschnitten werden und sich die Statistik damit verringert. Abbildung 4.1: Links: Verlauf der Reinheit und der Effizienz abhängig vom Konfidenzschnitt. Rechts: Verlauf der Proton- und der Gammaeffizienz in Abhängigkeit vom Konfidenzschnitt. 4.1 ROC-Kurven Anhand der mit dem Random Forest separierten Monte-Carlo-Daten werden die in Kapitel angesprochenen ROC-Kurven für verschiedene Parameter-Einstellungen erstellt. In Abbildung 4.2 sind Beispiele mit den Parametern I = 10 und I = 500 sowie k = 3, k = 6 und k = 10 dargestellt. Wie zu sehen ist, liegen die einzelnen Datenpunkte mit Ausnahme eines Ausreißers für I = 10 auf einer Kurve, wie sie auch als Beispiel in Abbildung 3.4 abgebildet ist. Auch hier liegen die Kurven jeweils deutlich überhalb der Diagonalen. Sie gehen bei einer Protoneffizienz von E P 40% in Sättigung über. Auffallend ist, dass die Datenpunkte, die zu den ROC-Kurven mit k = 6 bzw. k = 10 gehören, für alle Protoneffizienzen sehr nahe beieinander liegen, während sich die zu der ROC-Kurve mit k = 3 gehörenden Datenpunkte für kleine Protoneffizienzen deutlich unterhalb der beiden anderen befinden. Daraus lässt sich zum einen ablesen, dass die Gammaeffizienz mit der Anzahl der Attribute steigen muss. Zum anderen wird ab einer gewissen Anzahl aber eine Sättigung erreicht, in der kaum noch Veränderungen auftreten. Dieser Bereich beginnt spätestens bei sechs Attributen, da für zehn Attribute keine entscheidende Änderung mehr festgestellt werden kann. Daraus kann die Schlussfolgerung gezogen werden, dass ab einer bestimmten Anzahl von Attributen zusätzlich neu gezogene Attribute keine neue Informationen für die Separation beitragen können. Aus der Abbildung lässt sich außerdem der Punkt bestimmen, in dem die größte Dif- 14

21 4.1. ROC-Kurven Abbildung 4.2: ROC-Kurven für verschiedene Parametereinstellungen. Für die Anzahl der Bäume I = 10 und I = 500 werden jeweils k = 3, k = 6 bzw. k = 10 Attribute genutzt. ferenz zwischen Gamma- und Protoneffizienz vorliegt. Er ist der Punkt, in dem die Steigung der Gammaeffizienz der Steigung der Protoneffizienz entspricht. Für die Steigung der ROC-Kurve muss dort also m = 1 gelten, da eine Gerade mit Steigung m = 1 der Diagonalen vom Ursprung in (0 0) nach ( ) entspricht. Vor diesem Punkt steigt die Gammaeffizienz schneller als die Protoneffizienz, nach diesem Punkt kehrt sich dies um. Der Bereich, in dem besagter Punkt liegt, lässt sich in den vorliegenden Fällen bei einer Gammaeffizienz von etwa E G 85% ablesen. Vergleich mit Abbildung 4.1 ergibt daraus einen Konfidenzschnitt für c 0.6. In Abbildung 4.3 sind jeweils die ROC-Kurven für k = 3 bzw. k = 10 und I = 10 bzw. I = 500 dargestellt. Es ist zu erkennen, dass die Konfidenz und damit auch die Effizienzen mit höherer Anzahl an Bäumen besser aufgelöst werden können, weil die Auflösung der Signalness nach Gleichung 3.3 durch die Anzahl der Bäume beschränkt ist. Weiterhin kann abgelesen werden, dass die Datenpunkte der Kurve mit I = 10 in beiden Fällen mit Ausnahme des bereits bekannten Ausreißers unterhalb der Kurve mit I = 500 liegen. Die Gammaeffizienz verändert sich also gegenüber der Protoneffizienz mit wachsender Anzahl an Bäumen kaum, nimmt aber zumindest etwas zu. Eine Begründung dafür ist, dass die Konfidenz, wie oben dargelegt, bei größerem I besser aufgelöst werden kann, sodass weniger Fehlklassifikationen von Untergrundereignissen als Signal auftreten und gleichzeitig weniger Signalereignisse als Untergrund behandelt werden. 15

22 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten Abbildung 4.3: ROC-Kurve für k = 3 (links) bzw. k = 10 (rechts) Attribute und I = 10 bzw. I = 500 Bäume. 4.2 Q-Faktoren Aus den separierten Daten werden die Q-Faktoren nach Gleichung 3.7 bestimmt, deren Abhängigkeit von der Anzahl der Bäume und der Anzahl der Attribute in diesem Abschnitt betrachtet wird. In Abbildung 4.4 sind die Q-Faktoren für verschiedene Parametereinstellungen gegen die Gamma-Effizienz aufgetragen. Zunächst fällt auf, dass die Fehler der Q-Faktoren von links nach rechts absinken, da geringere Effizienzen mit höheren Konfidenzen einhergehen, die wiederum mit größeren Fehlern verbunden sind, da sie auf kleineren Statistiken beruhen. Abbildung 4.4: Q-Faktoren für verschiedene Parametereinstellungen. Im linken Diagramm bei konstanter Anzahl von Bäumen I = 200 und k = 3, k = 6 und k = 10, im rechten Diagramm bei konstanter Anzahl von Attributen k = 3 und I = 20, I = 50, I = 100, I = 200 und I =

23 4.3. Reinheit, gewichtete Reinheit und Effizienz Wie auch schon im vorherigen Abschnitt bei den ROC-Kurven liegen auch hier wieder die zu k = 6 und k = 10 gehörigen Datenpunkte stets sehr nahe beieinander. Dies bestätigt die oben getroffene Aussage, dass spätestens bei sechs Attributen ein Sättigungsbereich erreicht wird, während zwischen k = 3 und k = 6 noch eine Entwicklung zu erkennen ist. Der Abstand zwischen den Datenpunkten wächst mit sinkender Gammaeffizienz, weil die Gammaeffizienz bei wachsenden Konfidenzschnitten immer schneller abfällt. Außerdem wächst ebenso die Größe ihrer Fehlerbalken in dieser Richtung. Das hängt damit zusammen, dass eine höhere Gammaeffizienz mit größeren Konfidenzschnitten einhergeht, die naturgemäß größere Fehler mit sich bringen. Der maximale Wert der Q-Faktoren liegt jeweils in einem Bereich zwischen Q = 2.6 und Q = 2.9 und steigt mit I, bis ein Sättigungsbereich erreicht wird, weil die Gammaeffizienz im Vergleich zur Protoneffizienz mit wachsendem I ebenfalls wächst. Der angesprochene Sättigungsbereich wird bei etwa 100 Bäumen erreicht. Das lässt sich erkennen, da die zu I = 100 gehörigen Datenpunkte kaum von denen zu unterscheiden sind, die zu 200 oder 300 Bäumen gehören. Die Anzahl der Attribute spielt dagegen für die Höhe des Maximums keine Rolle. Außerdem bewegt sich das Maximum bei wachsendem I langsam nach links zu kleineren Gammaeffizienzen. Die Begründung für dieses Verhalten ist, dass eine höhere Anzahl an Bäumen eine höhere Auflösung der Konfidenz bewirkt. Bei hohen Konfidenzschnitten verringert sich deshalb die Gammaeffizienz mit wachsender Anzahl an Bäumen, da es Ereignisse gibt, die bei niedriger Auflösung, also geringer Anzahl an Bäumen, eine sehr hohe Konfidenz besitzen, bei mehr Bäumen und daher höherer Auflösung aber niedrige Konfidenzen zugewiesen bekommen. Aus diesen Gründen wird der Q-Faktor für 20 Bäumen maximal bei E G 60%, während sich das Maximum für 200 Bäume eher bei E G 50% befindet. Durch Vergleich mit Abbildung 4.1 ist abzulesen, dass diese Effizienzen bei Konfidenzschnitten für c 0.80 bis c 0.85 auftreten. Da sie jedoch relativ gering sind und dadurch viele Gammaereignisse verloren gingen, sollen im Folgenden auch geringere Konfidenzen ab etwa c = 0.7 in die Betrachtungen mit einbezogen werden. Für kleinere Konfidenzen fällt die Reinheit weiter ab, während die Gammaeffizienz nur relativ langsam ansteigt. Für größere Konfidenzen hingegen steigt zwar die Reinheit weiter an, allerdings nimmt die Gammaeffizienz dort schnell ab. 4.3 Reinheit, gewichtete Reinheit und Effizienz In diesem Abschnitt sollen die Reinheit, die gewichtete Reinheit und die Effizienz untersucht und auf ihre Abhängigkeit gegenüber den Parametern I und k überprüft werden. Dazu wird bei festem k zunächst I variiert und anschließend bei festem I k verändert Abhängigkeit von der Anzahl der Bäume I In Abbildung 4.5 sind die Reinheit bei verschiedenen Konfidenzschnitten bei einer festen Anzahl von k = 3 bzw. k = 10 Attributen jeweils gegen I aufgetragen. Aufgrund der deutlich größeren relativen Fehler der gewichteten Reinheit wird bei letzterem Plot 17

24 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten auf die Darstellung des Verlaufs bei einem Konfidenzschnitt von c 0.7 verzichtet. Zudem muss darauf geachtet werden, dass die Auflösung bei weniger als 50 Bäumen noch sehr gering ist, weshalb für den Konfidenzschnitt mit c 0.98 in diesem Bereich keine sinnvollen Aussagen getroffen werden können und die zugehörigen Datenpunkte deshalb im Diagramm nicht eingetragen sind. Abbildung 4.5: Reinheit (links) und gewichtete Reinheit (rechts) mit verschiedenen Konfidenzschnitten in Abhängigkeit von der Anzahl der Bäume I bei einer festen Anzahl von Attributen k = 3 (oben) bzw. k = 10 (unten). 18

25 4.3. Reinheit, gewichtete Reinheit und Effizienz Wie zu sehen ist und nach den Feststellungen der letzten Abschnitte zu erwarten war, steigen sowohl die ungewichtete als auch die gewichtete Reinheit mit wachsender Anzahl an Bäumen zunächst an, erreichen aber bei bestimmten Anzahlen Sättigungsbereiche, in denen sie sich nur noch sehr geringfügig verändern. Mit einem Konfidenzschnitt bei 0.7 ist eine Reinheit von R 90% möglich, bei einem Schnitt bei 0.98 sogar bis zu R 98%. Der Anstieg der Reinheiten mit steigendem Konfidenzschnitt wurde bereits in Abbildung 4.1 beobachtet und dadurch erklärt, dass nur noch Ereignisse, die mit hoher Wahrscheinlichkeit tatsächlich Signal darstellen, auch als ein solches klassifiziert werden. Der Sättigungsbereich beginnt für die ungewichtete Reinheit bei I = 100 Bäumen, während die gewichtete auch danach noch weiter ansteigt und erst bei etwa 200 Bäumen annähernd konstant ist. Dies liegt darin begründet, dass in der Berechnung der gewichteten Reinheit auch kleinere Unterschiede in der Protoneffizienz noch größere Auswirkungen haben, da jedes false-positive-ereignis aufgrund des Gewichtungsfaktors sehr starken Einfluss besitzt. So kann eine gewichtete Reinheit von mehr als drei Prozent erreicht werden, was eine deutliche Verbesserung gegenüber der Ausgangslage mit einer gewichteten Reinheit von einem Promille darstellt. Ein ähnliches Verhalten wie für die Reinheit ist auch für die Effizienz zu erkennen. In Abbildung 4.6 ist ihr Verlauf mit den gleichen Einstellungen abgebildet. Auch hier wachsen die Fehler mit Schnitten bei höheren Konfidenzen und auch die Effizienz ist ab einer gewissen Anzahl an Bäumen weitestgehend konstant, sowohl für k = 3 Attribute ab etwa 100 Bäumen als auch für k = 10 Attribute ab etwa 150 Bäumen. Abbildung 4.6: Effizienz in Abhängigkeit von der Anzahl der Bäume I bei einer festen Anzahl von k = 3 (links) bzw. k = 10 (rechts) Attributen mit verschiedenen Konfidenzschnitten. Damit ergibt sich aus der Summe der Erkenntnisse der letzten Abschnitte, dass sowohl die Effizienz als auch die Reinheit bei einer Anzahl von etwa 100 bis 150 Bäumen weitestgehend konstant sind. Die Beobachtung, dass ab etwa 100 Bäumen ein Sättigungsbereich beginnt, deckt sich mit den Ergebnissen anderer Experimente. So werden etwa beim MAGIC-Teleskop zur Analyse ebenfalls 100 Bäume genutzt [5]. Eine weitere Erhöhung erhöht die benötigte Rechenzeit deutlich, da diese linear mit der Anzahl 19

26 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten der Bäume ansteigt, während die Performance des Random Forest nur noch wenig verbessert werden kann. Festzustellen ist aber auch, dass es verschiedene Anforderungen an die Performance geben kann, die ganz von der Problemstellung abhängen. Geht es darum, ein Spektrum aufzunehmen, sollte der hadronische Untergrund möglichst unterdrückt werden, was auf Kosten der Effizienz geht. Ist das Ziel dagegen die Entdeckung einer neuen Quelle, geht es also hauptsächlich darum signifikante Signale zu erhalten, ist eine hohe Effizienz wichtig, während die Reinheit durchaus auch etwas niedriger sein kann. Auffallend ist allerdings, dass die Effizienz bei einem Konfidenzschnitt von c 0.98 mit steigender Anzahl der Bäume anfangs abfällt und sich ihrem Grenzwert von oben annähert, während sie für Schnitte bei geringeren Konfidenz am Beginn leicht ansteigt und sich dem Grenzwert von unten nähert. Das hängt damit zusammen, dass eine Erhöhung der Bäume eine bessere Auflösung ermöglicht und daher die Effizienz bei hohen Konfidenzschnitten sinken muss Abhängigkeit von der Anzahl der Attribute k Die behandelten Kennzahlen wurden bisher nur in Abhängigkeit von der Anzahl der Bäume I bei fester Anzahl an Attributen k betrachtet. Nun soll das Verhalten für variable k und feste I untersucht werden. In Abbildung 4.7 ist das Verhalten der Effizienz bei unterschiedlichen Werten für k und die verschiedenen Konfidenzschnitte zu sehen. Sie steigt insbesondere für Schnitte bei hohen Konfidenzen mit wachsender Anzahl an Attributen an, erreicht aber je nach Konfidenzschnitt zwischen k = 4 und k = 8 Attributen ihr jeweiliges Maximum, da zusätzlich gezogene Attribute keine neuen Informationen einbringen und daher die Separation nicht mehr entscheidend verbessern können. Abbildung 4.7: Effizienz in Abhängigkeit von der Anzahl der Attribute für I = 50 (links) und I = 500 (rechts) bei verschiedenen Konfidenzschnitten. 20

27 4.3. Reinheit, gewichtete Reinheit und Effizienz Abbildung 4.8: Ungewichtete Reinheit (links) und gewichtete Reinheit (rechts) bei verschiedenen Konfidenzschnitten in Abhängigkeit von der Anzahl der Attribute für I = 50 und I = 500. Analog dazu wird erneut das Verhalten von gewichteter und ungewichteter Reinheit betrachtet. Die zugehörige Abbildung ist in 4.8 zu sehen. Wie schon im vorherigen Abschnitt werden für die ungewichtete Reinheit Kurvenverläufe für Schnitte bei verschiedenen Konfidenzen ins Diagramm eingetragen, für die gewichtete jedoch wegen der großen relativen Fehler nur diejenigen mit c 0.8, c 0.9, und c Wie zuvor steigen die Fehler mit höheren Konfidenzschnitten an. Es ist zu erkennen, dass die Reinheiten mit größer werdender Anzahl an Attributen zunächst abnehmen, um sich einem Grenzwert anzunähern und um ihn zu oszillieren, wobei der Bereich, ab dem die Reinheiten um eine konstante Gerade schwingen, bei etwa k = 5 Attributen erreicht wird. Das legt die Vermutung nahe, dass zwar wie festgestellt die Gammaeffizienz zunimmt, zusätzliche Attribute aber keinen Informationsgewinn liefern. Um sinkende Reinheit erklären zu können, muss also die Protoneffizienz mit der Anzahl der Attribute steigen. In Abbildung 4.9 ist ihre Entwicklung in Abhängigkeit von k bei festem I = 500 zu 21

28 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten Abbildung 4.9: Protoneffizienz in Abhängigkeit von k mit I = 500 bei verschiedenen Konfidenzschnitten. sehen. Die Protoneffizienz besitzt also einen stärkeren relativen Anstieg mit der Anzahl der Attribute als die Gammaeffizienz, weshalb die Reinheit sinkt. 4.4 Korrelationsplots Eine Möglichkeit, die Ergebnisse der Separation grafisch zu veranschaulichen sind Korrelationsplots, mit denen die Korrelation zweier Attribute visualisiert werden kann. Aus ihnen kann einfach das Verhalten der verschiedenen Verteilungen vor und nach der Separation erkannt werden. So kann gut ablesen werden, welche Signalereignisse eher als Untergrund klassifiziert werden und umgekehrt welche Untergrundereignisse als Signal. In Abbildung 4.10 wird dies am Beispiel der Attribute Length und Width gezeigt. Es sind dort vier einzelne Plots zu erkennen. Die Plots auf der linken Seite basieren auf den Monte-Carlo-Wahrheiten, diejenigen auf der rechten Seite auf den durch den Random Forest getroffenen Vorhersagen. Als Parameter für den Random Forest wurden hierfür 100 Bäume sowie 3 Attribute gewählt. Der Konfidenzschnitt wurde bei c = 0.86 angesetzt. Es ist gut zu sehen, dass beide Verteilungen in etwa die gleiche Form haben und zwischen den beiden Attributen weder für Signal- noch für Untergrundereignisse hohe Korrelationen vorliegen, wobei für große Werte der Length und der Width deutlich mehr Untergrund gefunden wird. Zum anderen ist zu sehen, dass sich die beiden oberen Plots, in denen die Signalereignisse eingetragen sind, sehr ähnlich sind, genauso wie sich auch die unteren beiden Plots mit den Untergrundereignissen grundsätzlich ähneln. 22

29 4.4. Korrelationsplots Allerdings ist auch zu erkennen, dass Signalereignisse mit größerer Width oder größerer Length eher als Untergrund klassifiziert werden, weil es in diesem Wertebereich deutlich mehr hadronische Ereignisse gibt. Width true Length - Width Entries Mean x Mean y 7.16 RMS x 4.96 RMS y Width predicted true Length - Width Entries Mean x Mean y 7 RMS x RMS y Length Length Width false Length - Width Entries Mean x Mean y RMS x RMS y Width predicted false Length - Width Entries Mean x Mean y RMS x RMS y Length Length Abbildung 4.10: Beispiel für einen Korrelationsplot zwischen den Attributen Length und Width 23

30 Kapitel 4. Ergebnisse der Gamma-Hadron-Separation auf Monte-Carlo-Daten In Abbildung 4.11 ist ein analoger Plot für die Korrelation zwischen den Attributen Size und Width zu sehen. Hier ist ein größerer Unterschied zwischen Gammas und Protonen direkt erkennbar. Während die Gammaereignisse in einem relativ schmalen Band verteilt sind und damit eine hohe Korrelation zwischen Size und Width aufweisen, fächert die Verteilung der Protonen für große Werte der Width auf. Demzufolge werden auch die wenigen Gammaereignisse, die sich bei einer Width von ungefähr 14 befinden, eher als Proton klassifiziert. Insgesamt ist jedoch wieder zu erkennen, dass die Form der Verteilungen nach der Separation derjenigen vor der Separation ähnelt. Width true Size - Width Entries Mean x Mean y RMS x RMS y Width predicted true Size - Width Entries Mean x Mean y RMS x RMS y Size Size Width false Size - Width Entries Mean x 200 Mean y RMS x 120 RMS y Width predicted false Size - Width Entries Mean x Mean y RMS x RMS y Size Size Abbildung 4.11: Beispiel für einen Korrelationsplot zwischen den Attributen Size und Width 24

31 Kapitel 5 Zusammenfassung und Ausblick In dieser Arbeit wurden Untersuchungen über die Abhängigkeiten eines Random Forests von seinen Parametern durchgeführt. Zu diesen Parametern zählen die Reinheit, gewichtet wie ungewichtet, sowie die Effizienz des Algorithmus. Für die Untersuchungen wurde dabei auf Daten aus Monte-Carlo-Simulationen für das FACT-Teleskop zurückgegriffen. Zunächst wurden ROC-Kurven und Q-Faktoren untersucht. Aus ihnen können Rückschlüsse darauf gezogen werden, für welche Gammaeffizienzen und Konfidenzschnitten gute Ergebnisse der Separationen zu erwarten sind. Dabei haben sich Konfidenzschnitte ab c = 0.7 ergeben, die in den folgenden Arbeitsschritten verwendet wurden. Außerdem konnte beobachtet werden, dass die Gammaeffizienz bei größerem I gegenüber der Protoneffizienz ansteigt. Zur Untersuchung der gewichteten und ungewichteten Reinheit sowie der Effizienz wurden bei verschiedenen Konfidenzschnitten erst bei festen Anzahlen an Attributen die Anzahl der Bäume variiert. Dabei konnte die oben erwähnte Beobachtung bestätigt werden, dass die Gammaeffizienz mit Ausnahme bei Anwendung des Schnittes bei c = 0.98 mit steigender Anzahl an Bäumen ebenfalls leicht ansteigt. Zudem wurde festgestellt, dass die Reinheiten mit steigender Anzahl an Bäumen bis zu einem Sättigungsbereich anwachsen, der bei etwa 100 bis 200 Bäumen erreicht wird. Mehr Bäume verbessern die Performance kaum, erhöhen aber die benötigte Rechenzeit in deutlich größerem Maße. Daher erscheint es sinnvoll, die Anzahl der Bäume auf etwa 100 zu setzen, wie es etwa auch bei Analysen mit dem MAGIC-Teleskop der Fall ist [5]. Mit steigender Anzahl an Attributen hingegen sinkt die Reinheit, während die Gammaeffizienz ansteigt, da auch die Protoneffizienz wächst. Es muss hier also ein Kompromiss gefunden werden, der sowohl die Ansprüche an die Effizienz als auch an die Reinheit erfüllen kann. Dieser Kompromiss ist abhängig von der genauen Problemstellung. Wird eine große Reinheit benötigt, etwa für Aufnahmen von Spektren, sollte die Anzahl der Attribute nicht zu groß werden. Ist hingegen vor allem eine hohe Effizienz gewünscht, verbessert eine höhere Anzahl die Performance. Ein möglicher künftiger Arbeitsschritt wäre es, dieses Verhalten auch auf Daten mit einer größeren Anzahl als der hier verwendeten 11 Attribute zu untersuchen. 25

1) Teilchendetektion über Cherenkov-Strahlung

1) Teilchendetektion über Cherenkov-Strahlung 1) Teilchendetektion über Cherenkov-Strahlung Eine Methode, Teilchen zu identifizieren und energetisch zu vermessen, ist die Detektion der durch sie hervorgerufenen Cherenkov-Strahlung. Sie entsteht, wenn

Mehr

Ergebnisse der TeV Gammastrahlungsastronomie

Ergebnisse der TeV Gammastrahlungsastronomie Ergebnisse der TeV Gammastrahlungsastronomie Was ist Gammastrahlungsastronomie? Detektoren auf der Erde (H.E.S.S., Magic) Woher kommt Sie? Zukunft (Magic( II, H.E.S.S. II) 1 Was ist TeV Gammastrahlungsastronomie?

Mehr

DWARF: Langzeitbeobachtung von Blazaren mit einem. Teleskop

DWARF: Langzeitbeobachtung von Blazaren mit einem. Teleskop DWARF: Langzeitbeobachtung von Blazaren mit einem dedizierten Cherenkov- Teleskop 1 DWARF Dedicated multi-wavelength Agn Research Facility 2 Überblick Technik der Luft-Cherenkov Cherenkov-Teleskope Was

Mehr

Indirekte Suche nach Dunkler Materie mit VHE Gamma Strahlung

Indirekte Suche nach Dunkler Materie mit VHE Gamma Strahlung Indirekte Suche nach Dunkler Materie mit VHE Gamma Strahlung 6. Oktober 2012 Indirekte Suche nach Dunkler Materie mit VHE Gamma Strahlung 1 / 17 Introduktion Eine der wichtigsten offenen Fragen in der

Mehr

Abbildende Luft-Cherenkov Teleskope Vom Schauer zum Alphaplot. Daniela Dorner, Universität Würzburg

Abbildende Luft-Cherenkov Teleskope Vom Schauer zum Alphaplot. Daniela Dorner, Universität Würzburg Abbildende Luft-Cherenkov Teleskope Vom Schauer zum Alphaplot Daniela Dorner, Universität Würzburg Inhalt Funktionsweise Einfache Analyse Bild in der Kamera Cleaning Bild-Parameter Gamma-Hadron-Separation

Mehr

HiSCORE: Ein neuer Detektor für Gamma-Astronomie oberhalb von 30 TeV

HiSCORE: Ein neuer Detektor für Gamma-Astronomie oberhalb von 30 TeV Institut für Experimentalphysik HiSCORE: Ein neuer Detektor für Gamma-Astronomie oberhalb von 30 TeV Daniel Hampf mit Martin Tluczykont, Dieter Horns, Robert Eichler, Rayk Nachtigall, Tanja Kneiske DPG

Mehr

Kosmische Strahlung Teilchen aus den Tiefen des Weltraums. Prof. Dr. Ulrich Katz Erlangen Centre for Astroparticle Physics 16.

Kosmische Strahlung Teilchen aus den Tiefen des Weltraums. Prof. Dr. Ulrich Katz Erlangen Centre for Astroparticle Physics 16. Kosmische Strahlung Teilchen aus den Tiefen des Weltraums Prof. Dr. Ulrich Katz Erlangen Centre for Astroparticle Physics 16. Juli 2009 Kosmische Strahlung: wie alles anfing 1912: Victor Hess entdeckt

Mehr

1) Fluss und Zusammensetzung kosmischer Strahlung

1) Fluss und Zusammensetzung kosmischer Strahlung 1) Fluss und Zusammensetzung kosmischer Strahlung Der Fluss ist eine Größe, die beschreibt, wie viele Teilchen in einem Energieintervall auf einer Fläche in einem Raumwinkelintervall und einem Zeitintervall

Mehr

Suche nach gepulster TeV-Gammastrahlung von Pulsaren mit H.E.S.S.

Suche nach gepulster TeV-Gammastrahlung von Pulsaren mit H.E.S.S. Suche nach gepulster TeV-Gammastrahlung von Pulsaren mit H.E.S.S. Fabian Schmidt, HU Berlin September 2004 Überblick 1. Pulsare 2. Theorien der Pulsar-Hochenergieemission 3. H.E.S.S. und die Cherenkov-Technik

Mehr

Der Teilchenzoo wächst Intermezzo Kosmische Strahlung

Der Teilchenzoo wächst Intermezzo Kosmische Strahlung Der Teilchenzoo wächst Intermezzo Kosmische Strahlung Entdeckung neuer Teilchen die niemand brauchte... Elementarteilchen (von lat. elementum Grundstoff ) sind die Bausteine der Materie. So besteht die

Mehr

Überblick über das MAGIC-Teleskop

Überblick über das MAGIC-Teleskop Das MAGIC-Teleskop, Teil 2 Überblick über das MAGIC-Teleskop Stefan Rügamer, Lehrstuhl für Astronomie an der Universität Würzburg, Astroteilchenschule 2005 in Obertrubach-Bärnfels Das MAGIC-Teleskop Die

Mehr

Netzwerk Teilchenwelt

Netzwerk Teilchenwelt Netzwerk Teilchenwelt Ziel: moderne Teilchenphysik entdecken und erleben 18.10.2011 Carolin Schwerdt, Netzwerk Teilchenwelt c/o DESY Spuren hochenergetischer Teilchen im CMS-Detektor Spuren kosmischer

Mehr

Handout zum Masterseminar I Detektorensysteme

Handout zum Masterseminar I Detektorensysteme Handout zum Masterseminar I Philipp Heil 1 15. Juli 2013 1 pheil@students.uni-mainz.de Inhaltsverzeichnis 2 Inhaltsverzeichnis 1 ATLAS Detektor 3 2 Arten von Teilchenvermessung 3 3 Transversal-Hermetischer

Mehr

Messung des Spektrums der kosmischen Elektronen mit H.E.S.S. Kathrin Egberts Max-Planck Institut für Kernphysik, Heidelberg

Messung des Spektrums der kosmischen Elektronen mit H.E.S.S. Kathrin Egberts Max-Planck Institut für Kernphysik, Heidelberg Messung des Spektrums der kosmischen Elektronen mit H.E.S.S. Kathrin Egberts Max-Planck Institut für Kernphysik, Heidelberg Elektronen der kosmischen Strahlung Energieverluste von TeV-Elektronen durch

Mehr

Data Mining und Maschinelles Lernen

Data Mining und Maschinelles Lernen Data Mining und Maschinelles Lernen Wintersemester 2015/16 Musterlösung für das 7. Übungsblatt Aufgabe 1 Evaluierungsmethoden Ein Datenset enthält 2 n Beispiele, wobei genau n Beispiele positiv sind und

Mehr

, Data Mining, 2 VO Sommersemester 2008

, Data Mining, 2 VO Sommersemester 2008 Evaluation 188.646, Data Mining, 2 VO Sommersemester 2008 Dieter Merkl e-commerce Arbeitsgruppe Institut für Softwaretechnik und Interaktive Systeme Technische Universität Wien www.ec.tuwien.ac.at/~dieter/

Mehr

Cherenkov Telescope Array

Cherenkov Telescope Array Cherenkov Telescope Array Observatorium für Gammastrahlung aus dem All Eine Kooperation von 33 Ländern weltweit Gammastrahlung Das Cherenkov Telescope Array (CTA) erforscht kosmische Quellen energiereicher

Mehr

Neue Ergebnisse der ATLAS Suche nach dem Higgs

Neue Ergebnisse der ATLAS Suche nach dem Higgs Neue Ergebnisse der ATLAS Suche nach dem Higgs Abbildung 1. Kandidat für einen Higgs- Zerfall in vier Elektronen, 2012 von ATLAS aufgezeichnet. Das ATLAS Experiment präsentierte am 4. Juli 2012 seine vorläufigen

Mehr

Astroteilchenphysik I

Astroteilchenphysik I Astroteilchenphysik I Wintersemester 2013/14 Vorlesung # 07, 05.12.2013 Guido Drexlin, Institut für Experimentelle Kernphysik Experimentelle Techniken - Cherenkov-Arrays - TeV Gamma-Quellen: leptonisch/hadronisch

Mehr

Einführung in die Astroteilchenphysik. Hermann Kolanoski Institut für Physik, Humboldt-Universität zu Berlin

Einführung in die Astroteilchenphysik. Hermann Kolanoski Institut für Physik, Humboldt-Universität zu Berlin Einführung in die Astroteilchenphysik Hermann Kolanoski Institut für Physik, Humboldt-Universität zu Berlin ... Inhaltsverzeichnis Literaturverzeichnis iv 1 Einführung 1 2 Die Entwicklung des Universums

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

Spezielle Relativität

Spezielle Relativität Spezielle Relativität Gleichzeitigkeit und Bezugssysteme Thomas Schwarz 31. Mai 2007 Inhalt 1 Einführung 2 Raum und Zeit Bezugssysteme 3 Relativitätstheorie Beginn der Entwicklung Relativitätsprinzip Lichtausbreitung

Mehr

Die dunkle Seite der Kosmologie

Die dunkle Seite der Kosmologie Die dunkle Seite der Kosmologie Franz Embacher Fakultät für Physik Universität Wien Vortrag im Rahmen von UNIorientiert Universität Wien, 16. September 2010 Kapitel 1 Schwarze Löcher Nebel, WeißerZwerg,

Mehr

Teilchenphysik mit kosmischen und mit erdgebundenen Beschleunigern

Teilchenphysik mit kosmischen und mit erdgebundenen Beschleunigern Teilchenphysik mit kosmischen und mit erdgebundenen Beschleunigern 01. Einführung 15.04.2013 Prof. Dr. Siegfried Bethke Dr. Frank Simon Ziel der Vorlesung Aktuelle und zukünftige Teilchenbeschleuniger

Mehr

Das Cosmic-Projekt. Moderne (Astro-)Teilchenphysik entdecken und erleben Martin Hawner

Das Cosmic-Projekt. Moderne (Astro-)Teilchenphysik entdecken und erleben Martin Hawner Das Cosmic-Projekt Moderne (Astro-)Teilchenphysik entdecken und erleben 05.04.2012 Martin Hawner Übersicht Fragen der Astroteilchenphysik Welche Experimente können Jugendliche im Rahmen des Netzwerks durchführen

Mehr

Vortrag zur Vorlesung. Teilchenastrophysik WS 2002/ am Beispiel von. HESS und CANGAROO. von Thomas Berg

Vortrag zur Vorlesung. Teilchenastrophysik WS 2002/ am Beispiel von. HESS und CANGAROO. von Thomas Berg Vortrag zur Vorlesung Teilchenastrophysik WS 2002/03-22.01.2003 Suche nach Very High Energy (VHE) γ-quellen am Beispiel von HESS und CANGAROO von Thomas Berg Thomas Berg, Universität Mainz 1 Das nicht-thermische

Mehr

Physik G8-Abitur 2011 Aufgabenteil Ph 11 LÖSUNG

Physik G8-Abitur 2011 Aufgabenteil Ph 11 LÖSUNG 3 G8_Physik_2011_Ph11_Loe Seite 1 von 7 Ph 11-1 Physik G8-Abitur 2011 Aufgabenteil Ph 11 LÖSUNG 1) a) b) - - + + + c) In einem Homogenen elektrischen Feld nimmt das Potential in etwa linear. D.h. Es sinkt

Mehr

Teilchen aus den Tiefen des Kosmos

Teilchen aus den Tiefen des Kosmos - Belina von Krosigk - 1 Bild: NASA Eine Frage, bevor wir in den Kosmos schauen... 2 Was sind eigentlich Teilchen? 3 Was sind Teilchen? 0,01m 10-9m 1/10.000.000 10-10m 1/10 10-14m 1/10.000 10-15m 1/10

Mehr

Entstehung der kosmischen Strahlung

Entstehung der kosmischen Strahlung Entstehung der kosmischen Strahlung Galaktische und intergalaktische Kosmische Strahlung Im Folgenden soll nur die Komponente der kosmischen Strahlung betrachtet werden, die nicht solaren Ursprungs ist.

Mehr

F-Praktikum B. WS 2005/2006 RWTH Aachen Versuch IX - L3-Experiment: Z-Resonanz

F-Praktikum B. WS 2005/2006 RWTH Aachen Versuch IX - L3-Experiment: Z-Resonanz F-Praktikum B WS 2005/2006 RWTH Aachen Versuch IX - L3-Experiment: Z-Resonanz Versuch IX L3-Experiment: Z-Resonanz 2 Inhaltsverzeichnis 1 Versuchsbeschreibung 3 2 Auswertung 4 2.1 Bestimmen der Z-Masse

Mehr

Gamma-Blitze. Ihre Entdeckung und Entstehung. Seminar: Aktuelle Probleme der Astrophysik - SS2010

Gamma-Blitze. Ihre Entdeckung und Entstehung. Seminar: Aktuelle Probleme der Astrophysik - SS2010 Gamma-Blitze Ihre Entdeckung und Entstehung Seminar: Aktuelle Probleme der Astrophysik - SS2010 18.05.2010 Fachbereich Physik Gamma-Blitze aus dem Universum Christian Schmidt 1 Gliederung 1. Motivation

Mehr

Die Bausteine der Natur

Die Bausteine der Natur Die Bausteine der Natur Teilchenwelt - Masterclass 2011 Matthias Schröder, Jan Thomsen Fragen der Teilchenphysik Woraus bestehen wir und unsere Welt? Was sind die fundamentalen Kräfte in unserem Universum?

Mehr

Blazare. von Markus Kobold.

Blazare. von Markus Kobold. Blazare von Markus Kobold Www.nasa.gov Gliederung Einführung: AGNs und Jets Definition Blazar verschiedene Blazare typisches Spektrum Energie Diagramm Synchrotronstrahlung relativistischer Dopplereffekt

Mehr

Wieviele Dimensionen hat die Welt?

Wieviele Dimensionen hat die Welt? Wieviele Dimensionen hat die Welt? Prof. Carlo Ewerz ExtreMe Matter Institute EMMI, GSI & Universität Heidelberg Weltmaschine Darmstadt, 3. September 2011 by D. Samtleben by D. Samtleben by D. Samtleben

Mehr

Moderne Physik: Elementarteilchenphysik, Astroteilchenphysik, Kosmologie

Moderne Physik: Elementarteilchenphysik, Astroteilchenphysik, Kosmologie Moderne Physik: Elementarteilchenphysik, Astroteilchenphysik, Kosmologie Ulrich Husemann Humboldt-Universität zu Berlin Sommersemester 2008 Kapitel 9.2 Kosmische Beschleuniger Energiespektrum Ein Teilchen

Mehr

Pulsare und Pulsarwindnebel

Pulsare und Pulsarwindnebel Luisa Steines 14.12.2009 Pulsare und Pulsarwindnebel Seminar Astro- und Teilchenphysik WS09 Entdeckung 1967 Cambridge: Jocelyn Bell und Anthony Hewish Pulsierende Strahlung mit Periode P=1,34s [c] erster

Mehr

Relativistischer Pick-up von interstellaren Neutralgasatomen

Relativistischer Pick-up von interstellaren Neutralgasatomen Relativistischer Pick-up von interstellaren Neutralgasatomen Dirk Gerbig Ruhr Universität Bochum - Lehrstuhl für Theoretische Weltraum- und Astrophysik 6. Oktober 2006 Übersicht Einleitung Übersicht Einleitung

Mehr

Quellen von Gamma- und Röntgenstrahlung

Quellen von Gamma- und Röntgenstrahlung Quellen von Gamma- und Röntgenstrahlung Übersicht Ein paar Fakten Kontinuierliche Gamma-Strahlungsquellen (GRS) Gamma-Strahlen-Blitze (Gamma-Ray-Bursts (GRB)) Röntgen-Quellen 2 Ein paar Fakten 3 Ein paar

Mehr

Uli Katz Moderne Physik am Samstagmorgen,

Uli Katz Moderne Physik am Samstagmorgen, Teilchen aus dem Weltraum und ihre Botschaften Uli Katz Moderne Physik am Samstagmorgen, 17.01.2015 Die nächsten 45 Minuten: Was für Teilchen? Teilchen aus dem Weltraum und wie wir sie messen Was verraten

Mehr

M0 BIO - Reaktionszeit

M0 BIO - Reaktionszeit M0 BIO - Reaktionszeit 1 Ziel des Versuches In diesem Versuch haben Sie die Möglichkeit, sich mit Messunsicherheiten vertraut zu machen. Die Analyse von Messunsicherheiten erfolgt hierbei an zwei Beispielen.

Mehr

1) Teilchenbeschleunigung am LHC und im Kosmos

1) Teilchenbeschleunigung am LHC und im Kosmos 1 Übungsblatt 06112013 1) Teilchenbeschleunigung am LHC und im Kosmos Kosmische Beschleuniger wie aktive galaktische Kerne, sog AGN s (active galactic nuclei), beschleunigen Teilchen auf Energien von bis

Mehr

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung R. Brinkmann http://brinkmann-du.de Seite 5.05.0 Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung Erwartungswert binomialverteilter Zufallsgrößen Wird ein Bernoulli- Versuch, bei

Mehr

Protokoll. Messung des Visuellen Auflösungsvermögens durch Bestimmung der Modulationsübertragungsfunktion (MÜF) mit dem Campbell Muster

Protokoll. Messung des Visuellen Auflösungsvermögens durch Bestimmung der Modulationsübertragungsfunktion (MÜF) mit dem Campbell Muster Protokoll Messung des Visuellen Auflösungsvermögens durch Bestimmung der Modulationsübertragungsfunktion (MÜF) mit dem Campbell Muster 1. Einleitung: Die Linsenaugen des Menschen können als eine Art Verlängerung

Mehr

Datamining für den IceCube-Detektor

Datamining für den IceCube-Detektor Datamining für den IceCube-Detektor Optimierung einer Multiensemblemethode zur Analyse von IC59-Monte-Carlo-Daten Arbeit zur Erlangung des Bachelorgrades von Jan Freiwald Dortmund, 16. Juli 2012 Inhaltsverzeichnis

Mehr

VERITAS. Das Teleskop-System für Gamma-Strahlung. Heike Prokoph Technisches Seminar 29. Oktober 2013

VERITAS. Das Teleskop-System für Gamma-Strahlung. Heike Prokoph Technisches Seminar 29. Oktober 2013 VERITAS. Das Teleskop-System für Gamma-Strahlung Heike Prokoph Technisches Seminar 29. Oktober 2013 Überblick > Warum brauchen wir diese Teleskope? Was ist eigentlich Gamma-Strahlung? > Wie können wir

Mehr

Kosmische Neutrinos. Sommersemester Universität Siegen Claus Grupen. Kosmische Neutrinos p. 1/52

Kosmische Neutrinos. Sommersemester Universität Siegen Claus Grupen. Kosmische Neutrinos p. 1/52 Kosmische Neutrinos Sommersemester 2015 Universität Siegen Claus Grupen Kosmische Neutrinos p. 1/52 Neutrino Astronomie Solare Neutrinos (MeV-Bereich) Atmospherische Neutrinos (GeV-Bereich) Neutrino Oszillationen

Mehr

Röntgen- und Gammaastronomie. Beobachtungsinstrumente und Methoden

Röntgen- und Gammaastronomie. Beobachtungsinstrumente und Methoden Röntgen- und Gammaastronomie Beobachtungsinstrumente und Methoden Gliederung 1. Röntgenastronomie 1.1 allgemeines 1.2 Röntgenlinsen 1.3 Röntgensatelliten (Übersicht) 1.4 XMM-Newton, aktuelle Ergebnisse

Mehr

Quantenobjekte Welle? Teilchen?

Quantenobjekte Welle? Teilchen? 1 Quantenobjekte Welle? Teilchen? Bezug zu den Schwerpunkten / RRL Fragestellung(en) Experiment(e) Hintergrund Benutze die Links, um zu den einzelnen Kategorien zu gelangen! Simulationen Übungen / Aufgaben

Mehr

Hochenergie-Astro-Teilchen- Physik. Vorlesung SS 2006 Hans J. Pirner

Hochenergie-Astro-Teilchen- Physik. Vorlesung SS 2006 Hans J. Pirner Hochenergie-Astro-Teilchen- Physik Vorlesung SS 2006 Hans J. Pirner 2. Standard Model der Teilchenphysik Gliederung 1. Einleitung 2.Standard Modell der Teilchen Physik 2.1 Teilchen Inhalt 2.2 Symmetrien

Mehr

Kosmische Strahlung. Seminarvortrag am Scheinseminar zur Astro- und Teilchenphysik. Markus Ostler

Kosmische Strahlung. Seminarvortrag am Scheinseminar zur Astro- und Teilchenphysik. Markus Ostler Kosmische Strahlung Seminarvortrag am 17.12.2007 Scheinseminar zur Astro- und Teilchenphysik Markus Ostler Friedrich-Alexander Universität Erlangen-Nürnberg Übersicht Kosmische Strahlung Geschichte Energiespektrum

Mehr

Gigantische Explosionen

Gigantische Explosionen Gigantische Explosionen Gammaastronomie - das Universum bei höchsten Energien Gernot Maier Credit: Stephane Vetter (Nuits sacrees) Kollidierende Galaxien Licht = Elektromagnetische Strahlung Welle Teilchen

Mehr

Projekt Maschinelles Lernen WS 06/07

Projekt Maschinelles Lernen WS 06/07 Projekt Maschinelles Lernen WS 06/07 1. Auswahl der Daten 2. Evaluierung 3. Noise und Pruning 4. Regel-Lernen 5. ROC-Kurven 6. Pre-Processing 7. Entdecken von Assoziationsregeln 8. Ensemble-Lernen 9. Wettbewerb

Mehr

Dunkle Materie und Teilchenphysik

Dunkle Materie und Teilchenphysik Universität Hamburg Weihnachtliche Festveranstaltung Department Physik 17. Dezember 2008 Woher weiß man, dass es Dunkle Materie gibt? Sichtbare Materie in Galaxien (Sterne, Gas) kann nicht die beobachteten

Mehr

Ereignisrekonstruktion mit dem geplanten Cherenkov - Luftschauerdetektor SCORE

Ereignisrekonstruktion mit dem geplanten Cherenkov - Luftschauerdetektor SCORE Ereignisrekonstruktion mit dem geplanten Cherenkov - Luftschauerdetektor SCORE Simulation der Luftschauer und des Detektors Lateralverteilung der Intensität und des Zeitprofils Rekonstruktion von Kernort

Mehr

Das Hess Experiment. Von Arne Schönwald Im Rahmen der VL Detektorphysik SoSe 2006

Das Hess Experiment. Von Arne Schönwald Im Rahmen der VL Detektorphysik SoSe 2006 Das Hess Experiment Von Arne Schönwald Im Rahmen der VL Detektorphysik SoSe 2006 Allgemeines I High Energy Stereoscopic System zu Ehren des Physikers Victor Franz Hess, der 1936 den Nobelpreis für die

Mehr

Versuch 17: Kennlinie der Vakuum-Diode

Versuch 17: Kennlinie der Vakuum-Diode Versuch 17: Kennlinie der Vakuum-Diode Inhaltsverzeichnis 1 Einleitung 3 2 Theorie 3 2.1 Prinzip der Vakuumdiode.......................... 3 2.2 Anlaufstrom.................................. 3 2.3 Raumladungsgebiet..............................

Mehr

= 6,63 10 J s 8. (die Plancksche Konstante):

= 6,63 10 J s 8. (die Plancksche Konstante): 35 Photonen und Materiefelder 35.1 Das Photon: Teilchen des Lichts Die Quantenphysik: viele Größen treten nur in ganzzahligen Vielfachen von bestimmten kleinsten Beträgen (elementaren Einheiten) auf: diese

Mehr

Teilchenphysik Masterclasses. Das Leben, das Universum und der ganze Rest

Teilchenphysik Masterclasses. Das Leben, das Universum und der ganze Rest Teilchenphysik Masterclasses Das Leben, das Universum und der ganze Rest 1 Teil 1: Einführung Warum Teilchenphysik? 2 Fundamentale Fragen Wer? Wie? Wieviel? Was? Wo? Wann? Warum? 3 Warum Teilchenphysik?

Mehr

y =y z =z (1) t = x = Gamma-Faktor

y =y z =z (1) t = x = Gamma-Faktor Gamma-Faktor Warum kann man eine Rakete nicht auf Lichtgeschwindigkeit beschleunigen? Diese Frage führt unmittelbar zur Speziellen Relativitätstheorie und zu den Lorentz- Transformationen. Die Lorentz-Transformationen

Mehr

Licht ins Dunkel durch Cherenkov-Teleskop Array Light into the Dark by Cherenkov Telescope Array

Licht ins Dunkel durch Cherenkov-Teleskop Array Light into the Dark by Cherenkov Telescope Array Licht ins Dunkel durch Cherenkov-Teleskop Array Light into the Dark by Cherenkov Telescope Array Schweizer, Thomas Max-Planck-Institut für Physik, München Korrespondierender Autor E-Mail: tschweiz@mpp.mpg.de

Mehr

Kosmische Strahlung auf der Erde. Spektrum Zusammensetzung direkte Beobachtungsmethoden indirekte Beobachtungemethoden (Seminarthemen) Magnetfelder

Kosmische Strahlung auf der Erde. Spektrum Zusammensetzung direkte Beobachtungsmethoden indirekte Beobachtungemethoden (Seminarthemen) Magnetfelder Kosmische Strahlung auf der Erde Spektrum Zusammensetzung direkte Beobachtungsmethoden indirekte Beobachtungemethoden (Seminarthemen) Magnetfelder 1 Blockseminar-Themen Themenkreis: Ursprung kosmischer

Mehr

Licht vom Anfang der Welt

Licht vom Anfang der Welt Licht vom Anfang der Welt Können Sternexplosionen das Universum vermessen? Wolfgang Hillebrandt MPI für Astrophysik Garching Licht vom Anfang der Welt Licht ist die kürzeste Verbindung zweier Ereignisse

Mehr

Astronomische Einheit

Astronomische Einheit Einführung in die Astronomie ii Sommersemester 2016 Musterlösung Nützliche Konstanten Astronomische Einheit Parsec Gravitationskonstante Sonnenmasse Sonnenleuchtkraft Lichtgeschwindigkeit Hubble Konstante

Mehr

Blasare. Friedrich-Alexander-Universität Erlangen Thomas Mittelstaedt Astrophysikalisches Seminar WS 09/10 1

Blasare. Friedrich-Alexander-Universität Erlangen Thomas Mittelstaedt Astrophysikalisches Seminar WS 09/10 1 Radiolaute Aktive Galaxien Blasare Friedrich-Alexander-Universität Erlangen Thomas Mittelstaedt 1 Inhalt 1. AGN (Wiederholung) 2. Charakterisierung von Blasaren 3. Physik der Jets 4. Forschung an Blasaren

Mehr

Röntgenstrahlen. Röntgenröhre von Wilhelm Konrad Röntgen. Foto: Deutsches Museum München.

Röntgenstrahlen. Röntgenröhre von Wilhelm Konrad Röntgen. Foto: Deutsches Museum München. Röntgenstrahlen 1 Wilhelm Konrad Röntgen Foto: Deutsches Museum München. Röntgenröhre von 1896 2 1 ev = 1 Elektronenvolt = Energie die ein Elektron nach Durchlaufen der Potentialdifferenz 1V hat (1.6 10-19

Mehr

2. Datenvorverarbeitung

2. Datenvorverarbeitung Kurzreferat Das Ziel beim Clustering ist es möglichst gleich Datensätze zu finden und diese in Gruppen, sogenannte Cluster zu untergliedern. In dieser Dokumentation werden die Methoden k-means und Fuzzy

Mehr

Physics at LHC Mini Schwarze Löcher am ATLAS-Detektor

Physics at LHC Mini Schwarze Löcher am ATLAS-Detektor Physics at LHC Seminar am 21.01.2009 Größe und Masse Hawkingstrahlung und -Temperatur Arten Allgemeine Relativitätstheorie jede Form von Energie erzeugt eine Raumzeitkrümmung Bei einem Schwarzen Loch

Mehr

Gamma-Ray Bursts. Einführung in die extragalaktische Astronomie. Prof. Peter Schneider & Dr. Patrick Simon. Phänomenologie. BATSE-Beobachtungen

Gamma-Ray Bursts. Einführung in die extragalaktische Astronomie. Prof. Peter Schneider & Dr. Patrick Simon. Phänomenologie. BATSE-Beobachtungen Phänomenologie BATSE-Beobachtungen Interpretation z-verteilung Feuerball-Modell Einführung in die extragalaktische Astronomie Prof. Peter Schneider & Dr. Patrick Simon Phänomenologie Entdeckt Simulation

Mehr

Der Lebensweg der Sterne

Der Lebensweg der Sterne Der Lebensweg der Sterne Wahrscheinlich durch die Überreste einer nahen Supernova konnte sich die Sonne samt Planeten bilden. Nach einem Milliarden Jahre langen Leben bläht sie sich nachdem der Wasserstoff

Mehr

Experimentelle Grundlagen γ + N N + π

Experimentelle Grundlagen γ + N N + π Experimentelle Grundlagen γ + N N + π Thomas Schwindt 28. November 2007 1 Relativistische Kinematik Grundlagen Lorentz-Transformation Erzeugung und Zerfall von Teilchen 2 Das Experiment Kinematik Aufbau

Mehr

4 Die Atombindung im Wasserstoff-Molekül

4 Die Atombindung im Wasserstoff-Molekül 4.1 Übersicht und Lernziele Thema Bis jetzt haben wir nur von Atomen gesprochen. In der Chemie beschäftigen wir uns aber normalerweise mit Molekülen oder Ionen. Wir wollen deshalb in diesem Kapitel auf

Mehr

Ein sehr seltener Teilchenzerfall wurde von CMS beobachtet

Ein sehr seltener Teilchenzerfall wurde von CMS beobachtet Ein sehr seltener Teilchenzerfall wurde von CMS beobachtet CMS- Experiment, CERN 19. Juli 2013 CMS hat einen wichtigen seltenen Zerfall gefunden, der vom Standardmodell der Teilchenphysik vorausgesagt

Mehr

Übungen mit dem Applet Rangwerte

Übungen mit dem Applet Rangwerte Rangwerte 1 Übungen mit dem Applet Rangwerte 1 Statistischer Hintergrund... 2 1.1 Verteilung der Einzelwerte und der Rangwerte...2 1.2 Kurzbeschreibung des Applets...2 1.3 Ziel des Applets...4 2 Visualisierungen

Mehr

Die Entdeckung des Gluons VORTRAG

Die Entdeckung des Gluons VORTRAG Die Entdeckung des Gluons VORTRAG 27.01.2015 FAKULTÄT FÜR PHYSIK UND ASTRONOMIE Lehrstuhl für Experimentalphysik I Referent: Andreas Nitsch Gliederung 1. Was sind Gluonen? 2. Erkenntnisse Anfang der 1970

Mehr

Bei diesem Versuch haben wir die Impulshöhenspektren verschiedener radioaktiver Präparate aufgenommen.

Bei diesem Versuch haben wir die Impulshöhenspektren verschiedener radioaktiver Präparate aufgenommen. AUSWERTUNG: γ-spektroskopie UND STATISTIK TOBIAS FREY, FREYA GNAM 1. IMPULSHÖHENSPEKTREN Bei diesem Versuch haben wir die Impulshöhenspektren verschiedener radioaktiver Präparate aufgenommen. 1.1. Messung

Mehr

Versuchsprotokoll. Mathematisch-Naturwissenschaftliche Fakultät I Institut für Physik. Versuch O8: Fraunhofersche Beugung Arbeitsplatz Nr.

Versuchsprotokoll. Mathematisch-Naturwissenschaftliche Fakultät I Institut für Physik. Versuch O8: Fraunhofersche Beugung Arbeitsplatz Nr. Mathematisch-Naturwissenschaftliche Fakultät I Institut für Physik Physikalisches Grundpraktikum I Versuchsprotokoll Versuch O8: Fraunhofersche Beugung Arbeitsplatz Nr. 1 0. Inhaltsverzeichnis 1. Einleitung.

Mehr

Und es werde Licht. Die kosmische Hintergrundstrahlung

Und es werde Licht. Die kosmische Hintergrundstrahlung Und es werde Licht Die kosmische Hintergrundstrahlung Vermessung der Hintergrundstrahlung WMAP COBE Planck Planck Foto des Urknalls COBE Foto des Urknalls WMAP Foto des Urknalls Planck Was sehen wir? Zustand

Mehr

2 Elektrostatik. 2.1 Coulomb-Kraft und elektrische Ladung. 2.1 Coulomb-Kraft und elektrische Ladung

2 Elektrostatik. 2.1 Coulomb-Kraft und elektrische Ladung. 2.1 Coulomb-Kraft und elektrische Ladung 2.1 Coulomb-Kraft und elektrische Ladung 2 Elektrostatik 2.1 Coulomb-Kraft und elektrische Ladung Abb. 2.1 Durch Reiben verschiedener Stoffe aneinander verbleiben Elektronen der Atomhüllen überwiegend

Mehr

Maschinelles Lernen: Symbolische Ansätze

Maschinelles Lernen: Symbolische Ansätze Maschinelles Lernen: Symbolische Ansätze Wintersemester 2008/2009 Musterlösung für das 7. Übungsblatt Aufgabe 1: Evaluierung und Kosten Gegeben sei ein Datensatz mit 300 Beispielen, davon 2 /3 positiv

Mehr

Ergebnisse und Interpretation 54

Ergebnisse und Interpretation 54 Ergebnisse und Interpretation 54 4 Ergebnisse In den Abbildungen 24/4.1 bis 29/4.1 werden die Laktat-Geschwindigkeits-Kurve und die Herzfrequenzwerte der beiden Schwimmgruppen (Männer: n=6, Frauen: n=8)

Mehr

INFORMATIONSTEXT 1: Halbleiter Spurdetektoren (Gruppe 1) Moderne Teilchendetektoren bestehen aus mehreren Detektorkomponenten.

INFORMATIONSTEXT 1: Halbleiter Spurdetektoren (Gruppe 1) Moderne Teilchendetektoren bestehen aus mehreren Detektorkomponenten. INFORMATIONSTEXT 1: Halbleiter Spurdetektoren (Gruppe 1) Moderne Teilchendetektoren bestehen aus mehreren Detektorkomponenten. Der ATLAS De tektor (A Torodial LHC ApparatuS) am CERN beispielsweise besteht

Mehr

Stundenprotokoll vom : Compton Effekt

Stundenprotokoll vom : Compton Effekt Stundenprotokoll vom 9.12.2011: Compton Effekt Zunächst beschäftigten wir uns mit den einzelnen Graphen des Photoeffekts (grün), des Compton-Effekts (gelb) und mit der Paarbildung (blau). Anschließend

Mehr

Zentralabitur 2008 Physik Schülermaterial Aufgabe II ea Bearbeitungszeit: 300 min

Zentralabitur 2008 Physik Schülermaterial Aufgabe II ea Bearbeitungszeit: 300 min Thema: Experimente mit Interferometern Im Mittelpunkt der in den Aufgaben 1 und 2 angesprochenen Fragestellungen steht das Michelson-Interferometer. Es werden verschiedene Interferenzversuche mit Mikrowellen

Mehr

Unterrichtsmaterialien zum Thema Astroteilchenphysik

Unterrichtsmaterialien zum Thema Astroteilchenphysik Unterrichtsmaterialien zum Thema Astroteilchenphysik Die Idee ist, einen roten Faden durch das Thema Astroteilchenphysik zu entwickeln und entsprechendes Material anzubieten, der mit realistischen Randbedingungen

Mehr

Physikalisches Fortgeschrittenenpraktikum Gammaspektroskopie. Auswertung

Physikalisches Fortgeschrittenenpraktikum Gammaspektroskopie. Auswertung Physikalisches Fortgeschrittenenpraktikum Gammaspektroskopie Auswertung Armin Burgmeier Robert Schittny 1 Energiekalibrierung der Detektoren Zur Energiekalibrierung nahmen wir zunächst die Spektren von

Mehr

Autofokus für das MONET-Teleskop. Projektwoche 2013 im Pascal-Gymnasium Münster AiM-Projektgruppe

Autofokus für das MONET-Teleskop. Projektwoche 2013 im Pascal-Gymnasium Münster AiM-Projektgruppe Autofokus für das MONET-Teleskop Projektwoche 2013 im Pascal-Gymnasium Münster AiM-Projektgruppe Einführung Wir gehen davon aus, dass ein Bild mit einem kleinen mittleren Sternendurchmesser eher für eine

Mehr

Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC

Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science vorgelegt von Christian Jung geboren in Dortmund

Mehr

7.4 Einige Konsequenzen aus der Lorentz Transformation

7.4 Einige Konsequenzen aus der Lorentz Transformation 7.4. EINIGE KONSEQUENZEN AUS DER LORENTZ TRANSFORMATION 265 7.4 Einige Konsequenzen aus der Lorentz Transformation Um zu sehen welche Konsequenzen sich aus der Lorentz Transformation und damit ja eigentlich

Mehr

Cherenkov-Licht (Nobelpreis 1958)

Cherenkov-Licht (Nobelpreis 1958) Cherenkov-Licht (Nobelpreis 1958) P. A. Cherenkov I. M. Frank I. Y. Tamm erwartete Beobachtung: γ-bestrahlung einer Lösung führt zu Fluoreszenz erwartete Beobachtung: γ-bestrahlung einer Lösung führt zu

Mehr

Dynamisches Huffman-Verfahren

Dynamisches Huffman-Verfahren Dynamisches Huffman-Verfahren - Adaptive Huffman Coding - von Michael Brückner 1. Einleitung 2. Der Huffman-Algorithmus 3. Übergang zu einem dynamischen Verfahren 4. Der FGK-Algorithmus 5. Überblick über

Mehr

Massive Sterne: Gravitationskollaps-Supernovae, Neutronensterne & Pulsare

Massive Sterne: Gravitationskollaps-Supernovae, Neutronensterne & Pulsare Massive Sterne: Gravitationskollaps-, & Uni Mainz Vortrag in Astroteilchenphysik im WS 10/11 18. Januar 2011 Überblick 1 Gravitationskollaps- und Entstehung von n 2 Eigenschaften von n 3 Was ist ein Pulsar?

Mehr

Einführung. Ablesen von einander zugeordneten Werten

Einführung. Ablesen von einander zugeordneten Werten Einführung Zusammenhänge zwischen Größen wie Temperatur, Geschwindigkeit, Lautstärke, Fahrstrecke, Preis, Einkommen, Steuer etc. werden mit beschrieben. Eine Zuordnung f, die jedem x A genau ein y B zuweist,

Mehr

Elektromagnetische Wellen

Elektromagnetische Wellen Elektromagnetische Wellen Im Gegensatz zu Schallwellen sind elektromagnetische Wellen nicht an ein materielles Medium gebunden -- sie können sich auch in einem perfekten Vakuum ausbreiten. Sie sind auch

Mehr

Übungen mit dem Applet Wahrscheinlichkeitsnetz

Übungen mit dem Applet Wahrscheinlichkeitsnetz Wahrscheinlichkeitsnetz 1 Übungen mit dem Applet Wahrscheinlichkeitsnetz 1 Statistischer Hintergrund... 1.1 Verteilungen... 1. Darstellung von Daten im Wahrscheinlichkeitsnetz...4 1.3 Kurzbeschreibung

Mehr

Vorbereitung: Franck-Hertz-Versuch. Christine Dörflinger und Frederik Mayer, Gruppe Do-9 3. Mai 2012

Vorbereitung: Franck-Hertz-Versuch. Christine Dörflinger und Frederik Mayer, Gruppe Do-9 3. Mai 2012 Vorbereitung: Franck-Hertz-Versuch Christine Dörflinger und Frederik Mayer, Gruppe Do-9 3. Mai 2012 1 Inhaltsverzeichnis 0 Allgemeines 3 1 Aufgabe 1 3 1.1 Versuchsaufbau.............................................

Mehr

Hochenergetische Teilchen als Boten aus dem Kosmos

Hochenergetische Teilchen als Boten aus dem Kosmos Hochenergetische Teilchen als Boten aus dem Kosmos Astroteilchenphysik von den Anfängen bis heute - Das Pierre Auger Observatorium Institut für Kernphysik KIT Universität des Landes Baden-Württemberg und

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Einführung in die Quantentheorie der Atome und Photonen

Einführung in die Quantentheorie der Atome und Photonen Einführung in die Quantentheorie der Atome und Photonen 23.04.2005 Jörg Evers Max-Planck-Institut für Kernphysik, Heidelberg Quantenmechanik Was ist das eigentlich? Physikalische Theorie Hauptsächlich

Mehr