Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC

Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science vorgelegt von Christian Jung geboren in Dortmund Lehrstuhl für Experimentelle Physik V Fakultät Physik Technische Universität Dortmund 2014

1. Gutachter : Prof. Dr. Dr. Wolfgang Rhode 2. Gutachter : PD Dr. Reiner Klingenberg Datum des Einreichens der Arbeit: 15.07.2014

Kurzfassung In dieser Arbeit wird das neu entwickelte Programm DSEA zur Berechnung von MA- GIC Energiespektren untersucht. Um so ein Energiespektrum zu bestimmen muss von der gemessenen Tscherenkow-Strahlung auf die Primärenergie der γ-strahlung zurückgeschlossen werden. Das Besondere an DSEA ist, dass es zulässt beliebig viele Variablen zur Bestimmung zu benutzen und es auch möglich macht mehrdimensionale Plots zu erzeugen, wie zum Beispiel die Energieverteilung in Abhängigkeit der Himmelskoordinaten. Dies ist möglich, da DSEA multivariate Methoden benutzt, wie zum Beispiel einen Random Forest. Um dies zu untersuchen wurden verschiedene Datensätze vorbereitet, damit sie sich für die Bestimmung des Energiespektrums eignen. Des Weiteren wurden die Einstellungen von DSEA variiert und optimiert. Außerdem wurden verschiedene Daten- und Parametersätze zur Bestimmung des Spektrums benutzt und verglichen. Abstract In this thesis the newly developed program DSEA for the calculation of MAGIC energy spectra was examined. In order to determine such energy spectra a conclusion from the Cherenkov radiation to the primary energy of the γ-ray is nessasary. The advantages of DSEA are the possibility to use any number of variables and to create multidimensional plots, like the energy spectra versus the sky coordinates. This is possible due to the use of multivariate methods such as a Random Forest. In order to perform studies, several datasets were prepared, to apply them to DSEA. Furthermore the settings of DSEA were varied and optimized. Moreover different parameter- and datasets were testet and compared.

Inhaltsverzeichnis Inhaltsverzeichnis V 1 Einleitung 1 2 Grundlagen 3 2.1 Analysekette für die Daten von MAGIC.................. 3 2.2 Beschreibung von DSEA (Dortmund Spectrum Estimation Algorithm). 6 3 Vorbereitung von Datensätzen 9 3.1 Implementierung von Schnitten in made-up................ 9 3.2 Implementieren von Datensätzen mit einer anderen Verteilung...... 11 3.3 Auswahl von Parametern für DSEA.................... 13 4 Anwendung von DSEA 15 4.1 Bestimmung der Einstellungen von DSEA................. 15 4.2 Einfluss des Zenitwinkels auf die Bestimmung des Spektrums...... 18 4.2.1 Bestimmung des Spektrums unter Zunahme der Variable zenit. 18 4.2.2 Bestimmung des Spektrums für verschiedene Zenitbereiche... 19 4.3 Vergleich verschiedener Parametersätze................... 21 5 Zusammenfassung und Ausblick 23 5.1 Zusammenfassung.............................. 23 5.2 Ausblick.................................... 24 Quellenverzeichnis 24 Abbildungsverzeichnis 26 V

Kapitel 1 Einleitung In der Astroteilchenphysik wird unter anderem kosmische Strahlung untersucht. Die kosmische Strahlung besteht aus geladene Teilchen, γ-strahlung und Neutrinos. Geladene Teilchen, zum Beispiel Elektronen oder Protonen, werden durch die elektrischen und magnetischen Felder im Universum abgelenkt, wodurch es nur noch schwer möglich ist, ihren Ursprungsort zu bestimmen. Ein Vorteil von Neutrinos ist, dass sie auf ihrem Weg nicht abgelenkt werden, denn sie wechselwirken nur selten mit Materie. Deswegen werden sie nur selten absorbiert. Der Nachteil von Neutrinos ist, dass sie schwer zu detektieren sind, da sie nur selten mit der Materie wechselwirken. Die γ-strahlung wird auch nicht abgelenkt, stattdessen kann sie allerdings mit der extragalaktischen Hintergrundstrahlung wechselwirken. Da die γ-strahlung deutlich höhere Energien aufweist als die des sichtbaren Lichtes, ermöglicht sie Einblicke in das Universum, die mit optischen Teleskopen nicht möglich sind. Mit der Gammaastronomie ist es möglich, genauere Aussagen über die Prozesse in den Quellen der γ-strahlung und auf ihrem Weg zur Erde zu machen. Somit ist es möglich, mehr über das Universum zu erfahren. Dazu ist es wichtig zu wissen, wie die Energieverteilung der γ-strahlung ist. Die γ-strahlung kann direkt durch Satelliten gemessen werden. Da aber der Fluss der γ-strahlung mit steigender Energie sinkt, müsste die Detektorfläche sehr groß sein oder sie müssten sehr lange messen, um die hochenergetische Strahlung zu detektieren. Deswegen werden erdgebundene Detektoren benutzt, welche die Atmosphäre als Detektionsvolumen nutzen. Jedoch kann die γ-strahlung bei erdgebundenen Detektoren nitch direkt gemessen werden, da die γ-strahlung durch die Atmosphäre absorbiert wird. Durch die Wechselwirkung der γ-strahlung mit Teilchen der Atmosphäre, entstehen Sekundärteilchen, die zusammen einen Schauer bilden. Die Teilchen in den Schauern erzeugen Tscherenkow-Strahlung, da sie sich schneller als das Licht in diesem Medium bewegen und somit das Medium polarisieren. Bei erdgebundenen Detektoren können je nach Bauart die Tscherenkow-Strahlung oder die Teilchen detektiert werden. Das MAGIC-Teleskop wurde so gebaut, dass es die Tscherenkow- Strahlung detektiert. Da die γ-strahlung auf der Erde nicht direkt gemessen werden kann, sondern die Tscherenkow-Strahlung, muss auf die Primärenergie der γ-strahlung zurückgeschlossen 1

Kapitel 1. Einleitung werden. Eine Methode, die auch standardmäßig in der MAGIC-Analysekette benutzt wird, ist die Entfaltung. Bei einer Entfaltung wird ein inverses Problem gelöst[1]. Ein Nachteil dabei ist jedoch, dass nicht beliebig viele Variablen zur Entfaltung benutzt werden können und dass die Informationen über die einzelnen Ereignisse verloren gehen. Der neu entwickelte Algorithmus DSEA (Dortmund Spectrum Estimation Algorithm) ist in der Lage, beliebig viele Variablen zu benutzen, wodurch das Energiespektrum möglicherweise besser bestimmt werden kann. Des Weiteren gehen in DSEA die Informationen über die einzelnen Ereignisse nicht verloren. Es kann also zum Beispiel die Energieverteilung in Abhängigkeit der Himmelskoordinaten dargestellt werden. Dies ist möglich, da DSEA multivariate Methoden, wie den Random Forest, benutzt, um die Ereignisse in Klassen der Energie einzuteilen. Ziel dieser Arbeit ist es DSEA erstmalig auf Daten von MAGIC anzuwenden und geeignete Datensätze zu erstellen. Des Weiteren werden die Einstellungen von DSEA optimiert. Außerdem wird der Einfluss verschiedener Parameter- und Datensets auf die Berechnung untersucht. Diese Arbeit ist folgendermaßen aufgebaut: In Kapitel 2 wird das Tscherenkow-Teleskop MAGIC beschrieben und wie die Analysekette von MAGIC aussieht. Desweiteren wird beschrieben, was DSEA ist und wie er funktioniert. In Kapitel 3 wird beschrieben, wie die Daten für DSEA vorbereitet werden. In Kapitel 4 wird DSEA angewandt und überprüft, wie verschiedene Datensets sich auf das Bestimmen des Spektrums auswirken. Es wird auch der Einfluss des Zenitwinkels auf die Berechnung des Spektrums untersucht. 2

Kapitel 2 Grundlagen Zur Einordnung von DSEA werden die Grundlagen der Analysekette von MAGIC beschrieben. Es wird insbesondere erläutert, wie DSEA funktioniert. Bevor die Daten, die das MAGIC-Teleskop aufnimmt, analysiert werden können, müssen mehrere Schritte durchgeführt werden. Diese Schritte werden näher im Abschnitt 2.1 beschrieben. Aufgrund der indirekten Messung wird normalerweise eine Entfaltung für die Bestimmung des Energiespektrums verwendet[1]. Eine alternative Möglichkeit zur Bestimmung des Energiespektrums bietet das Programm DSEA, welches auf multivariaten Methoden basiert. Der Algorithmus DSEA ist in Abschnitt 2.2 beschrieben. 2.1 Analysekette für die Daten von MAGIC Das bildgebende Luftschauer Tscherenkow-Teleskop MAGIC besteht aus zwei Teleskopen (vergleiche Abbildung 2.1). Das erste Teleskop wurde im Jahre 2004 in Betrieb genommen und das Zweite 2009[3]. Da sich die beiden Teleskope in einigen Teilen unterschieden haben, wurden sie 2012 aufgerüstet und angeglichen[4]. Jedes der Teleskope hat einen Gesamtdurchmesser von 17 m und eine Spiegeloberfläche von 241 m 2 [5]. MAGIC steht auf La Palma, der nordwestlichsten Insel der Kanarischen Inseln, in einer Höhe von ca. 2200 m. MAGIC detektiert die γ-strahlung indirekt, indem es die Tscherenkow-Strahlung misst. Ein Beispiel eines Schauers, der durch die γ-strahlung ausgelöst wird, ist in Abbildung 2.2 dargestellt. Wie in dieser Abbildung zu sehen ist, hat der Schauer in der Kamera des Teleskopes eine ellipsenförmige Gestalt. Damit auf dem Bild der Kamera nur noch der Schauer zu sehen ist, muss das Bild bereinigt werden [7]. Hierbei werden Pixel, bei denen die Anzahl an angekommenen Photonen unter einer bestimmten Schwelle liegt, entfernt. Danach werden die Daten von beiden Teleskopen zusammengeführt. Zur Beschreibung des Kamerabildes des Schauers wird eine Anzahl an Parametern berechnet. Im Folgenden sind die Parameter aufgelistet und erklärt, die im weiteren Verlauf dieser Arbeit benutzt werden (gemäß [7] und [8]): size: Dieser Parameter gibt an, wie viele Photonen die Kamera getroffen und das Bereinigen überlebt haben. 3

Kapitel 2. Grundlagen Abbildung 2.1: Die MAGIC Teleskope auf La Palma, der nordwestlichsten Insel der Kanarischen Inseln[6]. length: Dieser Parameter ist das zweite Moment in Richtung der langen Halbachse der Ellipse. width: Dieser Parameter ist das zweite Moment in Richtung der kurzen Halbachse der Ellipse. dist: Dieser Parameter gibt die Entfernung zwischen der wahren Quellposition und dem Schwerpunkt der Verteilung an. alpha: Diese Variable gibt den Winkel zwischen der Verbindungslinie der wahren Quellposition und dem Schwerpunkt der Verteilung und der langen Halbachse an. sizemainland: Diese Variable gibt an, wie viele Photonen des Schauers sich im gr oßten zusammenh angenden Gebiet nach der Bereinigung befinden. NumUsedPixels: Diese Variable gibt an, wie viele Pixel die Bereinigung u berlebt haben. conc: Diese Variable gibt das Verh altnis des Lichtes der beiden hellsten Pixel zum Gesamtlicht an. CoreArea: Diese Variable gibt die Anzahl der Pixel an, die das Bereinigen auf einer h oheren Stufe u berlebt haben. CherenkovDensity: Dieser Parameter gibt die typische Licht-Dichte der TscherenkowStrahlung eines Elektrons auf Erdniveau an. 4

2.1. Analysekette für die Daten von MAGIC Abbildung 2.2: Beispiel eines Schauers in der Kamera[5] mit den Parametern dist, alpha, width und length. CherenkovRadius: Dieser Parameter gibt den typischen Radius der Tscherenkow- Strahlung eines Elektrons auf Erdniveau an. Leakage: Diese Variable gibt das Verhältnis des Signales, in der äußeren Region zum gesamt Signal an. impact: Dieser Parameter gibt die Entfernung zwischen dem Teleskop und dem Auftreffpunkt des Schauers an. size/density: Diese Variable ist die Division der Variable size mit der Variable CherenkovDensity. Impact/CherenkovRadius: Diese Variable ist die Division der Variable impact durch die Variable CherenkovRadius. Es gibt nicht nur Schauer, die durch die γ-strahlung, sondern auch Schauer, die durch Hadronen ausgelöst werden. Da das Ziele die Untersuchung der γ-schauer ist, müssen die Schauer die durch Hadronen ausgelöst werden aussortiert werden. Dies geschieht, indem ein Random Forest mit Monte-Carlo-Simulationen (Simulationen, bei denen die Energie bekannt ist) aufgebaut wird, um zwischen hadronischen Schauern und γ- Schauern zu unterscheiden. Dieser Random Forest wird sowohl auf die gemessenen Daten als auch auf die Monte-Carlo-Simulationen angewandt, wobei jedem Ereignis eine Wahrscheinlichkeit zugeordnet wird, die angibt, ob es sich um einen hadronischen Schauer handelt (die hadroness). Es werden noch weitere Random Forests erstellt mit deren Hilfe die folgenden Parameter bestimmt werden: 5

Kapitel 2. Grundlagen estenergy: Dieser Parameter gib die Energie an, die mit Hilfe eines Random Forest geschätzt wird. stereoenergy: Dieser Parameter gib die Energie an, die mit Hilfe eines Random Forest für beide Teleskope geschätzt wird. theta2: Diese Variable ist das Quadrat des Abstandes der wahren Position der Quelle und der rekonstruierten Position. hadronness: Dieser Parameter gibt eine Wahrscheinlichkeit an, die durch einen Random Forest abgeschätzt wurde, mit der das Ereignis durch ein Hadron ausgelöst wurde[]. Nun werden Schnitte bestimmt, die dafür sorgen, dass überwiegend Ereignisse überleben, die durch γ-strahlung entstanden sind. Da nicht nur Schauer aufgenommen werden, die von der Quelle kommen, werden noch weitere Schnitte bestimmt, die dafür sorgen, dass hauptsächlich Ereignisse behalten werden, die as der Richtung der Quelle kommen. Anschließend wird das Energiespektrum bestimmt. In der Standard-Analysekette wird dies durch eine Entfaltung bestimmt. Dies kann auch durch DSEA geschehen. Da es noch Störstrahlung gibt, muss diese noch abgezogen werden. 2.2 Beschreibung von DSEA (Dortmund Spectrum Estimation Algorithm) Das Energiespektrum der γ-strahlung kann von der Erde nicht direkt gemessen werden, denn es wird nur die Tscherenkow-Strahlung des Schauers gemessen. Desweiteren können Schauer mit verschiedenen Energien gleich aussehen und Schauer mit derselben Energie können unterschiedlich aussehen. Um trotzdem die Energieverteilung zu erhalten, wird normalerweise eine Entfaltung verwendet. Eine Entfaltung läuft so ab, dass ein inverses Problem gelöst wird[1]. Das Problem bei dieser Methode ist, dass nur das Spektrum der gesuchten Variable ermittelt wird. Es ist nicht möglich, eine Entfaltung pro Ereignis durchzuführen, denn es gehen die Informationen der Zugehörigkeit der Ergebnisse zu den einzelnen Ereignissen verloren. Da DSEA multivariate Methoden zur Berechnung des Spektrums benutzt, können beliebig viele Variablen zur Berechnung genutzt werden und es ist möglich, eine Berechnung pro Ereignis durchzuführen. Also kann das Ergebnis für jedes Ereignis einzeln angezeigt werden[2]. Der Random Forest basiert auf einzelnen Entscheidungsbäumen. Ein Entscheidungsbaum dient zur Klassifizierung von Ereignissen. Ein Beispiel eines Entscheidungsbaumes ist in Abbildung 2.3 dargestellt. In diesen Baum werden die Klassen A, B und C voneinander getrennt. Solch ein Baum kann noch mehr Ebenen haben als hier im Beispiel. Beim Aufbau eines Entscheidungsbaumes werden Monte-Carlo-Simulationen verwendet. Um einen Knoten zu teilen (siehe Abbildung 2.3), betrachtet der Baum die Variablen die zur Verfügung stehen und prüft, bei welcher Variablen der beste Schnitt gemacht werden kann. Danach werden die Ereignisse mit diesem Schnitt unterteilt und 6

2.2. Beschreibung von DSEA (Dortmund Spectrum Estimation Algorithm) A" B" C" x>4 2<x x<4 x<2 A" z<1,245 z>1,245 y<100 y>100 A" B" C" x<2,12 x>2,12 Knoten" C" B" Abbildung 2.3: Schematische Darstellung eines Entscheidungsbaumes, um die Klassen A, B und C zu trennen. Es ist zu sehen, dass zuerst ein Schnitt auf der Variable x durchgeführt wird, um damit ein reines Datenset der Klasse A abzutrennen. Es wird auch ein Datensatz mit hauptsächlich der Klasse C abgetrennt. Es ist auch zu sehen, dass nicht nur in der ersten Ebene ein Schnitt auf der Variable x durchgeführt wird, sondern auch auf der 3. Ebene, denn hier ist die Variable x wieder optimal. bei jedem dadurch entstandenen Knoten wird wieder überprüft, wie geschnitten werden soll. Dies führt der Baum so lange durch, bis alle Ereignisse eindeutig getrennt sind. Nachdem der Baum alle Ereignisse perfekt einsortiert hat, hat er die vorliegenden Monte-Carlo-Simulation auswendig gelernt. Das bedeutet, dass er auf richtigen Daten Fehler machen würde, denn die Daten weisen unterscheide zu den Monte-Carlo- Simulationen auf. Deswegen wird der Random Forest verwendet. Ein Random Forest besteht aus vielen dieser Bäume[9]. Damit die Bäume nicht alle gleich sind, bekommt jeder Baum nur eine Untermenge der Ereignisse, um aufgebaut zu werden. An jedem Knoten erhält ein Baum auch nur eine bestimmte Anzahl zufällig ausgewählter Variablen. Jeder der Bäume sortiert die Ereignisse in Klassen der Energie ein. Die Idee von DSEA ist, dass der Random Forest dazu benutzt wird, um die Ereignisse in Klassen der Energie einzuordnen. Es wird nicht die Klasse mit der höchsten Wahrscheinlichkeit benutzt, sondern es wird direkt die Wahrscheinlichkeitsverteilung verwendet. Das Spektrum, das berechnet wird, besteht aus den addierten Wahrscheinlichkeitsverteilungen der einzelnen Ereignisse. Ein Beispiel eines Energiespektrums von DSEA ist in Abbildung 2.4 dargestellt. 7

Kapitel 2. Grundlagen Abbildung 2.4: Beispiel eines Enerrgiespektrums von DSEA nach Anwendung auf Monte Carlo-Simulationen. 8

Kapitel 3 Vorbereitung von Datensätzen Die Schnitte, die berechnet werden müssen, um überwiegend die Schauer zu erhalten, die durch γ-strahlung ausgelöst werden und nicht zu viele zu verwerfen und zusätzlich aus der Richtung der zu untersuchenden Quelle stammen, werden normalerweise mit dem Programm Flute berechnet. Die Parameter, die zur Bestimmung des Spektrums benutzt werden, müssen mit dem Programm made-up in eine Datei geschrieben werden, denn die Ausgabe von Flute ist für die Berechnung des Spektrums mit DSEA nicht geeignet. Dabei werden die Schnitte auf die Daten und Monte-Carlo-Simulationen angewandt. Das Problem ist, dass die Schnitte, die Flute liefert, jeweils für Energiebereiche berechnet werden und made-up die Schnitte als Funktion haben muss. Deswegen muss die Funktion zur Bestimmung der Schnitte in made-up implementiert werden. Dies wird in Abschnitt 3.1 beschrieben. Die Daten, mit denen der Random Forest aufgebaut wird, sollten nicht das selbe Energiespektrum haben, wie die Daten, auf denen er getestet wird, da es sonst nicht möglich ist, zu überprüfen, ob der Random Forest das Energiespektrum auswendig gelernt hat. Denn bei einer Verteilung die zu hohen Energien langsam abfällt entscheidet der Random Forest, im Vergleich zu Daten, bei denen die Verteilung schnell abfällt, eher zugunsten der hoch energetischen Ereignisse. Deswegen muss das Energiespektrum von den Monte-Carlo-Simulationen geändert werden. Eine mögliche Implementierung hierfür ist in Abschnitt 3.2 beschrieben. Des Weiteren müssen noch die Variablen bestimmt werden, die zum Bestimmen des Energiespektrums benutzt werden sollen. Dies wird in Abschnitt 3.3 beschrieben. 3.1 Implementierung von Schnitten in made-up Da die Schnitte, die mit den Programm Flute bestimmt, sorgen dafür dass die Effizienz der Angegeben entspricht (normaler weise 80%) werden, jeweils für Energiebereiche bestimmt sind und made-up die Schnitte als Funktion braucht, müssen die Schnitte aus Flute gefittet werden, um sie an made-up weiterzugeben. Dies muss jedes Mal gemacht werden, wenn ein neues Datensatz vorbereitet werden soll. Deswegen ist es sinnvoll, die Funktion zur Berechnung der Schnitte direkt in made-up zu implementieren und diese 9

Kapitel 3. Vorbereitung von Datensätzen Schnitte dort direkt anzuwenden. Dazu wird die Funktion von Flute zur Berechnung der Schnitte in made-up implementiert. Zuerst wird überprüft, ob in der Steuerungsdatei von made-up (made-up.rc) Schnitte angegeben werden. Wenn Schnitte angegeben werden, werden diese angewandt und die Funktion zur Berechnung der Schnitte wird nicht aufgerufen. Wenn keine Schnitte angegeben werden, werden die benötigten Werte zur Bestimmung der Schnitte aus der Datei ausgelesen und die Funktion zur Bestimmung der Schnitte wird aufgerufen. Die Schnitte werden dann für die einzelnen Energiebereiche angewandt. Die hierfür anzugebenden Werte sind: Madeup.Theta2Effi: In dieser Zeile wird die Effizienz für theta2 Schnitte angegeben (hier 80%). Madeup.HadEffi: In dieser Zeile wird die Effizienz für die hadroness Schnitte angegeben (hier 80%). Madeup.allowedHadRange: In dieser Zeile wird der Bereich angegeben, in dem die Schnitte für die hadroness sein dürfen (hier 0,15-0,95). Madeup.allowedTheta2Range: In dieser Zeile wird der Bereich angegeben, in dem die Schnitte für theta2 sein dürfen (hier 0,01-0,2). Madeup.minSize: In dieser Zeile wird der Wert der Variable size angegeben, ab dem ein Ereignis betrachtet werden soll (hier 50). Madeup.nBinsEnergyEst: In dieser Zeile wird die Anzahl an Bins (Bereichen) angegeben, in denen die Variable mit der geschätzten Energie eingeteilt werden soll (hier 27). Madeup.minEnergyEst: Diese Zeile gibt die minimale abgeschätzte Energie an (hier 13,7964). Madeup.maxEnergyEst: Diese Zeile gibt die maximale abgeschätzte Energie an (hier 41389,3). Madeup.nBinsTheta2: In dieser Zeile wird die Anzahl an Bins (Bereichen) angegeben, in denen die Variable theta2 eingeteilt werden soll (hier 40). Madeup.maxTheta2: In dieser Zeile wird das maximale theta2 angegeben (hier 0.4). Es gibt drei Möglichkeiten, die Schnitte anzugeben. Die erste Möglichkeit ist, die Schnitte in der Zeile Madeup.cuts: der Steuerungsdatei made-up.rc einzutragen. Die zweite Möglichkeit ist, die Schnitte bestimmen zu lassen. Hierzu werden die Information, wie oben beschrieben, angegeben. Um keine Schnitte anzuwenden, muss in der Zeile Madeup.cuts: ein Schnitt stehen, der nie durchgeführt wird, eine Möglichkeit hierfür ist MHadronness.fHadronness<2, denn die hadroness kann nicht größer als eins werden. 10

3.2. Implementieren von Datensätzen mit einer anderen Verteilung 2 /deg 2 Abbildung 3.1: Beispiel Ausgabe der Schnitte, die mit made-up bestimmt wurden. Die Schnitte in der hadroness sind dafür um die γ-schauer von den hadronischen Schauern zu trennen und die Schnitte für theta2 sorgen dafür, dass die Ereignisse aus der Richtung der Quelle kommen. Die Dreiecke geben die Schnitte an. Nur die Daten, die unter den Dreiecken sind, werden behalten. Wenn die Schnitte durch made-up bestimmt werden, werden die Schnitte in grafischer Form (siehe Abbildung 3.1) und in schriftlicher Form ausgegeben: 13.7964 < E < 18.5587 Hadronness < 0.91125 Theta^2 < 0.17 18.5587 < E < 24.9649 Hadronness < 0.95 Theta^2 < 0.2... Die geänderten Stellen in made-up sind mit dem Kommentar //begin: edited by Christian Jung //end: edited eingeschlossen. 3.2 Implementieren von Datensätzen mit einer anderen Verteilung Die Ereignisse, die vom Random Forest eingeordnet werden sollen, sollten nicht die gleiche Verteilung haben, wie die Ereignisse, auf denen die Bäume ermittelt werden, denn wenn dies der Fall ist, kann nicht herausgefunden werden, ob der Random Forest übertrainiert ist (also die Daten auswendig gelernt hat und auf richtigen Daten somit Fehler machen würde). Denn bei einer Verteilung die zu hohen Energien langsam abfällt entscheidet der Random Forest eher zugunsten der hoch energetischen Ereignisse. Des- 11

Kapitel 3. Vorbereitung von Datensätzen wegen sollten die Monte-Carlo-Simulationen, auf denen der Random Forest überprüft wird, einer anderen Verteilung folgen. Von MAGIC gibt es standardmäßig nur Monte- Carlo-Simulationen mit einer Verteilung. Diese Verteilung hat einen spektralen Index von γ = 1,6. Das bedeutet, wenn die Energieverteilung mit der Funktion E γ gefittet wird, ist γ der spektral Index. Die Verteilung, auf denen der Random Forest überprüft wird, sollte möglichst den selben spektral Index haben, wie die gemessenen Daten. Der Krebsnebel wird als Standardkerze benutzt, zum Beispiel zur Kalibrierung der Teleskope und zur Überprüfen von Analysen, denn der Fluss des Krebsnebels ändert sich nicht viel und der Krebsnebel befindet sich in der Milchstraße, wodurch die Strahlung nur wenig absorbiert wird. Die von MAGIC gemessenen Energiespektren des Krebsnebels weisen einen spektralen Index von γ = 2,48[5] auf. Um von einer Verteilung mit einem Index von γ = 1,6 auf eine Verteilung mit dem Index γ = 2,48 zu kommen, wird jedes Ereignis mit dem Faktor E 2,48+1,6 (E: Energie) gewichtet werden. Da der Random Forest mit gewichteten Ereignissen nicht gut umgehen kann, wird anstelle einer Umgewichtung die Verteilung durch Weglassen von Ereignissen angepasst. Zu diesem Zweck wird die Gewichtung jedes einzelnen Ereignisses berechnet und durch Dividieren mit der maximalen Gewichtung auf eine Verbleib- Wahrscheinlichkeit gebracht. Mit dieser Wahrscheinlichkeit wird das Ereignis behalten, es werden für jedes Ereignis Zufallszahlen zwischen 0 und 1 gezogen und wenn die Zufallszahl kleiner als die Wahrscheinlichkeit ist wird das Ereignis behalten. Dies wird alles in dem Programm made-up umgesetzt. Um dies zu nutzen, sind folgende Zeilen in der Steuerungsdatei made-up.rc erforderlich: Madeup.Indexbefore: In dieser Zeile wird der Index der Monte-Carlo-Simulationen, die geändert werden sollen, angegeben (hier -1,6). Madeup.Indexafter: In dieser Zeile wird der Index angegeben, der erzeugt werden soll (hier -2,48). Madeup.IndexEnergyMax: In dieser Zeile wird der maximale Energiewert angegeben (hier 13,7964). Madeup.IndexEnergyMin: In dieser Zeile wird der minimale Energiewert angegeben (hier 41389,3). Die modifizierte Verteilung und die Original Verteilung sind in Abbildung 3.2 dargestellt. Die geänderten Stellen in made-up sind mit dem Kommentar //begin: edited by Christian Jung //end: edited eingeschlossen. 12

3.3. Auswahl von Parametern für DSEA Abbildung 3.2: In Blau ist die Energieverteilung der Original Monte-Carlo-Simulationen, mit einem spektral Index von γ = 1,6 und in rot ist die umgewichtete Verteilung, mit einem spektral Index von γ = 2,48, dargestellt. Es lässt sich erkennen, dass in Abhängigkeit der Energie unterschiedlich viele Ereignisse verworfen wurden. 3.3 Auswahl von Parametern für DSEA Um herauszufinden, welche Variablen für die Bestimmung der Energiespektren mit DSEA genommen werden sollen, wird der MRMR-Algorithmus (Minimale-Redundanz- Maximale-Relevanz) aus der Feature Selection [10], eine Erweiterung von RapidMiner [11], benutzt. Dieser Algorithmus wählt als Erstes die Variable mit der größten Korrelation zur gesuchten Variable (hier die Energie). In jedem Schritt fügt der Algorithmus eine weitere Variable hinzu, indem die Variable gesucht wird, die eine möglichst große Korrelation zur gesuchten Variable besitzt und eine geringe Korrelation zu den bereits ausgewählten Variablen[12]. Die Stabilität des MRMR-Algorithmus lässt sich mit dem Jaccard-Index[13] und dem Kuncheva-Index[14] bestimmen. Vom Prinzip her sagen die Indizes aus, wie viele Variablen bei mehrfacher Anwendung auf unterschiedlichen Teilen der Monte-Carlo-Simulationen gleich ausgewählt wurden. Um so näher sie bei dem Wert eins liegen, umso stabiler ist die Auswahl der Variablen. Die beiden Indizes sind in Abbildung 3.3 dargestellt. Anhand der Abbildung kann gesehen werden, dass sowohl der Jaccard-Index als auch der Kuncheva-Index ab 20 Variablen stabil bei knapp unter eins liegen. 13

Abbildung 3.3: Jaccard-Index und Kuncheva-Index gegen die Anzahl an Variablen aufgetragen (Berechnet mit einem Programm von [15]). Es ist zu sehen, dass sowohl der Jaccard Index als auch der Kuncheva Index ab einem Wert von 20 Variablen stabil auf einem hohem Wert bleiben.

Kapitel 4 Anwendung von DSEA Um das Spektrum optimal zu bestimmen, müssen die Einstellungen von DSEA optimiert werden. Hierzu wird die Anzahl an Bäumen und die Anzahl an Variablen pro Knoten variiert. Dies wird in Abschnitt 4.1 beschrieben. Die Schauer sehen unter verschiedenen Zenitwinkel anders aus, denn der Weg des Schauers zum Teleskop ist bei kleinen Winkel kürzer, als bei großen Winkeln. Deswegen wird der Einfluss des Winkels für verschiedene Zenitwinkel in Abschnitt 4.2 untersucht. Desweiteren werden die Parameter, die zur Energie-Schätzung benutzt werden, zur Bestimmung des Spektrums mit DSEA benutzt und überprüft, wie gut sie sich eignen. Dies wird in Abschnitt 4.3 beschrieben. 4.1 Bestimmung der Einstellungen von DSEA Der Random Forest in DSEA teilt die Ereignisse in Energiebereiche (Bins) ein. Da das MAGIC Teleskop nur eine begrenzte Energieauflösung hat, können die Energiebereiche nicht beliebig klein gewählt werden. Die Energieauflösung von MAGIC ist 22%[4]. Deswegen wird die untere Bin-Grenze 22% kleiner als die obere Bin-Grenze gewählt. Bei dem Random Forest in DSEA gibt es prinzipiell zwei Einstellungen, die sich zur Optimierung eignen. Diese Einstellungen sind die Anzahl an Bäumen und die Anzahl an Variablen pro Knoten, zwischen denen sich der Baum entscheiden kann. Um zu überprüfen, welche Einstellung die Beste ist, wird die Kontingenzmatrix untersucht. Auf der x-achse befindet sich der wahre Energiebereich und auf der y-achse der rekonstruierte Energiebereich. In den Elementen der Matrix befinden sich jeweils die Anteile, die von dem wahren Energiebereich in den rekonstruierten Energiebereich eingeordnet werden. Ein Beispiel einer solchen Matrix ist in Abbildung 4.1 dargestellt. Optimal wäre es, wenn die Matrix nur Einträge auf der Diagonalen hätte, denn dann wären alle Ereignisse richtig einsortiert. Darum wird die Spur der Matrix berechnet und je höher die Spur der Matrix ist, desto besser sind die Einstellungen. Für die Optimierung wird die Anzahl der Bäume von 10 bis 150 in Zehner-Schritten variiert. Für jede Anzahl an Bäumen werden 600 Pulls durchgeführt, das bedeutet, 15

Kapitel 4. Anwendung von DSEA Log10(E rek /GeV) 4" Kon&ngenzmatrix" %" 3" 2" 2" 3" 4" Log10(E wahr /GeV) Abbildung 4.1: Beispiel für eine Kontingenzmatrix. In jedem Feld ist der Anteil der wahren Klasse an der rekonstruierten Klasse eingetragen. dass die Bäume 600 mal auf zufälligen Teil-Datensätzen aufgebaut und getestet werden. Dies wird durchgeführt, um einen Fehler auf die Werte anzugeben. Die Spur der Kontingenzmatrix in Abhängigkeit von der Anzahl der Bäume ist in Abbildung 4.2 dargestellt. An der Abbildung ist zu erkennen, dass sich die Spur im wesentlichen nicht ändert, sogar bei sehr wenigen Bäumen ist kein unterschied zu erkennen, auch wenn bei 60 ein kleines Maximum zu sehen ist. Deswegen wird im Weiteren die Zahl der Bäume auf 60 gesetzt, auch wenn die Anzahl auf 10 gesetzt werden kann, ohne einen Qualitätsverlust. Nun wird die Anzahl an Variablen, unter denen ein Baum pro Knoten wählen kann, Abbildung 4.2: Die Spur der Kontingenzmatrix in Abhängigkeit der Anzahl an Bäumen. Es ist zu sehen, dass sich die Spur nicht viel ändert und dass die Fehler deutlich größer sind, als die Abweichungen zwischen den verschiedenen Anzahlen an Bäumen. 16

4.1. Bestimmung der Einstellungen von DSEA Spur%der%Kon+ngenzmatrix% Anzahl%an%Variablen%pro%Knoten% Abbildung 4.3: Die Spur der Kontingenzmatrix gegen die Anzahl an Variablen pro Knoten aufgetragen. Die Spur steigt mit der Anzahl an Variablen pro Knoten an, also ist es am besten, die Anzahl an Variablen auf das Maximum zu setzen. von 1-22 variiert. Es werden wieder 600 Pulls für jeden Durchlauf ausgeführt. Über diese Pulls wird die Spur gemittelt. Die Spur in Abhängigkeit von den Variablen pro Knoten ist in Abbildung 4.3 aufgetragen. An dieser Abbildung ist zu erkennen, dass Abbildung 4.4: Die Differenz zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum in Einheiten von σ. die Spur mit steigender Anzahl an Variablen pro Knoten ansteigt. Deswegen wird die Anzahl an Variablen in den weiteren Schritten auf das Maximum gesetzt. In Abbildung 4.5 ist ein Spektrum mit den optimierten Einstellungen dargestellt und in Abbildung 4.4 ist die Differenz zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum in Einheiten von σ dargestellt, optimaler weise währen die Werte Null. 17

Kapitel 4. Anwendung von DSEA Abbildung 4.5: Spektrum nach der Berechnung mit DSEA mit den optimierten Einstellungen, also mit 22 Variablen, zwischen denen sich ein Baum pro Knoten entscheiden kann und 60 Bäumen pro Random Forest. 4.2 Einfluss des Zenitwinkels auf die Bestimmung des Spektrums Ein Schauer sieht unter verschiedenen Zenitwinkeln anders aus, denn der Weg der Teilchen und des Cherenkov Lichtes zum Teleskop ist bei kleinen Zenitwinkeln länger als bei großen Winken, deswegen kann es sinnvoll sein, den Zenitwinkel bei der Bestimmung des Spektrums zu berücksichtigen. Deswegen wird dies auf zwei verschiedene Weisen untersucht. Die Erste ist, die Variable zenit direkt bei der Berechnung zu benutzen (Abschnitt 4.2.1) und die zweite ist, das Spektrum für verschiedene Zenitbereiche zu bestimmen (Abschnitt 4.2.2). 4.2.1 Bestimmung des Spektrums unter Zunahme der Variable zenit Da die Variablen, mit denen die Optimierung durchgelaufen ist, durch einen MRMR- Algorithmus ausgewählt worden sind (siehe Abschnitt 3.3), wurde der Zenitwinkel nicht ausgewählt, da diese Variable nicht direkt mit der Energie korreliert ist. Um zu überprüfen, wie sich der Zenitwinkel auf die Berechnung des Spektrums auswirkt, werden die Ergebnisse mit den Variablen von MRMR mit den Ergebnissen von den Variablen vom MRMR und der Variable zenit verglichen. Hierzu wird die Spur der Kontingenzmatrix berechnet. Die Spur der Kontingenzmatrix für die Berechnung mit den Variablen vom MRMR ist 10,11 ± 0,17 und die Spur für die Berechnung mit den Variablen des MRMR und dem Zenitwinkel ist 10,09 ± 0,17. Es ist zu erkennen, dass die Spur für die Berechnung des Spektrum ohne die Variable zenit größer ist. Es ist an der Abbildung 4.7 auch zu erkennen, dass sich der Fehler nicht merklich ändert. 18

4.2. Einfluss des Zenitwinkels auf die Bestimmung des Spektrums Abbildung 4.6: Das rekonstruierte Spektrum von DSEA mit den Variablen vom MRMR und der Variable zenit. Zum Vergleich ist das optimierte Spektrum mit dargestellt. Rekonstruiert/Monte-Carlo 0.002 0.001 0 optimierten Einstellungen unter Zunahme der Variable zenit -0.001-0.002 1.5 2 2.5 3 3.5 4 4.5 Log10(E/GeV) Abbildung 4.7: Die Differenz zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum in Einheiten von σ, sowohl für die Berechnung unter der Hinzunahme der Variable zenit, als auch mit den optimierten Einstellungen. 4.2.2 Bestimmung des Spektrums für verschiedene Zenitbereiche Das Spektrum wird einmal für den Winkelbereich 0 20 und einmal für den Winkelbereich 20 35 berechnet. Die Spektren für den Zenitbereich von 0 bis 20 und von 20 bis 35 sind addiert in Abbildung 4.8 dargestellt. Zum Vergleich ist ein Spektrum für den gesamten Zenitbereich auch in dieser Abbildung. Die Spur für den Zenitbe- 19

Kapitel 4. Anwendung von DSEA Abbildung 4.8: Hier ist ein Spektrum für die Zeitwinkel von 0-20 und 20-35 addiert dargestellt. Zum Vergleich ist das Spektrum für den gesamten Bereich auch dargestellt als(rekonstruiert / Monte-Carlo) 0.0025 optimierten Einstellungen verschiedene Zenitbereiche 0.002 0.0015 0.001 0.0005 0 1.5 2 2.5 3 3.5 4 4.5 Log10(E/GeV) Abbildung 4.9: Die Differenz zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum in Einheiten von σ, sowohl für die Berechnung für verschiedene Zenitbereiche, als auch mit den optimierten Einstellungen. reich von 0 20 ist 9.84 ± 0.17, für den Bereich von 20 35 ist 9.94 ± 0.17 und für den gesamten Zenitbereich ist die Spur 10.12 ± 0.17. Auch wenn sich bei der Spur kein großer Unterschied zeigt, ist in Abbildung 4.9 zu erkennen, dass die Abweichung in Einheiten von σ stark von der der Berechnung mit den optimierten Einstellungen. In einigen Bereichen hat sich die Abweichung deutlich verbessert, wo bei es auch Bereiche gibt in denen sich die Abweichung deutlich verschlechtert hat. Da für diesen Test nur Daten benutzt wurden, bei denen der Zenitwinkel zwischen 0 und 35 liegt und sich die Schauer in diesem Bereich nicht stark unterscheiden, kann der unterschied darauf zurück geführt werden, dass für die einzelnen Random Forest vergleichsweise wenige Daten zur Verfügung stehen auf denen er aufgebaut und getestet werden kann. 20

4.3. Vergleich verschiedener Parametersätze 4.3 Vergleich verschiedener Parametersätze Da das Programm coach die Energie schätzt, könnten die Variablen, die es benutzt, sich gut für die Berechnung des Energiespektrums eignen. Um dies zu überprüfen, wird das Spektrum einmal nur mit den Variablen von coach durchgeführt und einmal mit den Variablen, die der MRMR auswählt. Es werden die geschätzten Energien von coach nicht in den MRMR gegeben, um einen Vergleich zwischen den Variablen, die coach verwendet und denen des MRMR durchzuführen. Der Jaccard-Index und der Kuncheva-Index für den MRMR sind in Abbildung 4.10 darhestellt. Die Spur der Abbildung 4.10: Jaccard Index und Kuncheva Index gegen die Anzahl an Variablen aufgetragen (Berechnet mit einem Programm von [15]). Es ist zu sehen, dass die sowohl der Jaccard Index als auch der Kuncheva Index ab 15 Variablen stabil, auf einem hohen Wert bleibt. Kontingenzmatrix für die Entfaltung mit den Variablen von coach ist 9 ± 0.14 und für die Entfaltung mit den Variablen des MRMR ist 9.07 ± 0.14. Der Unterschied der Spuren ist nicht sehr groß, dies ist in Abbildung 4.12 nicht zu sehen, denn die Abweichungen in Einheiten von σ unterschiedet sich stark, aber es ist zu erkennen das die Abweichung mit den optimierten Einstellung prinzipiell kleiner ist als die anderen beiden. In Abbildung 4.11 ist das Spektrum für die Variablen von coach und die des MRMR dargestellt. 21

Kapitel 4. Anwendung von DSEA Wahres'Spektrum' Spektrum'mit'Variablen'vom'MRMR' Spektrum'mit'Variablen'vom'coach' Abbildung 4.11: Hier ist ein Ergebnis für das berechnete Spektrum mit den Variablen von coach dargestellt und zum Vergleich das Ergebnis mit den Variablen des MRMR. abs(rekonstruiert/monte-carlo) 0.003 0.0025 0.002 0.0015 optimierten Einstellungen mit den Variable von coach mit den Variablen des MRMR 0.001 0.0005 0 1.5 2 2.5 3 3.5 4 4.5 Log10(E/GeV) Abbildung 4.12: Die Differenz zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum in Einheiten von σ, für die Berechnung mit den Variablen von coach, den Variablen des MRMR und den optimierten Einstellungen. 22

Kapitel 5 Zusammenfassung und Ausblick 5.1 Zusammenfassung Ziel dieser Arbeit war zu überprüfen wie sich DSEA auf die Daten von MAGIC anwenden lässt. Es lässt sich sagen, dass es sich nicht lohnt, die Anzahl an Bäumen zu variieren, denn, wie man an Abbildung 4.2 sehen kann, ändert sich die Spur in Abhängigkeit von der Anzahl der Bäume nicht wesentlich. Deswegen kann die Anzahl der Bäume auf 20 gesetzt werden. Die Unterschiede können durch statistische Schwankungen erklärt werden. Es ist auch zu sehen, dass die Anzahl an Variablen, zwischen denen sich ein Baum an jedem Knoten entscheiden kann, auf das Maximum gesetzt werden sollte, denn die Spur der Kontingenzmatrix steigt mit steigender Anzahl an Variablen an. Die Variablen, die das Programm coach zur Energie-Bestimmung verwendet, sind nicht alle für die Berechnung des Spektrums geeignet, denn die Spur der Kontingenzmatrix für die Berechnung des Spektrums mit den Variablen von coach ist kleiner, als die Spur für die Berechnung des Spektrums mit der Variablen des MRMR. Der Unterschied der Spuren ist klein und liegt in dem Bereich der Fehler-Toleranz, aber an der Abweichung in Einheiten von σ ist zu erkenne das sich die Variablen von coach nicht direkt für die Bestimmung des Spektrums eignen. Es ist besser, die Energien durch coach abzuschätzen und diese Energien zur Berechnung des Spektrums zu benutzen und die restlichen Variablen durch einen MRMR-Algorithmus bestimmen zu lassen, denn die Spur mit diesen Variablen ist deutlich größer als die Spur ohne die geschätzten Energien. Es ist auch zu sehen, dass die Variable zenit keinen großen Einfluss auf die Berechnung des Spektrums hat, dies ist sowohl an der Spur, als auch an der Abweichung zu sehen, denn wie in Abbildung 4.7 zu sehen sind liegen die Punkte aufeinander. Deswegen kann gesagt werden das die Variable zenit nicht benutzt wurde. Wenn verschiedene Random Forests für unterschiedliche Zenitbereiche erstellt werden, ändert sich die Spur der Kontingenzmatrix kaum, aber die Abweichung zwischen dem rekonstruiertem Spektrum und dem wahren Spektrum unterscheidet sich merklich von der Abweichung die mit optimierten Einstellungen berechnet wurde. Die Verschlechte- 23

Kapitel 5. Zusammenfassung und Ausblick rung lässt sich darauf zurückschießen, dass die Random Forests, die für verschiedenen Zenitbereiche erstellt wurden weniger Daten zur Verfügung hatten. Es ist aber auch zu sehen das es Stellen gibt bei denen sich die Abweichung verbessert hat, also könnte diese Methode, wenn sie mit mehr Daten angewandt wird eine deutliche Verbesserung liefern. Des Weiteren ist es jetzt möglich, die Schnitte direkt in made-up zu berechnen und es muss nicht mehr das Programm Flute benutzt werden. Es ist jetzt auch möglich den spektral Index von Monte-Carlo-Simulationen direkt in made-up zu ändern, um eine andere Verteilung zu erzeugen. Zusammenfassend lässt sich sagen, dass sich DSEA gut für das Bestimmen des Spektrums der Daten von MAGIC eignet und das sich die Schnitte jetzt direkt in made-up berechnen lassen, genauso, wie sich der spektral Index von Monte-Carlo-Simulationen in made-up ändern lässt. 5.2 Ausblick Basierend auf den Untersuchungen dieser Arbeit werden folgende Schritte vorgeschlagen: Da DSEA nicht nur den Random Forest als Klassifikator zur Verfügung stellt, sondern auch noch andere Algorithmen, könnte es sinnvoll sein, diese auch zu untersuchen und mit dem Random Forest zu vergleichen. Die Untersuchung, bei der verschiedene Random Forests für unterschiedliche Zenitwilkelbereiche erstellt wurden, solle mit mehr Daten und vielleicht auch mit Daten aus anderen Zenitwinkeln wiederholt werden. Denn es ist in manchen Energiebereichen eine Verbesserung der Ergebnisse zu sehen, auch wenn in anderen eine Verschlechterung zu erkennen ist. Da jeder Baum sich an jedem Knoten unter allen Variablen die Besten aussuchen kann, kann es sein, dass die Bäume sich sehr ähnlich sehen und somit der Random Forest übertrainiert ist. Dies sollte auch noch mal genauer untersucht werden. Dies könnte zum Beispiel damit realisiert werden, indem Monte-Carlo-Simulationen mit noch anderen Spektren verwendet werden, wie zum Beispiel Monte-Carlo-Simulationen mit einem spektral Index von -0,6 oder einem Index von -2,6 (also der spektral Index der Original Monte-Carlo-Simulationen plus bzw. minus 1). Die Ergebnisse, die DSEA bei der Bestimmung des Spektrum liefert, sollten noch mit den Ergebnissen von anderen Entfaltungsprogrammen verglichen werden, um zu überprüfen, wie gut DSEA im Vergleich zu anderen Programmen ist. 24

Quellenverzeichnis [1] Volker Blobel, Erich Lohrmann. Statistische und numerische Methoden der Datenanalyse. Teubner Stuttgart, 1998. [2] Tim Ruhe, Martin Schmitz, Tobias Voigt, Max Wornowizki. DSEA: A Data Mining Approach to Unfolding. 33rd International Cosmic Ray Conference, Rio de Janeiro, 2013. [3] Juan Cortina et al. for the MAGIC Collaboration. Technical Performance of the MAGIC Telescopes. 31st International Cosmic Ray Conference (ICRC2009) Lodz, Poland, 2009. arxiv:0907.1211. [4] Julian Sitarek et al. for the MAGIC Collaboration. Physics Performance of the Upgraded MAGIC Telescopes obtained with Crab Nebula data. 33rd International Cosmic Ray Conference, Rio de Janeiro, 2013. arxiv:1308.0141 [astro-ph.im]. [5] J. Albert et al. VHE γ-ray Observation of the Crab Nebula and its Pulsar with the MAGIC Telescope. Astrophysical Journal, 674:1037 1055, 2008. arxiv:0705. 3244, doi:10.1086/525270. [6] Michael Backes. Technischen Universität Dortmund, 2009. [7] MAGIC. Mars Data Analysis Manual, Februar 2008. [8] Markus Gaug, Abelardo Moralejo. A handbook of the standard MAGIC analysis chain. MAGIC, März 2008. [9] Leo Breiman. Random forests. Machine Learning, 45:5 32, 2001. doi:10.1023/a: 1010933404324. [10] [online]url: http://marketplace.rapid-i.com/updateserver/faces/ product_details.xhtml?productid=rmx_featselext [cited 29.06.2014]. [11] [online]url: http://rapidminer.com [cited 14.07.2014]. [12] Peng H. et al. Feature selection based on mutual information criteria of maxdependency, max-relevance, and min-redundancy. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(8):1226 1238, 2005. doi:10.1109/tpami. 2005.159. 25

QUELLENVERZEICHNIS [13] Pang-Ning Tan. Introduction to Data Mining. Addison-Wesley, 2005. [14] Ludmila I. Kuncheva. A stability index for feature selection. Proceeding of the 25th IASTED International Multi-Conference: artificial intelligence and applications, pages 390 395, 2007. [15] Mathis Börner. Technischen Universität Dortmund, 2014. 26

Abbildungsverzeichnis 2.1 Die MAGIC Teleskope auf La Palma.................... 4 2.2 Beispiel eines Schauers in der Kamera................... 5 2.3 Schematische Darstellung eines Entscheidungsbaumes.......... 7 2.4 Beispiel eines Energiespektrums von DSEA nach Anwendung auf Monte- Carlo-Simulationen.............................. 8 3.1 Grafische Ausgabe der Schnitte die made-up bestimmt.......... 11 3.2 Umgewichtete Monte-Carlo-Simulation................... 13 3.3 Stabilität des MRMR Algorithmus..................... 14 4.1 Beispiel für eine Kontingenzmatrix...................... 16 4.2 Spur der Kontingenzmatrix in Abhängigkeit der Anzahl an Bäumen.. 16 4.3 Spur der Kontingenzmatrix in Abhängigkeit der Anzahl an Variablen pro Knoten.................................. 17 4.4 Abweichung bei optimierten Einstellungen................. 17 4.5 Spektrum mit optimierten Einstellungen.................. 18 4.6 Rekonstruiertes Spektrum mit der Variable zenit............ 19 4.7 Abweichung mit der Variable zenit..................... 19 4.8 Bestimmung des Spektrums für verschiedene Zenitbereiche........ 20 4.9 Abweichung für verschiedene Random Forests für unterschiedliche Zenitbereiche.................................... 20 4.10 Jaccard-Index und Kuncheva-Index..................... 21 4.11 Das Spektrum mit den Variablen zur Energie Schätzung.......... 22 4.12 Abweichung für die Variablen von coach.................. 22 27

Eidesstattliche Versicherung Ich versichere hiermit an Eides statt, dass ich die vorliegende Bachelorarbeit mit dem Titel Untersuchung eines Data-Mining-Ansatzes zur Bestimmung von Energiespektren bei MAGIC selbständig und ohne unzulässige fremde Hilfe erbracht habe. Ich habe keine anderen, als die angegebenen Quellen und Hilfsmittel benutzt sowie wörtliche und sinngemäße Zitate kenntlich gemacht. Die Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen. Ort, Datum Unterschrift Belehrung Wer vorsätzlich gegen eine die Täuschung über Prüfungsleistungen betreffende Regelung einer Hochschulprüfungsordnung verstößt, handelt ordnungswidrig. Die Ordnungswidrigkeit kann mit einer Geldbuße von bis zu 50.000,00 e geahndet werden. Zuständige Verwaltungsbehörde für die Verfolgung und Ahndung von Ordnungswidrigkeiten ist der Kanzler/die Kanzlerin der Technischen Universität Dortmund. Im Falle eines mehrfachen oder sonstigen schwerwiegenden Täuschungsversuches kann der Prüfling zudem exmatrikuliert werden ( 63 Abs. 5 Hochschulgesetz - HG - ). Die Abgabe einer falschen Versicherung an Eides statt wird mit Freiheitsstrafe bis zu 3 Jahren oder mit Geldstrafe bestraft. Die Technische Universität Dortmund wird ggf. elektronische Vergleichswerkzeuge (wie z.b. die Software turnitin ) zur Überprüfung von Ordnungswidrigkeiten in Prüfungsverfahren nutzen. Die oben stehende Belehrung habe ich zur Kenntnis genommen. Ort, Datum Unterschrift