Ausarbeitung zum Hauptseminarvortrag Datenfluss in CERN-Experimenten von Valerie Scheurer
Inhaltsverzeichnis 1. Das CERN 1.1 Allgemeines 1.2 Wichtige Errungenschaften 2. Das CMS Experiment 2.1 Aufbau 2.2 Anfallende Datenmengen 2.3 Trigger 3. Das Grid 3.1 Aufbau des Grid 3.2 Vorteile des Grid-Computing 4. Quellenangaben
1. Das CERN 1.1. Allgemein Das Gelände des europäischen Forschungszentrums CERN liegt bei Genf an der Grenze zwischen Frankreich und der Schweiz. Die Gebiete sind hierbei geografisch auf beide Staaten verteilt und gelten als exterritorial. Der Name CERN steht für Conseil Européen pour la Recherche Nucléaire (Europäischer Rat für Kernforschung). Es scheint zunächst nicht offensichtlich, warum eine Forschungseinrichtung Rat genannt werden sollte. Dies lässt sich jedoch historisch begründen. Bevor das eigentliche Forschungszentrum gegründet wurde, wurde von 11 europäischen Ländern ein provisorisches Gremium eingesetzt um die Idee eines gemeinsamen europäischen Forschungszentrums zu verwirklichen. Dieses Gremium wurde Conseil Européen pour la Recherche Nucléaire genannt. Nachdem am 29 September 1954 der Vertrag unterzeichnet wurde, wurde das Gremium aufgelöst. Das Akronym CERN blieb jedoch erhalten. 1.2 Errungenschaften des CERN Am CERN wurden in seiner mittlerweile 60-jährigen Geschichte zahlreiche wichtige Entdeckungen gemacht. Es ist daher sinnvoll an dieser Stelle auf einige wichtige Errungenschaften einzugehen. Der erste Beschleuniger, das Synchro-Zyklotron wurde 1957 in Betrieb genommen. Es konnten damit Teilchen auf bis zu 600MeV beschleunigt werden und es wurden erste Experimente zur Kern und Teilchenphysik durchgeführt. Bereits 2 Jahre später, 1959, wurde dann das Proton-Synchrotron fertiggestellt. Dieses hat bereits einen Umfang von 628m und erreicht eine Strahlenergie von bis zu 28 GeV. Für eine kurze Zeit war es der weltweit stärkste Teilchenbeschleuniger. Das Proton-Synchrotron ist bis heute in Betrieb und dient heute als Vorbeschleuniger für den LHC. Einer der größten Fortschritte in der Teilchenphysik ereignete sich 1968 am CERN mit der Erfindung der Vieldrahtproportionalkammer. Diese revolutionierte die Teilchendetektion, die bis zu diesem Zeitpunkt durch das aufwendige manuelle Auswerten tausender Blasenkammerbilder durchgeführt wurde. Die Vieldrahtproportionalkammer bot nun die Möglichkeit elektronisch weitaus effizienter Teilchen zu detektieren.
Der zweite große Beschleuniger des CERN, das Super-Proton-Synchrotron (SPS) wurde 1976 eingeweiht. Es hat einem Umfang von etwa sieben Kilometern und beschleunigt Teilchen bis auf eine Energie von etwa 450 GeV. An diesem Beschleuniger wurde 1983 mit der Entdeckung der W- und Z-Bosonen einer der größten Erfolge des CERN gefeiert. Der LEP-Beschleuniger wurde 1989 in Betrieb genommen und ist mit 27 km Umfang bis heute der größte je gebaute Elektron-Positron-Beschleuniger. Bereits im Jahr 2000 wurde er abgeschaltet und mit der Demontage begonnen, um im Tunnel Platz zu schaffen für den Nachfolger, den ebenfalls 27 km umfassenden Hadronen-Beschleuniger LHC. Die erste vollständige Umrundung eines Protonenstrahls erfolgte am 10. September 2008. Bereits neun Tage später ereignete sich aufgrund einer fehlerhaften Verbindung ein Zwischenfall, bei dem zahlreiche der supraleitenden Magneten, die zur Strahlfokussierung eingesetzt werden teilweise schwer beschädigt wurden. Der planmäßige Betrieb konnte somit erst nach einjähriger Reparatur beginnen. 2. Das CMS-Experiment Das CMS-Experiment ist eines der vier großen Experimente am LHC. CMS steht hierbei für Compact Muon Solenoid. Dieser Name scheint zunächst nicht offensichtlich, da der Detektor mit 15 m Durchmesser sowie einer Länge von 22 m alles andere als kompakt zu sein scheint. Jedoch wurde bei der Entwicklung des Detektors Wert darauf gelegt, Materialien zu verwenden und zu entwickeln, die im Vergleich zu herkömmlichen Detektorkonstruktionen einen relativ geringen Raum einnehmen. Für die Leistungen, die CMS erbringt ist es somit tatsächlich klein. Das Muon im Namen des Detektors steht dafür, dass die Myon-Detektion eine seiner wichtigsten Aufgaben ist, da beim Zerfall des Higgs-Bosons der Zerfall in Leptonen der zur Detektion wichtigste Zerfallskanal ist. Solenoid schließlich für den supraleitenden Elektromagneten, der das Herzstück des Detektors darstellt. Zu den Hauptaufgaben des CMS-Experiments gehört wie bereits erwähnt die Suche nach dem Higgs-Boson, allerdings wird auch ein breites Spektrum anderer Themengebiete der Teilchenphysik untersucht. So gehören beispielsweise auch die Suche nach
supersymmetrischen Teilchen sowie die genauere Erforschung des top-quarks zu Aufgaben des CMS. Bis einschließlich April 2014 wurden 302 Papers zu verschiedenen Themengebieten veröffentlicht. 2.1. Aufbau Der CMS-Detektor ist in mehreren Schichten zur Bestimmung von Art und Impuls der bei den Kollisionen entstehenden Teilchen aufgebaut. Die erste Ebene bilden Siliziumpixeldetektoren, die ein dreidimensionales Bild aller Teilchenspuren liefern. Diese Spuren sind essentiell um vor allem die Flugbahnen und Zerfallsvertizes sehr kurzlebiger Teilchen bestimmen zu können. Die Pixeldetektoren sind in drei Schichten um die Strahlachse angebracht, in drei, sieben und 11 Zentimetern Entfernung vom Strahl. Es wird bei der Detektion eine radiale Auflösung von 10 µm sowie eine parallele Auflösung von 20 µm erreicht. Insgesamt gibt es etwa 65 Millionen Daten liefernde Pixel. Die zweite Ebene besteht ebenfalls aus Siliziumdetektoren, allerdings aus Siliziumstreifendetektoren mit einer etwas gröberen Auflösung. Diese sind in zehn Schichten bis zu einer Entfernung von 1,3 Metern von der Strahlachse angebracht. Die Streifendetektoren liefern Daten in etwa 9,6 Millionen weitere Kanäle. Die Energie der den Detektor durchfliegenden Teilchen wird in den anschließenden Kalorimeterschichten bestimmt. Im elektromagnetischen Kalorimeter werden Photonen und Elektronen detektiert. Die Detektion sowie die Bestimmung ihrer Energie erfolgt über 80000 PbWO 4 Szintillatorkristalle, die mit jeweils einer Photodiode ausgestattet sind. Durch Photo- und Compton-Effekt werden im Kristall Elektronen ausgeschlagen. Diese hinterlassen Löcher, in die Elektronen aus weniger günstigen Energieniveaus fallen. Dabei werden Photonen niedrigerer Energie ausgesandt. Die Energie der so insgesamt erzeugten Photonen, also des Lichtimpulses, der von der Photodiode registriert wird, ist gleich der Energie des absorbierten Teilchens. Hadronen werden in der nächsten Detektorebene detektiert, dem hadronischen Kalorimeter. Dieses ist aufgebaut aus abwechselnden Schichten Messingabsorber und Szintillatoraterial. Die einfliegenden Hadronen werden im Messing gestreut, so dass hinter jeder Messingschicht Streuprodukte auftreten, die per Szintillation, analog zum elektromagnetischen Kalorimeter, detektiert werden. Über die Energie-Impulsbilanz
werden auch Neutrinos detektiert. Im hadronischen Kalorimeter sollten bis auf diese Neutrinos und Myonen alle Teilchen absorbiert werden. Um das hadronische Kalorimeter herum ist die supraleitende Magnetspule ( Solenoid ) angebracht, die das starke Magnetfeld liefert, das für eine gute Impulsauflösung bei der Detektion unabdingbar ist. Die Supraleitung ist dabei notwendig um einen genügend große Strom zu erhalten, die bei der relativ kleinen Größe der Spule (d=6m) ein ausreichend starkes Magnetfeld erzeugen kann. Die äußerste Schicht des Detektors bilden die in einem Eisenjoch eingebetteten Myonkammern. Das Eisen wird hierbei benötigt um die Magnetfeldlinien geschlossen zu halten, was nötig ist, um den Impuls der in den Driftkammern detektierten Myonen mit ausreichender Genauigkeit bestimmen zu können. 2.2 Anfallende Datenmenge Bei einer Proton-Proton Kollision entsteht im Detektor eine Datenmenge von etwa 1-2 MB. Bei einer Strahl-Kollisionsrate von 40 MHz und durchschnittlich 22 Proton-Proton- Events pro Kollision wird somit eine Datenmenge von etwa einem Petabyte pro Sekunde generiert. Es ist offensichtlich, dass es keine Möglichkeit gibt, diese riesige Datenmenge zu speichern. Dies ist jedoch auch nicht notwendig. Ein Großteil der im Detektor stattfindenden Kollisionen sind niederenergetisch und führen zu bekannten Effekten und werden zur Erforschung der für das CMS-Experiment interessanten Physik nicht benötigt. Bevor die Daten gespeichert werden können, müssen sie also ein System durchlaufen, das die Daten der interessanten Ereignisse herausfiltert und den Rest direkt verwirft. Dies geschieht durch das Triggersystem. 2.3 Trigger Nach Durchlaufen des Triggersystems sollten pro Sekunde nur noch einige hundert interessante Ereignisse übrig sein, deren Daten dann gespeichert werden können. Am CMS entspricht dies einer Datenmenge von einigen hundert MB pro Sekunde. Jährlich fallen so am CMS noch immer einige Petabyte an Daten an. Diese Menge kann jedoch gespeichert werden. Das Triggersystem des CMS-Experiments ist in zwei Stufen aufgebaut. Die erste Stufe, der Level 1 Trigger, ist aus Hardware aufgebaut und wählt aus den Millionen Ereignissen im Detektor zunächst etwa 100.000 potentiell interessante aus. Der Level 1 Trigger muss hierbei enorme Herausforderungen bewältigen. Im Strahlrohr kommt es alle 25 ns zu
Kollisionen. Das heißt, dass die nächste Flut an Teilchen bereits detektiert wird, bevor die Teilchen aus der vorherigen Kollision den Detektor verlassen haben. Es muss gewährleistet werden, dass die detektierten Teilchen jeweils dem richtigen Ereignis zugeordnet werden. Auch die Anforderungen an die Reaktionszeit sind enorm. Alle 25 ns muss eine Entscheidung getroffen werden, welche Ereignisse verworfen und welche ausgewählt werden. Jedoch generiert allein die Datenübertragung durch die Elektronik eine Latenzzeit von etwa 3 µs. Diese Zeitspanne wird durch die Front End Pipelines überbrückt. Dort können die Datenmengen die der Detektor in dieser Zeit generiert zwischengespeichert werden. Die zweiter Stufe des Triggersystems, der High Level Trigger ist ein Softwaretrigger. Die Daten der vom Level 1 Trigger ausgewählten Ereignisse, die durchschnittlich alle 10 µs eintreffen, durchlaufen Algorithmen, die letztendlich entscheiden, ob das jeweilige Event gespeichert wird oder nicht. Diese Entscheidung kann für ein einzelnes Event bis zu einer Sekunde dauern. Es ist genug Zwischenspeicher vorhanden um die in dieser Zeit eintreffenden Daten aufzufangen. Die Algorithmen des High Level Trigger laufen auf einer aus handelsüblichen Prozessoren aufgebauten Prozessorfarm mit etwa 1000 Prozessoren. Es ist deshalb von Vorteil handelsübliche Prozessoren zu verwenden, da so eine günstige Möglichkeit zur regelmäßigen Verbesserung des Systems gewährleistet wird. Im High Level Trigger werden schließlich einige hundert Events ausgewählt, die schließlich gespeichert werden. 3. Das Grid Bereits bei der Planung des LHC war klar, dass die am CERN vorhandene Rechenleistung viel zu gering ist um die riesigen Datenmengen (ca.25 P B/Jahr), die an diesem generiert werden auswerten zu können. Daher wurde 1999 mit der Realisierung des WLCG (Worldwide LHC Computing Grid) begonnen. Dies ist ein weltweites Netzwerk aus Rechenzentren in dem Rechenleistung für Simulationen und Auswertungen sowie Speicherplatz zur Datensicherung zur Verfügung stehen.
3.1 Aufbau des Grid Das WLCG ist das weltweit größte Computing-Grid. Insgesamt stehen 260.000 Prozessorkerne sowie 180 PB Speicher zur Verfügung. Es ist zu beachten, dass aufgrund des kontinuierlichen Ausbaus des Grids diese Zahlen, sowie später genannte, nicht immer aktuell sein können. Das Grid ist aufgebaut in vier Ebenen, genannt Tiers. Die erste Ebene, Tier 0, besteht aus dem CERN Data Centre direkt auf dem Gelände des CERN, sowie dem Wigner Data Centre in Busapest. Am CERN Data Centre, einer 1450 m² großen Serverfarm, stehen bei einer Leistung von 3,5 MW 90.000 Prozessorkerne sowie 100 PB Speicher zur Verfügung. Da dies nicht ausreicht, wurde 2013 das Wigner Data Centre eröffnet, an dem bei Eröffnung zusätzliche 500 Server (20.000 Kerne, 5,5 PB Speicher) mit 2,5 MW zur Verfügung gestellt wurden. Beide Rechenzentren sind mit zwei 100 GBit-Leitungen miteinander verbunden. Alle in den Experimenten generierten Daten laufen zunächst in den Tier 0 Rechenzentren zusammen. Dort werden die Events aus den Rohdaten rekonstruiert, sowie die Rohdaten sowie die Rekonstruktionen gespeichert. Diese Daten können an die Tier 1 Rechenzentren weitergeleitet werden. Es gibt weltweit 13 Tier 1 Rechenzentren. Diese bilden die Hauptknotenpunkte des Grid und sind über 10 GBit Leitungen direkt mit dem CERN Data Centre verbunden. Die Hauptaufgaben der Tier 1 Zentren sind die Datensicherung sowie die erneute Rekonstruktion der Events. Jedes Tier 1 Rechenzentrum speichert hierbei einen Teil der am CERN generierten Daten. Außerdem werden Analysen aus Tier 2 Rechenzentren archiviert. Jedes Tier 1 Rechenzentrum ist mit etwa 10 15 der etwa 150 Tier 2 Rechenzentren verbunden. Diese befinden sich meist an Universitäten und Forschungseinrichtungen. An diesen Rechenzentren ist kein Speicherplatz vorhanden, sie dienen lediglich zu Berechnungen. Die Hauptrechenleistung des Grid befindet sich dort. Untereinander sind die Tier 2 Rechenzentren über das gewöhnliche Internet verbunden. Als Tier 3 werden Zugriffspunkte zum Grid bezeichnet, an denen Aufgaben eingegeben werden können. Wird an einem beliebigen Tier 3 Zugriffspunkt eine Analyse angefordert wird im Grid vollautomatisch festgestellt, wo die benötigten Daten und Rechenleitung zur Verfügung stehen. Die Analyse wird direkt dort ausgeführt und lediglich das Ergebnis über das Grid zurückgeschickt.
3.2 Vorteile des Grid-Computing Das Grid bietet viele Vorteile. Durch den global verteilten Aufbau können Wissenschaftler fast von überall verzögerungsfrei auf die Daten und Analysen aus CERN Experimenten zugreifen. Außerdem besteht eine hohe Daten- sowie Ausfallsicherheit, da die Daten an mehreren Orten gespeichert werden, und der Ausfall eines einzelnen Rechenzentrums der Gesamtstruktur des Grid nicht schadet. Auch politische Vorteile bieten sich, da Regierungen es zumeist bevorzugen finanzielle Mittel auf eigenem Boden einzusetzen.
4. Quellenangaben CERN, CMS: http://www.lhc-facts.ch/index.php?page=geographie http://timeline.web.cern.ch/timelines/the-history-of-cern/overlay#1949-12- 09%2000:45:00 http://www.lhc-facts.ch/index.php?page=datenverarbeitung http://cms.web.cern.ch/news/triggering-and-data-acquisition http://indico.cern.ch/event/208202/session/1/contribution/24/material/slides/1.pdf http://www.hep.ph.ic.ac.uk/~tapper/talks/cms-trigger.pdf http://download.springer.com/static/pdf/725/art%253a10.1140%252fepjcd%252fs2004-04-016-8.pdf?auth66=1401348636_34e2fb2c313bee8380d445db38fe1e50&ext=.pdf http://cms.web.cern.ch/org/physics-papers-timeline Grid: http://www.isgtw.org/feature/large-hadron-colliders-worldwide-computer http://www.isgtw.org/spotlight/cern-inaugurates-data-center-extension-budapest http://www.isgtw.org/feature/happy-10th-birthday-wlcg http://home.web.cern.ch/about/computing/worldwide-lhc-computing-grid http://wlcg-public.web.cern.ch/about http://www.scc.kit.edu/downloads/oko/gridka-flyer-final.pdf http://www.lhc-facts.ch/index.php?page=datenverarbeitung