Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ)
Gartner Hype Cycle July 2011 Folie 2
Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die aufgrund ihrer Größe schwierig zu bearbeiten sind Das Problem des rasant steigenden Datenvolumens (Faktor 2 pro Jahr laut IDC Studie) Methoden und Werkzeuge, um die wachsenden Datenmengen zu bearbeiten Ist Big Data neu? Nein Es verschieben sich nur die Grenzen, was Big Data Datenmengen sind Weisheit Wissen Informationen Daten Folie 3
Beispiele aus der Forschung Physik LHC erzeugt bis zu 15 PB pro Jahr an Rohdaten Weltweiter GRID Struktur zur Speicherung und Analyse der Datenmengen Über 150 Petabyes Speicherkapazität Über 200.000 Prozessor Cores Verteilt über 34 Länder Tier-2 Site in Aachen mit über 500 TB Disk Kapazität, wird derzeit erweitert Folie 4
Beispiele aus der Forschung Feldversuche / Sensornetzwerke EU Projekt eurofot, IKA der RWTH beteiligt Groß angelegt Feldstudie zur Untersuchung von Fahrsicherheitssystemen 1000 Fahrzeuge insgesamt 8 TB Daten an Sensordaten von 240 Fahrzeugen Speicherung der Daten in einer relationalen Datenbank für die Auswertung Datenmenge für weitere Versuche wird massiv steigen Folie 5
Beispiele aus der Forschung Simulationen Verbrennungssimulation des ITV der RWTH 4 Monate Rechnung auf BlueGene in Jülich Entwicklung einer Shared Memory Anwendung zur Analyse der Simulationsergebnisse in Kooperation zwischen ITV und RZ (Verfolgung von Partikeln) Auswertung auf SGI Altix im Leibniz Rechenzentrum München aufgrund der hohen Speicheranforderungen Institute for Combustion Technology Chair for Operating Systems Center for Computing and Communication Folie 6
Beispiele aus der Forschung Bioinformatik Kosten für Sequenzierung von Genomen fällt drastisch Massives Datenwachstum Sequenzen müssen aufbereitet werden Pattern Matching auf sehr großen und kontinuierlich wachsenden Dantenmengen Grafik von http://blogs.discovermagazine.com Folie 7
Big Data Herausforderung Datenmengen heute schon vielfach sehr groß Verdoppelung alle 2 Jahre Limit des Wachstums in der Forschung sind die Kosten Auswertung der Daten Skalierung mit Datenmenge Einfache Bedienung der Werkzeuge -> Fokus auf eigentliche Forschung Daten verstehen Daten -> Information -> Wissen -> Weisheit Transport der Daten zwischen Forschungseinrichtungen 20 Gbit/s = 2,5 Gbyte/s Übertragung von 10 TB knapp über 1 Stunde bei voller Bandbreite Aufbewahrung von Primärdaten für 10 Jahre DFG Grundsätze guter wissenschaftlicher Praxis Folie 8
Werkzeuge In der Forschung kommen verschiedene Werkzeuge zum Einsatz (Relationale) Datenbanken HPC Cluster Immersive Visualization Map Reduce Cluster (in Europa im kommen) Archivsysteme für die Primärdatenhaltung Das Thema Big Data und die Werkzeuge sind auch Forschungsgegenstand Folie 9
Werkzeuge: HPC Cluster HPC Cluster Bis vor einiger Zeit sehr stark Compute lastig Trend zu mehr Speicherkapazität und höheren IO Bandbreiten An der RWTH große Shared Memory Systeme (bis zu 4 TB RAM, 512 CPU Cores) RWTH HPC Ausschreibungen 2008 2010 Rechenleistung 200 Tflops 300 Tflops Speicherplatz 1 PB Lustre (+ 100 TB NFS) 1,5 PB Lustre (+ 1,5 PB NFS) IO Bandbreite 10 GB/s 19 GB/s Folie 10
Werkzeuge: Immersive Visualization Immersive Visualization (VR) Werkzeug um Daten, Abläufe und Zusammenhänge zu verstehen Kleine lokale 3D Monitore in den Einrichtungen Große zentrale System im RZ Neue CAVE kurz vor der Fertigstellung (5 Seiten, ca. 5m x 5m x 3m, 24 HD Beamer) Visualisierungscluster Teil des HPC Systems mit schnellem Zugriff auf den Storage Bilder VR Gruppe des RZ Folie 11
Werkzeuge: Map Reduce Cluster Map Reduce Cluster Map Reduce als Framework / Programmierparadigma für Big Data Anwendungen Populär geworden durch eine Google Veröffentlichung von 2004 Open Source Implementierung Apache Hadoop Viele Nutzer mit Internet scale Anwendungen wie Facebook Testinstallation an der RWTH auf Basis älterer Hardware (560 TB) Forschungsaktivitäten im Bereich Algorithmen für das Map Reduce Paradigma Einsatz als Werkzeug wird evaluiert Folie 12
Big Data in der Forschung Big Data nicht nur Big, sondern auch komplex Extraktion von Information und später Wissen erfordert rechenintensive Methoden Analysemethoden für komplexe Daten vorhanden, z.b.: Statistische Datenanalysen (Clustering, Klassifikation, Warenkorbanalyse) Datenbanktechnologien (effiziente Anfragebearbeitung, Ähnlichkeitssuche, ) aber oft nicht für große Datenmengen geeignet (ein Future work Thema) Effiziente Parallelisierung je nach Programmiermodell und vorhandener Infrastruktur nicht trivial Spezielle Algorithmen mit Blick auf hohe Skalierbarkeit notwendig Folie 13
Fazit Big Data ist als ein Trendthema in Europa angekommen Das Big ist nicht definiert Ist relativ zur verfügbaren Technologie Ist relativ zu den vorhandenen Ressourcen Große Datenmengen waren schon immer Teil der Forschung An Methoden und Werkzeugen wird kontinuierlich geforscht Forschungseinrichtungen haben Erfahrung mit großen Datenmengen Einige der Lösungen aus dem Forschungsumfeld lassen sich auch in anderen Bereichen nutzen Interesse an Forschungskooperationen? Folie 14