UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga Michael Martin Stefan Kühne et al.
Digitalisierung aller Lebens- und Arbeitsbereiche Social Media 1992 100 GByte pro Tag 1997 100 GByte pro Stunde Enterprise Data Big Data Sensordaten 2002 100 GByte pro Sekunde 2012 100 GByte pro Millisekunde Transaktionen Open Data 2
Big Data Potenziale der intelligente Umgang mit sehr großen, heterogenen Daten birgt für Wirtschaft und Wissenschaft große Potenziale Daten als Produktionsfaktor Valide Grundlage für zahlreiche Entscheidungsprozesse Echtzeitanalyse großer Menge von Roh- und Simulationsdaten Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Produktionsprozessen, Lieferketten, etc. Data Science Verbesserte Analysen in zahlreichen wissenschaftlichen Anwendungen in Medizin, Meteorologie, Chemie, Physik, Bioinformatik, Wirtschaftswissenschaften, 3
Big-Data Herausforderungen Velocity sofortige Analyse dynamischer Datenströme Veracity hohe Qualität und Glaubwürdigkeit der Daten Volume bis zu vielen Peta- und Exabyte an Daten Variety heterogene strukturierte, teil- und unstrukturierte Daten Value Gewinnung nützlicher Informationen oder einfach: zu groß zu komplex zu schnelllebig zu schwach strukturiert um die Daten mit klassischen Methoden der Datenverarbeitung auszuwerten. 4
Big-Data-Kompetenzzentrum Dresden/Leipzig Life sciences Material and Engineering sciences Environmental / Geo sciences Digital Humanities Business Data Service center Big Data Life Cycle Management and Workflows Data Quality / Data Integration Knowledge Extraktion Visual Analytics Efficient Big Data Architectures 5
Apache Hadoop Datenablage und Rechnen im Cluster Verteiltes Dateisystem HDFS Map-Reduce (urspr. Google, Apache Projekt seit 2008) Map: Daten bekommen Schlüssel (verteilt) Shuffle/Combine: Sortieren nach Schlüssel (Netzwerk) Reduce: Aggregiere Werte mit gleichem Schlüssel auf Basis von Open-Source-Tools und preiswerter Hardware einfacher Einstieg in Big-Data möglich Job-Scheduler YARN 6
Big Data Software-Ökosystem Impala docker swarm Kubernetes PIG ZooKeeper Mesos YARN SAP HANA 7
Shared Nothing-Ansatz Netz Shared Disk CPU CPU Shared Nothing Netz CPU CPU Commodity Hardware im Cluster große Masse gegen Ausfälle, kein Geld für Ausfallsicherheit Netz HPC Shared Nothing für Big Data Netz Unterteilung in Master und Slave bei der meisten Cluster- Software CPU CPU CPU CPU für Big Data: viele lokale Festplatten für schnellen IO und großes Volumen 8
Shared-Nothing-Cluster Galaxy 90 Knoten (60 in Leipzig, 30 in Dresden) mit jeweils 2 x 6 Core Intel-CPU (Haswell E5 2620v3 @2,4 GHz) 128 GByte DDR4 ECC 6 x 4 TB SATA 3,5 als JBOD (HW-RAID aber vorhanden) 10 GBit/s Netzwerkinterface in Summe 1080 Kerne, 11,5 TB, 2 PB Plattenspeicher Zusätzliche Virtualisierungsserver für Master und Management 9
Aktueller Stand Inbetriebnahme Lieferung/Aufbau abgeschlossen Grundinstallation (Hadoop) nahezu abgeschlossen aktuell Performancetests Nutzung offen für alle Uni-Nutzer Cluster- und Big-Data-konform scadm@uni-leipzig.de Weiterentwicklung notwendig Web-Anwendung zur Reservierung/Ressourcenverwaltung Flexibles Cluster-Management 10
Ausblick 2017 BIGGR Big Graph Data Analytics Workflows Analyse-Plattform: KNIME 11
Aufbau eines E-Science-Angebots Scientific Computing KNIME R-Studio-Server für R weitere (Python, ) Scientific Collaboration ShareLatex gitlab Abstimmung von Bedarfen Anforderungen Realisierungsmöglichkeiten Stefan Kühne stefan.kuehne@uni-leipzig.de +49 341 97-32360 Augustusplatz 10, P.906 04109 Leipzig 12