BIG UNIVERSITÄTSRECHENZENTRUM

Ähnliche Dokumente
Forschung und Entwicklung am

Nutzung der Scientific Computing Cluster. Lars-Peter Meyer

Big Data in der Forschung

!! Waldemar Reger Köln,

Produktionscontrolling auf dem Weg zur Industrie 4.0

June Automic Hadoop Agent. Data Automation - Hadoop Integration

Analyse von unstrukturierten Daten. Peter Jeitschko, Nikolaus Schemel Oracle Austria

Industrie 4.0 und Smart Data

Storage Summit Zellescher Weg 14 Willers-Bau A206 Tel

S3 your Datacenter. Software Defined Object Storage. Die kostengünstige und skalierbare Lösung für Ihre unstrukturierten Daten

PROFI UND NUTANIX. Portfolioerweiterung im Software Defined Data Center

Big Data. Prof. Robert Jäschke Forschungszentrum L3S Leibniz Universität Hannover

Big Data Mythen und Fakten

START DER INSTITUTS- PARTNERSCHAFT ZUM THEMA DIGITALISIERUNG

MATCHING VON PRODUKTDATEN IN DER CLOUD

Erfahrungsbericht: Umstieg von RDBMS auf Big Data-Technologien

Ausblick auf den HLRN III - die neue HPC Ressource für Norddeutschland

Oracle Data Warehouse Mit Big Data neue Horizonte für das Data Warehouse ermöglichen

CLAIX Vorstellung und Technik Christian Terboven

Spark, Impala und Hadoop in der Kreditrisikoberechnung

Vertrieb 4.0. Vertrieb und Marketing in einer Digitalen Welt. Hartmut H. Giesel

HLRN III - HPC Ressource für Norddeutschland

PROVIGO MICROSOFT NAS 2170M

Software EMEA Performance Tour Juni, Berlin

Big Data Informationen neu gelebt

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG VISUAL ANALYTICS

Angewandte Forschung zu Datenlebenszyklen in der Helmholtz-Gemeinschaft und darüber hinaus

Mehrrechner-Datenbanksysteme (Verteilte und Parallele DBS)

ODI und Big Data Möglichkeiten und ein Erfahrungsbericht Dr. Holger Dresing Oracle Deutschland B.V. & Co. KG Hannover

Thema: Large Scale Scientific Databases

Bund Deutscher Kriminalbeamter

BIG DATA Die Bewältigung riesiger Datenmengen

Peter Dikant mgm technology partners GmbH. Echtzeitsuche mit Hadoop und Solr

Hochleistungs-Disk-I/O

Die wichtigsten Hadoop-Komponenten für Big Data mit SAS

Sozio- Technische Systeme

Von Big Data zu Deep Insights

Echtzeiterkennung von Cyber-Angriffen auf IT-Infrastrukturen. Frank Irnich SAP Deutschland

Big Data Analytics: Herausforderungen und Systemansätze. Prof. Dr. Erhard Rahm.

Symposium on Scalable Analytics. Skalierbare Analysen mit EXASolution

SCADS RINGVORLESUNG FÜR BIG DATA

Neues in Hyper-V Version 2

THEMA: SAS TOOLS FÜR DIE DATENVERARBEITUNG IN HADOOP ODER WIE REITET MAN ELEFANTEN?" HANS-JOACHIM EDERT

Well-Balanced. Performance Tuning

WISSENSWERTES ÜBER WINDOWS SCALE-OUT FILE SERVER

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Cloud Data Management Kapitel 1: Infrastruktur und Services

Neues aus der nicht-, semi- und relationalen Welt

HANA Solution Manager als Einstieg

Seminar WS 2012/13. S. Chaudhuri et al, CACM, Aug Parallel DBS vs. Open Platforms for Big Data, e.g. HaDoop Near-Realtime OLAP

Ramon Wartala Performance Media Deutschland GmbH. Personal Hadoop Cluster

BIG DATA: EXPECT THE UNEXPECTED. T-SYSTEMS AUSTRIA 2014 Dipl.-Ing. Axel Bundestagung der Jungen Wirtschaft

Copyr i g ht 2014, SAS Ins titut e Inc. All rights res er ve d. HERZLICH WILLKOMMEN ZUR VERANSTALTUNG DATA MANAGEMENT


OPEN GOVERNMENT: MEHR TRANSPARENZ UND PARTIZIPATION DURCH ANALYTICS ANDREAS NOLD STATEGISCHE GESCHÄFTSENTWICKLUNG SAS D-A-CH

Mindestanforderungen an Systemumgebung Für die Nutzung von excellenttango

BIG DATA IM RETAIL-SEKTOR AM BEISPIEL KASSENBONDATEN BUSINESS ANALYTICS DAY

Digitale Transformation

SAP HANA eine Plattform für innovative Anwendungen

Der einfache Einstieg in Big Data

!"#$"%&'()*$+()',!-+.'/',

Endorsed SI Anwenderbericht: Einsatz von System Platform 2012 R2 in virtualisierten Umgebungen zur Prozessvisualisierung

best Systeme GmbH Michael Beeck Geschäftsführer, CTO best Systeme GmbH

Big Data in a Nutshell. Dr. Olaf Flebbe of ät oflebbe.de

Dr. Jens Hündling Senior Sales Consultant. DOAG Apps 2011 Berlin, 05. Mai 2011

Inhaltsverzeichnis. Pavlo Baron. Big Data für IT-Entscheider. Riesige Datenmengen und moderne Technologien gewinnbringend nutzen

Simulationen und Mathematische Programmierung mit SAS Dr. Mihai Paunescu

Einführung in Hadoop

Big Data Plattformen für polystrukturierte Daten neue Chancen und Herausforderungen

Das Informations-Cockpit für die Geschäftsführung Fileserver, Exchange, ERP, Sharepoint und mehr

Oracle Big Data Discovery Ein Überblick

THEMA: DATA SCIENCE FÜR DEN BUSINESS USER" THOMAS WENDE

Cisco gestern heute morgen

Das Zettabyte. CeBIT Dr. Wolfgang Martin Analyst, ibond Partner und Ventana Research Advisor

Storage-Trends am LRZ. Dr. Christoph Biardzki

Automatisierung, Virtualisierung & Management Es muss nicht immer VMware sein

Enterprise Content Management für Hochschulen

Big Data im Call Center: Kundenbindung verbessern, Antwortzeiten verkürzen, Kosten reduzieren! Sascha Bäcker Dr.

Big Data und künstliche Intelligenz

Mehrrechner-Datenbanksysteme (Verteilte und Parallele DBS)

Software-Contest BERNEXPO erleben und geniessen Sie live SAP AG. All rights reserved. 1

Dr. Stefan Wess, Geschäftsführer

Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Hadoop aus IT-Operations Sicht Teil 2 Hardware- und Netzwerk-Grundlagen

Die Cloud, die alles anders macht. Die 6 Grundzüge der Swisscom Cloud

Kleine Speichersysteme ganz groß

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

MHP Real-Time Business Solution Ihre Lösung zur Harmonisierung und Analyse polytechnischer Messdaten

BUSINESS INTELLIGENCE (BI) MIT PENTAHO. Schneller, höher, weiter!

Oracle BI&W Referenz Architektur Big Data und High Performance Analytics

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

Vom Umgang mit Containern in der Informatik

Datenprodukte für Deutschlands größten Fahrzeugmarkt. Vortrag beim BITKOM Big Data Summit am 16. Februar 2017 in Hanau

Hochverfügbarkeit mit Windows Server vnext. Carsten Rachfahl Microsoft Hyper-V MVP

Copyright 2014, Oracle and/or its affiliates. All rights reserved.

Big Data Neue Erkenntnisse aus Daten gewinnen

Cloud-Computing. 1. Definition 2. Was bietet Cloud-Computing. 3. Technische Lösungen. 4. Kritik an der Cloud. 2.1 Industrie 2.

A Big Data Change Detection System. Carsten Lanquillon und Sigurd Schacht

NoSQL-Datenbanken und Hadoop im Zusammenspiel mit dem Data Warehouse

Speicherklassen außerhalb des Arrays. Dr. Carsten Haak ESD Practice Manager EMEA EMC Corp.

Transkript:

UNIVERSITÄTS RECHENZENTRUM LEIPZIG BIG DATA @ UNIVERSITÄTSRECHENZENTRUM Forschung und Entwicklung Entwicklung eines E-Science-Angebots für die Forschenden an der Universität Leipzig Stefan Kühne Axel Ngonga Michael Martin Stefan Kühne et al.

Digitalisierung aller Lebens- und Arbeitsbereiche Social Media 1992 100 GByte pro Tag 1997 100 GByte pro Stunde Enterprise Data Big Data Sensordaten 2002 100 GByte pro Sekunde 2012 100 GByte pro Millisekunde Transaktionen Open Data 2

Big Data Potenziale der intelligente Umgang mit sehr großen, heterogenen Daten birgt für Wirtschaft und Wissenschaft große Potenziale Daten als Produktionsfaktor Valide Grundlage für zahlreiche Entscheidungsprozesse Echtzeitanalyse großer Menge von Roh- und Simulationsdaten Empfehlungsdienste (Live Recommendations) Analyse/Optimierung von Produktionsprozessen, Lieferketten, etc. Data Science Verbesserte Analysen in zahlreichen wissenschaftlichen Anwendungen in Medizin, Meteorologie, Chemie, Physik, Bioinformatik, Wirtschaftswissenschaften, 3

Big-Data Herausforderungen Velocity sofortige Analyse dynamischer Datenströme Veracity hohe Qualität und Glaubwürdigkeit der Daten Volume bis zu vielen Peta- und Exabyte an Daten Variety heterogene strukturierte, teil- und unstrukturierte Daten Value Gewinnung nützlicher Informationen oder einfach: zu groß zu komplex zu schnelllebig zu schwach strukturiert um die Daten mit klassischen Methoden der Datenverarbeitung auszuwerten. 4

Big-Data-Kompetenzzentrum Dresden/Leipzig Life sciences Material and Engineering sciences Environmental / Geo sciences Digital Humanities Business Data Service center Big Data Life Cycle Management and Workflows Data Quality / Data Integration Knowledge Extraktion Visual Analytics Efficient Big Data Architectures 5

Apache Hadoop Datenablage und Rechnen im Cluster Verteiltes Dateisystem HDFS Map-Reduce (urspr. Google, Apache Projekt seit 2008) Map: Daten bekommen Schlüssel (verteilt) Shuffle/Combine: Sortieren nach Schlüssel (Netzwerk) Reduce: Aggregiere Werte mit gleichem Schlüssel auf Basis von Open-Source-Tools und preiswerter Hardware einfacher Einstieg in Big-Data möglich Job-Scheduler YARN 6

Big Data Software-Ökosystem Impala docker swarm Kubernetes PIG ZooKeeper Mesos YARN SAP HANA 7

Shared Nothing-Ansatz Netz Shared Disk CPU CPU Shared Nothing Netz CPU CPU Commodity Hardware im Cluster große Masse gegen Ausfälle, kein Geld für Ausfallsicherheit Netz HPC Shared Nothing für Big Data Netz Unterteilung in Master und Slave bei der meisten Cluster- Software CPU CPU CPU CPU für Big Data: viele lokale Festplatten für schnellen IO und großes Volumen 8

Shared-Nothing-Cluster Galaxy 90 Knoten (60 in Leipzig, 30 in Dresden) mit jeweils 2 x 6 Core Intel-CPU (Haswell E5 2620v3 @2,4 GHz) 128 GByte DDR4 ECC 6 x 4 TB SATA 3,5 als JBOD (HW-RAID aber vorhanden) 10 GBit/s Netzwerkinterface in Summe 1080 Kerne, 11,5 TB, 2 PB Plattenspeicher Zusätzliche Virtualisierungsserver für Master und Management 9

Aktueller Stand Inbetriebnahme Lieferung/Aufbau abgeschlossen Grundinstallation (Hadoop) nahezu abgeschlossen aktuell Performancetests Nutzung offen für alle Uni-Nutzer Cluster- und Big-Data-konform scadm@uni-leipzig.de Weiterentwicklung notwendig Web-Anwendung zur Reservierung/Ressourcenverwaltung Flexibles Cluster-Management 10

Ausblick 2017 BIGGR Big Graph Data Analytics Workflows Analyse-Plattform: KNIME 11

Aufbau eines E-Science-Angebots Scientific Computing KNIME R-Studio-Server für R weitere (Python, ) Scientific Collaboration ShareLatex gitlab Abstimmung von Bedarfen Anforderungen Realisierungsmöglichkeiten Stefan Kühne stefan.kuehne@uni-leipzig.de +49 341 97-32360 Augustusplatz 10, P.906 04109 Leipzig 12