Big Data in der Forschung

Ähnliche Dokumente
Datenbank-Service. RZ-Angebot zur Sicherstellung von Datenpersistenz. Thomas Eifert. Rechen- und Kommunikationszentrum (RZ)

Experimenten. really big data

Big Data Herausforderungen für Rechenzentren

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

EMC. Data Lake Foundation

Prof. Dr.-Ing. Rainer Schmidt 1

Prof. Dr. Norbert Pohlmann, Institut für Internet Sicherheit - if(is), Fachhochschule Gelsenkirchen. Lage der IT-Sicherheit im Mittelstand

SAP Memory Tuning. Erfahrungsbericht Fritz Egger GmbH & Co OG. Datenbanken sind unsere Welt

PR Februar 2008 Hannover Messe 2008 Seite 1 von 5. Hannover Messe 2008 Hauptstand: Halle 9, Stand F06 Application Park: Halle 17, Stand D26

MATCHING VON PRODUKTDATEN IN DER CLOUD

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

Wie funktioniert automatisierte Übersetzung? Prof. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz)

Super rechnen ohne Superrechner Oder: Was hat das Grid mit Monte Carlo zu tun?

Hochleistungsrechnen für Wissenschaft und Wirtschaft im internationalen Verbund

Datenanalyse im Web. Einführung in das Thema. Prof. Dr. Ingo Claÿen. Beispiele für Daten im Web. Extraktion und Aggregation von Informationen

BI in der Cloud eine valide Alternative Überblick zum Leistungsspektrum und erste Erfahrungen

3 MILLIARDEN GIGABYTE AM TAG ODER WELCHE KAPAZITÄTEN MÜSSEN NETZE TRAGEN?

Herausforderungen des Enterprise Endpoint Managements

WIE ERHÖHT MAN DIE EFFIZIENZ DES BESTEHENDEN RECHENZENTRUMS UM 75% AK Data Center - eco e.v. 1. Dezember 2009

Cloud Computing Top oder Flop? 17. November 2010

Apache HBase. A BigTable Column Store on top of Hadoop

Ein mobiler Electronic Program Guide für Android

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Big Data wohin geht das Recht. Claudia Keller, Rechtsanwältin

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

GLASFASERNETZ DATACENTER RHEIN-NECKAR RHEIN-NECKAR-CLOUD MULTIMEDIA. Fixed Line BESCHREIBUNG. carrier ethernet TBFL_PFK_MA_

Big Data Mythen und Fakten

Positionspapier Big Data

Geyer & Weinig: Service Level Management in neuer Qualität.

Executive Summary BIG DATA Future Chancen und Herausforderungen für die deutsche Industrie

Look Inside: desite. modellorientiertes Arbeiten im Bauwesen. B.I.M.

Kooperationsprojekte RRZ - Universitätskolleg

Neue Studie zum digitalen Universum entdeckt Big Data Gap

Verlust von Unternehmensdaten?

Infrastruktur fit machen für Hochverfügbarkeit, Workload Management und Skalierbarkeit

SMARTE LÖSUNGEN FÜR DIE VERNETZTE WELT

Pflegedossier für die kreisfreie Stadt Frankfurt (Oder)

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Über uns. HostByYou Unternehmergesellschaft (haftungsbeschränkt), Ostrastasse 1, Meerbusch, Tel , Fax.

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Schnelle Antwort, gute klare Beratung. Ich bin wirklich sehr zufrieden. Auswertung der Mandantenbefragung 2007

MOGON. Markus Tacke HPC ZDV. HPC - AHRP Markus Tacke, ZDV, Universität Mainz

Professionelle Seminare im Bereich MS-Office

Lizenzierung von SharePoint Server 2013

Big Data Modewort oder echter Mehrwert. freenet Group Dr. Florian Johannsen

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Statistische Auswertung:

Von Perimeter-Security zu robusten Systemen

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

Wie bekomme ich MATLAB?

Dienste aus dem RZ. Managed Serverhosting Managed Services Integratives Hosting

Open Source als de-facto Standard bei Swisscom Cloud Services

Internet Explorer Version 6

HISPRO ein Service-Angebot von HIS

ERGEBNISSE DER CW-MARKTSTUDIE COLLABORATION AUS DER CLOUD IM UNTERNEHMENSEINSATZ IN TABELLARISCHER FORM

Test zur Bereitschaft für die Cloud

WINDOWS AZURE IM ÜBERBLICK GANZ NEUE MÖGLICHKEITEN

Welchen Nutzen haben Risikoanalysen für Privatanleger?

Internetmarktplätze und eigener Online-Shop so sind Sie mit beiden Vertriebswegen erfolgreich

IT-Governance und Social, Mobile und Cloud Computing: Ein Management Framework... Bachelorarbeit

COVUM P1 - Preise SaaS. SaaS-Modell. Betrieb. Sonstige Kosten. P1 Exclusive 14) P1 Professional. P1 Start P1 XXL. P1 Test 2) Gebühren 1)

Pflegedossier für den Landkreis Potsdam-Mittelmark

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Software Development Center

Schnellste Realtime Segmentierung weltweit

Möglichkeiten für bestehende Systeme

Wie löscht man soziale Brennpunkte? Köln-Chorweiler und -Kalk

I N F O R M A T I O N V I R T U A L I S I E R U N G. Wir schützen Ihre Unternehmenswerte

Schuldenbarometer 1. Q. 2009

TOP. wird ein wichtiges Jahr für BIG (Business Intelligence Growth) DER BUSINESS INTELLIGENCE TRENDS FÜR DAS JAHR 2013

KfW-Förderreport 2015 Auswertung Kurzfassung

Organisation des Qualitätsmanagements

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

PROLAG WORLD 2.0 PRODUKTBESCHREIBUNG SERVERSYSTEM, CLUSTERSYSTEME FÜR PROLAG WORLD

Cloud Computing für KMU-Unternehmen. Michael Herkens

Gezielt über Folien hinweg springen

Analyse zum Thema: Laufzeit von Support-Leistungen für ausgewählte Server OS

Lizenzierung von SharePoint Server 2013

G DATA GOES AZURE. NEXT LEVEL MANAGED ENDPOINT SECURITY DRAGOMIR VATKOV Technical Product Manager B2B

Die Bedeutung des Internets als Wertschöpfungs- und Wirtschaftsfaktor. Peter Knapp Geschäftsführer

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Rundum-G. Die Anforderungen durch ständig steigende

Leitbild. LG Liechtensteinisches. Gymnasium

Naturgewalten & Risikoempfinden

Speicher in der Cloud

Get ready for the Cloud. Ein limitiertes Angebot für bestehende und zukünftige IAMCP-Mitglieder.

Mikrocontroller Grundlagen. Markus Koch April 2011

Was macht Layer2 eigentlich? Erfahren Sie hier ein wenig mehr über uns.

Wie bekomme ich MATLAB?

Formwerk AG. Die Sicherstellung konsistenter Nutzungserlebnisse über den gesamten SW-Produktlebenszyklus durch Human Centered Design.

Preisvergleich ProfitBricks - Amazon Web Services M3 Instanz

Wissenschaftlicher Bericht

InfoSEC AWARENESS RESSOURCEN BESTMÖGLICH NUTZEN. RISIKEN PRAKTIKABEL REDUZIEREN. InfoSEC Awareness Ein Workshop von ExpertCircle.

Textiltechnologische Innovationen im Bereich adaptierter Kleidung für Menschen mit Handicap

Online Marketing für weltweite Filialen zentral steuern

FORGE2015 HDC Session 4. Nachhaltige Infrastruktur als technologische Herausforderung. Tibor Kálmán Tim Hasler Sven Bingert

Transkript:

Big Data in der Forschung Dominik Friedrich RWTH Aachen Rechen- und Kommunikationszentrum (RZ)

Gartner Hype Cycle July 2011 Folie 2

Was ist Big Data? Was wird unter Big Data verstanden Datensätze, die aufgrund ihrer Größe schwierig zu bearbeiten sind Das Problem des rasant steigenden Datenvolumens (Faktor 2 pro Jahr laut IDC Studie) Methoden und Werkzeuge, um die wachsenden Datenmengen zu bearbeiten Ist Big Data neu? Nein Es verschieben sich nur die Grenzen, was Big Data Datenmengen sind Weisheit Wissen Informationen Daten Folie 3

Beispiele aus der Forschung Physik LHC erzeugt bis zu 15 PB pro Jahr an Rohdaten Weltweiter GRID Struktur zur Speicherung und Analyse der Datenmengen Über 150 Petabyes Speicherkapazität Über 200.000 Prozessor Cores Verteilt über 34 Länder Tier-2 Site in Aachen mit über 500 TB Disk Kapazität, wird derzeit erweitert Folie 4

Beispiele aus der Forschung Feldversuche / Sensornetzwerke EU Projekt eurofot, IKA der RWTH beteiligt Groß angelegt Feldstudie zur Untersuchung von Fahrsicherheitssystemen 1000 Fahrzeuge insgesamt 8 TB Daten an Sensordaten von 240 Fahrzeugen Speicherung der Daten in einer relationalen Datenbank für die Auswertung Datenmenge für weitere Versuche wird massiv steigen Folie 5

Beispiele aus der Forschung Simulationen Verbrennungssimulation des ITV der RWTH 4 Monate Rechnung auf BlueGene in Jülich Entwicklung einer Shared Memory Anwendung zur Analyse der Simulationsergebnisse in Kooperation zwischen ITV und RZ (Verfolgung von Partikeln) Auswertung auf SGI Altix im Leibniz Rechenzentrum München aufgrund der hohen Speicheranforderungen Institute for Combustion Technology Chair for Operating Systems Center for Computing and Communication Folie 6

Beispiele aus der Forschung Bioinformatik Kosten für Sequenzierung von Genomen fällt drastisch Massives Datenwachstum Sequenzen müssen aufbereitet werden Pattern Matching auf sehr großen und kontinuierlich wachsenden Dantenmengen Grafik von http://blogs.discovermagazine.com Folie 7

Big Data Herausforderung Datenmengen heute schon vielfach sehr groß Verdoppelung alle 2 Jahre Limit des Wachstums in der Forschung sind die Kosten Auswertung der Daten Skalierung mit Datenmenge Einfache Bedienung der Werkzeuge -> Fokus auf eigentliche Forschung Daten verstehen Daten -> Information -> Wissen -> Weisheit Transport der Daten zwischen Forschungseinrichtungen 20 Gbit/s = 2,5 Gbyte/s Übertragung von 10 TB knapp über 1 Stunde bei voller Bandbreite Aufbewahrung von Primärdaten für 10 Jahre DFG Grundsätze guter wissenschaftlicher Praxis Folie 8

Werkzeuge In der Forschung kommen verschiedene Werkzeuge zum Einsatz (Relationale) Datenbanken HPC Cluster Immersive Visualization Map Reduce Cluster (in Europa im kommen) Archivsysteme für die Primärdatenhaltung Das Thema Big Data und die Werkzeuge sind auch Forschungsgegenstand Folie 9

Werkzeuge: HPC Cluster HPC Cluster Bis vor einiger Zeit sehr stark Compute lastig Trend zu mehr Speicherkapazität und höheren IO Bandbreiten An der RWTH große Shared Memory Systeme (bis zu 4 TB RAM, 512 CPU Cores) RWTH HPC Ausschreibungen 2008 2010 Rechenleistung 200 Tflops 300 Tflops Speicherplatz 1 PB Lustre (+ 100 TB NFS) 1,5 PB Lustre (+ 1,5 PB NFS) IO Bandbreite 10 GB/s 19 GB/s Folie 10

Werkzeuge: Immersive Visualization Immersive Visualization (VR) Werkzeug um Daten, Abläufe und Zusammenhänge zu verstehen Kleine lokale 3D Monitore in den Einrichtungen Große zentrale System im RZ Neue CAVE kurz vor der Fertigstellung (5 Seiten, ca. 5m x 5m x 3m, 24 HD Beamer) Visualisierungscluster Teil des HPC Systems mit schnellem Zugriff auf den Storage Bilder VR Gruppe des RZ Folie 11

Werkzeuge: Map Reduce Cluster Map Reduce Cluster Map Reduce als Framework / Programmierparadigma für Big Data Anwendungen Populär geworden durch eine Google Veröffentlichung von 2004 Open Source Implementierung Apache Hadoop Viele Nutzer mit Internet scale Anwendungen wie Facebook Testinstallation an der RWTH auf Basis älterer Hardware (560 TB) Forschungsaktivitäten im Bereich Algorithmen für das Map Reduce Paradigma Einsatz als Werkzeug wird evaluiert Folie 12

Big Data in der Forschung Big Data nicht nur Big, sondern auch komplex Extraktion von Information und später Wissen erfordert rechenintensive Methoden Analysemethoden für komplexe Daten vorhanden, z.b.: Statistische Datenanalysen (Clustering, Klassifikation, Warenkorbanalyse) Datenbanktechnologien (effiziente Anfragebearbeitung, Ähnlichkeitssuche, ) aber oft nicht für große Datenmengen geeignet (ein Future work Thema) Effiziente Parallelisierung je nach Programmiermodell und vorhandener Infrastruktur nicht trivial Spezielle Algorithmen mit Blick auf hohe Skalierbarkeit notwendig Folie 13

Fazit Big Data ist als ein Trendthema in Europa angekommen Das Big ist nicht definiert Ist relativ zur verfügbaren Technologie Ist relativ zu den vorhandenen Ressourcen Große Datenmengen waren schon immer Teil der Forschung An Methoden und Werkzeugen wird kontinuierlich geforscht Forschungseinrichtungen haben Erfahrung mit großen Datenmengen Einige der Lösungen aus dem Forschungsumfeld lassen sich auch in anderen Bereichen nutzen Interesse an Forschungskooperationen? Folie 14