Wege zu globalen Daten-Infrastrukturen



Ähnliche Dokumente
RDA Daten als Teil der Wissenschaftskultur. Peter Wittenburg Max Planck Institut für Psycholinguistik RDA E Scientific Coordinator RDA TAB Member

Umgang mit Forschungsdaten Institutional Long Tail Research Data

In 30 Minuten von Excel zum professionellen Controllingsystem. Kalle Malchow, Manager of Presales

Karriereplanung Heute

AVL The Thrill of Solutions. Paul Blijham, Wien,

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

Sichtweise einer Humanities-Einreichtung. Kai Wörner, Universität Hamburg

Umgang mit Daten in der Medizinischen Forschung Bedeutung von Datenbrücken

PREISLISTE QSC -Service international

Markus BöhmB Account Technology Architect Microsoft Schweiz GmbH

Titelbild1 ANSYS. Customer Portal LogIn

EEX Kundeninformation

Big Data Projekte richtig managen!

Open Source als de-facto Standard bei Swisscom Cloud Services

Daten haben wir reichlich! The unbelievable Machine Company 1

file:///c:/users/wpzsco/appdata/local/temp/tmp373d.tmp.htm

Prozesse als strategischer Treiber einer SOA - Ein Bericht aus der Praxis

Infografiken zur Elektromobilität (November 2018)

Aufbau eines IT-Servicekataloges am Fallbeispiel einer Schweizer Bank

Der Begriff Cloud. Eine Spurensuche. Patric Hafner geops

H. Enke, Sprecher des AK Forschungsdaten der WGL

STATISTIK-REPORT für Zeitraum bis Gesamtentwicklung bis Allgemeine Daten

Contents. Interaction Flow / Process Flow. Structure Maps. Reference Zone. Wireframes / Mock-Up

Dominik Stockem Datenschutzbeauftragter Microsoft Deutschland GmbH

XING und LinkedIn-Integration in das erecruiter-bewerberportal

ISO/IEC 27001/2. Neue Versionen, weltweite Verbreitung, neueste Entwicklungen in der 27k-Reihe

JONATHAN JONA WISLER WHD.global

Communications & Networking Accessories

Universität Zürich und Open Access

Mediascope Europe 2012

8 Juli Transparenz durch Governance Data Governance als kritischer Erfolgsfaktor für Predictive Analytics

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen

Schulzufriedenheit und Unterstützung durch die Lehrkräfte Finnland und Österreich im Vergleich

SOA im Zeitalter von Industrie 4.0

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Empfehlungen für die Zukunft Mehrwerte für Ihre Daten. Prof. Felix Sasaki (Deutsches Forschungszentrum für Künstliche Intelligenz)

EMC. Data Lake Foundation

elearning SIGNAL project Hans Dietmar Jäger 1

Cloud Architektur Workshop

TMF projects on IT infrastructure for clinical research

Finish Future Internet Acceleration Programme

:: Anleitung Hosting Server 1cloud.ch ::

JAHRESERGEBNISSE 2016 INVESTORENANWERBUNG

Fragment Identifiers, Template Handles

OERA OpenEdge Reference Architecture. Mike Fechner PUG Infotag 19. Mai 05 Frankfurt

Summer Workshop Mehr Innovationskraft mit Change Management

Alle Informationen zu Windows Server 2003 Übersicht der Produkte

Auswertung des Fragebogens Rahmenbedingungen des Umgangs mit Forschungsdaten in der Region

RENTENREFORMEN DIE INTERNATIONALE PERSPEKTIVE. Monika Queisser Leiterin der Abteilung für Sozialpolik OECD

Data. Guido Oswald Solution Switzerland. make connections share ideas be inspired

CONTINUOUS LEARNING. Agile Anforderungsanalyse mit Impact Mapping

LOG AND SECURITY INTELLIGENCE PLATFORM

SWITCHaai Die Authentifizierungs- und Autorisierungs- Infrastruktur der Schweizer Hochschulen

CLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig

SALSAH eine virtuelle Forschungsumgebung für die Geisteswissenschaften

Connecting the dots on Germany s Energiewende and its impact on European energy policy

Erste Resultate und Ausblick

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

SIG Big Data in der Connect User Group

Karlsruhe Institute of Technology Die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

Stand der Recherche nach publizierten Identity Management Standards - ISO/IEC, DIN, BSI, CEN/ISSS und OASIS

VRE als Prêt à Porter

Konzept zur Push Notification/GCM für das LP System (vormals BDS System)

Cloud Computing Top oder Flop? 17. November 2010

Klausur BWL V Investition und Finanzierung (70172)

Test zur Bereitschaft für die Cloud

Workflow, Business Process Management, 4.Teil

Hybrid-Szenarien in der Virtualisierung

Angewandte Forschung zu Datenlebenszyklen in der Helmholtz-Gemeinschaft und darüber hinaus

Version/Datum: Dezember-2006

Microsoft Azure Fundamentals MOC 10979

Reporting Services und SharePoint 2010 Teil 1

Architektur der DARIAH-DE Forschungsinfrastruktur

Seminar Security in Cloud Computing

Der Cloud Point of Purchase. EuroCloud Conference, 18. Mai 2011 (Christoph Streit, CTO & Co-Founder ScaleUp)"

! "# $% &'!( $ ) *(+,(,-

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Powershell DSC Oliver Ryf

User_Authenticate_ & File Sharing Groups

IT Support für den Arbeitsplatz 2.0


Installation mit Lizenz-Server verbinden

SENSIBILISIERUNG FÜR CYBERSICHERHEIT: RISIKEN FÜR VERBRAUCHER DURCH ONLINEVERHALTEN

Digitalisierung für Einsteiger. Praxisorientierter Workshop für Unternehmer

SMART Newsletter Education Solutions April 2015

Der LeadershipCompass Das richtige Identity Provisioning für ihr Unternehmen

Die neue Metadaten- Verwaltung für die DFN-AAI

Checkliste zur Planung einer Webseite

Self-Organisation in Germany s Higher Education IT

Wie Amazon mit Hilfe von Technologie und Daten erfolgreich ist Startup Firmen in Deutschland und weltweit haben Agilität, Innovation und globale

The Future Internet in Germany and Europe

Preisliste für The Unscrambler X

CAIRO if knowledge matters

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Deutscher Wein im globalen Wettbewerb. Dr. Rudolf Nickenig Deutscher Weinbauverband

TFS Customzing. in der Praxis. Thomas Gugler. seit 2005 bei ANECON. .NET seit 2002 (happy bday!) Schwerpunkte: MCPD.Net 4.0, MCTS TFS, Scrum Master,

WAS IST DER KOMPARATIV: = The comparative

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Transkript:

Wege zu globalen Daten-Infrastrukturen Peter Wittenburg Max Planck Data and Compute Center Garching, Deutschland Max Planck Institute for Psycholinguistics Nijmegen, Niederlande

mein Hintergrund

Psycholinguistik S. Freud W. Wundt Experimente wie verarbeitet das Gehirn Sprache? wie erlernen wir Sprache? wie ist die funktionelle Architektur? was ist genetisch vorbestimmt?

Experimente & Observationen nutzen alle verfügbaren Kanäle speech sounds suprasegmental information (pitch, intensity, etc) eye movements head movements hand/arm movements (gestures) body movements virtual reality EEG/MEG/fMRI genomics simulations etc.

Wissenschaft unter dem Einfluss der Daten einige MPIs als Beispiel GW-Sektion BM-Sektion PCT-Sektion

MPI für Extraterrestrische Physik Globales EUCLID Projekt - 1.0 PB raw data from ground based surveys - 300 TB Euclid raw data - processed data 5x more slide von Johannes Koppenhoefer, MPE

MPI for Neurobiologie Electronen Microscopie neuronaler Strukturen Datenvolumen: 10 100PB

DOBES Spracharchiv am MPI ca. 200 Sprachen und Kulturen zumeist unwiderbringliche Aufnahmen ca. 80 TB im online Repositorium (PIDs, MD) externe Replikationen über GWDG, RZG und evtl. SARA ca. 200 TB nicht gut organisierte Daten DOBES Programm von der VWS seit 2000 gefördert

Multimodale Analysen am MPI PHENOMENOLOGY LINGUISTIC SPACE linguistic features LINGUISTIC SIGNATURE RULE SPACE causal features Biology/Measurements Sample SPACE physical features Begründen linguistischer Phänomene mittels verschiedener Muster in unterschiedlichen Datenquellen (Resolution (T, SP), Art, VP, etc.) mittels ML eine Abbildung zwischen Samples auf Linguistische Phänomene ca. 2.5 TB Datenmatrix Daten von diversen Instituten Bild vom CHUV & EPFL Lausanne

Evolution der Sprachen am MPI was sind die Wurzeln unserer Sprachen? Austronesische Sprachen schier unglaubliche Proliferation der Diversität eine neue Sprache innerhalb von 5 Jahren (1200 languages in 6000 years) Object-Verb Verb-Object Noun-RelCl RelCl-Noun 182000 years der Clou ist eine große Featurematrix und Erstellen von Entwicklungsbäumen mittels Phylogenetischer Algorithmen

MPIe mit großen Daten Projekten MPI for Meteorology (Hamburg) MPI for Psycholinguistics (Nijmegen) MPI f. Plant Breeding Research (Köln) MPI for Radio Astronomy (Bonn) MPI for Chemistry (Mainz) MPI for Astronomy (Heidelberg) MPI for Ornitology (Seewiesen) MPI for Plasmaphysics (Greifswald) MPI for Molecular Genetics (Berlin) MPI for Gravitational Physics (Potsdam, Hannover) MPI for Biogeochemistry (Jena) MPI for Plasmaphysics (Garching) MPI for Extraterrestrial Physics (Garching) MPI for Astrophysics (Garching) MPI for Physics (München) MPI for Neurobiology (Martinsried) MPI for Biochemistry (Martinsried)

ein paar Anmerkungen

Daten-orientierte Wissenschaft... generiert immer mehr Daten, die das Daten-Management zu einer Herausforderung werden lassen reproduzierbare Wissenschaft Vertrauen in Basis wissenschaftlicher Ergebnisse Steigern der Effizienz (50+ % Verlust an Wiss-Zeit) gesellschaftliche Verantwortung ist kollaborativ, cross-diszipilinär und grenzübergreifend ist dynamisch im Erfinden neuer Strukturen und semantischer Domänen braucht stabile und doch flexible Rahmen N. Kroes EC: Data is currency of modern Science

Wille zum Austausch Use other researchers datasets if easily accessible 84% Willing to share data across a broad group of researchers 81% Appropriate to create new datasets from shared data 76% 676 Currently share all of their data 6% wie jedoch anstellen? 266 Metadata standards 12 21 26 95 95 96 97 DIF DwC DC EML FGDC Open GIS slide von Bill Michener, DataONE ISO My Lab none

Daten-Maschinerie enrichment processing reduction analysis domain of registered data individual value (short timescale) community value society value publication (medium timescale) (long timescale) acquisition generation description PIDs geben Identität und sichern Referenzierbarkeit MD erlauben Finden und Interpretation. preservation Metadaten Identifier Services wie beherrschen wir diese Datenflut? brauchen funktionierende Infrastrukturen brauchen automatische Abläufe Daten-Fabrik!

nicht nur Big Data regular big data (sensors, simulations) - large data volumes, structured data - easy to manage (but real-time streams) - lots of automatic (pre) processing irregular big data - aggregated data (collections) - heterogeneous long tail data - difficult to manage - difficult to get and harvest - lots of relations

Wissenschaftler Workshop zu Daten einige Daten-Challenges sind nur durch Wissenschaftler selbst zu lösen (Algorithmen,etc.) andere bedürfen einer Infrastruktur nur systematischere Lösungen werden bei der Zunahme der Daten reproduzierbare Wissenschaft ermöglichen Trend zu automatisierten Workflows Umgang mit Daten kostet insgesamt zu viel und belegt Wissenschaftler Zeit bridging the gap between creation and consumption still a challenge (metadata, quality, structure, semantics) brauchen eine neue Generation von Daten-Experten

ESFRI Cluster Sorgen/Nöte CRISP ENVRI DASISH BioMed identity & integrity finding, access & re-use Data identity Data identity continuum Software identity Concept identity User identity management Common data standards and formats Service discovery Service market places Integrated data access and discovery Semantic annotations and bridging DM & DC Data storage facilities Data curation Dynamic data management Privacy and security User Community Forum Reference models Education & training 18

wo geht es lang? wo könnte es lang gehen!

konkrete Schritte der EC (Oct. 2010) European attempts to build a common data infrastructure OpenAIRE and others as well N. Kroes EC:

Collaborative Data Infrastructure Data Generators Users organisatorische und kulturelle Nähe sind primär für Vertrauen Kuration ist eine beiderseitige Aufgabe Trust Data Curation Community Support Services Common Data Services

EUDAT Föderation diverser Zentren 22

EUDAT Knoten (ab 2014 mehr) Community Center Common Data Center verteilte Zentren als Grundkonzept offene Föderation wie muss man sich anschließen? noch zu aufwendig

being offered in progress to come EUDAT Service Übersicht EUDAT Box dropbox-like service easy sharing local synching Semantic Anno checking, referencing and annotating Generic Workflow automating data processing Dynamic Data immediate handling B2DROP B2NOTE 24

DRIHM EUDAT für Citizen Data Community Domain Specific Metadata Describe Citizens

VPH Replikation + Verarbeitung Big Data Replikation auf physischem Niveau ist einfach (File, Cloud-Objects, etc) Replikation inkl. logischer Information ist komplex (alle machen es unterschiedlich) Staging zu HPC auch nicht einfach

wo ist das Problem? offensichtlich ist alles im Fluss oder? außerdem haben wir Infrastrukturen von Google, Amazon etc. viele sind durchaus zufrieden und betreiben Data Mining es passt wenig zusammen, d.h. der Aufbau von Föderationen und die Wiederverwendung von Daten ist viel zu aufwendig und teuer partielle Reduktion der Komplexität erforderlich auf physischem Niveau Vereinfachung durch Cloud APIs für Infrastrukturen brauchen wir allgemeine Komponenten und Vereinbarungen (AAI, PID, Registraturen, Metadaten, Rechte, etc.)

wir brauchen Vereinbarungen! die Geburtsstunde der Research Data Alliance (RDA)

konkrete Schritte der EC Okt 2010 European attempts to build a common data infrastructure Global attempts to improve data sharing and interoperability N. Kroes EC: currently supported by NSF, EC and AU more to come soon

Lernen vom Internet Analysis Apps Persistent Reference Custom Clients Resolution System Citation Plug-Ins Typing Value Added Services PID Persistent Identifiers Digital Objects Data Sets RDBMS Files Local Storage Cloud Computed Data Sources points to instances describes properties bit sequence (instance) PID record attributes describes properties & context point to each other metadata attributes

DONA ist bereits fertig Digital Object Numbering Authority Senior Experts from all continents Stewards of the Handle System DONA ist als Schweizer Stiftung unter dem Hut der ITU installiert. Es wird geleitet von einem international besetzten Board, d.h. das Handle System wird unabhängig von CNRI weitergeführt. IDF/DataCite, EPIC, CrossRef etc sind Teil des weltweiten und redundatent Service Netzes. Worldwide Registration Authorities Datacite, EPIC, CNRI, etc.

RDA Groups (here: from the 2 nd Plenary in Washington DC, Sept 2013) Birds-of-a-Feather Linked Data Chemical Safety Data Education and Skills Development in Data Intensive Science Libraries and Research Data Cloud Computing and Data Analysis Training for the Developing World Working Groups Data Type Registries Metadata Standards Practical Policy Persistent Identifier Types Data Foundations and Terminology Data Categories and Codes Interest Groups Agricultural Data Big Data Analytics Data Brokering Certification of Trusted Repositories (joint with ICSU-WDS) Long tail of Research Data Marine Data Harmonization Community Capability Model Data Publishing (joint with ICSU-WDS) Toxicogenomics Interoperability Research Data Provenance Data Citation Metadata Economic Models and Infrastructure for Federated Materials Data Management Engagement Preservation e- Infrastructure Legal Interoperability (joint with CODATA) Global Registry of Trusted Data Repositories and Services Digital Practices in History and Ethnography

RDA WG Deliverables Adopted code, policy, infrastructure, standards, or best practices that enable data sharing Harvestable efforts for which a 12-18 month effort can eliminate a roadblock RDA Principles Efforts that have a substantial impact within the data community, but might not apply to all Efforts for which scientists and researchers can start today. Openness Consensus Balance Harmonization Community Driven Non-Profit inline with G8+O6

RDA Governance RDA Colloquium (National Research Agencies and Funders) Technical Advisory Board (Technical oversight) RDA Council (overarching leadership) Secretary-General and Secretariat (Administration and Operations) Working Groups and Interest Groups (impact - focused infrastructure) Organizational Advisory Boards and Organizational Assembly RDA Plenaries & Online Interaction Forum (grass-roots advancements) RDA Membership

RDA was ist es also? am besten mit dem Internet (IETF) vergleichen es ist eine bottom-up Organisation in der data practitioners zusammenarbeiten um Daten-Management, -Zugang, -Austausch, -Bewahrung durch das Überwinden von Barrieren viel effizienter machen es ist cross-disziplinär angelegt und agiert global, da auch die Wissenschaft global organisiert ist natürlich bedarf es einer top-down guidance um alles in Balance zu halten das Herz von RDA sind Arbeitsgruppen mit ganz konkreten Zielsetzungen zur Überwindung von Barrieren und Interessengruppen, die in Richtung auf die Bildung von AGs wirken

RDA Plenaries Plenary 1: March 18-20, 2013 at Gothenburg, Sweden Plenary 2: September 16-18, 2013 Washington, DC, USA Plenary 3: Dublin, Ireland March 26-28 in 2014 Plenary 4: Amsterdam, NL September 22-24 in 2014 viele andere Meetings zwischendurch

Haben IT Zentren eine Aufgabe?

Zentren in CLARIN-D und DARIAH-DE Aufgaben und Rollen neben den sehr wichtigen Community Zentren: Resource provisioning: VMs & Storage: Service hosting: AAI (shibboleth): PID service: irods Federation (federated storage): Monitoring: Technical Support (computing centres): Operational Security: Clarin Center Registry: Clarin Workspaces (OwnCloud):

Rolle der IT Zentren Infrastrukturen werden durch Föderationen stabiler Zentren mit verschiedenen Services realisiert die Datenlandschaft ist komplex und wird auch mehrschichtig bleiben keiner möchte Monopole und Nähe schafft Vertrauen daher wird es Zentren mit community-nahen und solchen mit allgemeineren Funktionen geben (FO, National, EU) Zentren brauchen Experten, die pro-aktiv Aufgaben in Zusammenarbeit mit den Wissenschaftlern wahrnehmen Zentren brauchen Experten, die bezüglich Föderations- Komponenten, Standards, APIs, Protokolle top-fit sind Management, Kuration, LZA, etc. bleiben eine Aufgabe von Zentren mit langfristiger finanzieller Absicherung Zentren müssen ihre Policies offen darlegen und sich regelmäßig zertifizieren lassen

Vielen Dank für Ihre Aufmerksamkeit! http://www.eudat.eu http://europe.rd-alliance.org http://www.rd-alliance.org

top-down process RDA Maschinerie uptake to come bottom-up process

Community-basierte Infrastrukturen DARIAH IdP USER & PROJ DB Projekt A A B Projekt B EPIC PID service AUTHN&Z AUTHN&Z AUTHN&Z AUTHN&Z nearline A B online JUELICH nearline B online A GWDG nearline KIT A online B nearline A B online online RZG

Tool Suite und Archiv-Föderation am MPI

MPI für Ornithologie Data volume: 400 TB Large number of files: 70 Mio files (to be packed) Organized in per experiment folders shared by experimentators Unstructured heterogeneous data Audio Videos Images Binary files (aggregated datastreams) Text files Metadata available in various forms, in many cases no structured digital metadata available.

einige Kern-Aussagen Riding The Wave (EC s HLEG on Scientific Data) The emerging infrastructure for scientific data must be flexible but reliable, secure yet open, local and global, affordable yet high-performance. Obviously, this is a tall order and there is no one technology that we know today or can imagine tomorrow to achieve it all. Thus, what is needed is a broad, conceptual framework for how different companies, institutes, universities, governments and individuals would interact with the system what types of data, privileges, authentication or performance metrics should be planned. This framework would ensure the trustworthiness of data.

1. Albania 2. Australia 3. Austria 4. Bangladesh 5. Belgium 6. Bolivia 7. Botswana 8. Brazil 9. Bulgaria 10. Canada 11. China 12. DR Congo 13. Costa Rica 14. Czech Republic 15. Denmark 16. Estonia 17. Finland 18. France RDA Community Current Status: ~1,300 participants from 50+ countries 19. Germany 20. Greece 21. Iceland 22. India 23. Iran 24. Ireland 25. Italy 26. Japan 27. Kyrgyzstan 28. Kuwait 29. Mexico 30. Netherlands 31. New Zealand 32. Norway 33. Palestine 34. Poland 35. Portugal 36. Russian Federation 37. Rwanda 38. Serbia 39. Singapore 40. Slovenia 41. South Africa 42. South Korea 43. Spain 44. Sweden 45. Switzerland 46. Taiwan 47. Turkey 48. United Arab Emirates 49. United Kingdom 50. United States 51. Vatican City 52. Venezuela

answers to questions RDA is NOT an infrastructure but a machinery to quickly push agreements (specifications, running code, etc.) RDA is open to everyone dealing with data and signing the principles it is a neutral meeting place also for RI and einfra experts to remove barriers RDA is very much inspired by some RI and einfra inspiration by concrete problems is essential the user community should be global and cross-disciplinary yet not so evident how to bridge all initiatives RDA users should are data practitioners within RI & einfra Interoperability is essential to reduce costs for working with data and thus democratize science and enable innovation all RDA is focusing on reducing barriers for dealing with data

massives Crowd Sourcing im MPI crowd sourcing schon im Einsatz - noch zu viel Amateurismus massives CS im Kommen viele VP und MD mit Sensoren 10 min * 100 P/Tag multimedia Aufnahmen (H.264) = 100 GB/T benötigen Maschinerie zur Reduktion/Annotation, zum DM und für das Feedback zu Teimnehmern alles muss hochgradig automatisiert sein