RADAR. Research Data Repositorium. Antrag auf Gewährung einer Sachbeihilfe im Rahmen der Ausschreibung

Transkript

1 RADAR Research Data Repositorium Antrag auf Gewährung einer Sachbeihilfe im Rahmen der Ausschreibung Neuausrichtung überregionaler Informationsservices Themenfeld 4: Forschungsnahe Informationsinfrastruktur

2 Verantwortlich für die Durchführung des Vorhabens sowie für die Bewirtschaftung und Abrechnung der Mittel: - Technische Informationsbibliothek (TIB) Hannover (AP 1, AP 3, AP 5) - FIZ Karlsruhe Leibniz-Institut für Informationsinfrastruktur (AP 1, AP 4, AP 6) - Ludwigs-Maximilians-Universität (LMU) München (AP 2, AP 3, AP 7) - Leibniz-Institut für Pflanzenbiologie (IPB) (AP 2, AP 3, AP 7) - Karlsruher Institut für Technologie (KIT)/SCC (AP4, AP 6) 1.2 Thema Etablierung eines Research Data Repositoriums (RADAR) als Basisdienstleistung für wissenschaftliche Institutionen zur Archivierung und Publikation von Forschungsdaten 1.3 Förderprogramm / Fach- und Arbeitsrichtung Wissenschaftliche Literaturversorgungs- und Informationssysteme (LIS), Förderbereich Informationsmanagement Ausschreibung Neuausrichtung überregionaler Informationsservices ( ) Themenfeld 4: Forschungsnahe Informationsinfrastruktur 1.4 Voraussichtliche Gesamtdauer Vorgesehene Gesamtdauer: 36 Monate; vorgesehene Förderung durch die DFG: 36 Monate. 1.5 Antragszeitraum 36 Monate, gewünschter Beginn der Förderung: Zusammenfassung Die digitale Datenproduktion hat in den letzten Jahren rasant zugenommen, ein Ende des Wachstums ist nicht absehbar. Damit diese Datenmengen auch für nachfolgende Generationen verfügbar und nachnutzbar bleiben, bedarf es entsprechender Infrastrukturen für die Archivierung und Publikation von Forschungsdaten. RADAR zielt auf den Aufbau und die Etablierung einer solchen Infrastruktur, um das in vielen Disziplinen noch fehlende Forschungsdatenmanagement zu unterstützen. Damit trägt RADAR in erheblichem Maß zur verbesserten Verfügbarkeit und nachhaltigen Bewahrung von Forschungsdaten bei. RADAR verfolgt dabei einen zweistufigen Ansatz mit einem (nicht disziplinspezifischen) Einstiegsangebot zur Archivierung von Forschungsdaten und einem höherwertigen Angebot mit integrierter Datenpublikation. Das vorgesehene Geschäftsmodell mit Einmalzahlungen in Abhängigkeit von Datenumfang und Haltefristen bildet die Voraussetzung für einen nachhaltigen Betrieb des Datenarchivs. Die Angebote richten sich sowohl an Wissenschaftler 11, die Forschungsanträge stellen und darin direkt Mittel zur Archivierung ihrer Daten vorsehen, als auch an Forscher (auch aus der Industrie), die an der Nachnutzung der Daten interessiert sind. Die enge Zusammenarbeit mit Wissenschaftlern, Fachgesellschaften und Verlagen ermöglicht die bedarfsgerechte Entwicklung der Infrastruktur. 2. Ausgangslage / Stand der Forschung bzw. Entwicklung 2.1 Darstellung Die Verfügbarkeit wissenschaftlicher Daten ist einer der Schlüsselfaktoren für die weitere Entwicklung der (empirischen) Wissenschaften. Ungeachtet der mittlerweile zahlreichen politischen Vorgaben und Richtlinien (z.b. durch die OECD 12, UNESCO 13, EU 14 oder die DFG 15 ) ist jedoch nur ein geringer Teil 11 Die Verwendung der männlichen oder weiblichen Sprachform schließt die jeweilig andere nicht aus und soll lediglich der besseren Lesbarkeit dienen 12 OECD Principles and Guidelines for Access to Research Data from Public Funding, 2007, Charta zur Bewahrung des digitalen Kulturerbes: 14 High Level Expert Group on Scientific Data: Riding the wave How Europe can gain from the rising tide of scientific data,

3 der produzierten Daten tatsächlich verfügbar, da eine auf Dauerhaftigkeit angelegte und verlässliche Infrastruktur zur Erschließung, Archivierung, Bereitstellung und Nach-nutzung von Forschungsdaten in vielen Fachdisziplinen fehlt. Die folgenden fünf Abschnitte zeigen den aktuellen Stand und die bestehenden Herausforderungen und Defizite auf Infrastrukturbedarf (AP 4, AP 7) Sowohl international wie auch national gibt es erfolgreiche Beispiele für Forschungsdaten-Repositorien, etwa das World Data System der International Council of Science (ICSU) 16 mit seinen mehr als 50 weltweit verteilten disziplinspezifischen Datenzentren oder GESIS Leibniz-Institut für Sozialwissenschaften 17 mit seinen archivierten Studien und empirischen Primärdaten aus den Sozialwissenschaften. Auch Fachdatenbanken wie z.b. die Protein Data Bank (PDB) 18 nehmen Forschungsdaten auf. Gerade letztere zeigt aber auch, dass diese existierenden Angebote oft nur einen Ausschnitt der insgesamt anfallenden Forschungsdaten erfassen. Um Nachvollziehbarkeit und Reproduzierbarkeit von Forschungsergebnissen zu gewährleisten, muss ihr Entstehungsprozess nachvollziehbar erhalten bleiben, inklusive der Rohdaten und Zwischenergebnisse. Diesem Ziel haben sich die meisten disziplinspezifischen Datenzentren bewusst nicht verschrieben. In manchen Disziplinen fehlen entsprechende Repositorien sogar vollständig. Dem Mangel an einer entsprechenden Forschungsdateninfrastruktur stehen die enormen Zuwächse an digitalen Forschungsdaten gegenüber, dies betrifft sowohl ihr Volumen als auch die Art, Verwendung und Nachnutzungswert. Was letztlich relevante erhaltenswerte Forschungsdaten sind, ist dabei häufig abhängig vom Kontext, der Zeit und nachfolgenden zukünftigen Erkenntnissen und Entdeckungen, kann also nicht notwendigerweise bereits zum Zeitpunkt ihres Entstehens bewertet werden Heterogenität (Daten, Metadaten und Formate) (AP 2, AP 3) In seinen Empfehlungen zur Weiterentwicklung der Informationsinfrastruktur in Deutschland bis 2020 unterscheidet der Wissenschaftsrat sechs Forschungsformen: experimentierende, beobachtende, auf Simulation beruhende, hermeneutisch-interpretierende, begrifflich-theoretische und gestaltende. 19 Nicht für alle Forschungsformen besitzen (digitale) Forschungsdaten schon heute den gleichen hohen Stellenwert. Experimentelle Daten entstehen z.b. in Beschleunigern, chemischen, biologischen oder medizinischen Laboren und sind oft gekennzeichnet durch große Datenmengen und vielfach proprietäre Datenformate. Simulationsdaten entstehen durch Berechnungen mit Hilfe von Computern. Hier stellen eher die Ausgangsdaten sowie die verwendeten Simulationsalgorithmen und deren Parametrisierung die Herausforderung für die Archivierung dar. Beobachtungsdaten entstehen z.b. durch Teleskope, Mikroskope, Satelliten, aber auch durch Interviews oder durch Audio- und Videoaufzeichnungen und können oftmals nur schwer reproduziert werden, da es sich teilweise um singuläre Ereignisse handelt. Darüber hinaus sind als weitere Datengruppe Referenzdaten zu nennen, wie z.b. Genomdatenbanken, die disziplinübergreifend von Wissenschaftlern genutzt werden. Hinzu kommt begleitendes Material, wie Kalibrierungsdaten, Parameter des Experimentes, Laborbücher etc., die die eigentlichen Daten in einen Kontext setzen und damit erst verständlich machen. Die enorme disziplinabhängige Vielfalt der Datenformen und -typen ist kaum einzuschränken: sie reichen von proprietären Formaten über Audio- und Videostreams, Textkorpora bis hin zu Webarchiven 20 und Datenbanken. Neben der großen Vielfalt an Datentypen und der zu ihrer Speicherung eingesetzten Datenformaten kommen noch auf die disziplinspezifischen Anforderungen hin abgestimmte beschreibende Metadaten hinzu. Diese stellen die Vielzahl der Datenobjekte oft erst in einen Zusammenhang, machen ihre Genese nachvollziehbar und machen sie überhaupt erst auffindbar. Wissenschaftler stellen auf ihrem jeweiligen Fachgebiet individuelle und höchstspezifische Anforderungen an das Forschungsdatenmanagement. Großforschungseinrichtungen wie z.b. CERN 15 Deutsche Forschungsgemeinschaft, Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme: Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten, GESIS - Leibniz-Institut für Sozialwissenschaften, 18 Die PDB wird vom Research Collaboratory for Structural Bioinformatics (RCSB) unterhalten, 19 Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informationsinfrastruktur in Deutschland bis 2020, Wissenschaftsrat, Berlin, 2012, S. 36f. 20 Die Library of Congress archiviert die Daten des Microblogdienstes Twitter u.a. zu Forschungszwecken ( 3

4 oder big data -Disziplinen wie z.b. die Klimaforschung pflegen einen anderen Umgang mit ihren Forschungsdaten und sehen sich mit anderen Herausforderungen konfrontiert 21 als z.b. kleine Forschergruppen in der Archäologie. Dementsprechend unterschiedlich ist der Grad der Standardisierung von Datenformaten und Metadatenformaten. Gleichwohl können vier Ansätze 22 in Hinblick auf den Umgang der unterschiedlichen Fachdisziplinen mit der Formatvielfalt und - heterogenität unterschieden werden: 1. die Formate können durch Richtlinien der Institution oder 2. durch Fakten (z.b. Standards, Geräteabhängigkeiten) eingeschränkt sein, 3. es hat u.u. noch keine Standardisierung in dieser Fachdisziplin stattgefunden, 4. die Formate können nicht eingeschränkt werden, da dies z.b. innovationshemmend wäre. Die enorme Vielzahl der Daten- und Metadatenformate stellt für die langfristige Nachnutzbarkeit der Daten eine große Herausforderung insbesondere für die funktionale Langzeitarchivierung dar. 23 Die Beobachtung der sich entwickelnden Technologie der digitalen Langzeitarchivierung und der Anforderungen der relevanten Zielgruppen haben einen großen Einfluss auf notwendige Preservation Policies und Datenmanagementpläne. Viele dieser Fragestellungen sind zurzeit noch Gegenstand der Forschung. 24 Um das hier beantragte Projekt nicht zu überfrachten, verzichtet RADAR vorerst bewusst auf eine funktionale Langzeitarchivierung der Daten, beobachtet aber relevante Projekte 25 und Initiativen Lebenszyklus von Forschungsdaten (AP 2) Die Nachnutzung von Forschungsdaten kann zum Zwecke der Kooperation, zum Austausch mit anderen Wissenschaftlern, für eine wissenschaftliche Publikation oder für eine an die Allgemeinheit gerichtete Veröffentlichung erfolgen. Die Veröffentlichung von Forschungsdaten sollte ein integraler Bestandteil des Forschungsprozesses sein 27, jedoch kennt die klassische wissenschaftliche Abbildung 1: Lebenszyklus von Forschungsdaten Publikationsweise kaum Standards, wie mit den zugrundeliegenden Forschungsdaten zu verfahren ist. Forschungsdaten entstehen zu einem anderen Zeitpunkt als klassische Publikationen und durchlaufen 21 Bicarregui, J., Gray, N., Henderson, R., Jones, R., Lambert, S. und Matthews, B., DMP Planning for Big Science Projects, S. 6f. Online: 22 Neuroth, H., Strathmann, S., Oßwald, A., Scheffel, R., Klump, J., Ludwig, J. [Hrsg], Langzeitarchivierung von Forschungsdaten Eine Bestandsaufnahme, Online: 23 Seeing Standards: A Visualization of the Metadata Universe, 24 Becker, C. Vertrauenswürdige Planung in der digitalen Langzeitarchivierung, Online: 25 z.b. SCAPE Scalable Preservation Environments ( oder bwfla ( 26 z.b. NESTOR ( 27 EU-GRDI2020 Roadmap Report, Global Scientific Data Infrastructures: The Big Data Challenges,

5 einen eigenen Lebenszyklus. Zur Illustration dieser Prozesse im Forschungsdatenmanagement legen wir das Domänenmodell von Treloar 28 und Klump 29 zugrunde (siehe Abbildung 1). Demzufolge werden die Forschungsdaten durch den Wissenschaftler (private Domäne) erzeugt und analysiert. Zur Diskussion der Ergebnisse mit ausgewählten Kollegen innerhalb und außerhalb seiner Institution macht er diese meist in bereits bearbeiteter Form über geeignete Systeme eingeschränkt zugreifbar (kollaborative Domäne) Datenpublikation (AP 5) Sollen Teile von Forschungsdaten Bestandteil einer wissenschaftlichen Publikation werden, sei es als Ergänzung zu einer klassischen Publikation ( supporting material ) oder als eigenständige Datenpublikation, so müssen sie zwei elementare Anforderungen erfüllen: eindeutige und persistente Identifizierbarkeit und verlässlicher dauerhafter Zugriff. Das Domänenmodell sieht hierfür den Übergang in die öffentliche Domäne vor. Doch was im Domänenmodell der logisch nächste Schritt ist, stellt Wissenschaftler und Verlage in vielen Disziplinen vor große Probleme. Wer übernimmt für sie die Identifizierung und Speicherung der Daten weit über die Dauer ihrer Forschungsprojekte hinaus? Wissenschaftliche Verlage widmen sich in jüngster Zeit selbst diesem Thema und suchen neue Wege der Publikation von Forschungsergebnissen und der zugrundeliegenden Daten. 30 Darüber hinaus wurde eine Kooperation zwischen STM-Verlagen 31 und DataCite vor kurzem beschlossen Vertrauenswürdigkeit und Nachhaltigkeit (AP 6, AP 1) Ein verlässlicher dauerhafter Zugriff auf Forschungsdaten muss von Datenzentren garantiert werden. 33 In der Vergangenheit wurden hierfür unterschiedliche Kriterienkataloge entwickelt und Zertifizierungsstellen geschaffen (z.b. World Data System 34, TRAC 35, Nestor 36, DCC 37, DINI 38 und Data Seal of Approval 39 ). Dadurch erlangen Archive das Siegel der Vertrauenswürdigkeit. Die Harmonisierung der Kriterienkataloge und die Klärung von Zuständigkeiten sind jedoch noch offen. Neben den technischen, organisatorischen und juristischen Aspekten des Forschungsdatenmanagements ist die wirtschaftliche Sicht ebenfalls wichtig. Dem ökonomischen Aspekt des Datenmanagements widmete sich zum ersten Mal umfassend der BRTF Final Report. 40 Für den Bereich des Forschungsdatenmanagements spricht der Report fünf Empfehlungen für Institutionen und Geldgeber aus. Weitere Publikationen auf diesem Gebiet sind Keeping Research Data Safe 41 und Aligning National Approaches to Digital Preservation. 42 Belastbare Zahlen und Geschäftsmodelle fehlen aber bis dato. 28 Treloar, A.; Harboe-Ree, C., Data management and the curation continuum. How the Monash experience is informing repository relationships. VALA th Biennial Conference. Melbourne, Klump, J., Managing the Data Continuum, Online: Unter dieser Abkürzung werden Verlage aus dem Bereich Science, Technology und Medicine zusammengefasst 32 und 33 Klump, J., Criteria for the Trustworthiness of Data Centres, D-Lib Magazine, Vol. 17, Number 1-2, Ambacher, B., Trustworthy Repository Audit & Certification: Criteria and Checklist (TRAC) 36 Dobratz, S. et. al., Catalogue of Criteria for Trusted Digital Repopsitories, nestor materials, Digital Curation Center (DCC), and Digital Preservation Europe (DPE), 2007, Audit Method Based on Risk Assessment (DRAMBORA) 38 DINI AG Elektonisches Publizieren, DINI-Certificate Document and Publication Services, Sesink L., van Horik R., Harmsen H., Data Seal of Approval, Data Archiving and Networked Services (DANS), Sustainable Economics for a Digital Planet: Ensuring Long Term Access to Digital Information, Final Report of the Blue Ribbon Task Force on Sustainable Digital Preservation and Access, Beagrie, N. et al., Keeping Research Data Safe, A Cost Model and Guidance for UK Universities, JISC, Final Report, 2008, 42 McGovern, N. Y. (Volume Editor), Aligning National Approaches to Digital Preservation,EDUCOPIA INSTITUTE PUBLICATIONS, Atlanta, Georgia,

6 2.2 Vorarbeiten der Partner Technische Informationsbibliothek Hannover Für die Identifizierung, eindeutige Referenzierung und Sicherung der Zitierfähigkeit von Forschungsdaten hat die in der Leibniz-Gemeinschaft vertretene Technische Informationsbibliothek (TIB), die zentrale Fachbibliothek für Technik sowie Architektur, Chemie, Informatik, Mathematik und Physik seit dem Jahr 2005 als weltweite erste nicht-kommerzielle Registrierungsagentur 43 durch die DOI-Vergabe sowohl die nötige Infrastruktur als auch inhaltliche Kompetenzen in diesem Bereich aufgebaut, die letztlich in 2009 zur Gründung des internationalen Vereins DataCite, 44 führte. 45 Dessen Geschäftsstelle ist an der TIB ansässig. Der DOI (Digital Object Identifier) als persistenter Identifier dient zur Referenzierung und dauerhaften Verfügbarkeit von Forschungsdaten. Gleichzeitig ist er als Qualitätsmerkmal für die referenzierten Objekte und für die Publikation von Daten ein unabdingbarer Bestandteil. In GetInfo, dem Fachportal für Technik und Naturwissenschaften, können zudem nicht nur herkömmliche Publikationen verzeichnet und bereitgestellt werden, sondern auch Forschungsdaten, 3D-Objekte und AV-Medien. Diese erweiterte Dienstleistung ermöglicht in einem ersten Schritt den auf Metadaten basierenden Nachweis von archivierten und referenzierten Forschungsdaten in einem Fachportal gemeinsam mit Publikationen. Anhand der im Jahr 2010 erstellten DFG-geförderten Konzeptstudie Vernetzte Primärdateninfrastruktur für den Wissenschaftler-Arbeitsplatz in der Chemie, die grundlegend den Umgang mit Forschungsdaten in wissenschaftlichen Prozessen analysierte, kann der aktuelle Bedarf zur Archivierung und Publikation von Forschungsdaten in der chemischen Wissenschaft abgelesen werden. Aufbauend auf diesen Erkenntnissen kann in diesem Projekt bedarfsgerecht die notwendige Infrastruktur entwickelt und implementiert werden. Das ebenfalls von der DFG geförderte Kompetenzzentrum für Forschungsdaten aus Erde und Umwelt, KomFor, 46 welches als Bindeglied zwischen wissenschaftlichen Einrichtungen, Verlagen, Bibliotheken und einem bestehenden Archivnetzwerk für Daten aus Erd- und Umweltforschung geplant ist, erzeugt Synergieeffekte für den Aufbau einer generischen Forschungsdatenmanagement-Infrastruktur. FIZ Karlsruhe Leibniz-Institut für Informationsinfrastruktur FIZ Karlsruhe arbeitet seit mehreren Jahren intensiv und erfolgreich an e-science-lösungen für die Wissenschaft. Grundlage für die im vorliegenden Projektantrag vorgesehene Software bildet die e- Science-Infrastruktur escidoc, die gemeinsam mit der Max-Planck-Gesellschaft (MPG) in einem vom BMBF geförderten Projekt zwischen 2004 und 2009 entstanden ist und seitdem kontinuierlich weiterentwickelt wird. FIZ Karlsruhe hat in mehreren Projekten die Einbindung einer Dateninfrastruktur in virtuelle Forschungsergebnisse erfolgreich umgesetzt. Zum einen wurden in den von Baden-Württemberg geförderten Projekten BW-eLabs ( ) und BW-eSci(T) ( ) erste Schritte in ein durchgängiges Forschungsdatenmanagement getan. Diese Ergebnisse wurden im DFG-geförderten Projekt e-kinematix ( ) nachgenutzt und generalisiert. Im EU-Projekt SCAPE (Scalable Preservation Environments, ) befasst sich FIZ Karlsruhe mit den Herausforderungen der digitalen Langzeitarchivierung sehr großer Repositorien. Mitte 2010 wurde FIZ Karlsruhe vom Kompetenznetzwerk Deutsche Digitale Bibliothek als Betreiber ausgewählt. Die im Rahmen des wettbewerblichen Auswahlprozesses dargestellten Qualitäten als zuverlässiger und vertrauenswürdiger Betreiber komplexer IT-Infrastrukturen und Softwaresysteme sowie darauf aufsetzender Geschäftsprozesse qualifizieren FIZ Karlsruhe auch als Betreiber eines zertifizierten Datenzentrums. 43 Vgl Vgl. Senat der Leibniz Gemeinschaft, Stellungnahme zur Technischen Informationsbibliothek Hannover (TIB), Besonders hervorzuheben ist dabei der Betrieb der nationalen DOI-Registrierungsagentur zur Referenzierung von Forschungsdaten. Mit ihr bietet die TIB einen innovativen und bedeutenden Dienst an, der auch international wahrgenommen wird. (Ebd. S. B-9)

7 Karlsruher Institut für Technologie (KIT), Steinbuch Centre for Computing (SCC) Das Karlsruher Institut für Technologie (KIT) wurde durch den Zusammenschluss des Forschungszentrums Karlsruhe und der Universität Karlsruhe durch die Bundesrepublik Deutschland und das Land Baden-Württemberg gegründet. Das Steinbuch Centre for Computing (SCC) ist das Information Technology Centre des KIT und betreibt, neben den für ein IT-Service-Center spezifischen Aufgaben, eigene Forschung und nimmt dabei eine führende Rolle in den Gebieten High Performance Computing (HPC) & Data Intensive Computing (DIC), Scientific Computing und Simulation, Grid und Cloud Computing sowie Large Scale Data Management & Analysis (LSDMA) 47 ein. Das SCC entwickelte und betreibt seit 2009 die Large Scale Data Facility (LSDF), die zu einer der größten Einrichtungen Europas für die Speicherung, Analyse und Archivierung von Forschungsdaten aus Physik-, Bio- und Geisteswissenschaften heranwächst. Dazu werden am SCC seit 2011 im Rahmen des DFG Projekts Beweissicheres elektronisches Laborbuch (BeLab) praxisnahe Lösungen für die beweiswerterhaltende Archivierung von Forschungsdaten umgesetzt. Das SCC kann in seiner Rolle als Dienstleister für Datenspeicherung in Baden-Württemberg und in der Helmholtz-Gemeinschaft umfangreiche Erfahrungen einbringen. LMU München Department Chemie Das Department Chemie bildet zusammen mit den Departments Biochemie (mit angeschlossenem Genzentrum) und Pharmazie die traditionsreiche Fakultät Chemie und Pharmazie der LMU. Zahlreiche interdisziplinäre Arbeitsgruppen haben sich als Projektpartner in DFG- und sonstigen Forschungsprojekten in exzellenter Forschung ausgezeichnet. Diese Forschergruppen werden an der Fakultät neben gruppeneigenen Messwerterfassungssystemen durch eine zentrale Analytik-Abteilung mit verschiedenen, hochmodernen Methoden unterstützt. Die anfallenden Daten reichen von physikochemischen Datenpunkten über Spektren hin zu Bildern aus dem Life-Science Bereich und reflektieren damit die breite Datenvielfalt in chemischen Publikationen. Die nachhaltige Bereitstellung der Daten stellt dabei eine immer größer werdende Herausforderung für die Fachbereiche dar. RADAR bietet für das Department Chemie der LMU erstmalig einen Ansatz, das Thema Forschungsdatenmanagement anzugehen. Leibniz-Institut für Pflanzenbiochemie (IPB) Das Leibniz-Institut für Pflanzenbiochemie (IPB), Halle, betreibt als Mitglied der Leibniz-Gemeinschaft anwendungsorientierte Grundlagenforschung. Im Mittelpunkt des einzigartigen Forschungsprofils steht die umfassende Analyse pflanzlicher und pilzlicher Naturstoffe, die im Rahmen einer multidisziplinären Strategie mit chemischen, spektroskopischen, biochemischen, zellbiologischen, physiologischen und genetischen Methoden bearbeitet werden. Die Schwerpunkte der Arbeiten liegen in der Analyse von Naturstoffen, der Erforschung molekularer Interaktionen komplexer biologischer Prozesse in Pflanzen und der Aufklärung von Genfunktionen. Zunehmende Bedeutung erlangen Arbeiten auf den Gebieten von Proteomik und Metabolomik. Ein integraler Bestandteil aller dieser Aktivitäten ist die Chemo- und Bioinformatik. Die fächerübergreifenden Forschungsansätze und das damit verbundene vielfältige Methodenspektrum führen zur Erzeugung sehr großer Datenmengen von hoher Komplexität und Diversität. Speicherung, Auswertung, Verknüpfung und Nutzung dieser Daten erfordern den Einsatz angepasster Informatikwerkzeuge. Die dazu am IPB in einem abteilungsübergreifenden Forschungsund Kompetenzschwerpunkt begonnenen Arbeiten würden durch das RADAR-Projekt wesentlich unterstützt und ergänzt werden. 2.3 Verzeichnis projektspezifischer Publikationen Potthoff, J., Rieger, S., und Johannes, P. C. (2012). Enhancing the Provability in Digital Archives by Using a Verifiable Metadata Analysis Web Service, Proc. 7th ICIW 2012, 27. Mai 1. Juni 2012, Stuttgart. Potthoff, J. (2012). Beweiswerterhaltendes Datenmanagement im elektronischen Forschungsumfeld. In: Bonn Gesellschaft für Informatik e.v., P. Müller, B. Neumair, H. Reiser und G.D. Rodosek (Hrsg.): Proceedings DFN-Forum Kommunikationstechnologien: Fachtagung Regensburg , Köllen (S )

8 Hackel, S., Johannes, P.C., Madiesh, M., Potthoff J. und Rieger, S. (2011). Scientific Data Lifecycle Beweiswerterhaltung und Technologien. In: BSI (Hrsg.): Sicher in die digitale Welt von morgen - Tagungsband zum 12. Deutschen IT-Sicherheitskongress, SecuMedia (S ). Brase, J. (2011). Access to Research Data, D-Lib Magazine, Volume 17, Number 1/2, doi: /january2011-brase Brase, J., Farquhar, A., Gastl, A., Gruttemeier, H., Heijne, M., Heller, A., Piguet, A., Rombouts, J., Sandfaer, M., Sens, I. (2009). Approach for a joint global registration agency for research data, Information Services and Use, 29 (1) (S ). Razum, M., Einwächter, S., Fridman, R., Herrmann, M., Krüger, M., Pohl, N., et al. (2010). Research Data Management in the Lab. 5th International Conference on Open Repositories. Madrid, Spanien. Razum, M., Schwichtenberg, F., Wagner, S., & Hoppe, M. (2009). escidoc Infrastructure: A Fedora-Based e-research Framework. In M. Agosti et al., ECDL 2009, LNCS 5714: Springer, (S ). Jeschke, S., Burr, B., Hahn, J. U., Helmes, L., Kriha, W., Krüger, M., et al. (2009). Networking Resources for Research and Scientific Education in BW-eLabs. 10th ACIS International Conference on Software Engineering, Artificial Intelligences, Networking and Parallel/Distributed Computing, London, UK: IEEE Computer Society (S ). TIB, FIZ Chemie, Universität Paderborn (2010). Konzeptstudie Vernetzte Primärdateninfrastruktur für den Wissenschaftler-Arbeitsplatz in der Chemie, Hannover, TIB [u.a.]. 3. Ziele und Arbeitsprogramm 3.1 Ziele Das Ziel von RADAR ist es, in einem Zeitraum von drei Jahren eine Infrastruktur für die Datenarchivierung und -publikation (Datenzentrum) aufzubauen, der ein sich selbsttragendes, zweistufiges Geschäftsmodell zu Grunde liegt. Der Aufbau und die Etablierung einer solchen Infrastruktur umfasst Werkzeuge und Prozesse, um Forschungsdaten systematisch zu erschließen, dauerhaft in einem Datenarchiv zu bewahren und der Öffentlichkeit zugänglich zu machen, durch DOI-Vergabe verfügbar, zitierfähig und verlinkbar zu machen sowie für die Nachnutzung qualitätsgesichert bereitzustellen. Je mehr man sich dem Arbeitsplatz der Wissenschaftler annähert (siehe Abb. 1, kollaborative bzw. private Domäne), desto offensichtlicher wird die Vielfalt der Forschungsprozesse und die Heterogenität der damit verbundenen Datentypen, Formate und Metadaten (vgl ). Daher ist es zielführend, den Schwerpunkt von RADAR zuerst auf die dritte, öffentliche Domäne (vgl ) zu legen, da dies die einzige Stelle ist, an der sich eine generische, disziplinübergreifende Dienstleistung etablieren lässt. Gleichzeitig wirkt ein verlässliches und auf Dauerhaftigkeit ausgelegtes Datenarchiv dem Defizit einer fehlender Infrastruktur (vgl ) entgegen. Das Datenarchiv bildet eine wesentliche Grundlage für die Nachnutzung und Publikation von Forschungsdaten (vgl ) und bringt allein dadurch bereits einen erheblichen Nutzen für Forschende (auch in der forschenden Industrie), Wissenschaft und Gesellschaft. Die Datenarchivierung ermöglicht Transparenz und schnellere Überprüfbarkeit von Forschungsergebnissen in der Wissenschaft. Die Wiederverwertbarkeit von Daten schafft Vergleichsmöglichkeiten und verringert redundante Datenerhebungen, wodurch sich Zeit und Kosten in erheblichem Maß einsparen lassen. Für den Aufbau und Betrieb eines disziplinübergreifend nutzbaren Forschungsdatenarchivs verfolgen wir einen zweistufigen Ansatz, der sich auch im geplanten Umfang der angebotenen Dienstleistung niederschlägt. Das Einstiegsangebot zeichnet sich durch formatunabhängige Archivierung, Bitstream Preservation sowie einem minimalen Metadatensatz mit einem standardisierten Kern aus. Sie erlaubt 8

9 eine Verknüpfung von Daten mit Metadaten, die Verwaltung von Zugriffsrechten und gewährleistet den öffentlichen Zugang zu den Daten. Dieses Angebot richtet sich an Wissenschaftler aus den small sciences, die primär an der Einhaltung von empfohlenen Haltefristen 48 interessiert sind. Darüber hinaus eignet es sich aber auch für andere Daten wie z.b. Negativdaten 49, die man nicht als Teil einer Publikation verwenden möchte, die aber für andere von hohem Interesse sein können. Das Einstiegsangebot unterscheidet sich von kommerziellen Diensten wie z.b. Dropbox 50 oder figshare 51 durch das hinter ihm stehende Betreiberkonsortium aus wissenschaftsnahen Gedächtnisorganisationen und Infrastruktureinrichtungen, die deutschem Recht unterliegen und keine kommerziellen Interessen verfolgen, sowie in dem gegenüber diesen Diensten gebotenen Mehrwert wie die Überwachung von Haltefristen, die Vergabe von persistenten Identifiern (Handles) und der zugesicherten Bitstream Preservation. Darüber hinaus ist bei entsprechender Aufbereitung der Daten ein Übergang aus dieser Stufe in eine höherwertige Angebotsstufe, wie im nächsten Absatz beschrieben, jederzeit möglich. Die zweite, höherwertige Angebotsstufe eignet sich für die dauerhafte Datenarchivierung mit (optionaler) Datenpublikation. Neben den Diensten des Einstiegsangebots ist hier die Vergabe von formatund disziplinspezifischen Metadaten sowie von dauerhaften DOI-Namen in den Publikationsprozess implementiert. Bei der Ausgestaltung der Metadatenprofile kann über eine Kooperation mit dem Projekt LSDMA auf umfangreiche Vorarbeiten zurückgegriffen werden. Der Fokus von RADAR wird vorerst auf der Publikation von Forschungsdaten liegen, die im Zusammenhang mit einer (traditionellen) wissenschaftlichen Publikation stehen. 52 Dafür sollen Workflows für den Archivierungs- und Publikationsprozess von Forschungsdaten erarbeitet und die Wissenschaftler bei der Speicherung und Identifizierung ihrer Daten auch über den Zeitraum eines Forschungsprojekts hinaus unterstützen werden (vgl ). Das vorgesehene Geschäftsmodell baut auf Einmalzahlungen für die Archivierung der Forschungsdaten in Abhängigkeit von Datenumfang und Haltedauer auf. Damit können Wissenschaftler die zu erwartenden Kosten schon während der Antragstellung ihrer Forschungsprojekte abschätzen und mit beantragen. Wissenschaftliche Ergebnisse bleiben sowohl im Rahmen der Regeln guter wissenschaftlicher Praxis der DFG überprüfbar als auch für nachfolgende Generationen auffindbar und für andere Forschungsfragen verfügbar. Forschungsdaten können somit nachgenutzt und von anderen Forschungsgruppen nachvollzogen werden. Dadurch wird in den wissenschaftlichen Communities die notwendige Transparenz in den Forschungsaktivitäten und gleichzeitig die Voraussetzung für die eigenständige Publikation der Daten geschaffen. Das Datenzentrum übernimmt die dauerhafte und zuverlässige Speicherung der Daten und garantiert dies gegenüber den Wissenschaftlern mittels einer geeigneten Zertifizierung. RADAR will bewusst nicht in Konkurrenz zu existierenden Datenzentren und Fachdatenbanken treten, sondern diese ergänzen und komplettieren. Es deckt auch das Vorhalten nicht publizierter Daten für eine spezifizierte Haltefrist ab (etwa 10 Jahre nach Projektende gemäß DFG-Empfehlung) und hilft damit das Dilemma aufzulösen, dass Forschungsförderer einerseits ein Vorhalten der Daten fordern, andererseits aber keine verlässliche Infrastruktur dafür bereitsteht. Das geplante Datenzentrum hilft, die bisherige, oft wenig organisierte Speicherung der Daten (im Extremfall auf dem Speicherstick des Wissenschaftlers) zu überwinden. Die angeschlossene DOI-Registrierung ermöglicht die Vergabe von eindeutigen und persistenten Identifikatoren (DOI-Namen) für Forschungsdaten und damit eine eindeutige Referenzierbarkeit. Die Vergabe von DOI-Namen für Forschungsdaten gilt zudem als Qualitätsmerkmal für die Referenzierung vor allem auch durch die Verknüpfung der Daten mit dem dazu gehörigen wissenschaftlichen Artikel. Durch die zusätzliche Publikation und Referenzierbarkeit der Daten ergibt sich weiterhin die Möglichkeit die wissenschaftliche Reputation der (Daten-)Autoren in ihrer jeweiligen Fachcommunity zu erhöhen. Die enorme Relevanz der Themen Referenzierung und Reputation spiegeln sich auch bei dem Aufbau 48 Deutsche Forschungsgemeinschaft, Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme: Empfehlungen zur gesicherten Aufbewahrung und Bereitstellung digitaler Forschungsprimärdaten, Daten, die zu keinem Ergebnis geführt haben Vgl. TIB, FIZ Chemie, Universität Paderborn, Konzeptstudie Vernetzte Primärdateninfrastruktur für den Wissenschaftler-Arbeitsplatz in der Chemie, Online: 9

10 des Data Citation Index in Thomson Reuters Web of Science wider, der das Auffinden von Forschungsdaten und ihrer Urheber deutlich verbessert. 53 Die Möglichkeit zur Zitierung von Forschungsdaten erhöht somit nicht nur die Anerkennung von Datenproduzenten sondern auch die Sichtbarkeit und damit die Verfügbarkeit ihrer Forschungsergebnisse. 54 In Zusammenarbeit mit dem Thieme Verlag und dem GDCh/Wiley-VCH Verlagsbeirat werden exemplarisch für den naturwissenschaftlichen Sektor mögliche Workflows entwickelt, die den Wissenschaftler bei der Publikation von Forschungsdaten unterstützen. Dabei müssen sowohl Autorenrichtlinien, Zitierstandards und Datenmanagementpläne definiert als auch Modelle für mögliche Kosten erstellt werden (vgl. auch AP 5). Die erarbeiteten Workflows sollen an zwei Beispielen, der NMR-Spektroskopie und 2D/DIGE-Bildern, 55 getestet, evaluiert und die Ergebnisse anschließend mit Hilfe eines im Projekt entwickelten Leitfadens (vgl. AP 2.2 und AP 4.2) auf andere Disziplinen übertragen werden. Dadurch wird RADAR den Anforderungen an eine generische Infrastruktur gerecht und gibt anderen wissenschaftlichen Disziplinen die Möglichkeit, durch entsprechende Aufbereitung ihrer Daten das höherwertige Dienstleistungsangebot zur Publikation ihrer Daten in Anspruch zu nehmen. Dabei ist eine Analyse bestehender und Identifizierung neuer, auch fachspezifischer Datenformate sowie die Erarbeitung datentechnischer und fachspezifischer Metadatenschemata (vgl. AP 3) für den Umgang mit der vorhandenen Heterogenität in diesem Bereich unabdingbar (vgl ). Perspektivisch sieht RADAR auch eine eigenständige Datenpublikation ohne deren Verknüpfung mit einem wissenschaftlichen Artikel vor. Hierfür können sowohl die publizierten als auch weitere im Rahmen der Forschungsansätze dokumentierten Daten in Betracht gezogen werden, die somit den gesamten Forschungsprozess nachvollziehbar machen. Die Fachwissenschaftler müssen dazu in Zusammenarbeit mit Fachgesellschaften beispielhaft (Qualitäts-)Standards etablieren und Kriterien für die Auswahl publikations- und damit auch archivierungswürdiger Daten entwickeln 56 (vgl. AP 2 und 5). Besonderes Augenmerk muss hierbei auf den gegenwärtigen, aber auch zukünftigen Nutzen der zu archivierenden Daten für die jeweilige Fachcommunity gelegt werden. Auch aus diesem Grund ist es wichtig, die Auswahlkriterien und -prozesse in Kooperation mit übergeordneten Organisationen wie den Fachgesellschaften als jeweilige Interessensvertretung einer Fachwissenschaft, zu erarbeiten. 57 Die Archivierung von Forschungsdaten ist ein zentraler Baustein im übergreifenden Forschungsdatenmanagement und somit unabdingbar für die Publikation von Forschungsdaten sowie deren persistente Identifizierung und Referenzierung. Sie stellt gleichzeitig einen generalisierbaren Baustein einer übergreifenden Infrastruktur dar. Vor diesem Hintergrund bildet ein Archiv perspektivisch den Nukleus für weitere Dienste wie: fachspezifische Datenportale zur Dissemination und Nachnutzung der Daten, die Verknüpfung mit institutionellen Systemen des Forschungsdatenmanagements über eine weitergehende Automatisierung der (Meta-)Datenübernahme und die möglichst zeitnahe Erfassung der Forschungsdaten während oder nach ihrer Entstehung in einer Dateninfrastruktur und (teil-)automatische Erfassung kontextueller Informationen (als Metadaten). Die vorgesehene, offene Systemarchitektur des Datenzentrums und seine offenen Programmierschnittstellen (API) erlauben es den Systembetreibern und Dritten, über die im Antrag beschriebenen Grundfunktionen von RADAR hinaus derartige Dienste aufzubauen (vgl. AP 4). Damit kann RADAR perspektivisch als Backend für weitere disziplinspezifische Angebote dienen. 53 Vgl. auch 54 Vgl. Kotarski, R., Reilly, S., Schrimpf, S., Smit, E., und Walshe, K., Report on Best Practices for Citability of Data and Evolving Roles in Scholarly Communication Online: content/uploads/downloads/2012/08/ode- ReportBestPracticesCitabilityDataEvolvingRolesScholarlyCommunication.pdf 55 2D-/DIGE steht für "Differential In-Gel Electrophoresis", einem bildbasierten Verfahren aus den Lebenswissenschaften zur Proteinanalyse 56 Vgl. hierzu auch Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informationsinfrastruktur in Deutschland bis 2020, Wissenschaftsrat, Berlin, 2012, S Vgl. Sustainable Economics for a Digital Planet: Ensuring Long-Term Access to Digital Information, Blue Ribbon Task Force, Final Report, Feb. 2010, S. 2f. und 75f.; 10

11 Für die Akzeptanz des Datenarchivs in den Fachcommunities ist eine eindeutige und transparente Definition der Verantwortlichkeiten der verschiedenen Akteure unabdingbar, um die Qualität der archivierten Daten und damit auch die des Datenzentrums zu sichern. Dies beinhaltet die kooperative Entwicklung von Policies zur Datenerhaltung (vgl. AP 6) zwischen den Akteuren der Datenproduktion und Datenarchivierung, um archivierungswürdige, qualitativ hochwertige Daten als nationales Kulturgut langfristig zu erhalten und nachhaltig auch über institutionelle Grenzen hinweg verfügbar zu machen. 58 Auch die Zertifizierung des Datenarchivs sowie ein transparentes Geschäftsmodell (vgl. AP 6) zur Gewährleistung von Nachhaltigkeit dienen der Vertrauenswürdigkeit gegenüber den Wissenschaftlern. Damit deckt RADAR in seiner ersten Ausbaustufe zunächst nur einen gleichwohl essentiellen Teilaspekt des überregionalen Forschungsdatenmanagements ab, bietet jedoch einen evolutionären Ansatz zur Erweiterung. In Folgeprojekten können wissenschaftliche Institutionen ihr fach- und gruppenspezifisches Datenmanagement in die hier geschaffene generische Infrastruktur integrieren. 3.2 Arbeitsprogramm Das Arbeitsprogramm ist in sieben Arbeitspakete (AP) gegliedert (s. a. Kapitel 4: Beantragte Mittel). Die Reihenfolge der im Folgenden aufgeführten Arbeitspakete und -schritte entspricht dabei nicht der tatsächlichen geplanten zeitlichen Durchführung im Projektverlauf. In der Regel werden die Arbeitspakete und -schritte parallel bearbeitet. Um die Einbindung einer breiteren Fachöffentlichkeit über die Pilotdisziplinen hinaus sicherzustellen, sehen die Antragsteller zum Abschluss der Konzeptionsphase der AP 2/3, AP 4 und AP 5 jeweils einen Workshop mit Vertretern aus den Fachwissenschaften, Bibliotheken und Rechenzentren vor, auf dem die bis dahin erzielten Ergebnisse vorgestellt und diskutiert werden. Das so gesammelte Feedback soll in die finale Spezifikation mit einfließen. Organisiert werden die Workshops im Rahmen von AP 1. AP 1: Projektmanagement Leitung: TIB und FIZ Ziele Leitung und Erfolgskontrolle des Projekts. Aufgaben Das Projektmanagement gewährleistet die Zusammenarbeit und den Informationsfluss im verteilten Projektteam. Dazu gehören die Organisation regelmäßiger Telefonkonferenzen sowie die Durchführung von Projekttreffen. Darüber hinaus stellt es in enger Abstimmung mit allen Projektpartnern eine angemessene Dissemination der Projektergebnisse in Form von Publikationen, Konferenzbeiträgen und Workshops sicher. Ein Konzept zur Nachhaltigkeit und Verstetigung der Infrastruktur ist hier zunächst exemplarisch mit den kooperierenden wissenschaftlichen Partnern aus den Natur- und Lebenswissenschaften zu entwickeln und umzusetzen, wobei ein Erfolg maßgeblich vom zugrunde liegenden Geschäftsmodell (s. a. AP 6) abhängig ist. Die gewonnenen Erkenntnisse sollen anschließend auf andere Fachgebiete ausgeweitet und übertragen werden. Ein weiterer Schwerpunkt des Projektmanagements wird in der Beobachtung anderer relevanter Projekte auf diesem Gebiet, wie z.b. Radieschen 59 oder auch re3data 60 liegen. Die dort erarbeiteten Ergebnisse sollen in die Konzeption des Datenzentrums und des zugehörigen Geschäftsmodells einbezogen werden. Dadurch sollen Synergien genutzt und Doppelarbeit vermieden werden. Weiterhin stellt das Arbeitspaket die Zusammenarbeit und Abstimmung mit existierenden Datenzentren und entsprechenden Kompetenzzentren sicher. 58 Vgl. Sustainable Economics for a Digital Planet: Ensuring Long-Term Access to Digital Information, Blue Ribbon Task Force, Final Report, Feb. 2010,

12 Arbeitsschritte Schritt Beschreibung Aufwand AP 1.1 Koordinierung der arbeitspaketübergreifenden Aktivitäten der Projektpartner 2 PM 61 AP 1.2 Dissemination der Projektergebnisse (Workshops, Publikationen) 2 PM AP 1.3 Nachhaltigkeits- und Verstetigungskonzept 2 PM AP 1.4 Kooperation mit anderen relevanten Projekten, Daten- und Kompetenzzentren 2 PM und Einbeziehung der dort gewonnenen Erkenntnisse und Ergebnisse in das Konzept von RADAR AP 1.5 Abschlussbericht 1 PM Summe AP 1: 9 PM AP 2: Anforderungsanalyse Leitung: IPB und LMU Ziele Erhebung der fachwissenschaftlichen Anforderungen an Datenarchivierung und -publikation Aufgaben Die moderne wissenschaftliche Forschung ist mit der Erzeugung zunehmend komplexer digitaler Informationen verbunden, für die eine adäquate, forschungsnahe Informationsinfrastruktur noch weitgehend fehlt (vgl ). In diesem Arbeitspaket wird der Ist-Zustand analysiert und mit den erforderlichen und von den Forschern gewünschten Möglichkeiten verglichen, Forschungsdaten betriebssystemneutral und datenformatunabhängig zu sammeln, langfristig, sicher und wiederauffindbar zu speichern sowie für eine disziplinübergreifende Nachnutzung bereitzustellen. Die wissenschaftlichen Partner Leibniz-Institut für Pflanzenbiochemie (IPB), Halle und Department Chemie der LMU München erfassen im Rahmen einer Anforderungsanalyse beispielhaft für die durch sie vertretenen Disziplinen diese Parameter, beschreiben bereits etablierte oder zukünftige Prozesse für die Datenpublikation (in Kombination mit herkömmlichen Publikationen oder eigenständig, vgl. AP 5), spezifizieren gewünschte Ablieferungsprozesse, für die Nachnutzung notwendige Suchoptionen und weitere relevante Eigenschaften wie (abgestufte) Zugriffsrechte. Die Anforderungsanalyse untersucht Arbeitsschritte von der Erzeugung der Forschungsdaten unmittelbar am Entstehungsort bis zur Ablage in generisch nutzbaren Informationsinfrastrukturen. Die gewählten Beispiele der NMR-Spektroskopie und bildgebenden Verfahren zeichnen sich dabei durch eine große Diversität und Komplexität der Daten und Formate aus. Daher können mit den im Projekt gewonnenen Erfahrungen und Erkenntnisse auch andere nicht-textuelle Informationen wie Audio- und Video-Daten leichter erschlossen werden. Die erarbeiteten Anforderungsanalysen, Leitfäden und Prozesse sind somit auf das Datenmanagement anderer Wissenschaftsdisziplinen übertragbar. Arbeitsschritte Schritt Beschreibung Aufwand AP 2.1 Ausarbeitung von allgemeinen Richtlinien für erhaltungswürdige Primärdaten 2 PM AP 2.2 Erarbeitung eines Leitfadens mit Auswahlkriterien für die Nutzung des 2 PM Einstiegs- bzw. des höherwertigen Angebots für die Speicherung von Forschungsdaten AP 2.3 Analyse bestehender Datenformate und zugehöriger Software für die 2 PM exemplarisch ausgewählten datenproduzierenden Prozesse aus der NMR- Spektroskopie und bildgebenden Verfahren AP 2.4 Evaluierung bestehender Prozesse für die Sammlung und Registrierung von 3 PM Forschungsdaten (s. auch AP 5) AP 2.5 Ausarbeitung prototypischer Workflows für die Sammlung und Registrierung 4 PM von Forschungsdaten AP 2.6 Dokumentation der Ergebnisse 1 PM Summe: 14 PM 61 geplanter Aufwand in Personenmonaten (PM) 12

13 AP 3: Metadatenprofile Leitung: IPB und LMU, Mitarbeit von TIB Ziele Erarbeitung von fachspezifischen Metadatenprofilen für Archivierung und Publikation anhand zweier beispielhafter Datentypen. Aufgaben Um archivierte Forschungsdaten wiederfinden (und damit nachnutzen) zu können, benötigen diese eine systematische und standardisierte Beschreibung durch Metadaten. Dabei sind sowohl allgemeine als auch fachspezifische Anforderungen zu berücksichtigen. Da Fachwissenschaftler und Informatiker/Programmierer z.t. ein unterschiedliches Vokabular benutzen, ist auch eine Zusammenstellung und Erläuterung der verwendeten Begriffe (Glossar) Teil dieses Arbeitspaketes. Metadaten im informationswissenschaftlichen Kontext beschreiben datentechnische Aspekte innerhalb der Dateninfrastruktur (wie Datentyp, Nutzungsrechte). Diese Metadaten sind standardisiert und haben einen fachübergreifenden Charakter. Sie dienen einer übergeordneten Suche in Fachportalen, Datenbanken und Katalogen und sind auch die Grundlage um Forschungsdaten so zu beschreiben, dass sie eindeutig zitiert werden können (vgl. AP 5). Fachspezifische Metadaten beschreiben sowohl experimentelle Einzelheiten der Datenerzeugung und Verknüpfung zwischen Daten (wie NMR-Spektrum eines Pflanzenrohextraktes und Pflanzenart) als auch aus den Primärdaten abgeleitete Informationen und Erkenntnisse (wie aus der Strukturaufklärung anhand von NMR-Spektren ermittelte chemische Struktur). Diese Metadaten sind oft sehr spezifisch und weisen eine hohe Diversität auf, sind aber zum Verständnis und zur Analyse der Forschungsdaten unbedingt notwendig. Die wissenschaftlichen Partner IPB und LMU definieren im Arbeitspaket Metadatenprofile anhand ihrer Analyse der fachspezifischen Anforderungen (AP 2) geeignete Metadatenterme und Metadatenstandards für alle relevanten Datentypen. Die beiden wissenschaftlichen Partner gehen dabei sowohl arbeitsteilig als auch kooperativ vor, der Schwerpunkt für den Partner LMU liegt bei nichttextuellen Daten (Bildern) und den spezifischen universitären Anforderungen, der Partner IPB bearbeitet schwerpunktmäßig spektroskopische Daten (NMR) und berücksichtigt die besonderen Anforderungen außeruniversitärer Forschungsinstitute. Die wissenschaftlichen Partner IPB und LMU erarbeiten für exemplarisch ausgewählte spektroskopische und bildgebende Experimente und damit verbundenen Datentypen (gemäß Anforderungsanalyse) adäquate Metadatenprofile. Die Profile bestimmen für jedes Metadatenelement dessen Kardinalität und dokumentieren die Bedeutung und Anwendung im fachwissenschaftlichen Kontext. Die entwickelten Metadatenprofile werden in den Workflow (vgl. AP 2.5 und 5.1) integriert. Insbesondere der Ausarbeitung des internen Metadatenschemas in Zusammenarbeit mit den Wissenschaftlern für die ausgewählten experimentellen Verfahren kommt große Bedeutung zu, da diese die Grundlage für eine Übertragbarkeit der Konzepte der ausgewählten Pilotdatenformate auf andere Verfahren und Bereiche darstellen. Arbeitsschritte Schritt Beschreibung Aufwand AP 3.1 Entwicklung eines Metadatenschemas für datentechnische Metadaten von 4 PM Forschungsdaten AP 3.2 Entwicklung eines Metadatenschemas für fachspezifische Metadaten von 4 PM Forschungsdaten AP 3.3 Einbindung der Metadatenschemata in den Workflow 2 PM AP 3.4 Technische Realisierung der Metadatenschemata (RDF, XML-Derivate, etc.) 4 PM Summe: 14 PM 13

14 AP 4: Datenmanagement Leitung: FIZ und SCC Ziele Erstellung einer technischen Anforderungsanalyse für das Datenarchiv sowie die Implementierung der notwendigen Software. Aufgaben Die Speicherung der Forschungsdaten in einem vertrauenswürdigen, zertifizierten Datenzentrum (in der öffentlichen Domäne) ist die Grundlage für die Publikation und Nachnutzung dieser Daten. Das Rechenzentrum (SCC) des KIT und FIZ Karlsruhe, beides Infrastruktureinrichtungen, befassen sich im Arbeitspaket Datenmanagement mit der Konzeption und der Bereitstellung entsprechender Systeme und Prozesse. Das Datenmanagement umfasst auch Werkzeuge zum einfachen Ingest der Daten, eine auch für Gelegenheitsnutzer intuitiv verständliche Benutzungsoberfläche zur Provisionierung von Speicherplatz im self- service, Rechte- und Lizenzverwaltung sowie ein aussagekräftiges Reporting. In Hinblick auf die Zugriffsrechte stellt sich hier die Anforderung, diese über unterschiedliche Institutionen und Anwendungen hinweg nachhaltig zu gewährleisten. Hierfür sind u. a. für die Langzeitarchivierung geeignete Authentifizierungs- und Autorisierungsverfahren zu berücksichtigen, die auch nach einer Migration der Daten an verschiedene Standorte den Zugriff sicherstellen. Die Konzeption des Gesamtsystems erfolgt in zwei Schritten. In einem ersten Schritt erfolgt eine Anforderungsanalyse für das Einstiegsangebot, das mit den wissenschaftlichen Partnern abgestimmt und im Rahmen eines Workshops mit einer breiteren Fachöffentlichkeit diskutiert wird. Dabei spielt die Untersuchung bestehender Systeme hinsichtlich ihrer Eignung für die Datenarchivierung eine zentrale Rolle. Im zweiten Schritt folgt dann die Berücksichtigung der fachspezifischen Anforderungen (vgl. AP 2 und AP 3) für das höherwertige Angebot. Wichtig ist dabei die Sicherstellung der Übertragbarkeit der gewählten Ansätze auf andere Fachdisziplinen, um das Angebot später über die Pilotdisziplinen Chemie/Biochemie hinaus für weitere Fachdisziplinen öffnen zu können. Die Konzeption des Gesamtsystems berücksichtigt die vorhandenen Speichersysteme am SCC sowie die dort etablierten Prozesse für das Datenmanagement. Zwischen der Software und Hardware müssen geeignete Schnittstellen entworfen werden, die die konkreten Speichersysteme abstrahieren und so für Zukunftssicherheit der Architektur sorgen. Gleichzeitig müssen die vorhandenen Prozesse untersucht und gegebenenfalls an die Anforderungen aus AP 2 und AP 3 sowie die Kriterien eines zertifizierten Datenzentrums adaptiert werden. Durch eine enge Zusammenarbeit mit den wissenschaftlichen Partnern während der Entwurfsphase wird eine bedarfsgerechte Entwicklung sichergestellt. Dies geschieht insbesondere durch die Erstellung von Anwendungsfällen (vgl. AP 2), die die definierten Prozesse formal beschreiben und die Grundlage für den Systementwurf bilden. Gleichzeitig soll ein Leitfaden entstehen, der die Besonderheiten bei der Umsetzung fachspezifischer Anforderungen festhält und die notwendigen Schritte für die Berücksichtigung weiterer Disziplinen für das höherwertige Angebot dokumentiert. RADAR ist als offenes System geplant, das sich in die nationale und internationale Informationsinfrastruktur einfügt. Deshalb gilt dem Design geeigneter, öffentlich zugänglicher Programmierschnittstellen ein besonderes Augenmerk, um die Integration mit Diensten Dritter möglichst einfach zu gestalten. Primär zählen dazu die Anbindung an den DOI-Service bei der TIB Hannover (DataCite) und die e-journal-systeme der Verlage, potenziell aber auch die Verwendung von RADAR als Backend für Fachportale und als Andockpunkt für Datenmanagementsysteme in der ersten und zweiten Domäne ( privat und kollaborativ ). Des Weiteren ist die systemeigene Schnittstelle zwischen dem niederschwelligen und höherwertigen Angebot zu definieren, um Daten im Verlauf ihres Lebenszyklus z.b. zu Publikationszwecken überführen zu können. In einer abschließenden Testphase (vgl. AP 7) setzen die wissenschaftlichen Partner definierte Abläufe (Ingest, Anreicherung mit Metadaten, Datenpublikation, etc.) um und überprüfen so die Funktionalität und Praxistauglichkeit des Gesamtsystems. Sich daraus ergebende Anpassungen werden in einer abschließenden Projektphase umgesetzt. 14

15 Arbeitsschritte Schritt Beschreibung Aufwand AP 4.1 System- und Prozessanalyse 6 PM AP 4.2 Konzeption und Entwicklung eines Leitfadens 2 PM AP 4.3 Realisierung von Schnittstellen zwischen Speicher- und Softwaresystemen 10 PM AP 4.4 Realisierung des generischen Systems ( Einstiegsangebot ) 22 PM AP 4.5 Realisierung der fachspezifischen Sicht ( höherwertiges Angebot ) 12 PM AP 4.6 Testphase und Anpassung 4 PM Summe: 56 PM AP 5: Datenpublikation Leitung: TIB Ziele Veröffentlichung von Daten als Bestandteil einer klassischen, wissenschaftlichen Publikation oder als eigenständige Publikation zu ermöglichen und dauerhaft zu gewährleisten. Aufgaben Die Anreicherung einer wissenschaftlichen Publikation durch die ihr zugrunde liegenden Forschungsdaten erhöht die Transparenz, Vertrauenswürdigkeit und Nachvollziehbarkeit wissenschaftlicher Kommunikation. Die Publikation von Forschungsdaten ermöglicht den Wissenschaftlern eine zeitnahe Veröffentlichung ihrer Forschungsergebnisse sowie einen schnelleren Austausch in der Wissenschaft, wie es vergleichsweise auf dem Preprint-Server arxiv 62 bereits umgesetzt ist. Damit wird im Vergleich zum klassischen Publikationsprozess ein Mehrwert für die Wissenschaftler geschaffen. In Zusammenarbeit mit dem Thieme Verlag und dem GDCh/Wiley-VCH Verlagsbeirat werden dafür mögliche Workflows entwickelt, die die Wissenschaftler beim Publikationsprozess von Forschungsdaten unterstützen. Dabei sind Autorenrichtlinien sowie Zitierstandards zu definieren und transparent nachvollziehbare Kostenmodelle für die Publikation zu erarbeiten, die sich auch im zu erarbeitenden Geschäftsmodell widerspiegeln (vgl. AP 6). Zusätzlich soll die Datenablegung in die Arbeitsprozesse der Wissenschaftler soweit integriert werden, dass ein kaum spürbarer Mehraufwand für den gesamten Arbeits- und Publikationsprozess entsteht. Deshalb muss das Datenmanagement und seine zu erarbeitende Infrastruktur (vgl. AP 4) auf die Arbeitsprozesse der Wissenschaftler abgestimmt und gleichzeitig so einfach wie möglich gehalten werden. Voraussetzung für eine Publikation ist ihre Referenzierbarkeit. Damit Forschungsdaten eindeutig identifizierbar und dauerhaft wiederzufinden sind, benötigen sie einen persistenten Identifier. Durch die Vergabe eines DOI werden Daten eindeutig zitierfähig und referenzierbar gemacht. Die Vergabe von DOIs für Forschungsdaten gilt als Qualitätsmerkmal für deren Referenzierung vor allem auch durch die Verknüpfung der Daten mit dem dazu gehörigen wissenschaftlichen Artikel. Die qualitätsgesicherte Zitierung von Forschungsdaten ermöglicht den Wissenschaftlern einen Reputationsgewinn in ihrer Fachcommunity auch durch eine nachgewiesene Steigerung der Zitierhäufigkeit von Forschungsergebnissen. 63 RADAR wird die DOI-Registrierung in Kooperation mit den Verlagen in bestehende Publikationsprozesse einbinden und dazu ein Verfahren entwickeln, das bei einer integrativen Publikation die DOI-Namen der Artikel und Daten miteinander verknüpft. Die mit der DOI-Registrierung erstellten Metadaten (s. a. AP 3) werden sowohl für den Nachweis der Publikation im Fachportal der TIB GetInfo als auch für die Archivierung im Datenzentrum abgelegt. Durch Kooperation des DOI- Service an der TIB mit dem internationalen Verein DataCite können die Forschungsdaten nicht nur national in der eigenen Fachcommunity, sondern auch weltweit und fachübergreifend zugänglich gemacht werden. Durch Kooperation der Fachwissenschaftlern mit ihrer jeweiligen Fachgesellschaft sollen (Qualitäts-) Standards erarbeitet und etabliert werden. Anhand dieser (fach-)spezifischer Kriterien entscheiden die Piwowar H.A., Day R.S., Fridsma D.B., Sharing Detailed Research Data Is Associated with Increased Citation Rate. PLoS ONE 2(3), 2007 e308. Online: doi: /journal.pone

16 Datenproduzenten, welche Forschungsdaten publikations- und damit auch archivierungswürdig sind (AP ). Damit wird ein Mindestmaß an Qualität der Daten gewährleistet. Arbeitsschritte Schritt Beschreibung Aufwand AP 5.1 Entwicklung eines Workflows zur Erweiterung des wissenschaftlichen 6 PM Publikationsprozesses AP 5.2 Erarbeitung von Autorenrichtlinien, Zitierstandards und transparenten 6 PM Kostenmodellen AP 5.3 Etablierung exemplarischer Verfahren zur Einreichung elektronischer 5 PM Manuskripte mit Forschungsdaten AP 5.4 Entwicklung von Qualitätsstandards zur Datenpublikation 4 PM AP 5.5 Automatisierte Integration der DOI-Registrierung in den Publikationsprozess 5 PM AP 5.6 Entwicklung von Schnittstellen zur Interaktion von DOI-Registrierung und 5 PM Datenarchiv AP 5.7 Schnittstellen zur Integration in TIB Infrastruktur 3 PM Summe: 34 PM AP 6: Geschäftsmodell und Rahmenbedingung Leitung: FIZ, Mitarbeit SCC Ziele Entwicklung eines selbsttragenden Geschäftsmodells für die Archivierung von Forschungsdaten und die Schaffung eines organisatorischen Rahmens. Aufgaben Die Speicherung und vor allem Archivierung von Forschungsdaten ist eine auf Dauerhaftigkeit angelegte Dienstleistung. Im Arbeitspaket Geschäftsmodell und Rahmenbedingungen erarbeiten FIZ Karlsruhe und KIT/SCC die dafür notwendigen ökonomischen, juristischen und organisatorischen Grundlagen. Das anvisierte Geschäftsmodell berücksichtigt die aktuellen Gegebenheiten des Wissenschaftsbetriebs mit seiner starken Ausrichtung auf geförderte Projekte mit einer begrenzten Laufzeit und ohne Möglichkeit, nach Projektende für die Datenarchivierung zu bezahlen. Trotzdem soll ein Großteil der bei der Archivierung entstehenden Kosten auf die wissenschaftlichen Nutzer des Datenzentrums umgelegt werden. Eine direkte Förderung des Datenzentrums wird bei dem angedachten Geschäftsmodell weitgehend vermieden. Erreicht werden soll dieses Ziel durch ein System von Einmalzahlungen: bei der Hinterlegung der Daten können die Nutzer festlegen, ob sie die Daten für eine Haltefrist von zehn Jahren ( Einstiegsangebot ) oder aber ad infinitum ( höherwertiges Angebot ) archivieren wollen. Letzteres ist insbesondere für publizierte und mit einem DOI versehene Daten (vgl. AP 5) interessant. Für beide Angebote wird RADAR einen Festpreis anbieten, der zum Anfang der Haltefrist bei Hinterlegung der Daten fällig wird. Damit ist es den Wissenschaftlern möglich, bei der Planung ihrer Projekte bereits die Kosten für die Archivierung der entstehenden Forschungsdaten abzuschätzen und bei der Budgetierung zu berücksichtigen, also z.b. in Förderanträge mit aufzunehmen. Den Kern für dieses Geschäftsmodell bildet die Ausarbeitung eines Kostenmodells, das die benutzten Speichermodalitäten sowie zukünftige technische Entwicklungen berücksichtigt. Hier kann auf umfangreiche Vorarbeiten Dritter zurückgegriffen werden. 64 Das vorgesehene Geschäftsmodell befördert zwei wichtige Aspekte: Zum einen erhalten die Wissenschaftler durch die Kostentransparenz einen Anreiz, aus ihren Rohdaten nur die für die Archivierung relevanten Daten auszuwählen, zum anderen muss das Datenzentrum durch den marktorientierten Ansatz fortwährend eine am Bedarf der Wissenschaft orientierte Dienstleistung anbieten. 64 z.b. Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informationsinfrastruktur in Deutschland bis 2020, Wissenschaftsrat, Berlin, 2012, S. 14 und S. 61; Beagrie, N., Chruszcz, J. und Lavoie B., Keeping Research Data Safe. Final Report, Online: 16

17 Über das Geschäftsmodell hinaus sind in diesem Arbeitspaket vertragliche und rechtliche Regelungen für den Betrieb und das Dienstleistungsangebot des Datenzentrums zu erarbeiten, sowohl im Verhältnis zu den Wissenschaftlern wie auch zu wissenschaftlichen Verlagen. Dazu gehören insbesondere die Frage geeigneter Lizenzen (hier ist die enge Abstimmung mit weiteren Projekten im Bereich Forschungsdatenmanagement und dem Zentrum für Angewandte Rechtswissenschaft (ZAR) des KIT vorgesehen), die Klärung von Fragen der Haftung und der Weiterverwertung der Daten durch Dritte sowie die Erstellung geeigneter Allgemeiner Geschäftsbedingungen (AGB) für das Angebot des Datenzentrums. Zum Ende der Projektlaufzeit wird eine Zertifizierung des Datenzentrums angestrebt (z.b. nach den Vorgaben von DINI e.v. 65 oder des Data Seal of Approval 66 ). Da eine Vielzahl von Zertifizierungen auf diesem Gebiet existieren, befasst sich das Projektmanagement auch mit der Bewertung dieser Zertifikate und der Auswahl eines geeigneten Verfahrens für RADAR. Die Zertifizierung umfasst sowohl das Datenarchiv als auch die Datenpublikation. Um das Angebot von RADAR im wissenschaftlichen Umfeld bekannt zu machen, ist es geplant, in einem ersten Schritt auf Bibliotheken und Rechenzentren an Hochschulen mit Informationsmaterial und im Rahmen von Vorträgen zuzugehen, die als Multiplikatoren die Wissenschaftler auf RADAR aufmerksam machen können. Arbeitsschritte Schritt Beschreibung Aufwand AP 6.1 Entwicklung eines tragfähigen Geschäftsmodells 8 PM AP 6.2 Evaluierung relevanter Lizenzen für Forschungsdaten; Einbindung in RADAR 2 PM AP 6.3 Erstellung allgemeiner Geschäftsbedingungen für RADAR 2 PM AP 6.4 Erstellung von Informationsmaterial 2 PM AP 6.5 Auswahl eines geeignetes Zertifizierungsverfahrens für das Datenzentrum und 2 PM Durchführung der Zertifizierung Summe: 16 PM AP 7: Evaluierung Leitung: IPB und LMU Ziele Sicherstellung eines praxisnahen Angebots, das die Anforderungen der Wissenschaft abdeckt und sich in bestehende Arbeitsabläufe einfügt. Aufgaben Das Datenzentrum mit seinem Geschäftsmodell, seinen Werkzeugen und vorgesehenen Prozessen für eine fachübergreifende Datenablieferung, -aufbereitung und publikation kann nur dann langfristig erfolgreich sein, wenn die Prozesse den Anforderungen der Wissenschaft gerecht werden. Die wissenschaftlichen Partner IPB und LMU überprüfen im Arbeitspaket Evaluierung laufend die Arbeitsergebnisse aus den AP 4, 5 und 6 auf ihre Praxistauglichkeit. Sie stellen so bereits frühzeitig sicher, dass die gewählten Ansätze in der späteren Betriebsphase (nach Projektende) tragfähig sind und zur Akzeptanz des Datenzentrums und der damit verbundenen Dienstleistungen in der wissenschaftlichen Community führen. Um die Praxistauglichkeit insbesondere auch des Einstiegsangebots zu evaluieren, streben die Antragsteller noch während der Projektlaufzeit an, über die beiden wissenschaftlichen Partner hinaus weitere Kunden aus anderen Fachdisziplinen zu gewinnen. In Anlagen 6 und 7 finden sich dazu zwei Letter of Intent des Hornemann-Instituts der HAWK, Hildesheim, und des Georg-Eckert-Instituts für Internationale Schulbuchforschung, Braunschweig, die bereits ihr Interesse an dem geplanten Service bekundet haben

18 Die Ergebnisse der projektbegleitenden Evaluierung finden Berücksichtigung bei der weiteren Erarbeitung des Forschungsdatenmanagements in den AP 2 6 und ermöglichen so in einem iterativen Prozess die Etablierung eines optimalen, nutzerfreundlichen, fachübergreifenden Research Data Repositoriums (RADAR). Arbeitsschritte Schritt Beschreibung Aufwand AP 7.1 Überprüfung der Anwendungsfälle und des Konzepts für das Datenzentrum 1 PM AP 7.2 Inhaltliche Aufbereitung der konzeptionellen Ergebnisse auf AP 2 und AP 3 für 1 PM einen Workshop und Auswertung des Feedbacks AP 7.3 Testläufe für das Ablegen und Wiederabrufen wissenschaftlicher Daten 2 PM AP 7.4 Testläufe für die Datenpublikation 2 PM AP 7.5 Akzeptanzstudien der entwickelten Workflows im wissenschaftlichen 2 PM Arbeitsprozess AP 7.6 Umfrage unter Nutzer aus Produzenten- und Konsumentensicht 2 PM Summe: 10 PM Zeitplan 3.3 Umgang mit den im Projekt erzielten Forschungsdaten bzw. anderen Ergebnissen Die im Rahmen des Projekts entwickelten Software-Komponenten werden unter einer Apache 2.0 Software-Lizenz (ASL) als Open Source veröffentlicht. Bei der Einbindung von Komponenten Dritter wird nach Möglichkeit darauf geachtet, dass deren Lizenzen kompatibel zur ASL sind. Alle erstellten Dokumente (wie z.b. Leitfäden) werden unter einer Creative-Commons-Lizenz veröffentlicht. Die durch die wissenschaftlichen Partner und weiteren Kunden zur Archivierung eingebrachten Forschungsdaten sind nicht notwendigerweise frei zugänglich, auch obliegt den Datenproduzenten die Wahl einer geeigneten Lizenz für ihre Daten. Die Nachhaltigkeit des Forschungsdatenzentrums ist durch das vorgesehene Geschäftsmodell gewährleistet. 18