DATENSTANDARDS FÜR HISTORISCHE SCHULBUCHQUELLEN: WEGE DER INTEGRATION IN DIE EUROPÄISCHE FORSCHUNGSINFRASTRUKTUR CLARIN-D Dr. Maret Nieländer Georg-Eckert-Institut für internationale Schulbuchforschung nielaender@leibniz-gei.de Tagung Forschungsdaten in der Geschichtswissenschaft 7.-8. Juni 2018 Paderborn
AUF DEN SCHULTERN VON RIESEN Erstellung Nachnutzung Verarbeitung Der Lebenszyklus Zugang Analyse http://lccn.loc.gov/50041709 [Encyclopedic manuscript containing allegorical and medical drawings] [South Germany, ca. 1410], Library of Congress, Rosenwald 4, Bl. 5r (Detail) ODER REIN DATENGETRIEBEN? Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 2 Archivierung Vgl. Der Forschungsdatenzyklus und verwandte Themengebiete. CC-BY 4.0, SLUB Dresden; basierend auf Darstellungen von forschungsdaten.info und dem UK Data Archive,
AGENDA Das Georg-Eckert-Institut und seine Forschungsinfrastrukturen Forschungsergebnisse, Forschungsdaten oder Infrastrukturleistung? Wer sind die Riesen? Das Institut als Akteur und Mittler Datenstandards und CLARIN-D Nutzung Fragen und Thesen Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 3
DAS GEORG-ECKERT-INSTITUT 1953 Gründung eines internationalen Schulbuchinstituts durch Georg Eckert (1912-1974) 1975 Gründung des Georg-Eckert-Instituts in Braunschweig Seit 2011 Leibniz-Institut Das Institut betreibt anwendungsbezogene und multidisziplinäre schulbuchbezogene Bildungsmedienforschung, mit kulturwissenschaftlich-historischem Schwerpunkt Forschung, Transfer und Infrastruktur greifen ineinander Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 4
INFRASTRUKTUREN DES GEI Angebote vor Ort: 177.000 Schulbücher der Fächer Geschichte, Sozialkunde/Politik, Geographie und Werteerziehung/Religion und Lehrpläne aus 160 Ländern der Welt 77.000 Titel wissenschaftliche Literatur und Fachzeitschriften Digitale Angebote: 5.200 historische Schulbücher auf GEI-Digital (http://gei-digital.gei.de) International Textbook Catalogue (http://itbc.gei.de/) Edumeres-Plattform (http://edumeres.net/) Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 5 => Infrastrukturen speziell für die internationale Bildungsmedienforschung
WER SIND DIE RIESEN? Daten: Quellenbestände, Fachliteratur analog + digital Metadaten: Bibliographische Angaben angereichert mit: (lokaler) Klassifizierung, Normdaten, Schlagwörtern, ggf. Information über Digitalisierungsprojekte Erstellung Anreicherung: manuelle/computergestützte Texterkennung/OCR, POS-Tagging, TEI-XML Annotationen, Nachnutzung Verarbeitung Zugang Analyse Analysewerkzeuge: z.b. Frequenzanalyse, Topic Models, Kollokationsanalyse, Visualisierungen, Recherchehilfen: Findemittel, Suchindices, Schnittstellen, Rechercheoberflächen Archivierung Repositorien Infrastrukturleistungen werden zu Forschungsdaten werden zu Infrastrukturleistungen Der Forschungsdatenlebenszyklus ist nur zum Laufen zu bringen, wenn Forschung und Infrastruktur sich konsequent gegenseitig unterstützen (können). Zusammen sind sie die wahren Riesen. Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 6
DAS INSTITUT ALS AKTEUR UND MITTLER z.b. Annotationen, Essays zu digitalen Editionen Daten/digitale Angebote des Instituts z.b. GEI-Digital Daten für die Deutsche Digitale Bibliothek Daten einzelner Forscher- Innen /- gruppen Daten großer Repositorien / Datenzentren Ziel sollte die Vergrößerung der Schnittmengen sein. Technische und inhaltliche Standards, aber auch entsprechende Lehre, Beratung und Serviceleistungen sind hierfür notwendig. Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 7
CLARIN-D COMMON LANGUAGE RESOURCES AND TECHNOLOGY INFRASTRUCTURE CLARIN: seit 2012 europäische Infrastruktur für Geistesund Sozialwissenschaften (https://www.clarin.eu/) CLARIN-D: Neun Datenzentren in Deutschland mit verschiedenen Spezialisierungen (https://www.clarin-d.net/) Gemeinsame Infrastruktur für Sprachdaten und Analyse- Werkzeuge > z.b. Suchmaschine Virtual Language Observatory für alle Fachdisziplinen (https://vlo.clarin.eu) Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 8
CLARIN-D NUTZUNG AM GEI Seit 2014 Facharbeitsgruppe Neuere Geschichte, seit 2016 Facharbeitsgruppe Geschichte (Ko-Leitung und Ko-Koordination) Aktivitäten: Testen und Weiterentwicklung von Werkzeugen, Identifikation wichtiger Quellenbestände, Dissemination, (https://www.clarin-d.net/de/facharbeitsgruppen/geschichtswissenschaften) 2015/16 Beteiligung am Kurationsprojekt Quellen des Neuen mit historischen Schulbüchern: Datenaufbereitung nach CLARIN-D Standards (Textqualität, Annotationen und Metadaten nach den Standards des Deutschen Textarchivs am CLARIN-D Zentrum der Berlin-Brandenburgischen Akademie der Wissenschaften (https://www.clarin-d.net/de/kurationsprojekt-9-1-neuere-geschichte) Metadaten des Digital Humanities Projekts WorldViews (http://worldviews.gei.de/) World Views nutzt CLARINs Component Metadata Infrastructure (CMDI) für die Interoperabilität mit anderen CLARIN Ressourcen und Werkzeugen in Arbeit: CMDI-Metadaten-Profil für historische Schulbücher Zertifizierung der Datenhaltung Testen von Standards und Workflows Anpassen von Standards und Workflows Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 9
STANDARDS UND BEST PRACTISE Beispiel Ortsnamen: Generisch: Heutige Ortsnamen, eindeutige Geo-Daten VS. PROJEKTSPEZIFISCHE ANFORDERUNGEN - Annotationen von Funden wie El Dorado, Hölle, Fremde, außerhalb der Hauptstadt, nördlich der Wüste, - Historische/texttreue Schreibweisen, Zugehörigkeiten, Funktionen, VS. QUELLENSPEZIFIKA Beispiele Metadaten: Beispiel Daten: => Standards müssen flexibel sein. Wenig aussagekräftige (Reihen-)titel wie Unsere Geschichte Lösung: Zusätzliche Metadaten (Schultyp, Bildungsstufe, Geltungsland, ) Verschiedene Definitionen von AutorInnen : Lösung: Unterscheidung: A. der Texte/Grafiken der Bildungsmedien A. der in Bildungsmedien zitierten Quellen A. der wiss. Untersuchung von Bildungsmedien Inhaltliche Diversität Lösung: Annotation von Textsorten (Lesestück, Aufgabe, pädagog. Anmerkung) Annotation von Bildern, Karten etc. (Beschreibungen). Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 10 Daten einzelner Forscher- Innen /- gruppen Daten/digitale Angebote des Instituts Daten großer Datenzentren/ Repositorien
WELCHE STANDARDS? EBENEN, KRITERIEN, LEITLINIEN Quellen-Annotation Metadaten/formate Programme/Dateiformate Datenbanken, Indices Speicherorte Rechte/ Lizenzen/Zugang FAIR - findable, accessible, interoperable, re-usable (http://www.forschungsdaten.org/index.php/fair_data_principles) Audits/Zertifikate (CoreTrustSeal) https://www.coretrustseal.org/about/ DFG-Leitlinien (nicht spezifisch Geschichte) http://www.dfg.de/foerderung/antrag_gutachter_gremien/antragstellende/nachnutzung_forschungsd aten/index.html#anker62194854 Empfehlungen (CLARIN-D, DARIAH-DE) http://www.deutschestextarchiv.de/doku/basisformat/ https://wiki.de.dariah.eu/pages/viewpage.action?pageid=38080370 Offen Weit verbreitet Best Practice... Barrierefrei ISO, DIN,,.. Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 11
FRAGEN UND THESEN Brauchen wir Standards für Daten in der Geschichtswissenschaft? Wodurch sollten sich solche Standards auszeichnen und welche Standards benötigen wir? Wir brauchen in jedem Fach (inhaltliche) Standards, die den Quellen angemessen sind. Sie sollten zudem unterschiedliche Interpretationen dokumentieren, und mögliche Wandel in Schreibweisen, Diskursen, Semantiken, etc. berücksichtigen (können). Wir brauchen fächerübergreifende (technische) Standards, die eine größtmögliche Offenheit und Kompatibilität der Daten gewährleisten. Die Standards sollten Raum lassen für projektspezifische Anpassungen und deren Dokumentation. Wie können uns der bewusste Umgang mit geschichtswissenschaftlichen Forschungsdaten dabei helfen, komplexe Fragen zu beantworten und neue Fragestellungen zu entwerfen? Der bewusste Umgang besteht u.a. in einer Quellenkritik für Forschungsdaten (und den Werkzeugen zu ihrer Analyse), die auch die verwendeten Standards der Datenaufbereitung mit in Betracht zieht, ihre Angemessenheit hinterfragt und sie ggf. anzupassen sucht. Die Bereitstellung von Forschungsdaten ermöglicht es uns, sehr große Datenmengen mit digitalen Werkzeugen auszuwerten, und dabei Daten und Perspektiven aus verschiedenen Fächern mit einzubeziehen. Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 12
Vielen Dank für Ihre Aufmerksamkeit! Haben Sie Fragen? Die Entwicklung der deutschen Eisenbahnen bis 1847, in: Rothert, Eduard, Karten und Skizzen aus der allgemeinen Geschichte der letzten 100 Jahre, Düsseldorf, Bagel 1907, S. 70. URL: http://gei-digital.gei.de/viewer/image/ppn683473247/70/log_0029/ Georg-Eckert-Institut Datenstandards für historische Schulbuchquellen, 7.-8.06.2018 Paderborn Seite 13