What do we do with 462 file formats? Digital Humanities Austria - ÖAW, Wien 02. Dezember 2014 http://www.ianus-fdz.de Felix F. Schäfer / Martina Trognitz
Who is We? IANUS. Research Data Center for Ancient Studies in Germany a project financed by the DFG (german funding body), coordinated by the German Archaeological Institute, Berlin (DAI) 2011-2014 requirements engineering and conceptual work - theory 2014-2017 implementing technical, legal, financial issues - practice 2018 normal operation with basic funding + fees - certification mission: building and long-term operation of a national Centre for Research Data in Archaeology and Classical Studies German equivalent to ADS in UK and edna in NL 2
Who is IANUS? Verband der Landesarchäologen in der Bundesrepublik Deutschland 3
WHY IANUS Exists? General aims create an infrastructure to save existing data for the future raise awareness for the reusability of research data support the sciences by providing easy access to data enable researchers & projects to manage their data in a sustainable & sensible way become a national adress for IT-related questions in ancient studies 4
Whom IANUS ADresses? Stakeholders Disciplines object oriented archaeologies and building history text-based literary, philological and historical disciplines natural sciences with interests in cultural research Institutions, Groups & Individuals 5
WHAT DOES IANUS PLAN? Main services Long term archiving of research data Open dissemination of research data Central, discipline specific registry for distributed resources (sites, projects/activities, monuments, data collections) Education and qualification (e.g. courses, summer schools, workshops, online-materials) Project support (e.g. data management, sync-and-share services) Promotion of IT-recommendations, best-practiceguides, and minimal standards 6
WHAt kind of DATA? - TheorY Data in archaeology and ancient studies audio statistical data vektor graphics / CAD text databases 3D / virtual reality remote sensing websites I. Herzog, Archäologie iin Deutschland, 1/2011 A. Zeldes, HU Berlin DCSB 2013/14 movies geophysics GIS / survey laserscanning mark-up text photogrammetry raster images Paliambela Kolindros Archaeological Project, Guides to Good Practice, ADS/UK tables / spreadsheets Hathortempel, Naga 2010 Trigonart, Bauer Praus GbR 7
What KIND of Data? - Reality Test data collections Live-data, i.e. not prepared for archiving no systematic data selection, format validation, labelling of files + folders no complete documentation, metadata, licences, etc. often only parts of a larger data collection Projekt-Nr Projekt-Name Institution Datum Datentransfer Meta- Daten 2013-001_TEST Taganrog DAI Zentrale, Berlin 23. Mai. 2013 2013-002_TEST Milet, Faustina-Thermen DAI Zentrale, Berlin 16. Mai. 2013 2013-003_TEST Pergamon DAI Istanbul 14. Jun. 2013 2013-004_TEST 2013-005_TEST Tell Zira'a Wendel DAI NatWiss-Referat, Berlin Neanderthal-Museum / NESPOS, Mettmann nach Rücksprache kopiert aus DAI Cloud nach Rücksprache kopiert aus DAI Cloud nach Rücksprache kopiert aus DAI Cloud 14. Feb. 2013 FileServer (DAI interner Server) 6. Feb. 2013 Webportal (Dropbox) Umfang (MB) Anzahl Dateien Anzahl Formate ja 84.130 21.566 56 nein 97.885 27.401 97 ja 89.472 30.139 229 ja 99 42 5 ja 2.008 2.192 4 2013-006_TEST Troja Universität Tübingen 27. Jun. 2013 Festplatte per Post nein 302.060 134.228 82 2013-007_TEST Altägyptisches Wörterbuch BBAW Berlin 16. Mai. 2013 Webportal (mydrive.ch) nein 273 11 2 2013-008_TEST Aleppo, Virtual Archaeology HTW Berlin 15. Jul. 2013 Festplatte per Post ja 126.362 3.278 6 2013-009_TEST Archäometriedatenbank München Prähistorische Sammlung München 5. Mär. 2013 DVD per Post nein 1.100 8.571 107 2013-010_TEST Burgen im Rheinland LVR Rheinland, Bodendenkmalpflege 10. Mai. 2013 email ja 3 14 5........................... 8
File Formats... Numbers 17 data collections 684,9 GB disk space 237.403 files in 7.537 folders 462 file formats / extensions max. folder hierarchy 12 levels => most of the file formats are not suitable for (future) reuse and longterm archiving 9
File Formats... All File formats by memory File formats by counts 10
File Formats... Projects Differences in datasets 11
File Formats... AnSWER Reduce diversity: preferred & accepted file formats definition of significant properties with regard to content and technical charateristics non-proprietary, software independent, open formats formats relevant for community Vektor-Grafiken / CAD AutoCAD Drawing interchange Format Scalable Vector Graphics CorelDraw Adobe Illustrator dwg dxf svg cdr ai ai, svg: Verknüpf dwg, dxf: Progra Farben, Konturen anderen Dateien dxf: die ASCII-Ve pdf: CAD-Dateie CAD-Programme Template für Meta Rastergrafiken => guidelines for producers/ depositors in order to submit data in a suitable form Uncompressed Baseline TIFF v. 6 Adobe Digital Negative lll Portable Network Graphics Joint Photographic Expert Group... tif & tiff dng png jpg & jpeg gif... Titel, Photograph, de), Urheberrecht Template für Meta 12
UNderStanding Files... NESTING Tree-maps for visualising folder structures 13
Understanding Files... Folders Different file strategies 14
Understanding Files... METADATA Documentation metadata for data collections metadata for single files / group of files documentation of systems (esp. GIS, DB, 3D, VRE) and workflows using standards, conventions for naming files/folders, internal project guidelines criteria for data selection => additional work right from the beginning - before the 1st bit is generated! METADATEN DATENSAMMLUNG VERSION 1.2 Bitte füllen Sie die folgenden Felder so ausführlich und vollständig wie möglich aus. Die Angaben zu Ihrer Datensammlung helfen bei der Aufbereitung für die Langzeit-archivierung, bilden die Basis für den Eintrag innerhalb des IANUS- Nachweiskataloges und unterstützen die spätere Auffindbarkeit und Nutzbarkeit der Daten durch Dritte. 1a. Identifizierung Projekttitel Verbindliche und aussagekräftige Kurzbezeichnung des Projektes 1b. Identifizierung AlternativTitel Ggf. alternative Titel für ein Projekt 1c. Identifizierung Projektnummer(n) Nummern oder Kennungen, die z.b. innerhalb der durchführenden Organisation oder von Mittelgebern verwendet werden, um das Projekt eindeutig identifizieren zu können 2. Kurzbeschreibung Knappe Angaben zu Fragestellung, Verlauf und Ergebnis des Projektes sowie Skizzierung der Datensammlung (insgesamt ca. 200-1000 Worte) 3a. Schlagworte Fachdisziplinen Stichworte, die die beteiligten Disziplinen und Fächer benennen. Sofern die Stichworte auf publizierten Standards oder internen Thesauri beruhen, müssen diese mitangegeben werden. 3b. Schlagworte Inhalt Stichworte, die den Inhalt der Datensammlung benennen., z.b. zu Materialgruppen, Fundstellen- Klassifizierung, Quellenarten, Kulturgruppen, etc. Sofern die Stichworte auf publizierten Standards oder internen Thesauri beruhen, müssen diese mitangegeben werden. 3c. Schlagworte Methoden 15 IA c/o D Arch Podb D-14 Tel.: ianu www 21. M Koor Deu Arch Insti
More Questions & more AnsWERS IANUS. Forschungsdatenzentrum Archäologie & Altertumswissenschaften follow us homepage: twitter: facebook: http://www.ianus-fdz.de #Ianus_fdz IANUS-Forschungdatenzentrum coordination c/o IT-Referat Deutsches Archäologisches Institut Podbielskiallee 69-71 D-14195 Berlin funding Deutsche Forschungsgemeinschaft Bonn Datenerhaltung Planung Austausch Forschungsdatenzentrum Archäologie & Altertumswissenschaften Forschung Digitale Daten Archivierung Nachnutzung Dokumentation IT-Empfehlungen Metadaten 16