Metadaten Nutzen und Nutzung

Ähnliche Dokumente
Das Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv

Der TEI-Header. TEI-Guidelines Kap. 2


Vom digitalen Hausmeister zum international vernetzten Forschungsdatenzentrum. Die Entwicklung der digitalen Infrastruktur des

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen

Metadaten für multimodale Corpora

Die TEI. in einer halben Stunde

file:///c:/users/wpzsco/appdata/local/temp/tmp373d.tmp.htm

KIM.

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

XML, TEI & and. Abkürz. Zu verwirrenden Begriffen für Editorinnen und Editoren im digitalen Zeitalter

Archiving LEXUS 3 multimedia lexica

Archivierung mit PDF und XPS. Formate, Standards und Prozessabläufe

Metadaten und Identifikatoren

STRATEGISCHES BETEILIGUNGSCONTROLLING BEI KOMMUNALEN UNTERNEHMEN DER FFENTLICHE ZWECK ALS RICHTSCHNUR FR EIN ZIELGERICHTETE

AktuellesausderPraxis

Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

XML und Datenmodellierung

OCR Volltexte als Forschungsdaten: Standards und Interoperabilität

WP2. Communication and Dissemination. Wirtschafts- und Wissenschaftsförderung im Freistaat Thüringen

Linux I II III Res WN/TT NLTK XML Weka E XML BNC XSLT BNC/XML 7 BNC/XML XML BNC XSLT. Ressourcen-Vorkurs

KIM Metadatenprofile Schritt für Schritt Stefanie Rühle SUB Göttingen KIM

XML und Datenmodellierung

DFG-Praxisregeln Digitalisierung. Stefanie Rühle KIM WS

Tutorial: CLARIN Component Registry und Browser für CMDI

Langzeitarchivierungsaspekte. im Dokumentenlebenszyklus

Durchführungsbestimmung Metadaten. Kristian Senkler, con terra GmbH,

Übersetzung des Dublin Core Metadata Initiative Abstract Model (DCAM)

TEI für Kritische Editionen

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen)

Standardisierung und kulturelles Erbe eine schwierige, aber fruchtbare Ehe. Felix Sasaki DFKI / FH Potsdam W3C deutsch- österr.

Deutsche Übersetzung des Dublin-Core-Metadaten-Elemente-Sets. Version 1.1

Anleitung für Vermieter. Directions for Landlord/Landlady. zum Erstellen eines Accounts und zum Anlegen von Angeboten

Metadaten I: XMP & Co

The app the crashes, before the breakpoint is reached: Code to the event:

Version smart.finder SDI. What's New?

COSMOS-Portal - Benutzerhandbuch

Eclipse User Interface Guidelines

XML, QPATH, XQUERY: NEUE KONZEPTE FÜR DATENBANKEN. 3. Übung XML-Verarbeitung

1 XML Hype oder Hoffnung? Einleitung Wie ist dieses Buch aufgebaut?... 3

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

file:///c:/users/wpzsco/appdata/local/temp/arc476e/tmpf79d.tmp.htm

CHAMPIONS Communication and Dissemination

Kodierung und Analyse von Kindersprache mit CHILDES

Ontologien und Ontologiesprachen

Forschungsdatenmanagement an der Technischen Universität Berlin

IHR WEG ZUR DOI-REGISTRIERUNG

Graphisches Entwicklungslinien- und Aufgaben-Tracking für Subversion in Verbindung mit ALM Tool Suiten

XML-Technologien

DataCite Services Tools und Schnittstellen im DOI-Kontext. Sebastian Peters DataCite Workshop 12. Dezember 2012

CX6530. Keyvi3 Verwaltungssoftware CX6530 MS Access. Keyvi3 Management Software CX6530 MS Access. Keyvi3 Verwaltungssoftware

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

GATE General Architecture for Text Engineering. Alexander Hein & Erik Dießler (VL Text Analytics )

Dr. Thomas Meinike Hochschule Merseburg

RECS Box Management API

XSD - XML Schema Definition

Exercise (Part XI) Anastasia Mochalova, Lehrstuhl für ABWL und Wirtschaftsinformatik, Kath. Universität Eichstätt-Ingolstadt 1

Christoph Broschinski, bielefeld.de>

Empfehlungen für die Zukunft Mehrwerte für Ihre Daten. Prof. Felix Sasaki (Deutsches Forschungszentrum für Künstliche Intelligenz)

Extract of the Annotations used for Econ 5080 at the University of Utah, with study questions, akmk.pdf.

Inhaltsverzeichnis. Vorwort... Einleitung... Einführung... 1

HYPERIMAGE. Technologieentwicklung und WebServices

Entwicklung mit Arbortext Editor 6.1

Zitierfähigkeit wissenschaftlicher Primärdaten. EPICUR-Workshop Der Deutschen Bibliothek

Library of Labs Application Profile (LiLa AP)

Grenzen und Gemeinsamkeiten: Die Beziehung zwischen der Computerlinguistik und den Digital Humanities

Leichtgewichtige Web 2.0-Architektur für komplexe Business-Anwendungen Nicolas Moser PRODYNA AG

Seminar E-Services WS 02/03 WSDL. Web Services Description Language. Moritz Kleine SES 02 - WSDL

Network premium POP UP Display

Installation Aufbau Feld

Workflow, Business Process Management, 4.Teil

Einführung in die Interoperabilität von Metadaten und Metdadatenformaten. Sarah Hartmann (DNB) Stefanie Rühle (SUB Göttingen) KIM

Web-Konzepte für das Internet der Dinge Ein Überblick

Persistenzschicht in Collaborative Workspace

Installation Aufbau Feld

Mehrbändig begrenzte Werke bzw. mehrteilige Monografien: Bezug übergeordneter Datensätze (Kopfsätze)

Master Seminar Generische Modelbasierte. Benedikt Johannsen INF-M3 Master Seminar - Wintersemester 2010/ Dezember 2010

ehealth Composite Plattform (ehc) FormsFramework Eine Schlüsseltechnologie zur Umsetzung semantischer Interoperabilität

Jens Kupferschmidt Universitätsrechenzentrum

Installation Aufbau Feld

Vernetzung von Open Access Repositorien in Deutschland - ein Überblick

Marktdaten Schuhe Europa - EU 15 / 2012

Bausteine einer VRE für die Linguistik - Beispiel:

97. Deutscher Bibliothekartag. VZG zvdd. Gerald Steilen / Verbundzentrale des GBV (VZG)

Das BAS-Repository. Uwe D. Reichel Institut für Phonetik und sprachverarbeitung

TomTom WEBFLEET Tachograph

SEED FUND MANAGEMENT TRAINING PROGRAMME

MOF Meta Object Facility. Veranstaltungsvortrag im Rahmen der Projektgruppe ComponentTools

DIE NEUORGANISATION IM BEREICH DES SGB II AUSWIRKUNGEN AUF DIE ZUSAMMENARBEIT VON BUND LNDERN UND KOMMUNEN

unter Verwendung von Folien von Herrn Prof. Dr. Flensburg, von Laudon/Laudon/Schoder und von Frau Prof. Dr. Schuhbauer

Komponentenbasierte Softwareentwicklung

Softwarearchitektur mit dem Quasar- Architekturstil

Webseiten mit HTML. Visual QuickProject Guide. von Elizabeth Castro


Java und XML 2. Java und XML

Gregor Raschke 2008 HIBERNATE. Eine Einführung

XML Schema 2016 S h_da S Seite 1

Oracle Enterprise Scheduler (ESS) Unleashed Carsten Wiesbaum esentri AG Ettlingen Schlüsselworte Einleitung Oracle Enterprise Scheduler (ESS)

Transkript:

Metadaten Nutzen und Nutzung Axel Herold Berlin-Brandenburgische Akademie der Wissenschaften 18. Februar 2013, DTA/CLARIN-D-Konferenz

Übersicht 1. Was sind eigentlich Metadaten? 2. Wozu werden Metadaten benötigt? 3. Metadaten in CLARIN-D Metadaten-Infrastruktur Metadaten-Erstellung Anwendungen

Metadaten, I

Metadaten, II (formalisierte) Beschreibungen von... Dingen formalisiert vereinbarte Abstraktion wegen automatischer Verarbeitbarkeit, Klassenbildung Beschreibung Aufzählung von relevanten Eigenschaften Ding hier: linguistische Daten, Werkzeuge 2001 1798 2001 2010 1998 1954

Metadaten, III Metadaten als Aufzählungen von Eigenschaften Was ist für mich wichtig? Was ist für andere wichtig? Forscher: wiederfinden, zitieren, Rahmenbedingungen,... Forschungsfragen: angemessene, passende Daten,... Methoden/Verfahren: Kompatibilität, Objektrepräsentation,... 2001 1798 2001 2010 1998 1954

Anwendungen Beispiele Bibliotheks-, Archivkataloge,... Archivierung (elektronische Repositorien) Versionierung Ressourcen-, Werkzeugsuche (siehe Virtual Language Observatory, http://www.clarin.eu/vlo) Bedingungen für Reihenschaltung von Werkzeugen (siehe WebLicht-Beitrag) 2001 1798 2001 2010 1998 1954

Modellierung von Metadaten, I (formalisierte) Beschreibungen von... Dingen vektoriell: Tupel fixer Feld- und Datentypen, explizite Semantik (DCMI element set, DCMI metadata terms) baumartig: hierarchische Anordnung von Feldern, explizite und implizite Semantik (TEI-Header) modular: Mengen von Tupeln und/oder Bäumen, explizite Semantik (CMDI+ISOcat(+RelCat)) dc:title dc:identifier dc:language............... tei:biblfull tei:titlestmt tei:author tei:editor tei:persname tei:persname

Modellierung von Metadaten, II CMDI: modulare Metadaten Component MetaData Infrastructure, http://www.clarin.eu/cmdi explizite Semantik via ISOcat (http://www.isocat.org/) Komponentenregistratur (http://catalog.clarin.eu/ds/componentregistry/) bedienbar per Webfrontend und als Webservice verschiedene Editoren, Konverter (Arbil, proforma,... )

Modellierung von Metadaten, III CMDI kurz und knapp: Meta-Metadatenmodell Konstruktionssystem für Metadatenformate (Profile) aus einzelnen wiederverwendbaren Komponenten Baukastenprinzip kann alle existierenden Formate abbilden kann beliebige Dinge beschreiben beliebige Granularität der Beschreibung unabhängige Komponenten erlauben konkurrierende Klassifikationen Serialisierung der Metadateninstanzen in XML Schemata für Instanzen dynamisch erzeugt

CMDI im Detail I Integration existierender Formate Name: teiheader Group Name: CLARIN D: DTA Basisformat Description: the version of the teiheader that is used by the DTA project, see http://www.deutschestextarchiv.de/doku/basisformat_header Component: filedesc Component: encodingdesc Component: profiledesc

CMDI im Detail II Name: filedesc Group Name: CLARIN D: DTA Basisformat Description: metadata for the electronic edition of a text Component: titlestmt Component: editionstmt Component: extent Component: publicationstmt Component: sourcedesc

CMDI im Detail III Name:extent Group Name: CLARIN D: DTA Basisformat Description: the size of a resource with respect to a specified unit of measurement Element: measure string Number of occurrences: 1 unbounded AttributeList: type: {images, tokens, types, characters, pages}

CMDI im Detail IV XML-Serialisierung <?xml v e r s i o n=" 1. 0 " e n coding="utf 8"?> <CMD CMDVersion=" 1. 1 " xmlns=" h t t p : //www. c l a r i n. eu / cmd/ " x m l n s : x s i=" h t t p : //www. w3. org /2001/ XMLSchema i n s t a n c e "> <Header> <MdCreator>Deutsches T e x t a r c h i v</ MdCreator> <MdCreationDate>2012 12 06</ MdCreationDate> <MdSelfLink>h t t p : //www. d e u t s c h e s t e x t a r c h i v. de / a p i / cmdi / schwab_sagen03_1840</ MdSelfLink> <M d P r o f i l e> c l a r i n. eu:cr1:p_1345180279115</ M d P r o f i l e> <MdCollectionDisplayName /> </ Header> <R e s o u r c e s>...</ R e s o u r c e s> <Components>... </ Components> </CMD>

CMDI im Detail V <CMD> <Header>...</ Header> <R e s o u r c e s> <R e s o u r c e P r o x y L i s t> <ResourceProxy i d=" xml "> <ResourceType mimetype=" a p p l i c a t i o n / xml "> Resource</ ResourceType> <ResourceRef>h t t p : //www. d e u t s c h e s t e x t a r c h i v. de / book / download_xml / schwab_sagen03_1840</ ResourceRef> </ ResourceProxy> <ResourceProxy>...</ ResourceProxy> </ R e s o u r c e P r o x y L i s t> <J o u r n a l F i l e P r o x y L i s t></ J o u r n a l F i l e P r o x y L i s t> <R e s o u r c e R e l a t i o n L i s t></ R e s o u r c e R e l a t i o n L i s t> <I s P a r t O f L i s t></ I s P a r t O f L i s t> </ R e s o u r c e s> <Components></ Components> </CMD>

CMDI im Detail VI <CMD> <Header>...</ Header> <R e s o u r c e s>...</ R e s o u r c e s> <Components> <t e i H e a d e r> <f i l e D e s c> <t i t l e S t m t> < t i t l e type=" main ">Die sch ö n s t e n Sagen des k l a s s i s c h e n A l t e r t h u ms</ t i t l e> < t i t l e type=" volume " n=" 3 ">D r i t t e r T h e i l< / t i t l e> <a u t h o r> <persname> <surname>schwab</ surname> <forename>gustav</ forename> <i d n o><i d n o type="pnd">h t t p : //d nb. i n f o /gnd /118762745</ i d no></ idno> </ persname> </ a u t h o r>...

CMDI im Detail VII Entwurfsprinzipien 1. Profile wiederverwenden 2. Komponenten wiederverwenden 3. existierende Komponenten modifizieren 4. eigene Komponente entwickeln (dabei auf Wiederverwendbarkeit achten) 2001 1798 2001 2010 1998 1954

CMDI im Detail VIII Beispiel: Wörterbücher Name: LexicalResource Group Name: CLARIN D: Lexical resource Description: a profile for describing a lexical resource Concept Link: http://www.isocat.org/datcat/dc 3296 Component: ExternalProperties Component: InternalProperties Component: cmdi description Number of occurrences: 0 1

CMDI im Detail IX Name: ExternalProperties Group Name: CLARIN D: Lexical resource Description: properties of entities that are related to the resource but external to it, i.e. not part of the resource proper Component: Component: cmdi creators Component: cmdi project Number of occurrences: 0 unbounded Component: cmdi generalinfo Number of occurrences: 0 unbounded... cmdi access

CMDI im Detail X Name: InternalProperties Group Name: CLARIN D: Lexical resource Description: properties of the resource proper Component: ResourceType Component: cmdi annotationtypes Number of occurrences: 0 1 Component: cmdi subjectlanguages Number of occurrences: 0 1 Component: cmdi modality Number of occurrences: 0 1 Component: cmdi description Number of occurrences: 0 1

CMDI im Detail XI Beispiel: Werkzeug Name: Tool Group Name: Description: Description of a tool Element: tooltype string Concept Link: http://www.isocat.org/datacat/dc 3810 Number of occurrences: 1 unbounded Element: applicationtype string Concept Link: http://www.isocat.org/datacat/dc 3786 Component: cmdi generalinfo Component: cmdi creators... Component: toolinput Number of occurrences: 0 1...

CMDI in CLARIN-D Repositorien CMDI-Metadaten (über OAI-PMH) sind eine Mindestanforderung Virtual Language Observatory periodische Abfrage von Repositorien Aggregator und Suchmaschine (facetted search) Unifikation von Kategorien über ISOcat http://www.clarin.eu/vlo/ WebLicht Ermitteln möglicher Reihenschaltungen von Werkzeugen tooloutput von W 1 toolinput von W 2? https://weblicht.sfs.uni-tuebingen.de/

Vielen Dank!