Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs
|
|
- Wilhelm Michel
- vor 6 Jahren
- Abrufe
Transkript
1 Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs Susanne Haaf, Alexander Geyken, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand Deutsches Textarchiv, BBAW Berlin
2 Das Deutsche Textarchiv (DTA) Ziel: Bereitstellung der Grundlage für ein Referenzkorpus für die Entwicklung des Neuhochdeutschen Erstausgaben des Jhs. als einheitlich strukturierte Volltexte bereitstellen Laufzeit: /14 Förderung: Partner:
3 CLARIN-D Bündelung von Sprachressourcen verschiedener Anbieter (Cf. Übergreifende Suche über CLARIN-D-Ressourcen (Cf. Best Practices (Cf. Langzeitverfügbarkeit von Daten in Repositories, PIDs (Cf.
4 BBAW als CLARIN-D Service Zentrum Koordinator des Arbeitspakets 5: Sprachressourcen & Dienste Bemühungen um die Definition von Best Practices innerhalb von CLARIN: Für die Textstrukturierung Für die Metadatenerfassung Koordination der Erarbeitung des CLARIN- Benutzerhandbuchs Fokus: Korpora historischer deutscher Texte (DTA) (Cf.
5 Die DTA-Korpora DTA-Kernkorpus Werke frei verfügbar (CC-Lizenz) unter digitalisierte Seiten fortlaufende Wortformen Zeichen (Unicode)
6 DTA-Erweiterungen & CLARIN-D-Kurationsprojekt Ziel: Zusammenführung verstreuter Textressourcen in einem homogenen Korpus Langzeitverfügbarkeit über CLARIN-D Problem: unterschiedliche Qualitäten, Formate, Richtlinien, Strukturierungstiefen teilweise unzureichende Bildvorlagen Vorgehen: Qualitätssicherung, einheitliche Strukturierung und linguistische Aufbereitung Bereitstellung über das DTA und CLARIN
7 Gliederung Annotation in historischen Textkorpora am Beispiel des DTA 1. Strukturelle Auszeichnung TEI/P5-XML (DTA-Basisformat DTABf) 2. Linguistisches Tagging in TEI/P5-XML Konvertierung nach TCF 3. Erfassung von Metadaten nach TEI/P5-XML (DTABf) Konvertierung nach CMDI & DC
8 STRUKTURELLE ANNOTATION IM DTA
9 Wozu strukturelle Textauszeichnung? 1. Informationsgehalt der Quelle erhalten 2. Unterbrechungen des Fließtextes dokumentieren für die linguistische Analyse
10 Beispiel: Korpusrecherche nach dem Verb laufen in Bühnenanweisungen (<stage>) 3. Strukturengeleitete Korpusrecherche
11 Strukturelle Textauszeichnung wie? TEI-P5/XML: De facto-standard DTA-Basisformat (DTABf): TEI-P5-Format für die strukturelle Auszeichnung historischer gedruckter Texte Datengrundlage: DTA-Kernkorpus (Texte des Jh.) echte Teilmenge von TEI-P5 Tagset: 80 <text> Elemente; 25 <teiheader> Elemente festgelegte Menge von Attributen und Werten (wo möglich und angebracht) kontinuierliche Anpassung an neue Phänomene verschiedene Annotationslevels je nach Strukturierungstiefe
12 Strukturelle Textauszeichnung wie? Leitgedanken: identisches Tagging für semantisch ähnliche Phänomene homogene Textstrukturierung des gesamten Korpus möglichst hohe Abdeckung von Phänomenen in geschriebenen historischen Texten; keine Ambiguitäten Dokumentation von Entscheidungen DTABf: Best Practice-Format für die Annotation historischer Texte in CLARIN-D (Cf.
13 DTABf Komponenten ODD Dokumentation RelaxNG-Schema
14 Beispiel Textauszeichnung nach DTABf Strukturelle Auszeichnung erfolgt inline
15 LINGUISTISCHE ANNOTATION IM DTA Tokenisierung, Lemmatisierung, morphologische Analyse, orthographische Normierung, Named-Entity-Recognition (work in progress)
16 POS-Tagging (cf.
17 Orthographische Normierung (cf.
18 Beispiel: Suche nach Nomen + eine Form des Hilfsverbs sein + teuer als prädikatives Adjektiv
19 Download der Analyse-Ergebnisse als TCF-Dateien
20 Download der Analyse-Ergebnisse als TCF-Dateien <TextCorpus xmlns=" lang="de"> <tokens> <token ID="w4380">ko nte</token> </tokens> <sentences> <sentence ID="s98" tokenids=" w4380 "/> </sentences> <lemmas> <lemma tokenids="w4380">können</lemma> </lemmas> <POStags tagset="stts"> <tag tokenids="w4380">vmfin</tag> </POStags> <orthography> <correction tokenids="w4380" operation="replace"> könnte</correction> </orthography> </TextCorpus> Linguistische Auszeichnung in TCF erfolgt stand-off
21 STRUKTURIERUNG DER METADATEN IM DTA
22 Strukturierung der Metadaten Was wird angegeben? Bibliographische Informationen zur vorliegenden digitalen Ausgabe (Titelangaben, Bearbeiter der digitalen Ausgabe, PIDs ) Bibliographische Informationen zur zugrundeliegenden Quelle (inkl. Aufbewahrungsort der Quelle) Richtlinien der Texterfassung und strukturierung Inhaltliche Informationen (Sprache, Textsorte, Korpuszugehörigkeit) (Cf.
23 Strukturierung der Metadaten Formate Dublin Core- Metadaten Download über DTA- Webseite, Harvesting über OAI-PMH und Fedora-Repository
24 Metadatenformular zur Verzeichnung von Ressourcen nach DTABf (Cf.
25 Zugänglichkeit der DTA-Texte und Metadaten DTA-Webseite Text-Bild-Ansicht Download Korpusrecherche Qualitätssicherungsumgebung DTAQ zusätzlich Kontrolle und Korrektur OAI/PMH: Bereitstellung zum Harvesting CLARIN-Services Federated Content Search: übergreifende Suche in CLARIN-Ressourcen Fedora-Repository der BBAW: Archivierung und Bereitstellung zum Harvesting Virtual Language Repository VLO: Metadatenbasierte Recherche (CMDI)
26 Fazit für die Nutzung und Nachnutzung von Korpora Einheitliche Regelungen zur Annotation von Korpora, um die Interoperabilität zwischen Texten zu gewährleisten Qualitätssicherung Ausführliche Metadaten für nachvollziehbare Ergebnisse der Korpusrecherche Bereitstellung von Services für Nutzer, um die Nachnutzung der Richtlinien und der Texte zu erleichtern Automatische Konvertierung aus einheitlichen Formaten in andere verbreitete Formate Sichtbarkeit und Auswertbarkeit der Metadaten sicherstellen Aktive Bereithaltung der Daten in leicht zugänglicher Form, freie Verfügbarkeit, Langzeitarchivierung
27 Vielen Dank! Kontakt: Zugang zu den DTA-Korpora: Jeder kann mitmachen!: Literatur:
Die vernetzte Edition
Die vernetzte Edition Stefan Dumont, TELOTA, BBAW Susanne Haaf, Deutsches Textarchiv, BBAW Workshop Editionsportale 3. August 2017 Das Deutsche Textarchiv (DTA) Grundlage für ein Referenzkorpus zur Entwicklung
MehrRegensburger Rechnungsbücher interdisziplinär: Wirtschafts- und sprachhistorische Perspektiven
2. DTA / Clarin-D Konferenz: Textkorpora in Infrastrukturen für die Geistes- und Sozialwissenschaften Regensburger Rechnungsbücher interdisziplinär: Wirtschafts- und sprachhistorische Perspektiven Lehrstuhl
MehrErfassung von DTA- und CLARIN-D-kompatiblen Metadaten. Frank Wiegand Deutsches Textarchiv
Erfassung von DTA- und CLARIN-D-kompatiblen Metadaten Frank Wiegand Deutsches Textarchiv http://www.deutschestextarchiv.de/doku/basisformat_header Warum ausführliche Metadaten? Suche Autor Titel Erscheinungsjahr...
MehrHistorische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven
Historische Textkorpora für die Geistes- und Sozialwissenschaften. Fragestellungen und Nutzungsperspektiven - Begrüßung und Einführung - Alexander Geyken BBAW (DWDS/DTA/CLARIN-D) DTA-/CLARIN-D-Konferenz
MehrDas Deutsche Textarchiv als Repositorium und Werkzeug. Frank Wiegand (BBAW) Deutsches Textarchiv
Das Deutsche Textarchiv als Repositorium und Werkzeug Frank Wiegand (BBAW) Deutsches Textarchiv www.deutschestextarchiv.de wiegand@bbaw.de Deutsches Textarchiv Referenzkorpus für die schriftliche neuhochdeutsche
MehrFürstinnenkorrespondenzen Experiment einer Nachnutzung. Stefan Dumont, Berlin
Fürstinnenkorrespondenzen Experiment einer Nachnutzung Stefan Dumont, Berlin Ressource Frühneuzeitliche Fürstinnenkorrespondenzen im mitteldeutschen Raum Ziel: Kulturhistorisch bedeutsame Korrespondenzen
MehrOCR Volltexte als Forschungsdaten: Standards und Interoperabilität
OCR Volltexte als Forschungsdaten: Standards und Interoperabilität Dr. Alexander Geyken Deutsches Textarchiv und Digitales Wörterbuch www.deutschestextarchiv.de, www.dwds.de Berlin-Brandenburgische Akademie
MehrDas DTA-Basisformat zur TEI-XML-konformen Annotation historischer Textressourcen
Das DTA-Basisformat zur TEI-XML-konformen Annotation historischer Textressourcen Susanne Haaf Vortrag beim Berliner DH-Kolloquium 1. September 2017 Gliederung des Vortrags 1. Einführung zum Thema 2. Einführung
MehrVom Archiv ins WWW Digitale Korpora und (sprach-)historische Synergien
Offene Archive 2.1 Social media im deutschen Sprachraum und im internationalen Kontext Vom Archiv ins WWW Digitale Korpora und (sprach-)historische Synergien Lehrstuhl für Wirtschafts- und Sozialgeschichte
MehrLAUDATIO-Repository für Anwender. Carolin Odebrecht Humboldt-Universität zu Berlin LAUDATIO-repository.org
LAUDATIO-Repository für Anwender Carolin Odebrecht Humboldt-Universität zu Berlin LAUDATIO-repository.org Arbeiten mit (historischen) Fragen, die oft gestellt werden: Korpora Wo finde ich Korpora aus dem
MehrDeutsches Textarchiv (DTA)
Deutsches Textarchiv (DTA) Einführung in die Korpuslinguistik Vortrag am 05.11.2014 Stefanie Bischoff (MA Europäische Sprachen); 1. Semester Romy Sachs (BA Germanistik / Philosophie); 5. Semester Gliederung
MehrCentrum für Informations- und Sprachverarbeitung. Dr. M. Hadersbeck, Digitale Editionen, BAdW München
# 1 Digitale Editionen und Auszeichnungssprachen Computerlinguistische FinderApps mit Facsimile-Reader Wittgenstein s Nachlass: WiTTFind Goethe s Faust: GoetheFind Hadersbeck M. et. al. Centrum für Informations-
MehrForschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft
Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft Andreas Witt Institut für Deutsche Sprache, Mannheim Workshop Forschungsdaten WGL Geschäftsstelle Berlin 2012-05-10 Institut
MehrDigital Humanities Recherche im DWDS und DTA
Digital Humanities Recherche im DWDS und DTA mit Booleschen Operatoren und Regulären Ausdrücken Jena Language & Information Engineering (JULIE) Lab Friedrich-Schiller-Universität Jena, Germany http://www.julielab.de
MehrVom digitalen Hausmeister zum international vernetzten Forschungsdatenzentrum. Die Entwicklung der digitalen Infrastruktur des
Vom digitalen Hausmeister zum international vernetzten Forschungsdatenzentrum. Die Entwicklung der digitalen Infrastruktur des Daniel Jettka, Hanna Hedeland, Timm Lehmberg 16.09.2015 1 Struktur und Profil
MehrSpaten trifft Daten 29. Mai 2015 Data Center for the Humanities (DCH)
Data Center for the Humanities (DCH) Kölner Datenzentrum für die Geisteswissenschaften zentrale Serviceeinrichtung der Philosophischen Fakultät der Universität zu Köln Gegründet 2013 unterstützt die dauerhafte
MehrLinguistische Forschungsdaten
Linguistische Forschungsdaten Andreas Witt Institut für Deutsche Sprache (IDS), Mannheim 45 Jahre und mehr IDS, Korpora, Verfügbarkeit, rechtliche Fragen (1) 1964 Das Institut für Deutsche Sprache wird
MehrDas Digitale Wörterbuch der deutschen Sprache. Aktualisierung
Das Digitale Wörterbuch der deutschen Sprache Bestandssicherung und Aktualisierung Alexander, Geyken, Axel Herold, Lothar Lemnitzer Berlin-Brandenburgische Akademie der Wissenschaften 4. Arbeitstreffen
MehrWas ist ein Korpus. Zitat aus: Carstensen et al. Computerlinguistik und Sprachtechnologie: Eine Einführung. Kap. 4.2, Textkorpora
Was ist ein Korpus Korpora sind Sammlungen linguistisch aufbereitete(r) Texte in geschriebener oder gesprochener Sprache, die elektronisch gespeichert vorliegen. Zitat aus: Carstensen et al. Computerlinguistik
MehrKorpusannotation: Vom nachhaltigen Aufbereiten einer Ressource
Korpusannotation: Vom nachhaltigen Aufbereiten einer Ressource Kerstin Eckart 18. Februar 2013 Kerstin Eckart 1 / 45 Übersicht Konzepte und Beispiele Vorgehen beim Aufbereiten einer Ressource Entscheidungen
MehrDas CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW. Kai Zimmer BBAW
Das CLARIN-D Servicezentrum des Zentrum Sprache an der BBAW Kai Zimmer BBAW 1 Das Repositorium Das Repositorium des CLARIN- Servicezentrum des Zentrum Sprache an der Berlin-Brandenburgischen Akademie der
MehrMetadaten Nutzen und Nutzung
Metadaten Nutzen und Nutzung Axel Herold Berlin-Brandenburgische Akademie der Wissenschaften 18. Februar 2013, DTA/CLARIN-D-Konferenz Übersicht 1. Was sind eigentlich Metadaten? 2. Wozu werden Metadaten
MehrSprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k
Arbeitsstelle Computerphilologie Sprachressourcen in der Lehre: Erfahrungen aus der historischen Korpuslinguis7k Cris%na Vertan cris%na.vertan@uni hamburg.de 18.01.2011 1 Überblick Das Kontext (Lehrangebot
MehrProseminar Linguistische Annotation
Proseminar Linguistische Annotation Ines Rehbein und Josef Ruppenhofer SS 2010 Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22 Seminarplan I. Linguistische Annotation
MehrErstellen und Verwenden eines projektspezifischen TEI-Datenschemas
Erstellen und Verwenden eines projektspezifischen TEI-Datenschemas Susanne Haaf Deutsches Textarchiv, BBAW Berlin www.deutschestextarchiv.de haaf@bbaw.de Schema allgemein Inventar von Elementen Verhältnis
MehrComputerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln
Computerlinguistische Grundlagen Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Computerlinguistik: Schnittstellen Computerlinguistik aus
MehrChristian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC. www.deutschestextarchiv.de
Christian Thomas Tutorial: Korpusrecherche im DTA mithilfe von DDC Suchmaschine DDC, Linguistische Analyse Suchmaschine DDC (Dialing/DWDS-Concordancer) unscharfe Suchen, reguläre Ausdrücke, Metadatenfilter,
MehrDas Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv
Das Deutsche Textarchiv: Vom historischen Korpus zum aktiven Archiv Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Jakob Steinmann, Christian Thomas & Frank Wiegand Zusammenfassung Berlin-Brandenburgische
MehrDTA - Das Deutsche Textarchiv
DTA - Das Deutsche Textarchiv Oliver Duntze, Christiane Fritze Überblick DTA Projektvorstellung Projektrahmen, Ziele, Textauswahl Bilddigitalisierung Anforderungen, Workflow, Probleme 2. Metadatenmanagement
MehrZusammenfassung. 1 Ansprechpartner und Adressen 1
Zusammenfassung iii 1 Ansprechpartner und Adressen 1 2 Ziele und Nutzen von epub.oeaw 2 2.1 Was ist epub.oeaw?........................... 2 2.2 Nutzen für Autoren........................... 2 2.3 Nutzen
MehrDFG-Praxisregeln Digitalisierung. Stefanie Rühle KIM WS 2014 14.04.2014
DFG-Praxisregeln Digitalisierung Stefanie Rühle 14.04.2014 Überblick über die Richtlinie Metadaten Metadatenstandards Sammlungsbeschreibung CIDOC-CRM LIDO Überblick Veröffentlicht von der DFG 2009, aktuelle
Mehr97. Deutscher Bibliothekartag. VZG zvdd. Gerald Steilen / Verbundzentrale des GBV (VZG)
97. Deutscher Bibliothekartag 1 DFG-Projekt Laufzeit: 1.4.2005 bis 31.3.2008 Partner VZG (Verbundzentrale des GBV): Projektleitung hbz (Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen) AG SDD
MehrFormatvalidierung bei Forschungsdaten: Wann und wozu?
Formatvalidierung bei Forschungsdaten: Wann und wozu? 106. Deutscher Bibliothekartag Frankfurt am Main, 1. Juni 2017 Dr. Matthias Töwe, ETH-Bibliothek, ETH Zürich M. Töwe 01.06.2017 1 Überblick Formatidentifizierung
MehrDas Forschungsdatenzentrum (FDZ) Bildung am DIPF Archivierung und Bereitstellung von Daten der Bildungsforschung. Maike Porzelt
Das Forschungsdatenzentrum (FDZ) Bildung am DIPF Archivierung und Bereitstellung von Daten der Bildungsforschung Maike Porzelt FIS Fachtagung 27. April bis 28. April 2016 FORSCHUNGSDATENZENTRUM (FDZ) BILDUNG
MehrOCR-D. Thomas Stäcker KOORDINIERUNGSPROJEKT ZUR WEITERENTWICKLUNG VON OCR-VERFAHREN Gefördert von der Deutschen Forschungsgemeinschaft
OCR-D KOORDINIERUNGSPROJEKT ZUR WEITERENTWICKLUNG VON OCR-VERFAHREN Gefördert von der Deutschen Forschungsgemeinschaft 26.03.2016 Thomas Stäcker VD 16-18 Katalogisierung Bild- Digitalisierung OCR VD16
MehrKorpuslinguistik IDS-Korpora und COSMAS II
Korpuslinguistik IDS-Korpora und COSMAS II Heike Zinsmeister Korpuslinguistik 11. 11. 2011 Gliederung 1 Einleitung 2 Korpusbestand am IDS 3 Korpusrecherche mit COSMAS II 4 Referenzen Das Institut für Deutsche
MehrLibrary of Labs Application Profile (LiLa AP)
Evaluierung und Zertifizierung von datenprofilen Teil II Application Profile (LiLa AP) Claus Spiecker Universitätsbibliothek Stuttgart Co-funded by the Community programme econtentplus 4. Leipziger Kongress
MehrForschungsinfrastrukturen: Verfügbarkeit von Daten und deren Langzeitarchivierung
SFB 833: Bedeutungskonstitution - Dynamik und Adaptivität sprachlicher Strukturen Forschungsinfrastrukturen: Verfügbarkeit von Daten und deren Langzeitarchivierung Erfahrungen und Verfahren in Tübingen
MehrSprachtechnologie als Grundlage für die maschinelle Auswertung von Texten
Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten Dr-Ing Michael Piotrowski Leibniz-Institut für Europäische Geschichte @true_mxp Bamberg, 20 November 2015
MehrLAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora
LAUDATIO - Eine Infrastruktur zur linguistischen Analyse historischer Korpora Carolin Odebrecht, Humboldt-Universität zu Berlin Florian Zipser, Humboldt-Universität zu Berlin, INRIA Historische Textkorpora
MehrIch baue ein eigenes Korpus
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Ich baue ein eigenes Korpus Datengewinnung und aufbereitung Datengewinnung Das Untersuchungsinteresse bestimmt die benötigte
Mehre-infrastructure Austria Paolo Budroni Universitätsbibliothek der Universität Wien Forschungsunterstützung
e-infrastructure Austria Paolo Budroni Universitätsbibliothek der Universität Wien Forschungsunterstützung Abstract: e-infrastructure Austria [ Die Universitätsbibliothek der Universität Wien stellt ein
MehrDie TEI. in einer halben Stunde
Die TEI in einer halben Stunde Die TEI ist eine Personengruppe ist ein Satz an Computerbefehlen ist eine Reflexion über Text ist gar nicht so schwer! Geschichte 1987 XI Vassar College, Conference Ziel:
MehrTextGrid Arbeitsgruppen
TextGrid Arbeitsgruppen Eine Reihe von Arbeitsgruppen in TextGrid behandeln bestimmte Themengebiete und sichern die Arbeitspaket-übergreifende Diskussion. Sie arbeiten Themengebiete zur effizienten Informationsweitergabe
MehrDARIAH-DKPro-Wrapper Nils Reimers
DARIAH-DKPro-Wrapper Nils Reimers 1 Maschinelle Textverarbeitung In einer Pipeline werden unterschiedliche Komponenten zusammengeschaltet Word- / Satztrennung Stopp- Wörter Lemmatisierung Named- Entities
MehrPerspektiven der automatischen Vernetzung von WDG und DWB-Erstausgabe. Alexander Geyken (DWDS) & Norbert Schrader (DWB)
Perspektiven der automatischen Vernetzung von WDG und DWB-Erstausgabe 6. Arbeitstreffen deutschsprachiger Akademiewörterbücher 2.-5. September 2009 Alexander Geyken (DWDS) & Norbert Schrader (DWB) Gliederung
MehrForschungsdatenmanagement an der Technischen Universität Berlin
Forschungsdatenmanagement an der Technischen Universität Berlin Monika Kuberek, Universitätsbibliothek der TU Berlin Lost in Dissertation? Von der Literaturverwaltung zur Publikation Eine Vortragsreihe
MehrForschungsdatenmanagement an der Technischen Universität Berlin
Forschungsdatenmanagement an der Technischen Universität Berlin Monika Kuberek, Universitätsbibliothek der TU Berlin Lost in Dissertation? Von der Literaturverwaltung bis zur Publikation Eine Veranstaltungsreihe
MehrDer oxygen-xml-editor und das DTA-oXygen-Framework DTAoX
Der oxygen-xml-editor und das DTA-oXygen-Framework DTAoX Matthias Boenig & Susanne Haaf Der oxygen-xml-editor: Erste Schritte Unicode und Schriften Der Text sollte im Unicode-Standard kodiert sein Häufige
MehrALEXANDER GEYKEN, Wege zu einem historischen Referenzkorpus des Deutschen: das Projekt Deutsches Textarchiv,
URN: urn:nbn:de:kobv:b4-opus-24424 ALEXANDER GEYKEN, Wege zu einem historischen Referenzkorpus des Deutschen: das Projekt Deutsches Textarchiv, in: Perspektiven einer corpusbasierten historischen Linguistik
MehrErschließung von Autographen in Visual Library
Erschließung von Autographen in Visual Library Editionsarbeit unter Berücksichtigung internationaler Standards Dienstag, 23. Juni 2015 Akademie der Künste Berlin Juni 2015 - Akademie der Künste Berlin
MehrCOSMAS II Corpus Search Management and Analysis System
COSMAS II Corpus Search Management and Analysis System http://www.ids-mannheim.de/cosmas2/ 13. November 2012, Jeanette Isele Seminar: Korpuslinguistik Übersicht Theoretischer Teil Was ist COSMAS II? Die
MehrDer DFG-Viewer als nationaler Standard im Spannungsfeld medientypologischer Diversität
Der DFG-Viewer als nationaler Standard im Spannungsfeld medientypologischer Diversität Einer für alle, alle für einen? Mai 27, 2015 104. Bibliothekartag, Nürnberg Einführung Der DFG-Viewer ist ein Browser-Webdienst
MehrSwantje Westpfahl & Thomas Schmidt POS für(s) FOLK
Swantje Westpfahl & Thomas Schmidt POS für(s) FOLK Problemanalyse des POS- Taggings für spontansprachliche Daten anhand des Forschungsund Lehrkorpus Gesprochenes Deutsch 2 FOLK Forschungs- und Lehrkorpus
MehrOpen Archives. Gudrun Fischer Universität Duisburg-Essen
Open Archives Gudrun Fischer Universität Duisburg-Essen Inhalt Harvesting-Protokoll Archive Services OAI für die Informatik Implementierung 2004-09-30 Gudrun Fischer: Open Archives 2 Open Archives Protocol
MehrKatalogdaten als Linked Open Data aufbereiten und nutzen Teil 2: Technik
aufbereiten und nutzen Teil 2: Technik Magnus Pfeffer (Dipl.-Inform., M.A. LIS) Universität Mannheim, Universitätsbibliothek magnus.pfeffer@bib.uni-mannheim.de 2 Überblick Szenario Daten Varianten der
MehrBig Data in den Digital Humanities?
Big Data in den Digital Humanities? Prof. Dr. Gerhard Heyer Abteilung Automatische Sprachverarbeitung, Universität Leipzig www.scads.de FRAGEN Digital Humanities sind keine klassische Big Data Anwendung.
MehrQualitätsmanagement in der GDI-DE
222 Qualitätsmanagement in der GDI-DE Daniela HOGREBE Zusammenfassung Der vorliegende Beitrag stellt die Ziele und methodischen Ansätze des Qualitätsmanagements der GDI-DE vor, beschreibt beispielhaft
MehrOpen Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)
, XML LV BF23 (0F32) Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH) Achim Oßwald FH Köln Institut für Informationswissenschaft Wintersemester 2010 (Stand: 3.12.10) 1/ 18 OAI-PMH
MehrCLARIN in Stuttgart: Metadaten, ehumanities und trainierbare Werkzeuge
CLARIN in Stuttgart: Metadaten, ehumanities und trainierbare Werkzeuge Kerstin Eckart Universität Stuttgart Institut für Maschinelle Sprachverarbeitung Pfaffenwaldring 5b 70569 Stuttgart Berlin, 27.11.2013
MehrKorpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus LAUDATIO-Workshop Hagen Hirschmann
Korpuslinguistik Annis 3 -Korpussuchtool Linguistische Suchen im Ridges-Korpus 07.10.2014 LAUDATIO-Workshop Hagen Hirschmann Was ist ANNIS? ANNIS steht für ANNotation of Information Structure http://www.sfb632.uni-potsdam.de/d1/annis/
MehrChristoph Broschinski, <broschinski@uni bielefeld.de>
Normalisierung von Lizenzinformationen in OAI Metadaten: Ein Beitrag zur Verbesserung der Open Access Statusanzeige in wissenschaftlichen Suchmaschinen Christoph Broschinski,
MehrTwitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets
Twitter als interaktive Erweiterung des Mediums Fernsehen: Inhaltliche Analyse von Tatort- Tweets Manuel Burghardt 1, Heike Karsten 2, Melanie Pflamminger 2 und Christian Wolff 1 Lehrstuhl für Medieninformatik
MehrDie Metadateninfrastruktur des CLARIN-Projektes
Die Metadateninfrastruktur des CLARIN-Projektes Thomas Eckart Abteilung Automatische Sprachverarbeitung Universität Leipzig, Deutschland teckart@informatik.uni-leipzig.de 1 Agenda 1. Forschungsinfrastruktur
MehrZugang zu archivischer Information - invenio und Portale. Frauke Laufhütte, Rainer Jacobs 25.11.2014 1
Zugang zu archivischer Information - invenio und Portale 25.11.2014 1 Entwicklung von invenio: Integration als Modul in die Archivverwaltungsanwendung BASYS 2 realisiert als Web-Anwendung 2011: Entwicklung
MehrTextual Gridicism Edieren mit TextGrid
Textual Gridicism Edieren mit TextGrid Florian Enders, Celia Krause, Philipp Vanscheidt (Universität Trier / Technische Universität Darmstadt) 18. Januar 2013 Digitale Rekonstruktionen mittelalterlicher
MehrBASE ein kooperativer Service im wissenschaftlichen Informationsnetzwerk. Friedrich Summann Universitätsbibliothek Bielefeld
BASE ein kooperativer Service im wissenschaftlichen Informationsnetzwerk Friedrich Summann Universitätsbibliothek Bielefeld BASE = Bielefeld Academic Search Engine www.base-search.net Spezialsuchmaschine
MehrDaten Methoden Theorien Definitionen & Operationalisierungen
Operationale Verfahren Daten Methoden Theorien Definitionen & Operationalisierungen Das Überbrückungsproblem Hypothese Explizite Formulierung einer als wahr vermuteten, begründbaren Aussage über das Phänomen
Mehrswissbib Ein Metakatalog für die Schweizer Bibliotheken
OCLC- Informationstag Zürich 21. April 2010 swissbib Ein Metakatalog für die Schweizer Bibliotheken Uwe Böttcher Projektleiter swissbib OCLC Themen der swissbib -Präsentation Das Projekt swissbib ein Überblick
MehrForschungsdatenanbindung an Repositorien
Forschungsdatenanbindung an Repositorien Matthias Schulze Universitätsbibliothek Stuttgart Überblick Einführung: Beispiele und Perspektiven OPUS BW-eLabs Zusammenfassung Ausblick Einführung: Beispielhafte
MehrPartielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation
Partielle Analyse von Personen-, Orts- und Zeitangaben in Texten aus der Museumsdokumentation Martin Scholz martin.scholz@i8.informatik.uni-erlangen.de 05.02.2009 Inhalt Anwendungsfall: Goldschmiede-Texte
MehrJudaica recherchieren
Judaica recherchieren Unterstützung bei der Realisierung forschungsspezifischer Suchlösungen durch die generische Suche von DARIAH-DE de.dariah.eu Harald Lordick Steinheim-Institut Tobias Gradl Universität
MehrDPI: Digitale Psychologie Information
DPI: Digitale Psychologie Information DPI: Digitale Psychologie Information DFG-gefördertes Projekt "Digitale Psychologie- Information" des ZPID/ Zentrum für Psychologische Information und Dokumentation
MehrKurzüberblick IIIF. Dozent/in: Stefanie Rühle Veranstaltung: KIM WS 2017 Datum:
Kurzüberblick IIIF Dozent/in: Stefanie Rühle Veranstaltung: Datum: IIIF International Image Interoperability Framework Einheitlicher Zugriff auf Digitale Bilder die überall auf der Welt bereitgestellt
MehrBlockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung
Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus und seine Aufbereitung Bestandteile eines Korpus sind i.d.r.: Primärdaten Metadaten Annotationen Annotationen
MehrTutorial: Automatische Textannotation mit WebLicht
Tutorial: Automatische Textannotation mit WebLicht Inhalt 1. Was ist WebLicht?... 1 2. WebLicht starten... 1 3. Text importieren... 2 4. Verarbeitungsketten... 2 5. Wortarten- Tagging und Lemmatisierung...
MehrEAD Facts & Figures Grundlagen, Werkzeuge und die Zukunft mit EAD3. VSA-Workshop EAD, , Bern Tobias Wildi,
EAD Facts & Figures Grundlagen, Werkzeuge und die Zukunft mit EAD3 VSA-Workshop EAD, 12.3.2014, Bern Tobias Wildi, t.wildi@docuteam.ch 1 Agenda 1. Grundlagen Ziel und Zweck von EAD Aufbau und Struktur
MehrArchitektur der DARIAH-DE Forschungsinfrastruktur
Architektur der DARIAH-DE Forschungsinfrastruktur 1. Sitzung des Wissenscha2lichen Beirates von DARIAH- DE 14. September 2012, GöHngen Rainer Stotzka, Peter Gietz, Rene Smolarski, u.v.a. de.dariah.eu Dienste
MehrLangzeitarchivierung im Museum -ein Bericht zu praktischen und technischen Aspekten
Langzeitarchivierung im Museum -ein Bericht zu praktischen und technischen Aspekten nestor-tagung Alte Börse, Leipzig 02.03.2009 Dr. Werner Schweibenz, BSZ Überblick Überblick und Einordnung Praktische
MehrX-Planung im. Amt Kleine Elster (Niederlausitz) Massen im Landkreis Elbe-Elster
X-Planung im Amt Kleine Elster (Niederlausitz) Massen im Landkreis Elbe-Elster Amt Kleine Elster Niederlausitz im Süden des Landes Brandenburg im Landkreis Elbe - Elster Amtsdirektor: Gottfried Richter
MehrEin Tag sagt mehr als tausend Worte? Kreatives Potenzial und Neotags in Tagging-Systemen. Christof Niemann
Ein Tag sagt mehr als tausend Worte? Kreatives Potenzial und Neotags in Tagging-Systemen Christof Niemann Themen Wissensorganisation im Internet Intelligenz und Kreativität im Web 2.0 Tagging-Systeme als
MehrDie DARIAH-DE Demonstratoren
Die DARIAH-DE Demonstratoren 1. Sitzung des Wissenschaftlichen Beirates von DARIAH-DE 14. September 2012, Göttingen de.dariah.eu Demonstratoren in DARIAH DARIAH Demonstratoren sind fachwissenschaftliche
Mehr8. Tübinger Symposium Handschriften, Alte Drucke. VD16/17 Massendigitalisierung Neue Entwicklungen. 8. Tübinger Symposium Handschriften, Alte Drucke
VD16/17 Massendigitalisierung Neue Entwicklungen VD16/17 Massendigitalisierung Neue Entwicklungen Was ist VD16/17 Massendigitalisierung? Warum ein DFG-Viewer? Technische Standards Datenformat Schnittstellen
MehrHerausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann
Herausgeber Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann Im Auftrag von nestor Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen
MehrTEI und Textkorpora: Fehlerklassifikation und Qualitätskontrolle vor, während und nach der Texterfassung im Deutschen Textarchiv
Alexander Geyken, Susanne Haaf, Bryan Jurish, Matthias Schulz, Christian Thomas, Frank Wiegand TEI und Textkorpora: Fehlerklassifikation und Qualitätskontrolle vor, während und nach der Texterfassung im
MehrMarine Network for Integrated Data Access
Marine Network for Integrated Data Access Workflows vom Schiff zum Portal Deutsche Meeresforschung Roland Koppe Überblick Gefördert durch die Helmholtz Gemeinschaft Laufzeit 02/2012 07/2014 (Phase 1) Koordination
MehrIntegration von multimedialen Objekten in den GVK
Integration von multimedialen Objekten in den GVK Elena Derr, 28. Februar 2007 Übersicht ELAN-Projekt: Ziele und Aufgaben Aufgaben der TIB und UB Hannover Dauerhafter Nachweis Integration und Bereitstellung
MehrTECHNISCH-ABSTRAKTE METADATEN FÜR DIE SUCHE NACH HISTORISCHEN KORPORA
Korpuslinguistik Humboldt-Universität zu Berlin TECHNISCH-ABSTRAKTE METADATEN FÜR DIE SUCHE NACH HISTORISCHEN KORPORA 05102015 1 Ich suche historische Texte, die in Fraktur gedruckt sind! Motivation Ich
MehrIST Austria. Forschungsinstitut Grundlagenforschung Campus eröffnet 2009 Ziel: Spitzenforschung in Österreich. Freitag, 14.
IST Austria Forschungsinstitut Grundlagenforschung Campus eröffnet 2009 Ziel: Spitzenforschung in Österreich Gliederung Publikationsdatenbank IST Austria Repository Forschungsdaten publizieren & teilen
MehrAutomatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:
02. Mai 2005 P R O J E C T C O N S U L T GmbH GmbH 1 Agenda Einführung Automatische Klassifikation Qualität Veränderung des Arbeitsumfeldes Ausblick GmbH 2 1 Einführung GmbH 3 Eine Herausforderung geordnete
MehrNeue Dienste der Elektronischen Zeitschriftenbibliothek
Dr. Max Mustermann Referat Kommunikation & Marketing Verwaltung Neue Dienste der Elektronischen Zeitschriftenbibliothek Dr. Evelinde Hutzler Universitätsbibliothek Regensburg 106. Bibliothekartag 2017,
MehrWerkzeuge für die Unterstützung von Autoren und Herausgebern von Open-Access-Publikationen
Humboldt-Universität zu Berlin Jahreskolloquium 16. Mai 2006 Open Access an der Humboldt-Universität Werkzeuge für die Unterstützung von Autoren und Herausgebern von Open-Access-Publikationen Uwe Müller
MehrPROBADO Systemarchitektur
PROBADO Systemarchitektur Maximilian Scherer Interactive Graphics Systems Group TU Darmstadt, Germany maximilian.scherer@gris.tu-darmstadt.de March 8, 2011 Maximilian Scherer 1 Überblick PROBADO Core:
MehrHerausgeber. Im Auftrag von. Kontakt. Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann
Herausgeber Heike Neuroth Hans Liegmann Achim Oßwald Regine Scheffel Mathias Jehn Stefan Strathmann Im Auftrag von nestor Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen
MehrGenerelle Planung Generische Entwicklung Planungen (Ausblick 2017/2018)
Generelle Planung Generische Entwicklung Planungen (Ausblick 2017/2018) Vorsicht! Auf Italienisch! Wer sich verloren fühlt, HIER lesen! Generelle Planung Generische Entwicklung Planungen (Ausblick 2017/2018)
MehrAblieferung von Netzpublikationen an die Deutsche Nationalbibliothek. Maren Brodersen
Ablieferung von Netzpublikationen an die Deutsche Nationalbibliothek Maren Brodersen Inhaltsverzeichnis Pflichtablieferung - Ablieferung von Netzpublikationen Schnittstellen zur Ablieferung - Problemstellung
MehrDer TEI-Header. TEI-Guidelines Kap. 2
TEI-Guidelines Kap. 2 Warum ein Header?! Das Element versammelt alle Metadaten über den elektronischen Text! Wichtig beim Austausch oder der Publikation der elektronischen Daten Folie 2 Warum
MehrANNOTATIONS- SCHULUNGEN
ANNOTATIONS- SCHULUNGEN M4.3V Bastian Entrup Juli 2013 INHALT 1. Schulungen im GeoBib Projekt... 2 2. Übersicht: Schulungen... 2 2.1. Wiki-Schulungen... 2 2.2. XML-Schulungen... 3 2.2.1. XML-Schulung durch
MehrEuropeana. EU-Projekte zu Europeana. Abteilung Forschung und Entwicklung. DAS Portal zu Europas digitalem kulturellen Erbe. Veronika Prändl-Zika
Europeana DAS Portal zu Europas digitalem kulturellen Erbe EU-Projekte zu Europeana Abteilung Forschung und Entwicklung Veronika Prändl-Zika Österreich liest, 18.-24. Oktober 2010 Österreichische Nationalbibliothek
MehrDas BAS-Repository. Uwe D. Reichel Institut für Phonetik und sprachverarbeitung
Das BAS-Repository Uwe D. Reichel Institut für Phonetik und sprachverarbeitung reichelu@phonetik.uni-muenchen.de 1 Aufbau Das BAS-Repository ist über die folgende Webseite zu erreichen: https://clarin.phonetik.uni-muenchen.de/basrepository/
Mehr