Big Data in den Digital Humanities? Prof. Dr. Gerhard Heyer Abteilung Automatische Sprachverarbeitung, Universität Leipzig www.scads.de
FRAGEN Digital Humanities sind keine klassische Big Data Anwendung. Wo sind die Unterschiede? Welche Besonderheiten der Digital Humanities sind dabei zu berücksichtigen? Welche Big Data Verfahren können sinnvoll in den Digital Humanities eingesetzt werden? www.scads.de 2
AGENDA Definitionen - Big Data - Digital Humanities Besonderheiten der DH, Unterschiede der Anwendungen - Datenaufbereitung - Datenannotation - (iterative) Datenauswertung (auch annotierter Daten) Prototypische Big Data Anwendungen in den DH - Forschungsinfrastrukturen für verteilte Ressourcen - Zitationsanalyse auf Grundlage einer hierarchischen Textrepräsentation www.scads.de 3
TERMS Big Data Keine einheitliche Definition, aber Bezug zu den Big V wesentlich: Big V Technischer Aspekt Volume Speicherbedarf Velocity Verarbeitungsgeschwindigkeit Variety Schemata Veracity Herkunft/Glaubwürdigkeit (Value Qualität) www.scads.de 4
TERMS Big Data In klassischen Big Data-Anwendungsbereichen liegt der Fokus nicht gleimäßig auf allen Vs Häufig werden Verbesserungen in Volume und Velocity als die einzigen Aufgaben der Informatik angesehen Kernanwendungen: Sensornetzwerke und Umweltdaten, Simulationen in Wissenschaft und Industrie www.scads.de 5
KERNANWENDUNGEN
TERMS Digital Humanities Supporting research in humanities with tools from computer science [Datenbank-Spektrum, Springer Verlag, 2015 http://dx.doi.org/10.1007/s13222-014-0177-7] Intersection of computer science and disciplines of the humanities www.scads.de 7
DH ANWENDUNGEN Projekte in den Digital Humanities meist nur mit kleinen Datenmengen (Text, Bilder, Musik, Videos, usw.) meist stand-alone Anwendungen mit eigenen Daten und Standard-Tools Beispielprojekte an der Uni Leipzig oder CLARIN-D http://maply.de/public/dhd2017/index2.html https://www.clarin-d.de/de/ueber/beispielverwendungen-fuer-clarin www.scads.de 8
DATENAUFBEREITUNG - OCR P Interaktive OCR-Plattform PoCoTo
DATENAUFBEREITUNG - OCR [Masterarbeit Nathanael Philipp 2016]
DATENANNOTATION
DATENAUSWERTUNG Vergleichende Korpusanalyse auf Wortebene (Differenzanalyse)
DH ANFÄNGE Index Thomisticus: Konkordanz der Schriften des Thomas von Aquin Texte mit 11 Millionen laufenden Wortformen entspräche auf Lochkarten gespeichert einem Papiergewicht von mehr als 100 Tonnen => Big Data in den 1950ern Kooperation mit IBM, kontinuierliche Nutzung neuer Speichertechnologien (Magnetband, Festplatten, CD) Erstellung von 56 gedruckten Bänden mit 70.000 Seiten Erstes Projekt im Bereich Humanities Computing
DH ANFÄNGE Roberto Busa Archive IBM Archive
GRUNDLAGEN DER DH HEUTE Groß, Größer - Google Books Internet Archive OCR Archive Und welche Rolle spielen dabei Big Data? www.scads.de 15
NEUE ANWENDUNGEN Neue Big Data Anwendungen in den DH Zusammenführung verteilter Daten und Verfahren in einer Forschungsinfrastruktur Zusammenführung heterogener Daten (Variety) Erzeugung und Auswertung annotierter Daten Anwendung von Big Data Analytics (Velocity) www.scads.de 16
FORSCHUNGSINFRASTRUKTUREN Enironments for DH that allow for an easy and efficient evaluation selection reuse, and combination of NLP tools in combination with an easy access to different kinds of textual data that have well assigned metadata
CLARIN provide access to a huge variety of resources (data & tools) via webservices Metadata and Federated Search workflows via chaining of webservices (simple to use) webapplications, no local installations safe citation based on PIDs improvment of the distribution of resources and tools in various communities
19
CMDI Component MetaData Infrastructure Idea: Like in component based software engineering, a component describes a class of metadata (e.g. Format in Dublin Core) Components can be re-used Profil of a ressource: Unification of (one or more) components Basis: XML (instances) und XML-Schema (components / profil) Every instance of a component/profile is an XML-document that is compatible to the underlying schema Every profile describes a certain type of ressource (data, services) Components and profiles need to be registered in a registry Harvesting of metadata using OAI-PMH
21
Retrieving ressources - FCS 22
Retrieving distributed ressources - FCS 23
FCS Federated Content Search based on: SRU / CQL (Search/Retrieve via URL + Context Query Language) retrieve content from different (distributed) sites via standardized interfaces 24
WebLicht allows to build and execute chains of webservices by analyzing the metadata available for each service ensuring that the output of a predecessor service is satisfying the specification of a successor service Information about the required formats is part of the metadata of the service (encoded in CMDI)
Tokenizer service specification POS-tagger service specification
TEXT REUSE/ZITATIONSANALYSE Wo werden Textabschnitte wieder verwendet? Wer zitiert wen? Wir suchen ähnliche Textabschnitte in sehr großen Dokumentkollektionen (komplex!) - strukturierte Repräsentation von Text auf Wort-, Phrasen-, Satz- und Abschnittsebene - effiziente Ähnlichkeitssuche und -vergleich
TEXT REUSE/ZITATIONSANALYSE Picapica (M.Potthast) http://www.picapica.org/
CTS CANONICAL TEXT SERVICES A standard developed in the homermultitext project ( www.homermultitext.org), Smith et.al.2009 CTS URNs to identify and retrieve digital representations of texts URNs serve to associate objects with each other CTS consists of two parts: a URN scheme - can be used to identify texts, passages and abstractions of both protocol to find valid URNs and resolve them to text passages www.scads.de 30
CTS Specifications and Examples CTS URN has the form: \url{urn:cts:ctsnamespace:work:passage} WORK identifies an instance of a text or abstracts over multiple versions PASSAGE identifies a section within a text Example urn:cts:demo:shakespeare.sonnets:35.1-35.4 refers to Line 1 to 4 of Shakespeares Sonnet 35 www.scads.de 31
CTS Specifications and Examples urn:cts:demo:shakespeare.sonnets: Shakespeares Sonnets urn:cts:demo:shakespeare.sonnets.de: german translation urn:cts:demo:shakespeare.sonnets:35.1 line 1 in sonnet 35 urn:cts:demo:shakespeare.sonnets:35.1-35.5 line 1 to 5 in sonnet 35 urn:cts:demo:shakespeare.sonnets:35.1@grieved-35.5@faults[1] line 1 word grieved to line 5 first occurence of faults www.scads.de 32
CTS Specifications and Examples http://cts.informatik.uni-leipzig.de/canonical_text_service.htm l [Ph.D. research by Jochen Tiepmar] www.scads.de 33
DATASETS IN CTS Text Collection Languages Documents File size TEI XML Deutsches Textarchiv German 5136 3 gb Parallel Bible Corpus Multi 831 1,9 gb TED-Talks Transcripts Multi 52988 1,2 gb Perseus Greek, Latin 2569 304 mb Law German 12698 226 mb German Shakespeare works German 188 21 mb www.scads.de 34
TEXT REUSE LUTHERBIBEL IM DTA Passage: Am Anfang schuf Gott Himmel und Erde. source:urn:cts:pbc:bible.parallel.deu.luther1545:1.1.1 urn:cts:dta:weise.ertznarren.de.norm:1352 #_secht ihr herren sagte er am anfang schuf gott himmel( ) urn:cts:dta:justi.geschichte.de.norm:2062 #_am anfang schuf gott himmel und erde urn:cts:dta:seyfried.medulla.de.norm:853 Einfaches Verfahren auf Grundlage von Satzsignaturen #_am anfang schuf gott himmel und erden urn:cts:dta:hundtradowsky.judenschule01.de.norm:750 #_am anfang schuf gott himmel und urn:cts:dta:bullinger.haussbuoch.de.norm:13540 #_( )ersten buchs im anfang schuf gott den himmel urn:cts:dta:luetkemann.auffmunterung2.de.norm:8421 #_im anfang schuf gott himmel und erden ( ) urn:cts:dta:fontane.kinderjahre.de.norm:1747-1748 #_am anfang schuf gott himmel und erde( ) urn:cts:dta:fontane.kinderjahre.de.norm:1748 #_im anfang schuf gott himmel und erde www.scads.de 35
TEXT REUSE LUTHERBIBEL IM DTA Edition Cited Text passages Luther1545 2 414 Citations in DTA 127 367 Calculation Time 9d 12h 35m
TEXT REUSE Ausblick Verarbeitungsprozess parallelisierbar Auswertung mit Hilfe von PageRank und graphbasierten Clusterverfahren - Auffinden häufig verwendeter Textpassagen - Auffinden seltener, aber wichtiger Referenzen - Evolution von Texten www.scads.de 37
ZUSAMMENFASSUNG Anwendungen in den Digital Humanities unterscheiden sich von den klassischen Big Data Anwendungen - im Vordergrund steht die Annotation von Daten und die (iterative) Verarbeitung annotierter Daten DH Primärdaten sind nicht im aktuellen Sinne Big Data Aber annotierte Daten und deren Verarbeitung sind interessante Anwendungen (Volume,Variety, Velocity) Relevant für Forschungsinfrastrukturen sind insbesondere Archivierung (Daten) und Parallelisierung (Verfahren) www.scads.de 38