Big Data in den Digital Humanities?

Ähnliche Dokumente
CLARIN-D. Überblick, Metadaten, Demo. Christoph Kuras. Abt. Automatische Sprachverarbeitung Institut für Informatik, Universität Leipzig

Metadaten in CLARIN-D

Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus

BAS Repository. Uwe Reichel Institute of Phonetics and Speech Processing University of Munich. 31. März CLARIN WORKSHOP 2014: BAS Repository

Extract of the Annotations used for Econ 5080 at the University of Utah, with study questions, akmk.pdf.

LiLi. physik multimedial. Links to e-learning content for physics, a database of distributed sources

Mitglied der Leibniz-Gemeinschaft

Open Archives Initiative - Protocol for Metadata Harvesting (OAI-PMH)

Creating OpenSocial Gadgets. Bastian Hofmann

Medienkompetenz, Grafik und DTP

Karlsruhe Institute of Technology Die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)

Web Services. Web Services in the News. Vision: Web of Services. Learning for Results. DECUS Symposium 2002, Vortrag 1K07,

vcdm im Wandel Vorstellung des neuen User Interfaces und Austausch zur Funktionalität V

Markus BöhmB Account Technology Architect Microsoft Schweiz GmbH

VO Sprachtechnologien, Informations- und Wissensmanagement

SICHTWEISE VON CLARIN ZUKÜNFTIGE AUFGABEN, KOMPONENTEN, HERAUSFORDERUNGEN THORSTEN TRIPPEL, UNIVERSITÄT TÜBINGEN.

file:///c:/users/wpzsco/appdata/local/temp/tmp373d.tmp.htm

CNC ZUR STEUERUNG VON WERKZEUGMASCHINEN (GERMAN EDITION) BY TIM ROHR

From Mapping to Metadata, From Simple to Enterprise Portals? - A one Stop Solution using Portlet Technology*

Technische Universität Kaiserslautern Lehrstuhl für Virtuelle Produktentwicklung

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

STRATEGISCHES BETEILIGUNGSCONTROLLING BEI KOMMUNALEN UNTERNEHMEN DER FFENTLICHE ZWECK ALS RICHTSCHNUR FR EIN ZIELGERICHTETE

GridMate The Grid Matlab Extension

Java Tools JDK. IDEs. Downloads. Eclipse. IntelliJ. NetBeans. Java SE 8 Java SE 8 Documentation

H o c h s c h u l e D e g g e n d o r f H o c h s c h u l e f ü r a n g e w a n d t e W i s s e n s c h a f t e n

TSM 5.2 Experiences Lothar Wollschläger Zentralinstitut für Angewandte Mathematik Forschungszentrum Jülich

NEWSLETTER. FileDirector Version 2.5 Novelties. Filing system designer. Filing system in WinClient

Ansichten Der Natur,: Mit Wissenschaftlichen Erläuterungen, (German Edition) By Alexander von Humboldt

BIG UNIVERSITÄTSRECHENZENTRUM

DAS ERSTE MAL UND IMMER WIEDER. ERWEITERTE SONDERAUSGABE BY LISA MOOS

Number of Maximal Partial Clones

Namespaces, Application Profiles und Guidelines. Dr. Heike Neuroth Projekt-Management SUB Göttingen

Customer-specific software for autonomous driving and driver assistance (ADAS)

!! Um!in!ADITION!ein!HTML51Werbemittel!anzulegen,!erstellen!Sie!zunächst!ein!neues! Werbemittel!des!Typs!RichMedia.!!!!!!

Forschungsdaten in den Geisteswissenschaften die germanistische Sprachwissenschaft

DARIAH-DE Collection Registry und DARIAH Collection Description Data Model

Aufbau einer digitalen Forschungsinfrastruktur für die E-Humanities

Metadaten Nutzen und Nutzung

Aspekte der Datenqualität, Adressierung und Auszeichnung von Dokumenten

IDS Lizenzierung für IDS und HDR. Primärserver IDS Lizenz HDR Lizenz

Efficient Design Space Exploration for Embedded Systems

Magic Figures. We note that in the example magic square the numbers 1 9 are used. All three rows (columns) have equal sum, called the magic number.

Approx. 2,000 frontlist books and 18,000 backlist books; list will be updated periodically

Exploring the knowledge in Semi Structured Data Sets with Rich Queries

"What's in the news? - or: why Angela Merkel is not significant

FACHKUNDE FüR KAUFLEUTE IM GESUNDHEITSWESEN FROM THIEME GEORG VERLAG

RECHNUNGSWESEN. KOSTENBEWUßTE UND ERGEBNISORIENTIERTE BETRIEBSFüHRUNG. BY MARTIN GERMROTH

Grundlagen der Bioinformatik Assignment 2: Substring Search SS Yvonne Lichtblau

Metadaten für die Informationsversorgung von morgen: Kooperativ erstellen - gemeinsam nutzen

Big-Data and Data-driven Business KMUs und Big Data Imagine bits of tomorrow 2015

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

prorm Budget Planning promx GmbH Nordring Nuremberg

Mash-Up Personal Learning Environments. Dr. Hendrik Drachsler

DATA ANALYSIS AND REPRESENTATION FOR SOFTWARE SYSTEMS

Schnittstellen zwischen Dokumenten- und Publikationsservern und E-Learning Anwendungen

HIR Method & Tools for Fit Gap analysis

SARA 1. Project Meeting

p^db=`oj===pìééçêíáåñçêã~íáçå=

4. RADAR-WORKSHOP RADAR APPLICATION PROGRAMMING INTERFACE KARLSRUHE, 25./26. JUNI Matthias Razum, FIZ Karlsruhe

Ein Maulwurf kommt immer allein PDF

Strukturelle und linguistische Annotation in historischen Textkorpora am Beispiel des Deutschen Textarchivs

Tuning des Weblogic /Oracle Fusion Middleware 11g. Jan-Peter Timmermann Principal Consultant PITSS

file:///c:/users/wpzsco/appdata/local/temp/arc476e/tmpf79d.tmp.htm

interactive tabletop applications for learning fundamental physics project report

Heisenberg meets reading

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Sichtweise einer Humanities-Einreichtung. Kai Wörner, Universität Hamburg

Quick Reference Guide Schnellstart Anleitung

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Vertretungsstunde Englisch 5. Klasse: Grammatik

Modern Foreign Languages

Isabel Arnold CICS Technical Sales Germany z/os Explorer IBM Corporation

ColdFusion 8 PDF-Integration

ISO Reference Model

Level 1 German, 2014

Symbio system requirements. Version 5.1

Fit Fur Den Testdaf: Testdaf Musterprufung 5 - Heft MIT Audio-CD (German Edition) By collectif READ ONLINE

J RG IMMENDORFF STANDORT F R KRITIK MALEREI UND INSPIRATION ERSCHEINT ZUR AUSSTELLUNG IM MUSEUM LU

DPM_flowcharts.doc Page F-1 of 9 Rüdiger Siol :28

way finding system infonorm sign systems

XML-Technologien. Tutorium im Sommersemester Mai 2014

FEM Isoparametric Concept

USER INTERFACES ZUR AUSSTELLUNGSKURATIERUNG

Analysis Add-On Data Lineage

TalkIT: Internet Communities Tiroler Zukunftsstiftung Donnerstag,

Power Laws And Rich Get Richer Phenomena Seminar Machinelles Lernen , Tomek Grubba

auf differentiellen Leitungen

Softwareschnittstellen

Session 2: Granularität und Versionierung

PONS DIE DREI??? FRAGEZEICHEN, ARCTIC ADVENTURE: ENGLISCH LERNEN MIT JUSTUS, PETER UND BOB

Linked Open Data & Bibliotheken Warum? Was? Wie? FIS Fachtagung, Frankfurt/Main 22. Mai 2012 Adrian Pohl

ANNEX A - PROTOCOL IMPLEMENTATION CONFORMANCE STATEMENT (NORMATIVE)

Vom digitalen Hausmeister zum international vernetzten Forschungsdatenzentrum. Die Entwicklung der digitalen Infrastruktur des

Tube Analyzer LogViewer 2.3

Einsatz einer Dokumentenverwaltungslösung zur Optimierung der unternehmensübergreifenden Kommunikation

WP2. Communication and Dissemination. Wirtschafts- und Wissenschaftsförderung im Freistaat Thüringen

GAUSS towards a common certification process for GNSS applications using the European Satellite System Galileo

Six Sigma: Methoden Und Statistik Für Die Praxis (German Edition) By Helge Toutenburg;Philipp Knöfel READ ONLINE

TomTom WEBFLEET Tachograph

LEBEN OHNE REUE: 52 IMPULSE, DIE UNS DARAN ERINNERN, WAS WIRKLICH WICHTIG IST (GERMAN EDITION) BY BRONNIE WARE

Transkript:

Big Data in den Digital Humanities? Prof. Dr. Gerhard Heyer Abteilung Automatische Sprachverarbeitung, Universität Leipzig www.scads.de

FRAGEN Digital Humanities sind keine klassische Big Data Anwendung. Wo sind die Unterschiede? Welche Besonderheiten der Digital Humanities sind dabei zu berücksichtigen? Welche Big Data Verfahren können sinnvoll in den Digital Humanities eingesetzt werden? www.scads.de 2

AGENDA Definitionen - Big Data - Digital Humanities Besonderheiten der DH, Unterschiede der Anwendungen - Datenaufbereitung - Datenannotation - (iterative) Datenauswertung (auch annotierter Daten) Prototypische Big Data Anwendungen in den DH - Forschungsinfrastrukturen für verteilte Ressourcen - Zitationsanalyse auf Grundlage einer hierarchischen Textrepräsentation www.scads.de 3

TERMS Big Data Keine einheitliche Definition, aber Bezug zu den Big V wesentlich: Big V Technischer Aspekt Volume Speicherbedarf Velocity Verarbeitungsgeschwindigkeit Variety Schemata Veracity Herkunft/Glaubwürdigkeit (Value Qualität) www.scads.de 4

TERMS Big Data In klassischen Big Data-Anwendungsbereichen liegt der Fokus nicht gleimäßig auf allen Vs Häufig werden Verbesserungen in Volume und Velocity als die einzigen Aufgaben der Informatik angesehen Kernanwendungen: Sensornetzwerke und Umweltdaten, Simulationen in Wissenschaft und Industrie www.scads.de 5

KERNANWENDUNGEN

TERMS Digital Humanities Supporting research in humanities with tools from computer science [Datenbank-Spektrum, Springer Verlag, 2015 http://dx.doi.org/10.1007/s13222-014-0177-7] Intersection of computer science and disciplines of the humanities www.scads.de 7

DH ANWENDUNGEN Projekte in den Digital Humanities meist nur mit kleinen Datenmengen (Text, Bilder, Musik, Videos, usw.) meist stand-alone Anwendungen mit eigenen Daten und Standard-Tools Beispielprojekte an der Uni Leipzig oder CLARIN-D http://maply.de/public/dhd2017/index2.html https://www.clarin-d.de/de/ueber/beispielverwendungen-fuer-clarin www.scads.de 8

DATENAUFBEREITUNG - OCR P Interaktive OCR-Plattform PoCoTo

DATENAUFBEREITUNG - OCR [Masterarbeit Nathanael Philipp 2016]

DATENANNOTATION

DATENAUSWERTUNG Vergleichende Korpusanalyse auf Wortebene (Differenzanalyse)

DH ANFÄNGE Index Thomisticus: Konkordanz der Schriften des Thomas von Aquin Texte mit 11 Millionen laufenden Wortformen entspräche auf Lochkarten gespeichert einem Papiergewicht von mehr als 100 Tonnen => Big Data in den 1950ern Kooperation mit IBM, kontinuierliche Nutzung neuer Speichertechnologien (Magnetband, Festplatten, CD) Erstellung von 56 gedruckten Bänden mit 70.000 Seiten Erstes Projekt im Bereich Humanities Computing

DH ANFÄNGE Roberto Busa Archive IBM Archive

GRUNDLAGEN DER DH HEUTE Groß, Größer - Google Books Internet Archive OCR Archive Und welche Rolle spielen dabei Big Data? www.scads.de 15

NEUE ANWENDUNGEN Neue Big Data Anwendungen in den DH Zusammenführung verteilter Daten und Verfahren in einer Forschungsinfrastruktur Zusammenführung heterogener Daten (Variety) Erzeugung und Auswertung annotierter Daten Anwendung von Big Data Analytics (Velocity) www.scads.de 16

FORSCHUNGSINFRASTRUKTUREN Enironments for DH that allow for an easy and efficient evaluation selection reuse, and combination of NLP tools in combination with an easy access to different kinds of textual data that have well assigned metadata

CLARIN provide access to a huge variety of resources (data & tools) via webservices Metadata and Federated Search workflows via chaining of webservices (simple to use) webapplications, no local installations safe citation based on PIDs improvment of the distribution of resources and tools in various communities

19

CMDI Component MetaData Infrastructure Idea: Like in component based software engineering, a component describes a class of metadata (e.g. Format in Dublin Core) Components can be re-used Profil of a ressource: Unification of (one or more) components Basis: XML (instances) und XML-Schema (components / profil) Every instance of a component/profile is an XML-document that is compatible to the underlying schema Every profile describes a certain type of ressource (data, services) Components and profiles need to be registered in a registry Harvesting of metadata using OAI-PMH

21

Retrieving ressources - FCS 22

Retrieving distributed ressources - FCS 23

FCS Federated Content Search based on: SRU / CQL (Search/Retrieve via URL + Context Query Language) retrieve content from different (distributed) sites via standardized interfaces 24

WebLicht allows to build and execute chains of webservices by analyzing the metadata available for each service ensuring that the output of a predecessor service is satisfying the specification of a successor service Information about the required formats is part of the metadata of the service (encoded in CMDI)

Tokenizer service specification POS-tagger service specification

TEXT REUSE/ZITATIONSANALYSE Wo werden Textabschnitte wieder verwendet? Wer zitiert wen? Wir suchen ähnliche Textabschnitte in sehr großen Dokumentkollektionen (komplex!) - strukturierte Repräsentation von Text auf Wort-, Phrasen-, Satz- und Abschnittsebene - effiziente Ähnlichkeitssuche und -vergleich

TEXT REUSE/ZITATIONSANALYSE Picapica (M.Potthast) http://www.picapica.org/

CTS CANONICAL TEXT SERVICES A standard developed in the homermultitext project ( www.homermultitext.org), Smith et.al.2009 CTS URNs to identify and retrieve digital representations of texts URNs serve to associate objects with each other CTS consists of two parts: a URN scheme - can be used to identify texts, passages and abstractions of both protocol to find valid URNs and resolve them to text passages www.scads.de 30

CTS Specifications and Examples CTS URN has the form: \url{urn:cts:ctsnamespace:work:passage} WORK identifies an instance of a text or abstracts over multiple versions PASSAGE identifies a section within a text Example urn:cts:demo:shakespeare.sonnets:35.1-35.4 refers to Line 1 to 4 of Shakespeares Sonnet 35 www.scads.de 31

CTS Specifications and Examples urn:cts:demo:shakespeare.sonnets: Shakespeares Sonnets urn:cts:demo:shakespeare.sonnets.de: german translation urn:cts:demo:shakespeare.sonnets:35.1 line 1 in sonnet 35 urn:cts:demo:shakespeare.sonnets:35.1-35.5 line 1 to 5 in sonnet 35 urn:cts:demo:shakespeare.sonnets:35.1@grieved-35.5@faults[1] line 1 word grieved to line 5 first occurence of faults www.scads.de 32

CTS Specifications and Examples http://cts.informatik.uni-leipzig.de/canonical_text_service.htm l [Ph.D. research by Jochen Tiepmar] www.scads.de 33

DATASETS IN CTS Text Collection Languages Documents File size TEI XML Deutsches Textarchiv German 5136 3 gb Parallel Bible Corpus Multi 831 1,9 gb TED-Talks Transcripts Multi 52988 1,2 gb Perseus Greek, Latin 2569 304 mb Law German 12698 226 mb German Shakespeare works German 188 21 mb www.scads.de 34

TEXT REUSE LUTHERBIBEL IM DTA Passage: Am Anfang schuf Gott Himmel und Erde. source:urn:cts:pbc:bible.parallel.deu.luther1545:1.1.1 urn:cts:dta:weise.ertznarren.de.norm:1352 #_secht ihr herren sagte er am anfang schuf gott himmel( ) urn:cts:dta:justi.geschichte.de.norm:2062 #_am anfang schuf gott himmel und erde urn:cts:dta:seyfried.medulla.de.norm:853 Einfaches Verfahren auf Grundlage von Satzsignaturen #_am anfang schuf gott himmel und erden urn:cts:dta:hundtradowsky.judenschule01.de.norm:750 #_am anfang schuf gott himmel und urn:cts:dta:bullinger.haussbuoch.de.norm:13540 #_( )ersten buchs im anfang schuf gott den himmel urn:cts:dta:luetkemann.auffmunterung2.de.norm:8421 #_im anfang schuf gott himmel und erden ( ) urn:cts:dta:fontane.kinderjahre.de.norm:1747-1748 #_am anfang schuf gott himmel und erde( ) urn:cts:dta:fontane.kinderjahre.de.norm:1748 #_im anfang schuf gott himmel und erde www.scads.de 35

TEXT REUSE LUTHERBIBEL IM DTA Edition Cited Text passages Luther1545 2 414 Citations in DTA 127 367 Calculation Time 9d 12h 35m

TEXT REUSE Ausblick Verarbeitungsprozess parallelisierbar Auswertung mit Hilfe von PageRank und graphbasierten Clusterverfahren - Auffinden häufig verwendeter Textpassagen - Auffinden seltener, aber wichtiger Referenzen - Evolution von Texten www.scads.de 37

ZUSAMMENFASSUNG Anwendungen in den Digital Humanities unterscheiden sich von den klassischen Big Data Anwendungen - im Vordergrund steht die Annotation von Daten und die (iterative) Verarbeitung annotierter Daten DH Primärdaten sind nicht im aktuellen Sinne Big Data Aber annotierte Daten und deren Verarbeitung sind interessante Anwendungen (Volume,Variety, Velocity) Relevant für Forschungsinfrastrukturen sind insbesondere Archivierung (Daten) und Parallelisierung (Verfahren) www.scads.de 38