Grenzen und Gemeinsamkeiten: Die Beziehung zwischen der Computerlinguistik und den Digital Humanities

Ähnliche Dokumente
SALSAH eine virtuelle Forschungsumgebung für die Geisteswissenschaften

Schulung FRBR Functional Requirements for Bibliographic Records. Modul E: Der FRBRisierte Katalog oder Was bringt uns FRBR?

THE KNOWLEDGE PEOPLE. CompanyFlyer.indd :48:05

Metadaten bei der Digitalisierung von analogen archivalischen Quellen. Kathrin Mileta, Dr. Martina Wiech

Präsentation: Google-Kalender. Walli Ruedi Knupp Urdorf

Die Bundes-Zentrale für politische Bildung stellt sich vor

Digital Humanities in Forschung und Lehre

Hinweise für das Schreiben einer Bachelor-Arbeit im Fachbereich Wirtschaftspsychologie

Die neue Aufgabe von der Monitoring-Stelle. Das ist die Monitoring-Stelle:

Windows Server 2012 R2 Essentials & Hyper-V

Ein Muster für ein Thesis Proposal

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

Virtual Roundtable: Business Intelligence - Trends

3 Great Place to Work Institut Deutschland

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Ein Blick voraus. des Autors von C++: Bjarne Stroustrup Conrad Kobsch

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Das Persönliche Budget in verständlicher Sprache

Was meinen die Leute eigentlich mit: Grexit?

Begriff 1 Begriff 2 Datenbank 1

Agile Vorgehensmodelle in der Softwareentwicklung: Scrum

Was ist Sozial-Raum-Orientierung?

Grenzen der Formalisierung: zweitbeste Wege?

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Auswahlabfragen mit ACCESS

Anleitung über den Umgang mit Schildern

Übung 9 - Lösungsvorschlag

Maschinelle Übersetzung

Die Beitrags-Ordnung vom Verein

Vivit TQA Anwendertreffen 2014

Grundbegriffe der Informatik

4. AUSSAGENLOGIK: SYNTAX. Der Unterschied zwischen Objektsprache und Metasprache lässt sich folgendermaßen charakterisieren:

Zeichen bei Zahlen entschlüsseln

Arbeiten Sie gerne für die Ablage?

Kateryna Khyzhniak. Universität Konstanz Geistenswissenschaftliche Sektion, Sprachwissenschaften Aufenthaltsbericht

Aussage: Das Seminar ist hilfreich für meine berufliche Entwicklung

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Innovative Kommunikations- und Verwaltungslösung für Unternehmen in der Pflege- und Gesundheitsbranche

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

ITIL 3LGM²: Methoden und Werkzeuge für das IT Service Management im Krankenhaus

Was leistet ein Content Management System?

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Grundlagen der Informatik

Das Social Semantic Web

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Informationsblatt zu den Seminaren am Lehrstuhl. für Transportsysteme und -logistik

1 Mathematische Grundlagen

Alle gehören dazu. Vorwort

PRAKTISCHE BEISPIELE FÜR SCHREIBTISCHARBEIT. Unterpunkt 2.5

Formale Sprachen und Grammatiken

Konzentration auf das. Wesentliche.

Zentrum. Zentrum Ideenmanagement. Zentrum Ideenmanagement. Umfrage zur Nutzung von mobilen Endgeräten im Ideenmanagement

Kurzanleitung zur Bereitstellung von Sachverhalten und Lösungen zum Universitätsrepetitorium auf dem Server unirep.rewi.hu-berlin.

Abiturprüfung ab dem Jahr 2014

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Bilder Schärfen und Rauschen entfernen

Die Post hat eine Umfrage gemacht

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Der Einsatz von Social Media im Stadtmarketing. Alexander Masser, Hans-Jürgen Seimetz, Peter Zeile

Erfassung von Umgebungskontext und Kontextmanagement

Viele Bilder auf der FA-Homepage

Einleitende Bemerkungen

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Summer Workshop Mehr Innovationskraft mit Change Management

VRE als Prêt à Porter

Das Institut für berufliche Aus- und Fortbildung stellt sich vor

Nachkalkulation. Hat sich das Objekt CVO Auxilium hilden im Juni rentiert?

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

Klausur WS 2006/07 Programmiersprache Java Objektorientierte Programmierung II 15. März 2007

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

FORUM HANDREICHUNG (STAND: AUGUST 2013)

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Die SPD und die Grünen machen im Niedersächsischen Landtag. Alle Menschen sollen in der Politik mitmachen können.

Gestaltung wissenschaftlicher Poster

Herzlich Willkommen 26. November 2012, Fachtagung in Peiting-Herzogsägmühle

Nutzungsmotivation von mobile.de iphone App & Mobilportal sowie Vergleich der klassischen Website Nutzung Ergebnisse der mobile.

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Gesetz zur Berufskraftfahrerqualifikation (BKrfFQG)

Auswertung qualitativer Interviews

Vortrag zum Thema. Zugang zum Recht. oder. Wie bekomme ich meinem Recht?

Gönner der Junioren. Patenschaft für Tennistalente. im Freiamt

Installation OMNIKEY 3121 USB

Enterprise Content Management

Dr. Guido Schwarz Forschung, Schulung, Beratung; A Wien, Edelhofgasse 31/8; Tel: Mobil:

SJ OFFICE - Update 3.0

Kooperatives Bibliotheksmarketing: Was hat sich an den Hochschulen für Angewandte Wissenschaften bewährt, damit Bibliotheken sich auszahlen?

Investitionsentscheidungsrechnung vollständiger Finanzplan

Vernunft und Temperament Eine Philosophie der Philosophie

Namibiakids e.v./ Schule, Rehoboth, Namibia

Informationen zu Masterarbeit und Masterseminar für das Studium Umweltsystemwissenschaften Nachhaltigkeitsorientiertes Management

Zur Bestätigung wird je nach Anmeldung (Benutzer oder Administrator) eine Meldung angezeigt:

Lokale Installation von DotNetNuke 4 ohne IIS

akti nsplan Inklusion und Teilhabe Aktions-Plan der Lebenshilfe Hannover zur UN-Behinderten-Rechts-Konvention UN-BRK 2013 bis 2018 Leichte Sprache

YouTube: Video-Untertitel übersetzen

FAQ Unsere Fachkräfte von morgen!

Transkript:

Grenzen und Gemeinsamkeiten: Die Beziehung zwischen der Computerlinguistik und den Digital Humanities Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik

Kurzvorstellung ASV Abteilung für Automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig Teil der Angewandten Informatik Ziel ist nicht die Implementierung von linguistischen Theorien, sondern Anwendung von informatischen Modellen und Verfahren auf Sprache Schwerpunkt Text Datenbanken, Text Mining und Text basierte Forschungsinfrastrukturen Zahlreiche Projekt mit Industrie und in den ehumanities 2

Noch eine Bemerkung vorweg Eigener Hintergrund auch in der Philosophie und Linguistik Philosophy Tripos, University of Cambridge Promotion in formaler Semantik (Mentor Helmut Schnelle) 3

Übersicht Wie möchte ich argumentieren? 1. Die detaillierte Bereitstellung und Analyse von Text ist ein wesentliches Arbeitsmittel der (textorientierten) Geisteswissenschaften 2. Die Berücksichtigung der linguistischen Dimension von Text erschließt diesen wichtige Interpretationsmöglichkeiten 4

Zum Terminus Geisteswissenschaften (humanities) Wissenschaftshistorisch im frühen 19. Jh. als Oberbegriff der historisch-philologisch orientierten Wissenschaften entstanden Im Deutschen vor allem Abgrenzung gegenüber den Naturwissenschaften, Verstehen in Abgrenzung zu Erklären humanities im Englischen bezeichnet Wissenschaften vom Menschen, insb. Handlungswissenschaften (moral sciences), und schließt damit an die traditionelle Unterscheidung zwischen theoretischen und praktischen Wissenschaften an humanities im Englischen schließt auch anders als der Terminus Geisteswissenschaften die Sozialwissenschaften mit ein 5

Zum Terminus Geisteswissenschaften (humanities) Geisteswissenschaften heute: - Lernen, was andere vor uns gesagt bzw. geschrieben haben - Wissenschaft von der Interpretation tradierter Texte (S. Blasche, Geisteswissenschaften, Enzyklopädie Philosophie und Wissenschaftstheorie, S. 727, BI 1980) - Jene Disziplinen,die es mit dem Verstehen, Interpretieren, Erklären, Wiederherstellen, Prüfen und Deuten von Texten im weitesten Sinne des Wortes zu tun haben. (Axel Horstmann, Wozu Geisteswissenschaften? Die Antwort August Boeckhs, Veröffentlichungen der Humboldt-Universität Berlin, H.93, S.26, 1998) 6

Aufgaben und Arbeitsweisen der Geisteswissenschaften (1) Sammeln und Bereitstellen von Texten/Textkollektionen (2) Prüfen, Korrigieren, Wiederherstellen, Versionieren von Texten (klassische Edition) (3) Erklären, Interpretieren, Deuten und Verstehen von Texten Diese Aufgaben und Arbeitsweisen sind unabhängig vom Medium (analog oder digital) finden im digitalen Medium besonders gute Unterstützung 7

Methoden und Verfahren der digital humanities (Auswahl) Aufbau von (verteilten) Textdatenbanken mit umfangreichen Metadaten Hierarchische und feingranulare Repräsentation von Text (z. B. Functional Requirements for Bibliographic Records (FRBR), Canonical Text Services (CTS)) mit Rechten und Sichten Für die Suche: IR-Verfahren, semantische u. explorative Suche, Metadaten basierte Suche (z. B. CLARIN Component Metadata Infrastructure (CMDI)),... Für die Analyse: Text Mining, Information Extraction, Visual Analytics,... Für die Annotation: Editoren, crowd sourcing, Versionierungen,... Für die Verlinkung: linked open data, Netzwerkanalysen,... Für die Archivierung: Referenzierungsstandards (z.b. DOI, PIDs),... 8

Forschungsinfrastrukturen Forschungsinfrastrukturen unterstützen den gesamten Prozess der wissenschaftlichen Wertschöpfungskette Bereitstellung, Austausch und Wiederverwendung von Daten und Verfahren Annotations-Plattformen escience-plattformen [Quelle: Rahmenkonzept für die Fachinformationsinfrastruktur in Deutschland, KII 2011] 9

CLARIN-D CLARIN-D Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften Linguistische Daten, Werkzeuge und Dienste werden... in einer integrierten, interoperablen und skalierbaren Infrastruktur für die Fachdisziplinen der Geistes- und Sozialwissenschaften bereitgestellt gefördert durch das Bundesministerium für Bildung und Forschung Laufzeit: bis 31.05.2016 im Web: http://de.clarin.eu 10

CLARIN-D CLARIN-D Eine web- und zentrenbasierte Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften Linguistische Daten, Werkzeuge und Dienste werden... in einer integrierten, interoperablen und skalierbaren Infrastruktur für die Fachdisziplinen der Geistes- und Sozialwissenschaften bereitgestellt gefördert durch das Bundesministerium für Bildung und Forschung Laufzeit: bis 31.05.2016 im Web: http://de.clarin.eu 11

Linguistische Forschungsinfrastrukturen Linguistisch annotierte Textdaten und Verfahren für deren (iterative) Erzeugung und Anwendung bei der Analyse von Texten 12

In der Informatik ist Text vom Datentyp string eine Aneinanderreihung (Konkatenation) von Elementen eines Alphabets (in einer Codierung). Die Reihenfolge ist meist nicht erheblich (bag of words - Modell). Aber: In realen/historischen Texten ist die Konkatenation von Zeichen/Wortformen (über verschiedene Ebenen) nicht beliebig: 1. Jeder Text hat eine linguistische Struktur (Syntax, Lexik, Morphologie) 2. Jeder Text steht in einem synchronen und diachronen Kontext - Verlinkung mit anderen Texten/Objekten - räumlich-zeitliche Evolution der Sprache 13

Nutzen linguistischer Forschungsinfrastrukturen Die Berücksichtigung linguistischen Wissens verbessert 1. die Interpretation von Zusammenhängen 2. die Anwendung aufwändiger Text Mining Verfahren 3. die synchrone und diachrone Einordnung von Texten und einzelnen Textpassagen Typische Fragestellungen: - diachrone/historische Semantik, Modellierung von Konzeptveränderungen,... - micro view Analysen, Nachweis seltener Belege,... 14

Interpretation von Zusammenhängen Auf Wortebene, z.b. - (morphologische) Wortnormalisierung - kookkurrenzähnliche Wortformen 15

Text Mining Verfahren Die Berücksichtigung linguistischen Wissens als features in einem Merkmalsraum für z.b. - Autorenidentifikation - relation extraction auf der Grundlage von POS-Tagging und (un-)überwachtem Parsing (ggf. auch tree banks) [Quelle: C. Hänig, Dissertation 2013] 16

Kontextualisierung Synchrone und diachrone Einordnung von Texten und einzelnen Textpassagen wie z.b. - Vokabularanalysen - Zitationsanalysen Quelle: Zitationsspuren von Platons Timaios (Projekt eaqua) 17

Zusammenfassung Linguistisches Wissen kann dazu beitragen, die Qualität von Text Mining Anwendungen und die Interpretation von einzelnen Texten und Textpassagen im synchronen und diachronen Kontext zu verbessern Die Bereitstellung von linguistischen Daten und Analyseverfahren sowie Umgebungen für deren Wiederverwendung, Annotation und den Austausch erfolgreicher Anwendungen ist eine zentrale Aufgabe linguistischer Forschungsinfrastrukturen 18

Zusammenfassung When the right kinds of annotations accumulate for particular texts, the realizable value of those texts can change radically. Corpus linguists have begun to transform our understanding of language by studying annotated corpora and these methods are or must be foundational to any modern philology: all students of historical languages are conducting corpus linguistics. (Crane et. al., Student researchers, citizen scholars and the trillion word library. In Proceedings of the 12th ACM/IEEE-CS Joint Conference on Digital Libraries, S. 213-222) 19