Historische i Semantik mit Hilfe des s Alexander Mehler Goethe Universität i Frankfurt Historische Semantik Computational Humanities computational historical semantics formalisiert berechenbar hermeneutisch intellektuell Informatik Git Geisteswissenschafti hft
Historische Semantik Forschungsszenario (Jussen 2006; Jussen, Mehler, Ernst 2007) Historische Semantik Forschungsszenario (Jussen 2011) Methode: Kookkurrenzanalyse Prime: auctoritas
Historische Semantik Forschungsszenario (Jussen 2011) Forschungsfragen: texttypbedingte Variation stilbedingte Variation semantische Variation historischer Hintergrund Historische Semantik Forschungsszenario auctoritas et/vel
Agenda 1. Das Korpus 2. 3. Linguistic Networks 4. Fragenkatalog 5. Zusammenfassung Das Korpus Das Korpus (Mehler et al. 2010ab) Patrologiae cursus completus sive bibliotheca universalis, integra, uniformis, commoda, oeconomica, omnium ss. patrum, doctorum scriptorum que ecclesiasticorum qui ab aevo apostolico ad usque Innocentii III tempora floruerunt (...) accurante J.-P. Migne, Parisiis: Excudebat Migne (...), 1844
Das Korpus Konversion der Patrologia Latina gemäß TEI P5 IN SGML DTD of the PLD IN 1 DTD conversion PLD PLD XML DTD PLD SGML DTD adapted 2 SX (Clark 1997) IN TEI P5 DTD 3 conversion into TEI P5 PLD XML PL according to TEI P5 4 text structure segmentation enhanced PL according to TEI P5 OUT (PLTF) Das Korpus Vorverarbeitungsschritte (Waltinger et al. 2009) 1. Sprachenerkennung, Lemmatisierung i & PoS Tagging 2. Named Entity & Instance Recognition 3. Satzerkennung, Auszeichnung syntaktischer Strukturen 4. Auszeichnung logischer Dokumentstrukturen
Das Korpus Zeitreihen zeitliche Ordnung der Dokumente der Patrologia Latina Agenda 1. Das Korpus 2. 3. Linguistic Networks 4. Fragenkatalog 5. Zusammenfassung
Bausteine 1 Administrator i t 2 Corpus Explorer 3 Annotator 4 Preprocessor 5 HSCM Lexicon Browser 6 7 Classifier
auctoritas et/vel Architektur (Gleim 2011) Java Applet Client Java Script Flash Command Dispatcher HTTP Process Manager Command Processors Preprocessor Annotator Chainer Classifier [ ] Image DB Core API Annotation API Storage API External Apps Master Data Storage Backends Matlab File System XML DB MySQL DB [ ]
Bausteine 1 Administrator i t 2 Corpus Explorer 3 Annotator 4 Preprocessor 5 HSCM Lexicon Browser 6 7 Classifier elexicon (Mehler e et al. a. 2010) 0) objektrelational Ressourcenintegration webbasiert
elexicon (Mehler et al. 2008) Agenda 1. Das Korpus 2. 3. Linguistic Networks 4. Fragenkatalog 5. Zusammenfassung
Linguistic Networks Demo: www.linguistic networks.net Agenda 1. Das Korpus 2. 3. Linguistic Networks 4. Fragenkatalog 5. Zusammenfassung
Fragenkatalog Welche Themen sind für welche Zielgruppe relevant?010) Zielgruppe Geisteswissenschaftler verwendungsorientiert: Suchen, Browsen, Annotieren Prämisse: sehr niedrige Einstiegsschwelle Zielgruppe Informatiker modellierungsorientiert: Entwerfen, Modellieren, Entwickeln, Testen, Optimieren, Fragenkatalog Anforderungen Ressourcen 1. Verfügbarkeit in Breite und Tiefe 2. pervasive computing 3. Vernetzung: von Korpus A zu Lexikon B zu Korpus C zu 4. Modifizierbarkeit, Erweiterbarkeit 5. Personalisierbarkeit Prozeduren 1. Erweiterbarkeit 2. Dokumentation 3. Kontrollierbarkeit it und Rekonstruierbarkeit k itvon Messresultaten t (Geisteswissenschaftler)
Fragenkatalog Wünsche, Hürden und Herausforderungen 1. Daten, Daten, Daten! 2. Urheberrechtsproblematik 3. Weiterverarbeitbarkeit Weiterverarbeitbarkeit und Interoperabilität 4. Erwartungshorizont bezogen auf Automatisierbarkeit, Geschwindigkeit (offline, online), Aussagekraft von Ergebnissen Part of speech (POS) tagging is [ ] often considered to be a solved task, with published tagging accuracies around 97%. Our evaluation [ ] shows that such high h accuracies can only be achieved under artificial i [ ] conditions. i In a real life scenario, accuracy drops below 93% with enormous variation between different text genres, making the taggers unsuitable for fully automatic ti processing. (Giesbrecht & Evert t2009) Agenda 1. Das Korpus 2. 3. Linguistic Networks 4. Fragenkatalog 5. Zusammenfassung
Zusammenfassung Historische Semantik hudesktop.hucompute.org / ehumanitiesdesktop.org www.linguistic networks.net Anforderungen