Delta und Merkmalsselektion Welche Wörter unterscheiden arabisch-lateinische Übersetzer? Andreas Büttner 1 Thomas Proisl 2 1 Institut für Philosophie Universität Würzburg 2 Professur für Korpuslinguistik Universität Erlangen-Nürnberg <philtag n="13"/>, 26.02.2016
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Einleitung Arabisch-lateinische Übersetzungen im 12. Jahrhundert Abbildung: Urkunde Toledo, 20. Dezember 1177, ACT V.12.P.1.1 (F. Hernández, Los cartularios de Toledo: catálogo documental, 1985).
Einleitung Zum Textcorpus inzwischen 98 Texte digitalisiert Texte von 11 verschiedenen Übersetzern, 41 anonym zum Teil Zusammenarbeit von Übersetzern Philosophie, Mathematik, Astronomie, Astrologie, Medizin, Geologie und Metereologie, aber auch religiöse, magische und alchemistische Traktate Ziel: Identifizierung der anonymen Übersetzer
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Stilometrie (MFW) Testkorpus Auswahl von 37 Texten keine Überarbeitungen (soweit bekannt) Textlänge mindestens 750 Wörter mindestens drei Texte pro Übersetzer/Disziplin Anzahl Dokumente 30 25 20 15 10 5 Anzahl Dokumente 16 14 12 10 8 6 4 2 Anzahl Dokumente 16 14 12 10 8 6 4 2 0 0 50000 100000 150000 200000 Textlänge (Tokens) 0 Adelard GerardGundisalvi Hugo John Plato Übersetzer 0 astrology astronomy mathematics philosophy Disziplin
Stilometrie (MFW) das Problem: Übersetzer Cosinus/Weighted-Clustering auf Z-scores der 500 häufigsten Wörter, Farben nach Übersetzer. John: AnonAstrolSpec Adelard: AlgorismiTables Adelard: Centiloquium Plato: Centiloquium Plato: ImraniAstro John: ThabitDeImaginibusI John: AlbumasarIntroductorium2 8 John: AlcabitIntro Adelard: albuabbr Plato: QuadripartitumI II Hugo: LiberAristotilis Hugo: JafarImbrium Hugo: Centiloquium Hugo: PsApollDeSecretis Gerard: ThabitDeMotuM Gerard: ThabitDeHiis Gerard: TheodosiusHabitationibus Gerard: PtolemaeusAlmagest Gerard: VerbaFiliorum Gerard: DeMensura Plato: SavasordaEmbadorum Gerard: ThemistiusPostAn Gerard: ArisPostAn Gerard: FarabiDeScientiis Gerard: ArisMeteoraI III Gerard: ArisDeCaelo Gerard: IsaacDeDefin Gerard: AlexanderDeMotu Gerard: KindiDeSomno Gerard: PsArisDeCausis Gerard: KindiDeQuinqueEssentiis Gundisalvi: AvicMet Gundisalvi: AvicDeAnima Gundisalvi: PsAvicLiberCeli Gundisalvi: AvicConvenientiaScien John: AlbumasarIntroductorium1 John: QustaDeDifferentia 0.0 0.2 0.4 0.6 0.8 1.0
Stilometrie (MFW) das Problem: Disziplinen Cosinus/Weighted-Clustering auf Z-scores der 500 häufigsten Wörter, Farben nach Disziplin. John: AnonAstrolSpec (astron) Adelard: AlgorismiTables (astron) Adelard: Centiloquium (astrol) Plato: Centiloquium (astrol) Plato: ImraniAstro (astrol) John: ThabitDeImaginibusI (astrol) John: AlbumasarIntroductorium2 8 (astrol) John: AlcabitIntro (astrol) Adelard: albuabbr (astrol) Plato: QuadripartitumI II (astrol) Hugo: LiberAristotilis (astrol) Hugo: JafarImbrium (astrol) Hugo: Centiloquium (astrol) Hugo: PsApollDeSecretis (astrol) Gerard: ThabitDeMotuM (astron) Gerard: ThabitDeHiis (astron) Gerard: TheodosiusHabitationibus (astron) Gerard: PtolemaeusAlmagest (astron) Gerard: VerbaFiliorum (math) Gerard: DeMensura (math) Plato: SavasordaEmbadorum (math) Gerard: ThemistiusPostAn (phil) Gerard: ArisPostAn (phil) Gerard: FarabiDeScientiis (phil) Gerard: ArisMeteoraI III (phil) Gerard: ArisDeCaelo (phil) Gerard: IsaacDeDefin (phil) Gerard: AlexanderDeMotu (phil) Gerard: KindiDeSomno (phil) Gerard: PsArisDeCausis (phil) Gerard: KindiDeQuinqueEssentiis (phil) Gundisalvi: AvicMet (phil) Gundisalvi: AvicDeAnima (phil) Gundisalvi: PsAvicLiberCeli (phil) Gundisalvi: AvicConvenientiaScien (phil) John: AlbumasarIntroductorium1 (phil) John: QustaDeDifferentia (phil) 0.0 0.2 0.4 0.6 0.8 1.0
Stilometrie (MFW) das Problem: Übersetzer vs. Disziplinen 1.0 Übersetzer Disziplinen 0.8 Adjusted rand index 0.6 0.4 0.2 0.0 0 500 1000 1500 2000 2500 3000 3500 Häufigste Wörter
Stilometrie (MFW) das Problem: Zusammenfassung Clustering nach Disziplinen funktioniert relativ gut inhaltliche Information überlagert Übersetzer Wie lassen sich Übersetzer- von Disziplineninformationen trennen?
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Rekursive Merkmalseliminierung Methode von Guyon et al. (2002) vorgeschlagene Methode möglichst kleine Teilmenge von Merkmalen trotzdem möglichst gute Ergebnisse basiert auf überwachtem Lernverfahren (üblicherweise Support Vector Classifier) d.h. wahre Autoren bzw. Übersetzer müssen bekannt sein (zumindest für Teilkorpus) mögliche Alternative zu most frequent words zur Autorschaftszuschreibung (Evert et al. 2015)
Rekursive Merkmalseliminierung Details Algorithmus 1. trainiere Klassifikator auf Merkmalsmenge (= Zuweisung von Gewichten) 2. entferne k Merkmale mit niedrigsten absoluten Gewichten (pruning) 3. gewünschte Anzahl von Merkmalen erreicht? ja: fertig nein: gehe zu 1. alternativ: Kreuzvalidierung nach jedem pruning Schritt zur Bestimmung der optimalen Merkmalsmenge
Rekursive Merkmalseliminierung Anwendung Unser Vorgehen schrittweise Verkleinerung der Merkmalsmenge auf 500 Merkmale auf 10.000 Merkmale in 1.000er Schritten auf 1.000 Merkmale in 200er Schritten auf 500 Merkmale in 25er Schritten anschließend Bestimmung der optimalen Merkmalsmenge reduzieren der Merkmalsmenge in 1er Schritten 3-fache Kreuzvalidierung
Rekursive Merkmalseliminierung Merkmalsmengen Trainingssets für Übersetzer/Disziplinen Optimale Merkmalsmenge Übersetzer: 495 Wörter Optimale Merkmalsmenge Disziplinen: 485 Wörter auf dem Testset korrekte Aufteilung nach Übersetzern/Disziplinen (ARI = 1)
Rekursive Merkmalseliminierung Merkmalsmenge Übersetzer 10 1 10 2 mittlere relative Häufigkeit 10 3 10 4 10 5 10 6 10 7 0 5000 10000 15000 20000 25000 Häufigkeit (Rang)
Rekursive Merkmalseliminierung Merkmalsmenge Übersetzer (Detail) 10 1 mittlere relative Häufigkeit 10 2 10 3 10 4 0 100 200 300 400 500 Häufigkeit (Rang)
Rekursive Merkmalseliminierung Übersetzerwörter Schnittmenge (74 Wörter) zwischen Übersetzerwörtern (RFE Ü ) und Menge der 500 häufigsten Wörter (MFW 500 ): ARI = 0, 824 deutlich besser als MFW 500.
Rekursive Merkmalseliminierung Übersetzerwörter Terme lassen sich dem Übersetzer zuordnen, in dessen Texten der Mittelwert ihrer z-werte am höchsten ist. Adelard: 996AlgorismiTables (astronomy) Adelard: 997Centiloquium (astrology) Adelard: 998albuabbr (astrology) Gerard: 25ArisPostAn (philosophy) Gerard: 28ArisDeCaelo (philosophy) Gerard: 29ArisMeteoraI III (philosophy) Gerard: 30PsArisDeCausis (philosophy) Gerard: 31AlexanderDeMotu (philosophy) Gerard: 32ThemistiusPostAn (philosophy) Gerard: 333PtolemaeusAlmagest (astronomy) Gerard: 33KindiDeQuinqueEssentiis (philosophy) Gerard: 34KindiDeSomno (philosophy) Gerard: 36FarabiDeScientiis (philosophy) Gerard: 382ThabitDeHiis (astronomy) Gerard: 383ThabitDeMotuM (astronomy) Gerard: 384DeMensura (mathematics) Gerard: 385VerbaFiliorum (mathematics) Gerard: 386TheodosiusHabitationibus (astronomy) Gerard: 38IsaacDeDefin (philosophy) Gundisalvi: 40AvicDeAnima (philosophy) Gundisalvi: 44AvicMet (philosophy) Gundisalvi: 46AvicConvenientiaScien (philosophy) Gundisalvi: 47PsAvicLiberCeli (philosophy) Hugo: 23PsApollDeSecretis (astrology) Hugo: 244JafarImbrium (astrology) Hugo: 248Centiloquium (astrology) Hugo: 24LiberAristotilis (astrology) John: 21QustaDeDifferentia (philosophy) John: 220AlcabitIntro (astrology) John: 221AnonAstrolSpec (astronomy) John: 222ThabitDeImaginibusI (astrology) John: 22AlbumasarIntroductorium1 (philosophy) John: 22AlbumasarIntroductorium2 8 (astrology) Plato: 70ImraniAstro (astrology) Plato: 71Centiloquium (astrology) Plato: 72QuadripartitumI II (astrology) Plato: 74SavasordaEmbadorum (mathematics) 4 2 0 2 4 sic signi signo cetera idem autem anni pro signa earum nobis manifestum nos neque est illud secundum sicut sequitur praeter quod ideo nec de id tunc magis sine alterius illa necesse postquam naturalis unum hoc aliud modo esse potest habet alio sed ceteris quoque quidem nam unde eodem omnia tamen item etiam huiusmodi namque dum uidelicet medio et uel initium quibusdam atque fuerit domus signis quicquid ac opus eos eum quaedam fuerint eiusdem si RFEÜ MFW500, sortiert nach Übersetzern
Rekursive Merkmalseliminierung Differenzmengen Wenn die 74 Wörter in MFW 500 RFE Ü so gut für Übersetzer funktionieren (ARI=0,824), was ist mit den 426 restlichen Wörtern in MFW 500? Differenzmenge mit MFW 500 (MFW 500 \ RFE Ü ) 426 Wörter (ARI für Übersetzer: 0,284) ARI für Disziplinen: 0,795 besser als mit allen MFW500 (0,746)!
Rekursive Merkmalseliminierung Differenzmengen Wenn die 123 Wörter in MFW 500 RFE D so gut für Disziplinen funktionieren (ARI=0,836), was ist mit den 377 restlichen Wörtern in MFW 500? Differenzmenge mit MFW 500 (MFW 500 \ RFE D ) 377 Wörter (ARI für Disziplinen: 0,593) ARI für Übersetzer: 0,526 besser als mit allen MFW500 (0,458)!
Rekursive Merkmalseliminierung Differenzmengen besser als Zufall? Ohne Übersetzerwörter: Vergleich von (MFW 500 \ RFE Ü ) mit 1000 zufällig ausgewählten Teilmengen der gleichen Größe. 700 MFW500 \ RFE Ü 600 MFW500 5% 500 400 300 200 100 0 0.60 0.65 0.70 0.75 0.80 ARI D
Rekursive Merkmalseliminierung Differenzmengen besser als Zufall? Ohne Disziplinenwörter: Vergleich von (MFW 500 \ RFE D ) mit 1000 zufällig ausgewählten Teilmengen der gleichen Größe. 100 MFW500 \ RFED 80 MFW500 5% 60 40 20 0 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 ARI Ü
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Ergebnisse Überblick Merkmale ARI Ü ARI D MFW 500 0,458 0,746 RFE Ü 1,000 0,310 RFE D 0,223 1,000 MFW 500 RFE Ü 0,824 0,228 MFW 500 RFE D 0,189 0,836 MFW 500 \ RFE Ü 0,284 0,795 MFW 500 \ RFE D 0,526 0,593 Bei anderen Qualitätsmaßen als dem ARI, nämlich dem V-measure-score (Homogenität und Vollständigkeit) sowie dem mittleren Silhouettenkoeffizienten, ist der gleiche Trend zu bemerken.
Ergebnisse Fazit Hauptergebnis Partitionierung der MFW in zwei Teilmengen möglich: Teilmenge 1: bessere Identifikation der Übersetzer als Gesamtmenge Teilmenge 2: bessere Identifikation der Disziplinen als Gesamtmenge MFW tragen teils Übersetzer-, teils Disziplinsignal! Weitere Ergebnisse rekursive Merkmalseliminierung wirksame Methode zur Bestimmung von übersetzer- und disziplintypischen Merkmalen Kondensierung der Wortliste als philologische Chance
Ergebnisse Ausblick Zukünftige Forschung Anwendung auf Mehrwortgruppen Anwendung auf andere Textkorpora unüberwachte Partitionierung der Merkmale
Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur
Literatur (1) Argamon, Shlomo (2008): Interpreting Burrows s Delta: Geometric and Probabilistic Foundations. Literary and Linguistic Computing 23/2: 131 147. doi:10.1093/llc/fqn003 Burrows, John (2002): Delta: a Measure of Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing 17/3: 267 287. doi:10.1093/llc/17.3.267 Eder, Maciej (2015): Does size matter? Authorship attribution, small samples, big problem. Digital Scholarship Humanities 30/2: 167 182. doi:10.1093/llc/fqt066 Eder, Maciej, Mike Kestemont, Jan Rybicki (2013): Stylometry with R: a suite of tools. In: Digital Humanities 2013: Conference Abstracts. Lincoln: University of Nebraska, 487 489. http://dh2013.unl.edu/abstracts/ab-136.html
Literatur (2) Evert, Stefan, Thomas Proisl, Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt (2015): Towards a better understanding of Burrows s Delta in literary authorship attribution. In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature. Association for Computational Linguistics, 79 88. http://www.aclweb.org/anthology/w/w15/w15-0709.pdf Guyon, Isabelle, Jason Weston, Stephen Barnhill, Vladimir Vapnik (2002): Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning 46/1: 389 422. doi:10.1023/a:1012487302797 Hasse, Dag Nikolaus, Andreas Büttner (in Vorbereitung): Notes on the Identity of the Latin Translator of Avicenna s Physics and on Further Anonymous Translations in Twelfth-Century Spain. Vorabversion: https://go.uniwue.de/hassevigoni
Literatur (3) Hoover, David L. (2004a): Testing Burrows s Delta. Literary and Linguistic Computing 19/4: 453 475. doi:10.1093/llc/19.4.453 Hoover, David L. (2004b): Delta Prime? Literary and Linguistic Computing 19/4: 477 495. doi:10.1093/llc/19.4.477 Jannidis, Fotis, Steffen Pielström, Christof Schöch, Thorsten Vitt (2015): Improving Burrows Delta - An empirical evaluation of text distance measures. In: Digital Humanities Conference 2015, Sydney. http://dh2015.org/abstracts/xml/jannidis_fotis_ Improving_Burrows Delta An_empi/JANNIDIS_Fotis_ Improving_Burrows Delta An_empirical_.html Kestemont, Mike, Kim Luyckx, Walter Daelemans, Thomas Crombez (2012): Cross-Genre Authorship Verification Using Unmasking. English Studies 93/3: 340 356. doi:10.1080/0013838x.2012.668793
Literatur (4) Rybicki, Jan (2012): The great mystery of the (almost) invisible translator: stylometry in translation. In: M. Oakley and M. Ji (Hrsg.): Quantitative Methods in Corpus-Based Translation Studies. Amsterdam: John Benjamins, 231 248. https: //sites.google.com/site/computationalstylistics/ preprints/rybicki%20great%20mystery.pdf Rybicki, Jan, Maciej Eder (2011): Deeper Delta across genres and languages: do we really need the most frequent words? Literary and Linguistic Computing 26/3: 315 321. doi:10.1093/llc/fqr031 Schöch, Christof (2013): Fine-Tuning our Stylometric Tools: Investigating Authorship and Genre in French Classical Drama. In: Digital Humanities 2013: Conference Abstracts. Lincoln: University of Nebraska, 383 386. http://dh2013.unl.edu/abstracts/ab-270.html
Literatur (5) Smith, Peter W. H., Aldridge, W. (2011): Improving Authorship Attribution: Optimizing Burrows Delta Method. Journal of Quantitative Linguistics 18/1: 63 88. doi:10.1080/09296174.2011.533591 Stamatatos, Efstathios, Nikos Fakotakis, George Kokkinakis (2000): Automatic Text Categorization in Terms of Genre and Author. Computational Linguistics 26/4: 471 497. doi:10.1162/089120100750105920