Delta und Merkmalsselektion



Ähnliche Dokumente
Für eine computergestützte literarische Gattungsstilistik

Primzahlen und RSA-Verschlüsselung

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Zeichen bei Zahlen entschlüsseln

FAMILIENSTAND ALLEINERZIEHENDE MÜTTER

1 topologisches Sortieren

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

Tutorial Moodle 2 Rollenzuweisung

Die Zukunft gemeinsam gestalten

Umfrage in den 5er-Klassen zu Hausaufgaben in den Nebenfächern im Schuljahr 2014/15

Die SPD und die Grünen machen im Niedersächsischen Landtag. Alle Menschen sollen in der Politik mitmachen können.

Kap. 8: Speziell gewählte Kurven

Die "Digital Humanities" - und was sie NICHT sind.

RapidMiner als Werkzeug für die textorientierten Geisteswissenschaften Katharina Morik

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Die richtigen Partner finden, Ressourcen finden und zusammenführen

Universität Karlsruhe (TH)

Skript und Aufgabensammlung Terme und Gleichungen Mathefritz Verlag Jörg Christmann Nur zum Privaten Gebrauch! Alle Rechte vorbehalten!

Statuten in leichter Sprache

Produktschulung WinDachJournal

Projektmanagement. Thema. Name der bzw. des Vortragenden. Vorname Nachname Sommersemester 2004

Woche 1: Was ist NLP? Die Geschichte des NLP.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Auswertung von Kinderleichtathletik- Wettkämpfen mit Excel und Word

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Deutschland-Check Nr. 34

Wie Sie mit Mastern arbeiten

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Schreiben von Hausarbeiten. Ziele und Vorgehensweise am Beispiel Sallust, De Catilinae coniuratione

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Anhang. 3. Was denken Sie: An wen richtet sich das Lernprogramm für Psycholinguistik? zu nicht nicht zu

Leit-Bild der Sonnenhofschule

Fast jeder zweite Deutsche würde gerne abnehmen

Schnittstelle DIGI-Zeiterfassung

Rechtsfolgen der Digitalen Identität

Häufige Item-Mengen: die Schlüssel-Idee. Vorlesungsplan. Apriori Algorithmus. Methoden zur Verbessung der Effizienz von Apriori

Organisation des Qualitätsmanagements

Wie Projektziele gemessen werden können oder wie man Indikatoren entwickeln kann?

Bioinformatik: Hype oder Hoffnung?

4 Aufzählungen und Listen erstellen

Zahlen und das Hüten von Geheimnissen (G. Wiese, 23. April 2009)

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Libertinäre Liebesbeziehungen im intermedialen Transfer

Kapiteltests zum Leitprogramm Binäre Suchbäume

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Kirkpatrick s Four Levels of Evaluation

Grundlagen der Künstlichen Intelligenz

Spielanleitung. Art.-Nr.: Spieleautoren: Arno Steinwender und Christoph Puhl

Proofreading Was solltest Du beim Korrekturlesen beachten?

2. Psychologische Fragen. Nicht genannt.

Für 2 bis 4 Spieler ab 8 Jahren. Spielregeln

Mining High-Speed Data Streams

Urheberrecht in der Schule Was Lehrer, Eltern, Schüler, Medienzentren und Schulbehörden vom Urheberrecht wissen sollten

Elexis-BlueEvidence-Connector

Alle Schlüssel-Karten (blaue Rückseite) werden den Schlüssel-Farben nach sortiert und in vier getrennte Stapel mit der Bildseite nach oben gelegt.

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Individualisierung und Arbeiten mit Büromedien-Vorlagen für Microsoft Office 2010

4. Das neue Recht der GmbH ein Überblick

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Informationen zu ebookit

Hilfen zur Verwendung der Word-Dokumentvorlage des BIS-Verlags

Information zum Projekt. Mitwirkung von Menschen mit Demenz in ihrem Stadtteil oder Quartier

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

s.beat DAP-10X White Paper USB Stromversorgung am Apple Macintosh und deren Auswirkung

Lineare Gleichungssysteme

Zinssicherung im B2B Markt April 2010

1 Mathematische Grundlagen

ASVZweb_08/ Schreibhilfe

Vergleich verschiedener Visualisierungsinstrumente zur online Landschaftsbildbewertung

Auswertung zu "Projektmanagement B, SS08"

Zahlenwinkel: Forscherkarte 1. alleine. Zahlenwinkel: Forschertipp 1

Gezielt über Folien hinweg springen

Probleme beim Arbeiten mit Variablen, Termen und Gleichungen

STATISTIK. Erinnere dich

Seminar Timed Automata

Beweisbar sichere Verschlüsselung

STAATLICHE REGELSCHULE Carl August Musäus - ST Schöndorf Weimar

Vorsorge in der Schweiz Die Sicht der Lebensversicherer. Andreas Zingg Vorsitzender der Kommission für Soziale Fragen des SVV

1. DAS PRAKTIKUM IM UNTERNEHMEN: ein Leitfaden.

Messung der Astronomischen Einheit nach Aristarch

Visualisierung von lexikalischem Wandel im Deutschen auf Basis der Google- Books Ngram Daten

Neomentum Coaching. Informationsbroschüre für Studienteilnehmer

Versetzungsregeln in Bayern

Microsoft Access 2010 Navigationsformular (Musterlösung)

Anleitung über den Umgang mit Schildern

Lehrer: Einschreibemethoden

Bürgerhilfe Florstadt

Betriebliche Gestaltungsfelder

offene Netzwerke. In diesem Sinn wird auch interkulturelle Kompetenz eher als Prozess denn als Lernziel verstanden.

Erfolgsfaktor Work-Life Balance? Ein Vergleich verschiedener Personengruppen

«Die praktische letzte Seite: Piktogramme» Mario Somazzi, Nr. 3/2013-2/2014, S. 40

Info-Veranstaltung zur Erstellung von Zertifikaten

Ein Tool für automatische Performancetests von Java3D Applikationen

Serienbrief mit Word erstellen

Exploration und Klassifikation von BigData

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Informationen zum Ambulant Betreuten Wohnen in leichter Sprache

Grenzen Sie sich von Ihren Wettbewerbern ab und nutzen Sie die Vorteile der 5-Jahres-Garantie der ZEMAG - kostenlos*.

Projekte für reale Herausforderungen Projektarbeit: Einleitung und Gliederung. Projekte für reale Herausforderungen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Transkript:

Delta und Merkmalsselektion Welche Wörter unterscheiden arabisch-lateinische Übersetzer? Andreas Büttner 1 Thomas Proisl 2 1 Institut für Philosophie Universität Würzburg 2 Professur für Korpuslinguistik Universität Erlangen-Nürnberg <philtag n="13"/>, 26.02.2016

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Einleitung Arabisch-lateinische Übersetzungen im 12. Jahrhundert Abbildung: Urkunde Toledo, 20. Dezember 1177, ACT V.12.P.1.1 (F. Hernández, Los cartularios de Toledo: catálogo documental, 1985).

Einleitung Zum Textcorpus inzwischen 98 Texte digitalisiert Texte von 11 verschiedenen Übersetzern, 41 anonym zum Teil Zusammenarbeit von Übersetzern Philosophie, Mathematik, Astronomie, Astrologie, Medizin, Geologie und Metereologie, aber auch religiöse, magische und alchemistische Traktate Ziel: Identifizierung der anonymen Übersetzer

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Stilometrie (MFW) Testkorpus Auswahl von 37 Texten keine Überarbeitungen (soweit bekannt) Textlänge mindestens 750 Wörter mindestens drei Texte pro Übersetzer/Disziplin Anzahl Dokumente 30 25 20 15 10 5 Anzahl Dokumente 16 14 12 10 8 6 4 2 Anzahl Dokumente 16 14 12 10 8 6 4 2 0 0 50000 100000 150000 200000 Textlänge (Tokens) 0 Adelard GerardGundisalvi Hugo John Plato Übersetzer 0 astrology astronomy mathematics philosophy Disziplin

Stilometrie (MFW) das Problem: Übersetzer Cosinus/Weighted-Clustering auf Z-scores der 500 häufigsten Wörter, Farben nach Übersetzer. John: AnonAstrolSpec Adelard: AlgorismiTables Adelard: Centiloquium Plato: Centiloquium Plato: ImraniAstro John: ThabitDeImaginibusI John: AlbumasarIntroductorium2 8 John: AlcabitIntro Adelard: albuabbr Plato: QuadripartitumI II Hugo: LiberAristotilis Hugo: JafarImbrium Hugo: Centiloquium Hugo: PsApollDeSecretis Gerard: ThabitDeMotuM Gerard: ThabitDeHiis Gerard: TheodosiusHabitationibus Gerard: PtolemaeusAlmagest Gerard: VerbaFiliorum Gerard: DeMensura Plato: SavasordaEmbadorum Gerard: ThemistiusPostAn Gerard: ArisPostAn Gerard: FarabiDeScientiis Gerard: ArisMeteoraI III Gerard: ArisDeCaelo Gerard: IsaacDeDefin Gerard: AlexanderDeMotu Gerard: KindiDeSomno Gerard: PsArisDeCausis Gerard: KindiDeQuinqueEssentiis Gundisalvi: AvicMet Gundisalvi: AvicDeAnima Gundisalvi: PsAvicLiberCeli Gundisalvi: AvicConvenientiaScien John: AlbumasarIntroductorium1 John: QustaDeDifferentia 0.0 0.2 0.4 0.6 0.8 1.0

Stilometrie (MFW) das Problem: Disziplinen Cosinus/Weighted-Clustering auf Z-scores der 500 häufigsten Wörter, Farben nach Disziplin. John: AnonAstrolSpec (astron) Adelard: AlgorismiTables (astron) Adelard: Centiloquium (astrol) Plato: Centiloquium (astrol) Plato: ImraniAstro (astrol) John: ThabitDeImaginibusI (astrol) John: AlbumasarIntroductorium2 8 (astrol) John: AlcabitIntro (astrol) Adelard: albuabbr (astrol) Plato: QuadripartitumI II (astrol) Hugo: LiberAristotilis (astrol) Hugo: JafarImbrium (astrol) Hugo: Centiloquium (astrol) Hugo: PsApollDeSecretis (astrol) Gerard: ThabitDeMotuM (astron) Gerard: ThabitDeHiis (astron) Gerard: TheodosiusHabitationibus (astron) Gerard: PtolemaeusAlmagest (astron) Gerard: VerbaFiliorum (math) Gerard: DeMensura (math) Plato: SavasordaEmbadorum (math) Gerard: ThemistiusPostAn (phil) Gerard: ArisPostAn (phil) Gerard: FarabiDeScientiis (phil) Gerard: ArisMeteoraI III (phil) Gerard: ArisDeCaelo (phil) Gerard: IsaacDeDefin (phil) Gerard: AlexanderDeMotu (phil) Gerard: KindiDeSomno (phil) Gerard: PsArisDeCausis (phil) Gerard: KindiDeQuinqueEssentiis (phil) Gundisalvi: AvicMet (phil) Gundisalvi: AvicDeAnima (phil) Gundisalvi: PsAvicLiberCeli (phil) Gundisalvi: AvicConvenientiaScien (phil) John: AlbumasarIntroductorium1 (phil) John: QustaDeDifferentia (phil) 0.0 0.2 0.4 0.6 0.8 1.0

Stilometrie (MFW) das Problem: Übersetzer vs. Disziplinen 1.0 Übersetzer Disziplinen 0.8 Adjusted rand index 0.6 0.4 0.2 0.0 0 500 1000 1500 2000 2500 3000 3500 Häufigste Wörter

Stilometrie (MFW) das Problem: Zusammenfassung Clustering nach Disziplinen funktioniert relativ gut inhaltliche Information überlagert Übersetzer Wie lassen sich Übersetzer- von Disziplineninformationen trennen?

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Rekursive Merkmalseliminierung Methode von Guyon et al. (2002) vorgeschlagene Methode möglichst kleine Teilmenge von Merkmalen trotzdem möglichst gute Ergebnisse basiert auf überwachtem Lernverfahren (üblicherweise Support Vector Classifier) d.h. wahre Autoren bzw. Übersetzer müssen bekannt sein (zumindest für Teilkorpus) mögliche Alternative zu most frequent words zur Autorschaftszuschreibung (Evert et al. 2015)

Rekursive Merkmalseliminierung Details Algorithmus 1. trainiere Klassifikator auf Merkmalsmenge (= Zuweisung von Gewichten) 2. entferne k Merkmale mit niedrigsten absoluten Gewichten (pruning) 3. gewünschte Anzahl von Merkmalen erreicht? ja: fertig nein: gehe zu 1. alternativ: Kreuzvalidierung nach jedem pruning Schritt zur Bestimmung der optimalen Merkmalsmenge

Rekursive Merkmalseliminierung Anwendung Unser Vorgehen schrittweise Verkleinerung der Merkmalsmenge auf 500 Merkmale auf 10.000 Merkmale in 1.000er Schritten auf 1.000 Merkmale in 200er Schritten auf 500 Merkmale in 25er Schritten anschließend Bestimmung der optimalen Merkmalsmenge reduzieren der Merkmalsmenge in 1er Schritten 3-fache Kreuzvalidierung

Rekursive Merkmalseliminierung Merkmalsmengen Trainingssets für Übersetzer/Disziplinen Optimale Merkmalsmenge Übersetzer: 495 Wörter Optimale Merkmalsmenge Disziplinen: 485 Wörter auf dem Testset korrekte Aufteilung nach Übersetzern/Disziplinen (ARI = 1)

Rekursive Merkmalseliminierung Merkmalsmenge Übersetzer 10 1 10 2 mittlere relative Häufigkeit 10 3 10 4 10 5 10 6 10 7 0 5000 10000 15000 20000 25000 Häufigkeit (Rang)

Rekursive Merkmalseliminierung Merkmalsmenge Übersetzer (Detail) 10 1 mittlere relative Häufigkeit 10 2 10 3 10 4 0 100 200 300 400 500 Häufigkeit (Rang)

Rekursive Merkmalseliminierung Übersetzerwörter Schnittmenge (74 Wörter) zwischen Übersetzerwörtern (RFE Ü ) und Menge der 500 häufigsten Wörter (MFW 500 ): ARI = 0, 824 deutlich besser als MFW 500.

Rekursive Merkmalseliminierung Übersetzerwörter Terme lassen sich dem Übersetzer zuordnen, in dessen Texten der Mittelwert ihrer z-werte am höchsten ist. Adelard: 996AlgorismiTables (astronomy) Adelard: 997Centiloquium (astrology) Adelard: 998albuabbr (astrology) Gerard: 25ArisPostAn (philosophy) Gerard: 28ArisDeCaelo (philosophy) Gerard: 29ArisMeteoraI III (philosophy) Gerard: 30PsArisDeCausis (philosophy) Gerard: 31AlexanderDeMotu (philosophy) Gerard: 32ThemistiusPostAn (philosophy) Gerard: 333PtolemaeusAlmagest (astronomy) Gerard: 33KindiDeQuinqueEssentiis (philosophy) Gerard: 34KindiDeSomno (philosophy) Gerard: 36FarabiDeScientiis (philosophy) Gerard: 382ThabitDeHiis (astronomy) Gerard: 383ThabitDeMotuM (astronomy) Gerard: 384DeMensura (mathematics) Gerard: 385VerbaFiliorum (mathematics) Gerard: 386TheodosiusHabitationibus (astronomy) Gerard: 38IsaacDeDefin (philosophy) Gundisalvi: 40AvicDeAnima (philosophy) Gundisalvi: 44AvicMet (philosophy) Gundisalvi: 46AvicConvenientiaScien (philosophy) Gundisalvi: 47PsAvicLiberCeli (philosophy) Hugo: 23PsApollDeSecretis (astrology) Hugo: 244JafarImbrium (astrology) Hugo: 248Centiloquium (astrology) Hugo: 24LiberAristotilis (astrology) John: 21QustaDeDifferentia (philosophy) John: 220AlcabitIntro (astrology) John: 221AnonAstrolSpec (astronomy) John: 222ThabitDeImaginibusI (astrology) John: 22AlbumasarIntroductorium1 (philosophy) John: 22AlbumasarIntroductorium2 8 (astrology) Plato: 70ImraniAstro (astrology) Plato: 71Centiloquium (astrology) Plato: 72QuadripartitumI II (astrology) Plato: 74SavasordaEmbadorum (mathematics) 4 2 0 2 4 sic signi signo cetera idem autem anni pro signa earum nobis manifestum nos neque est illud secundum sicut sequitur praeter quod ideo nec de id tunc magis sine alterius illa necesse postquam naturalis unum hoc aliud modo esse potest habet alio sed ceteris quoque quidem nam unde eodem omnia tamen item etiam huiusmodi namque dum uidelicet medio et uel initium quibusdam atque fuerit domus signis quicquid ac opus eos eum quaedam fuerint eiusdem si RFEÜ MFW500, sortiert nach Übersetzern

Rekursive Merkmalseliminierung Differenzmengen Wenn die 74 Wörter in MFW 500 RFE Ü so gut für Übersetzer funktionieren (ARI=0,824), was ist mit den 426 restlichen Wörtern in MFW 500? Differenzmenge mit MFW 500 (MFW 500 \ RFE Ü ) 426 Wörter (ARI für Übersetzer: 0,284) ARI für Disziplinen: 0,795 besser als mit allen MFW500 (0,746)!

Rekursive Merkmalseliminierung Differenzmengen Wenn die 123 Wörter in MFW 500 RFE D so gut für Disziplinen funktionieren (ARI=0,836), was ist mit den 377 restlichen Wörtern in MFW 500? Differenzmenge mit MFW 500 (MFW 500 \ RFE D ) 377 Wörter (ARI für Disziplinen: 0,593) ARI für Übersetzer: 0,526 besser als mit allen MFW500 (0,458)!

Rekursive Merkmalseliminierung Differenzmengen besser als Zufall? Ohne Übersetzerwörter: Vergleich von (MFW 500 \ RFE Ü ) mit 1000 zufällig ausgewählten Teilmengen der gleichen Größe. 700 MFW500 \ RFE Ü 600 MFW500 5% 500 400 300 200 100 0 0.60 0.65 0.70 0.75 0.80 ARI D

Rekursive Merkmalseliminierung Differenzmengen besser als Zufall? Ohne Disziplinenwörter: Vergleich von (MFW 500 \ RFE D ) mit 1000 zufällig ausgewählten Teilmengen der gleichen Größe. 100 MFW500 \ RFED 80 MFW500 5% 60 40 20 0 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 ARI Ü

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Ergebnisse Überblick Merkmale ARI Ü ARI D MFW 500 0,458 0,746 RFE Ü 1,000 0,310 RFE D 0,223 1,000 MFW 500 RFE Ü 0,824 0,228 MFW 500 RFE D 0,189 0,836 MFW 500 \ RFE Ü 0,284 0,795 MFW 500 \ RFE D 0,526 0,593 Bei anderen Qualitätsmaßen als dem ARI, nämlich dem V-measure-score (Homogenität und Vollständigkeit) sowie dem mittleren Silhouettenkoeffizienten, ist der gleiche Trend zu bemerken.

Ergebnisse Fazit Hauptergebnis Partitionierung der MFW in zwei Teilmengen möglich: Teilmenge 1: bessere Identifikation der Übersetzer als Gesamtmenge Teilmenge 2: bessere Identifikation der Disziplinen als Gesamtmenge MFW tragen teils Übersetzer-, teils Disziplinsignal! Weitere Ergebnisse rekursive Merkmalseliminierung wirksame Methode zur Bestimmung von übersetzer- und disziplintypischen Merkmalen Kondensierung der Wortliste als philologische Chance

Ergebnisse Ausblick Zukünftige Forschung Anwendung auf Mehrwortgruppen Anwendung auf andere Textkorpora unüberwachte Partitionierung der Merkmale

Gliederung Einleitung Problem Merkmalsselektion Ergebnisse Literatur

Literatur (1) Argamon, Shlomo (2008): Interpreting Burrows s Delta: Geometric and Probabilistic Foundations. Literary and Linguistic Computing 23/2: 131 147. doi:10.1093/llc/fqn003 Burrows, John (2002): Delta: a Measure of Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing 17/3: 267 287. doi:10.1093/llc/17.3.267 Eder, Maciej (2015): Does size matter? Authorship attribution, small samples, big problem. Digital Scholarship Humanities 30/2: 167 182. doi:10.1093/llc/fqt066 Eder, Maciej, Mike Kestemont, Jan Rybicki (2013): Stylometry with R: a suite of tools. In: Digital Humanities 2013: Conference Abstracts. Lincoln: University of Nebraska, 487 489. http://dh2013.unl.edu/abstracts/ab-136.html

Literatur (2) Evert, Stefan, Thomas Proisl, Fotis Jannidis, Steffen Pielström, Christof Schöch, Thorsten Vitt (2015): Towards a better understanding of Burrows s Delta in literary authorship attribution. In: Proceedings of the Fourth Workshop on Computational Linguistics for Literature. Association for Computational Linguistics, 79 88. http://www.aclweb.org/anthology/w/w15/w15-0709.pdf Guyon, Isabelle, Jason Weston, Stephen Barnhill, Vladimir Vapnik (2002): Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning 46/1: 389 422. doi:10.1023/a:1012487302797 Hasse, Dag Nikolaus, Andreas Büttner (in Vorbereitung): Notes on the Identity of the Latin Translator of Avicenna s Physics and on Further Anonymous Translations in Twelfth-Century Spain. Vorabversion: https://go.uniwue.de/hassevigoni

Literatur (3) Hoover, David L. (2004a): Testing Burrows s Delta. Literary and Linguistic Computing 19/4: 453 475. doi:10.1093/llc/19.4.453 Hoover, David L. (2004b): Delta Prime? Literary and Linguistic Computing 19/4: 477 495. doi:10.1093/llc/19.4.477 Jannidis, Fotis, Steffen Pielström, Christof Schöch, Thorsten Vitt (2015): Improving Burrows Delta - An empirical evaluation of text distance measures. In: Digital Humanities Conference 2015, Sydney. http://dh2015.org/abstracts/xml/jannidis_fotis_ Improving_Burrows Delta An_empi/JANNIDIS_Fotis_ Improving_Burrows Delta An_empirical_.html Kestemont, Mike, Kim Luyckx, Walter Daelemans, Thomas Crombez (2012): Cross-Genre Authorship Verification Using Unmasking. English Studies 93/3: 340 356. doi:10.1080/0013838x.2012.668793

Literatur (4) Rybicki, Jan (2012): The great mystery of the (almost) invisible translator: stylometry in translation. In: M. Oakley and M. Ji (Hrsg.): Quantitative Methods in Corpus-Based Translation Studies. Amsterdam: John Benjamins, 231 248. https: //sites.google.com/site/computationalstylistics/ preprints/rybicki%20great%20mystery.pdf Rybicki, Jan, Maciej Eder (2011): Deeper Delta across genres and languages: do we really need the most frequent words? Literary and Linguistic Computing 26/3: 315 321. doi:10.1093/llc/fqr031 Schöch, Christof (2013): Fine-Tuning our Stylometric Tools: Investigating Authorship and Genre in French Classical Drama. In: Digital Humanities 2013: Conference Abstracts. Lincoln: University of Nebraska, 383 386. http://dh2013.unl.edu/abstracts/ab-270.html

Literatur (5) Smith, Peter W. H., Aldridge, W. (2011): Improving Authorship Attribution: Optimizing Burrows Delta Method. Journal of Quantitative Linguistics 18/1: 63 88. doi:10.1080/09296174.2011.533591 Stamatatos, Efstathios, Nikos Fakotakis, George Kokkinakis (2000): Automatic Text Categorization in Terms of Genre and Author. Computational Linguistics 26/4: 471 497. doi:10.1162/089120100750105920