Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation therapy], TBI (especially if not fractionated), and high-dose steroids. Es sollten mindestens die fett gedruckten Termini extrahiert werden. Aber: nicht immer eindeutig, was Terminologie ist: Cytoxan ist der Name eines Medikamentes, steht nicht im Pschyrembel. Trotzdem Terminologie???
Terminologie-Extraktion: Anwendungen Terminologiewörterbuch: Als Grundlage zur Einarbeitung in ein Fachgebiet Vergleich von Fachsprachen: z.b. Bürgersprache vs. Beamtensprache Maschinelle Übersetzung: Terminologie als möglicherweise fehlende oder ergänzungsbedürftige Einträge im Lexikon Als Beschlagwortung : Für Maschinen: Suchen/clustern/klassifizieren von Texten anhand v. Stichwörtern (IR, vgl. automatic indexing) Für Menschen: Erstellung von Abstracts, Topic Maps,
Terminologie: Definitionen Eugen Wüster/DIN: das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfaßt, die allgemein üblich sind. Begriff Zeicheninhalt, Benennung Zeichenform Oft gefordert: Eineindeutigkeit, d.h. Fachtermini sollen nicht ambig sein (Präzision) und: es soll keine Synonyme geben (Ökonomie). Diese Forderung ist bei genormten Terminologien erfüllt: Normung beinhaltet: Definition eines jeden Fachterminus, Garantie v. Eindeutigkeit. Meist hierarchische, semantische Anordnung der Termini (Taxonomie).
Terminologie-Definitionen: Probleme Definitionen zu vage, um Terminologie in Texten zu identifizieren: Was als allgemein üblich empfunden wird, hängt vom Betrachter ab (bei nicht genormten Terminologien ) Gleiches Problem wie im Information Retrieval: Welche Dokumente sind relevant? Bzw.: welche Wörter sind terminologisch? Idee aus dem IR: Relevance Feedback
Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten der entsprechenden Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:
Linguistische Merkmale von Terminologie Morphologie: Je nach Fachsprache sind bestimmte Derivative/Suffixe häufiger bzw. produktiver (Bsp.: -itis in der Medizin) Deutsch: viele Komposita, zusammengesetzt aus immer wieder den gleichen Basismorphemen Syntax: Wortarten: Einwortterme sind immer Autosemantika, meist N, A Viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS- Mustern (z.b. [A N] oder [N N]) Meist unvariiert (keine Umstellungen) Nicht trennbar (weder im Englischen noch im Deutschen split NP möglich)
Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.
Ansätze: Erkenntnisse (1) Statistische Verfahren: [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse einzelner Dokumente ungeeignet [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute Ergebnisse bringen [Dunning 1993]: Verfahren ohne korrektes statistisches Modell überbewerten seltene Ereignisse Linguistische Verfahren: Contra POS-Muster: mittels [N N] wird aus the man gave the girl biscuits die Phrase girl biscuits extrahiert. Contra Parser: Brauche zuviel Wissen im Lexikon (Valenzrahmen, Wortarten etc.) über die Wörter eines Textes => das Lexikon soll aber erst aufgebaut werden! Chunking als Kompromiß?
Ansätze: Erkenntnisse (2) Hybride Verfahren: [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen (egal wie extrahiert) ist deren pure Frequenz Verfahren für das Deutsche ([Heid 1998]): Semantisch komplexe Begriffe werden im Deutschen (meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos Über Kompositazerlegung und Suche nach domänenspezifischen Basismorphemen läßt sich das aber voll kompensieren!
Literatur Statistische Verfahren: [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S. 162-174. [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74. Hybride Verfahren: [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S. 9-27. [Daille 1994] Daille, B., Gaussier, E., Lang e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S. 515-521. Deutsch: [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction of term candidates from German text. In: Terminology, 5(2), S. 161-181.