Terminologie-Extraktion: Beispiel

Ähnliche Dokumente
Text, Wörter, Morpheme Möglichkeiten einer automatischen Terminologie-Extraktion

Terminologie, Terminologiemanagement und Terminologie-Extraktion

Proseminar Linguistische Annotation

Computerlinguistische Grundlagen. Jürgen Hermes Sommersemester 17 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

Linguistische Informatik

Petra Drewer & Melanie Siegel. Terminologieextraktion multilingual, semantisch und mehrfach verwendbar

XDOC Extraktion, Repräsentation und Auswertung von Informationen

Terminology as a Service eine Plattform für kooperative Terminologiearbeit Tekom-Regionalgruppe Nordrhein 28. April 2015 FH Köln

Bedeutung als Vektor? Überlegungen zur Distributionellen Semantik

"What's in the news? - or: why Angela Merkel is not significant

Terminologie vs. kontrolliertes Vokabular Unterschiede, Gemeinsamkeiten, sinnvolle Kombinationen. Ursula Reuther

Semi-automatische Ontologieerstellung mittels TextToOnto

Terminologie zum Dreyer & Bosse BHKW 110 kw

NLP Eigenschaften von Text

Was ist Statistik? Wozu dienen statistische Methoden?

Semiautomatische Erschließung von Psychologie-Information

Inaugural-Dissertation. Philosophie

Kapitel 9. Zusammenfassung & Ausblick

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Thesaurus 1. Merkmale:

Information Retrieval

Terminologiemanagement für den kleinen Geldbeutel

Grundlagen und Definitionen

Midas Metadata yield by Data Analysis

Literaturdatenbanken

Simullda. Structured Interlingua MultiLingual Lexical Database Application. Sonja Weber

Inhaltsverzeichnis. 1 Einleitung... 1

Automatische Extraktion von Fachterminologie aus kunsthistorischen Volltexten

Wörter - Texte - Information. Möglichkeiten und Grenzen automatischer Erschließungsverfahren

NLP im Information Retrieval

Vertriebssteuerung & Kundenmanagement bei Finanzinstituten. 1. Dezember 2010, Frankfurt am Main

Gliederung. Das TIGER-Korpus: Annotation und Exploration. TIGER-Korpus. 1. TIGER-Korpus. entstanden im Projekt TIGER (1999 heute) beteiligte Institute

Universität Ulm Abteilung Künstliche Intelligenz. ExtrAns. Verarbeitung natürlicher, schriftlicher Sprache. C. Bohnacker

Einführung in die Computerlinguistik Überblick

Semantic Role Labeling im modernen Text-Analyse-Prozess

Linguistik für Kognitionswissenschaften

Erläuterung des Begriffs Plagiat

Maschinelle Sprachverarbeitung: Part-of-Speech-Tagging

2 Evaluierung von Retrievalsystemen

Grundlagen der übersetzungsbezogenen Terminologiearbeit - Terminologienormung und Terminologieverwaltung

Volltextsuche und Text Mining

FACHSPRACHE. Einführung

INFORMATIONSEXTRAKTION

Übersicht. Mehrwortlexeme Eigennamenerkennung. Sprachidentifikation Duplikaterkennung Abschnittweises Retrieval. Crosslinguales Retrieval

Informationsextraktion aus radiologischen Befundberichten

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Vorbereitung. Kataloge und Datenbanken. Zugang

Text-Mining: Einführung

Text Mining und Textzusammenfassung. Jürgen Kirkovits Doris Rongitsch Daniela Wagenhofer

Zeitschriften Linguistik

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Maschinelle Übersetzung

Anwendung von Vektormodell und boolschem Modell in Kombination

Dante Bemabei. Der Bindestrich. Vorschlas zur Systematisierung. PETER LANG Europäischer Verla3 der Wissenschaften

Einführung Computerlinguistik. Konstituentensyntax II

Information-Retrieval: Unscharfe Suche

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Mit Excel und Prüftool Terminologieverwaltung und -prüfung konzernweit einführen

Wort, Name, Begriff, Terminus. Schlusszusammenfassung

Ziele und Herausforderungen

Automatisiertes Annotieren in CATMA

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Wissenschaftssprache. S p r a c h l i c h e B e s o n d e r h e i t e n. Wissenschaftssprache, T.

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Verlässlicher Grammatik-Transfer

Computerlinguistik und Sprachtechnologie

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Logik und modelltheoretische Semantik. Montague-Grammatik

Text Mining für News-Sites Nina Hälker

Literaturrecherche Mentoring für Lehrer

Einführung in die übersetzungsbezogene Terminologiearbeit. Übersicht über das Seminar. Allgemeinsprache vs. Fachsprache

Knauer: Gesellschaftsvertrag Deutsch-Englisch. Inhalt

Einführung in die Computerlinguistik

Der Terminus ohne Haken Wunsch oder Wirklichkeit?

Morphologie (5) Wortarten (2) Part-of-Speech Tagging Stemming

Clustern: Voraussetzungen

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Deutsche Lernerwortarten im Falko Lernerkorpus Was Mehrebenen-POS-tags leisten können

Ingeborg Blank Centrum für Informations- und Sprachverarbeitung der Ludwig-Maximilians-Universität München Oettingenstr.

30 Minuten zum Thema Terminologie: Terminologiearbeit mit Excel Grundregeln und Tipps. Mittwoch, 29. Juni - 11:00 CET

International Office

Zwischensprachliche Variation bei Quantorenanhebung

Transkript:

Terminologie-Extraktion: Beispiel The major risks of long-term cardiotoxicity relate to treatment prior to the BMT, in particular, anthracyclines, ablative-dose Cytoxan (ie, dose > 150 mg/ kg), chest [radiation therapy], TBI (especially if not fractionated), and high-dose steroids. Es sollten mindestens die fett gedruckten Termini extrahiert werden. Aber: nicht immer eindeutig, was Terminologie ist: Cytoxan ist der Name eines Medikamentes, steht nicht im Pschyrembel. Trotzdem Terminologie???

Terminologie-Extraktion: Anwendungen Terminologiewörterbuch: Als Grundlage zur Einarbeitung in ein Fachgebiet Vergleich von Fachsprachen: z.b. Bürgersprache vs. Beamtensprache Maschinelle Übersetzung: Terminologie als möglicherweise fehlende oder ergänzungsbedürftige Einträge im Lexikon Als Beschlagwortung : Für Maschinen: Suchen/clustern/klassifizieren von Texten anhand v. Stichwörtern (IR, vgl. automatic indexing) Für Menschen: Erstellung von Abstracts, Topic Maps,

Terminologie: Definitionen Eugen Wüster/DIN: das Begriffs- und Benennungssystem eines Fachgebietes, das alle Fachausdrücke umfaßt, die allgemein üblich sind. Begriff Zeicheninhalt, Benennung Zeichenform Oft gefordert: Eineindeutigkeit, d.h. Fachtermini sollen nicht ambig sein (Präzision) und: es soll keine Synonyme geben (Ökonomie). Diese Forderung ist bei genormten Terminologien erfüllt: Normung beinhaltet: Definition eines jeden Fachterminus, Garantie v. Eindeutigkeit. Meist hierarchische, semantische Anordnung der Termini (Taxonomie).

Terminologie-Definitionen: Probleme Definitionen zu vage, um Terminologie in Texten zu identifizieren: Was als allgemein üblich empfunden wird, hängt vom Betrachter ab (bei nicht genormten Terminologien ) Gleiches Problem wie im Information Retrieval: Welche Dokumente sind relevant? Bzw.: welche Wörter sind terminologisch? Idee aus dem IR: Relevance Feedback

Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten der entsprechenden Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten:

Linguistische Merkmale von Terminologie Morphologie: Je nach Fachsprache sind bestimmte Derivative/Suffixe häufiger bzw. produktiver (Bsp.: -itis in der Medizin) Deutsch: viele Komposita, zusammengesetzt aus immer wieder den gleichen Basismorphemen Syntax: Wortarten: Einwortterme sind immer Autosemantika, meist N, A Viele Fachtermini sind Mehrwortbegriffe (NPs) mit typischen POS- Mustern (z.b. [A N] oder [N N]) Meist unvariiert (keine Umstellungen) Nicht trennbar (weder im Englischen noch im Deutschen split NP möglich)

Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter.

Ansätze: Erkenntnisse (1) Statistische Verfahren: [Salton 1975]: TF/IDF funktioniert nur für Kollektionen, für Analyse einzelner Dokumente ungeeignet [Cohen 1995]: Differenzanalyse für Buchstaben-n-gramme kann gute Ergebnisse bringen [Dunning 1993]: Verfahren ohne korrektes statistisches Modell überbewerten seltene Ereignisse Linguistische Verfahren: Contra POS-Muster: mittels [N N] wird aus the man gave the girl biscuits die Phrase girl biscuits extrahiert. Contra Parser: Brauche zuviel Wissen im Lexikon (Valenzrahmen, Wortarten etc.) über die Wörter eines Textes => das Lexikon soll aber erst aufgebaut werden! Chunking als Kompromiß?

Ansätze: Erkenntnisse (2) Hybride Verfahren: [Daille 1994], [Justeson 1995]: Der beste statistische Filter für Phrasen (egal wie extrahiert) ist deren pure Frequenz Verfahren für das Deutsche ([Heid 1998]): Semantisch komplexe Begriffe werden im Deutschen (meist) durch Komposita statt Mehrwortbegriffe ausgedrückt => Phrasenextraktion sinnlos Über Kompositazerlegung und Suche nach domänenspezifischen Basismorphemen läßt sich das aber voll kompensieren!

Literatur Statistische Verfahren: [Cohen 1995] Cohen, J.D. (1995): Highlights: language and domain independent automatic indexing terms for abstracting. In: Journal of the American Society for Information Science, 46(3), S. 162-174. [Dunning 1993] Dunning, T. (1993): Accurate Methods for the Statistics of Surprise and Coincidence. In: Computational Linguistics, 19(1), S. 61-74. Hybride Verfahren: [Justeson 1995] Justeson, J.S., Katz, S.M. (1995): Technical terminology: some linguistic properties and an algorithm for identification in text. In: Natural Language Engineering, 1(1), S. 9-27. [Daille 1994] Daille, B., Gaussier, E., Lang e, J. (1994): Towards Automatic Extraction of Monolingual and Bilingual Terminology. In: Proceedings of COLING94, S. 515-521. Deutsch: [Heid 1998] Heid, U. (1998): A linguistic bootstrapping approach to the extraction of term candidates from German text. In: Terminology, 5(2), S. 161-181.