Semantische Annotation. Hauptseminar: Einführung in die Korpuslinguistik. Lesartenannotation - Beispiel. Lesartenannotation

Ähnliche Dokumente
Einführung in die Computerlinguistik

Einführung in die Computerlinguistik

NLP Eigenschaften von Text

A Topical/Local Classifier for Word Sense Idendification (TLC) Anne Schwartz

Kookkurrenzanalyse Einführung

Relationen zwischen Nomen und ihren Assoziationen. Michael Roth

Korpora. Referenten Duyen Tao-Pham Nedyalko Georgiev

Seminar Textmining SS 2015 Grundlagen des Maschinellen Lernens

Blockseminar Einführung in die Korpuslinguistik Seminarleitung: Yvonne Krämer, M.A. Das Korpus. und seine Aufbereitung

Wiederholung: Korpuslinguistik. Einführung in die Korpuslinguistik. Vorverarbeitung: Themen. Vorverarbeitung. Vorverarbeitung.

Korpus. Was ist ein Korpus?

QUALIA STRUKTUR NACH PUSTEJOVSKY

Phraseologie. Eine Einfuhrung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 2., überarbeitete Auflage

Dependency-Based Construction of Semantic Space Models ( Padó, Lapata 2007) Distributionelle Semantik WS 11/

Part-of-Speech Tagging. Stephanie Schuldes

Friedrich-Alexander-Universität Professur für Computerlinguistik. Nguyen Ai Huong

Phraseologie. Eine Einführung am Beispiel des Deutschen. von Harald Burger ERICH SCHMIDT VERLAG. 3., neu bearbeitete Auflage

Mathematische Grundlagen III

Einführung in die Computerlinguistik

Das Kompositionalitätsprinzip

Phraseologie. Eine Einführung am Beispiel des Deutschen ERICH SCHMIDT VERLAG. von Harald Burger. 3., neu bearbeitete Auflage

Einführung in die Computerlinguistik. Semantik

Sprachtechnologie als Grundlage für die maschinelle Auswertung von Texten

Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Semantische Klassifikation von Kollokationen auf Grundlage des DWDS- Wortprofils

xii Inhaltsverzeichnis Generalisierung Typisierte Merkmalsstrukturen Literaturhinweis

Data Mining Anwendungen und Techniken

Wort in der Semantik: Synonymie und Homonymie

HPSG. Referat zu dem Thema Kongruenz im Englischen Von Anja Nerstheimer

Lexikalische Substitutionen. Seminar: Sprachproduktion Dozentin: Prof. Dr. Helen Leuninger WS 09/10 Referenten: Anna Schmidt und Tim Krones

Automatische Verb-Klassifikation unter Einbezug linguistischer Kriterien und semantischer Assoziationsdaten

Einführung in die Computerlinguistik

HS: Korpuslinguistische Behandlung von Phänomenen des Deutschen

NLP - Analyse des Wissensrohstoffs Text

Automatische Lexikonakquisition aus Textkorpora. Vortrag von Peter Adolphs Forschungskolloquium Korpuslinguistik 14. Juni 2006

Was ist Statistik? Wozu dienen statistische Methoden?

Multilinguales Information Retrieval, AG Datenbanken und Informationssysteme. Multilinguales Information Retrieval

Übersicht über die Tests

Terminologie-Extraktion: Beispiel

Lexikalische Semantik. Was ist ein Wort? Was ist in einem Wort?

❶ Hier siehst du Beispiele für die Pluralbildung im Englischen. Schreibe unter jedes Beispiel zwei weitere Nomen, die ihren Plural genauso bilden.

Kapitel 16. Begriffe. HHU Düsseldorf, WS 2008/09 Information Retrieval 250

Vorlesung Maschinelles Lernen

Programmierkurs Python II

Algorithmen und Formale Sprachen

INFORMATIONSEXTRAKTION

WDG Analyse und Transformation (WAT)

Das Sichtenkonzept im DWDS- Wortinformationssystem

Einführung Computerlinguistik. Was ist ein Wort?

Transition Network Parser

Part-of-Speech- Tagging

COSMAS II Corpus Search Management and Analysis System

Präsentation vor dem Kolloquium Korpuslinguistik. Information Finding in Blogosphere: Domain Recognition and Genre Analysis

Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden domänenspezifischen Textanalysen

Einführung in die maschinelle Sprachverarbeitung

Wortarten Merkblatt. Veränderbare Wortarten Unveränderbare Wortarten

Studienprojekt TaxoSearch Spezifikation

Do Word Meanings Exist? Patrick Hanks

VL Morphologie Derivation 2. Anke Lüdeling Sommersemester 2008

Sichtbarmachung von Geo-Daten für eine Suchmaschine

INFORMATIONSGEWINNUNG AUS KURZEN TEXTEN

Wesentliche Methoden der Computerlinguistik. Peter Kolb Einführung in die Computerlinguistik Sommersemester 2012

Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Parsing mit NLTK. Beispiel: eine kleine kontextfreie Grammatik (cf. [BKL09], Ch. 8.

Inhalt und Typen von Korpora. Welche Sprachinhalte können Korpora haben und welche Arten von Korpora gibt es

Universität Bamberg Angewandte Informatik. Seminar KI: gestern, heute, morgen. Natural Language Processing and Machine Learning

Formalisierung und Kategorisierung natürlichsprachlicher Ortsbeschreibungen

Stefan Engelberg (IDS Mannheim), Workshop Corpora in Lexical Research, Bucharest, Nov [Folie 1] DWDS-Kernkorpus / DWDS corpus analysis

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Administration und Motivation Mathe III

time marker cluster term term URL Link to AEC media

PS Lexikalische Semantik und Korpuslinguistik. Ein paar Grundlagen. Andrea Kowalski

POS Tagging. Stefanie Dipper. CL-Einführung, 2. Mai 2007

Grundlegendes zur Semantik 4. Januar 2005

Automatisiertes Annotieren in CATMA

Logische Beziehungen zwischen Lexemen

12. LA- und PS-Hierarchien im Vergleich

Manual zur Identifikation von Funktionsverbgefügen und figurativen Ausdrücken in PP-Verb-Listen

Automatisches Verstehen gesprochener Sprache

Wissensbasierte lexikalische Substitution

Digitale Bearbeitung der textuellen Daten

Claudia Neubert Norbert Rüffer Michaela Zeh-Hau. Neurolinguische Aphasietherapie. Materialien. Satzergänzung. NAT-Verlag

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Juristisches Übersetzen Spanisch - Deutsch: Immobilienkaufverträge

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

Einführung Computerlinguistik. Konstituentensyntax II

Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen)

Annotation des Wittgenstein-Korpus mit Wortart-Information

Tagging von Online-Blogs

Lektion 3: Nominativ und Akkusativ (nominative and accusative cases)

Klausur in zwei Wochen Einführung in die Morphologie Flexion

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Morphologie I. Lexikon & Wortschatz Was ist ein Wort? Wort und Wortform Flexionsmorphologie. Morphologie I 1

Schulcurriculum Gymnasium Korntal-Münchingen

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Konzepte der AI: Maschinelles Lernen

Überblick. VL: Einführung in die Korpuslinguistik. Annotation. Tokenbasierte Annotation

Einführung in die Computerlinguistik: Semantik. Manfred Pinkal / Sebastian Pado

Musterlösung zur Abschlussklausur

Grundlagen der LFG. (1) I danced a dance, I sneezed a sneeze, I laughed a laugh I stumbled a stumble, *I drowned a drown, *I floated a float

Korpusvorverarbeitung. Hauptseminar: Einführung in die Korpuslinguistik. Kodierung/Annotationsmaximen. Vorverarbeitung: erste Schritte.

Transkript:

Hauptseminar: Einführung in die Korpuslinguistik Anke Lüdeling anke.luedeling@rz.hu-berlin.de Wintersemester 2002/2003 Semantische Annotation Lesarten annotieren (sense tagging) ein bisschen was zu Lesarten und lexikalischer Semantik Techniken der Lesartenannotation Probleme automatische Anaphernauflösung Lesartenannotation jedes Token (manchmal auch: jedes Token, das zu einer offenen Wortklasse gehört / jedes Nomen / Nomen einer bestimmten Klasse etc.) wird mit einem Tag versehen, das seine Lesart (sense) in dem verwendeten Kontext angibt Lesartenannotation - Beispiel "Bei uns kann jeder anfangen/beginnen, ob ehemaliger Turniertänzer oder blutiger Anfänger", sagt Heinz Rieger. Wichtig sei allein die Freude an der Bewegung/KÖRPERL_AKTIVITÄT zur Musik. Wer überhaupt außerhalb der Region kann mit dem Begriff Rhein-Neckar-Raum etwas anfangen/kennen, weiß ihn geographisch einzuordnen, hat eine Vorstellung, was hier an Unternehmen und Wirtschaftskraft sitzt? Lesartenannotation - Beispiel Der Kämpfer um die reine Lehre Buddhas wurde mit seinen Anhängern mehrfach verfolgt, die Tempel der Bewegung/GEMEINSCHAFT angezündet (einige davon wurden später wiederaufgebaut) (Beispiele aus Mannheimer Morgen, COSMAS) Wozu Lesartenannotation? lexikographische Zwecke quantitative Studien zur Verteilung bestimmter Lesarten in bestimmten Textsorten computerlinguistische Anwendungen maschinelle Übersetzung information retrieval Frage-Antwort-Systeme...

Lesarten (senses)! hier nur ganz grober Überblick Genaueres in den Seminaren von Prof. Lang und Prof. Krifka! Wieviele Lesarten hat ein Lemma? (Wie hängen die Lesarten zusammen?) Wie kann man die Lesarten (automatisch) unterscheiden? Lesarten mehrere Wörter mit der gleichen Bedeutung Synonymie Samstag, Sonnabend Substitutierbarkeit in einem Kontext/einer Menge von Kontexten abkratzen, sterben, heimgehen, ins Gras beissen, das zeitliche segnen,... wahre Synonymie ist selten! Lesarten ein Wort in mehreren Bedeutungen Homonymie (Bank) Homographie (Tenor) Homophonie (Lerche, Lärche) Polysemie... Lesarten Polysemie (verstehen, Fisch, blau) systematische Polysemie Fisch, Huhn, Schwein etc. Tier und Lebensmittel Oper, Theater, Schule etc. Gebäude und Institution und Gruppe von Menschen... (Bierwisch 1982) Kontextabhängigkeit (teuer, klein, gut) Vagheit Methoden zur Unterscheidung von Lesarten Etymologie (?) im Wörterbuch nachschauen (?) Beispiel: belegen, Kiefer Schlüsselwörter im Kontext syntaktisches Verhalten: Argumentstruktur, Modifikation, Definitheit,... Zeugma Dornröschen belegt ein Brötchen und einen Kurs in Korpuslinguistik Lesarten Übergang zu Kollokationen, Idiomen,... fließend wie groß muss ein Bedeutungseintrag sein? <etw. mit etw. anfangen können> <blutiger Anfänger> <in Bewegung setzen>

Wortartenannotation sense tagging, word sense disambiguation setzt voraus, dass wir jedem Lemma eine bestimmte Menge an Lesarten zuordnen können (tun wir jetzt mal so, als sei das problemlos möglich) zwei Möglichkeiten Disambiguierung aufgrund von Selektionsrestriktionen (maschinelle Lernverfahren) Wortartenannotation man hat zwei Arten von Wissen zur Verfügung linguistisches Wissen: morphologisches/morphosyntaktisches Wissen, Kontext zusätzliches (extralinguistisches) Wissen: Wissen über Domäne, Textsorte etc. Beispiel: Kiefer Lexikoneinträge <Kiefer1 - Körperteil> <Kiefer2 - Baum, Holz> vernetzte Disambiguierung Annahmen: alle Wörter in einem Satz bis auf eins sind desambiguiert man hat ein Lexikon mit sehr genauen Selektionsrestriktionen für selegierende Wörter man hat eine zum Lexikon passende Taxonomie (oder anderes Kategoriensystem) für lexikalische Einträge vernetzte Disambiguierung die anderen Wörter helfen, die Lesart des letzten festzulegen zusätzliche Lexikoneinträge für Verben <operieren an KÖRPERTEIL> <sägen HOLZ> <wachsen BELEBTES_OBJEKT>... plus Taxonomie BAUM ISA PFLANZE ISA BELEBTES_OBJEKT... vernetzte Desambiguierung Thomas Zampach wurde am Kiefer operiert und Thorsten Kracht hatte einen Muskelfaserriss in der Wade Kiefer lässt sich mit allen Werkzeugen leicht bearbeiten, sie lässt sich gut sägen, hobeln, fräsen und bohren, man kann sie messern, schälen und drechseln.

vernetzte Desambiguierung Problem: was ist mit weniger spezifischen Verben? mögen, kaufen, sehen,... Erstellung eines Lexikon und einer Konzepthierarchie (Taxonomie) aufwendig und schwierig meist nur für eine Domäne/ein Szenario aufbereitet und schlecht übertragbar WordNet/GermaNet zugrundeliegende Idee: jede Lesart hat ein typisches Verhalten (kommt in bestimmten morphosyntaktischen Formen vor, es gibt bestimmte andere Wörter im Kontext etc.) solch ein typisches Verhalten kann durch eine Vektordarstellung approximiert werden dann kann man jede Lesart an einem/einer Menge für sie typischen Vektor erkennen man erzeugt für jedes zu taggende Wort einen Merkmalsvektor mit zb Wortart Lemma Kontext (in einer festgelegten Größe), auch mit Wortart & Lemmainformation (seltener) syntaktische Strukturbeschreibung (Teilparse) wobei Kontext: collocation und co-occurrence collocation: Information über Wörter, die an einer bestimmten Position relativ zum zu bestimmenden Wort stehen syntagmatische Relationen: Wörter, die in einer bestimmten syntaktischen Relation zu dem zu bestimmenden Wort stehen co-occurrence (bag of words): Wörter, die irgendwo innerhalb eines bestimmten Kontextfensters mit dem zu bestimmenden Wort vorkommen If one examines the words in a book, one at a time as through an opaque mask with a hole in it one word wide, then it is obviously impossible to determine, one at a time, the meaning of the words [...] But if one lengthens the slit in the opaque mask, until one can see not only the central word in question but also say N words on either side, then if N is large enough one can unambiguously decide the meaning of the central word. [...] The practical question is: What minimum value of N will, at least in a tolerable fraction of cases, lead to the correct choice of meaning for the central word? Weaver (1949), zitiert nach Ide & Veronis (1998) collocation: Verkauf/NN von/prep nordischen/adja Hölzern/NN, speziell/adv Fichte/NN, Kiefer/NN und/konj Lärche/NN Welche Information? Kiefer folgt auf Fichte, und Lärche direkt nach Kiefer Wortartreihenfolge

kann in gewissen Grenzen einfache Strukturbeschreibungen ersetzen typische Modifikationen typische Verbargumente findet typische morphologische Varianten keep: mit Gerundium: he kept eating mit Adjektiv: he kept calm mit NP: he kept a record Wörter, die inem bestimmten syntagmatischen Zusammenhang mit dem zu bestimmenden Wort stehen Voraussetzung: geparstes Korpus (wenigstens Chunks) co-occurrence Holz, Fichte, Lärche etc. kommen oft in der Nähe von Kiefer2 vor hier werden Kontextfenster einer vorgegebenen Größe ausgewertet nordischen Hölzern, speziell Kiefer, Fichte und Lärche Beispiel: Kontextwörter zu Kiefer1: Zahnarzt, Operation, Gesicht, Körper Kiefer2: Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern

Informationen aus Wörterbüchern/Thesauri geht zurück auf Lesk (1986): Die Wörter, die in den Definitionen im Wörterbuch verwendet werden, werden auf die jeweiligen Kontexte abgebildet man nimmt die Lesart, die die meisten Übereinstimmungen mit dem gegebenen Kontext hat 50 70 % korrekt annotierte Lesarten spätere Verfahren mit neuronalen Netzen auf OALD & CED erreichen über 90% korrekt annotierte Lesarten (Veronis & Ide 1990) Problem: abhängig von der genauen Formulierung im verwendeten Wörterbuch Wörterbücher sind oft inkonsistent Wörterbücher enthalten keine/wenig Kontextinformation oder pragmatische Information daher: woher weiß man, welche Informationen in den Vektor aufgenommen werden sollen? manuelle Angabe Informationen aus Wörterbüchern statistische Lernverfahren auf einem Trainingskorpus (manuell annotiert) auf einem (handannotierten) Trainingskorpus werden mit dem Zielwort vorkommende Wörter gezählt Gewichtung (stop words?) : Vektordarstellung Vektorrepräsentation morphosyntaktische Eigenschaften: <Genus, Numerus>, zb 0 für masc, 1 für fem, 0 für sing, 1 für plural Vektorrepräsentation Kontext: <pos-1:am, pos+1:operieren, Zahnarzt, Operation, Gesicht, Körper, Lärche, Fichte, Wald, wachsen, Holz, billig, IKEA> dann für jeden Kontext Zuordnung zu einer Lesart z. B. <0,0,0,0,0,0,0,0,1,1,0,0,1,0,0> - Kiefer2 wenn man die Vektoren hat, kann die Lesarten anhand ähnlicher Kontexte klassifizieren woher kennt man die entsprechenden Kontexte? was heißt in diesem Zusammenhang ähnlich? das Ähnlichkeitsmaß ist mathematisch definiert überwachtes Lernen: Kontexte werden aufgrund eines manuellen Trainingskorpus gelernt unüberwachtes Lernen: Kontexte werden zu ähnlichen Clustern zusammengefügt

Schwierigkeiten Bestimmung der Lesarten Ermittlung der Merkmalsvektoren scaling up : Übertragung auf weitere Kontexte Entscheidungsbaumverfahren manche Informationen sind aussagekräftiger als andere (wenn man das Genus von Kiefer eindeutig bestimmen kann, braucht man den Kontext nicht mehr) daher kann man ein Entscheidungsbaumverfahren lernen: Entscheidungsbäume sind eine Folge von ja/nein Entscheidungen mit Konsequenzen (Genus eindeutig bestimmt? Wenn ja, dann Kiefer1 oder Kiefer2, sonst schau den Kontext an...) Probleme handannotiertes Korpus ist schwer zu bekommen/herzustellen sparse data problem : für einige Lesarten gibt es zu wenig Trainingsdaten (in einigen Texttypen/Genres kommen bestimmte Lesarten überhaupt nicht vor) Qualität: bisher kommt man nicht an die 95%+ heran, die zb beim Wortartentagging erreicht werden Existierende Systeme und Evaluation SEMCOR Corpus: 200 000 Wörter des Brown Corpus mit WordNet Lesarten, handgetaggt SENSEVAL Corpus diverse kleinere Korpora Existierende Systeme und Evaluation Evaluationskriterien Menge der Lesarten (Differenzierung), Allgemeinheit, Übertragbarkeit auf andere Domänen Was zählt als korrekt? (bei hierarchischen Wörterbucheinträgen: nur unterste Ebene oder auch höhere Ebenen) bei kombinierten Verfahren: wieviel muss manuell korrigiert werden? bei rein automatischen Verfahren: Geschwindigkeit (bei bestimmten Aufgaben wie zb bei zeitgleicher maschineller Übersetzung wichtig) Existierende Systeme und Evaluation SENSEVAL-Konferenzen: ein bestimmer Text wird nach vorgegebenen Kriterien mit Lesarten annotiert Vergleich zwischen verschiedenen Systemen Diskussion über Schwierigkeiten und Verfahren ca. 2-jährig (nächste: Sommer 2003, http://www.senseval.org/)

Standards Was ist der Standard? Was ist eigentlich ein korrekt mit Lesarten annotiertes Korpus? Soll man eigentlich automatisch Lesarten zuweisen? Können Menschan das nicht viel besser? dazu: 2 Experimente und ein Vorschlag von Jean Veronis (2001) Véronis Ziele herausfinden, wie gut Menschen eigentlich Lesarten disambiguieren können Konsequenzen für maschinelles Disambiguieren diskutieren einen rein strukturellen Vorschlag zur Lesartendisambiguierung unterbreiten Experiment 1 Experiment 1 Material: je 200 Adjektive, Nomen und Verben, die jeweils ca. 60 Mal im JOC Korpus (französisch) vorkommen: für jedes dieser Wörter alle Vorkommen mit Kontext ausgedruckt 6 TeilnehmerInnen (Studierende ohne lexikographische Ausbildung) Frage: hat dieses Wort in den folgenden Kontexten mehrere Bedeutungen? (eine Option: weiss nicht) keine Zeitbeschränkung nur ca. 4 % weiss-nicht-antworten (dh, die Versuchspersonen fanden die Aufgabe nicht schwierig) 73 % der Wörter werden als eindeutig angesehen Polysemie unterscheidet sich deutlich je nach Wortart N > V > Adj (i. Ggs. zu Petit Larousse V > N > A) volle Übereinstimmung nur bei 4,5 % der polysemen Wörter Experiment 2 Experiment 2 Material: die 60 polysemsten (20 pro Wortart) der Wörter aus Experiment 1 mit allen ihren Belegen Aufgabe: Lesartenzuweisung nach Petit Larousse für alle Belege man konnte mehr als eine Lesart pro Kontext zuweisen zusätzliche Lesart als?, werden alle als eine gezählt TeilnehmerInnen: 6 (andere) Studierende ohne lexikographische Ausbildung Ergebnisse: Polysemie nach Wortart: V > N > A vielleicht zurückzuführen auf Wörterbuch ganz wenig Übereinstimmung zwischen den Annotatoren (zt schlechter als Zufall) (Hypothese, dass das auf zu feine Wortartunterscheidung im PL zurückzuführen ist, muss verworfen werden, Übereinstimmung schon auf der höchsten Ebene nicht gegeben)

Zusammenfassung Ergebnisse Experiment 1: keine Übereinstimmung bei der Einschätzung, ob ein gegebenes Wort in einem gegebenen Kontext polysem ist oder nicht Experiment 2: keine Übereinstimmung bei Lesartenzuweisung nach Wörterbuch (Veronis meint, das läge nicht an dem verwendeten Wörterbuch) Lösungsvorschlag Unterscheidung nur noch nach syntaktischen/strukturellen Kriterien unterschiedliche Argumentstruktur unterschiedliche Modifikationsmöglichkeiten Ersetzung durch Hyporonyme/Hyponyme... Idee: menschliche und automatische Annotation möglich und vergleichbar Lösungsvorschlag Problem: Wörterbücher enthalten solche Kriterien nicht (systematisch) Würde das nicht auch wieder eine Menge Handarbeit voraussetzen (zb Klassifikation von passenden Adjektiven etc.)? Würde das nicht eine Theorie für zu unterscheidende Lesarten voraussetzen? Zusammenfassung sense tagging wichtig für alle möglichen computerlinguistischen und linguistischen Anwendungen problematisch Festlegung der Lesarten (automatische) Zuweisung der Lesarten viel Handarbeit/Ressourcen erforderlich Zusammenfassung Korpusaufbereitung kurze Wiederholung zur Kurzklausur nächste Woche: Woher bekommen LinguistInnen ihre Daten? Welche linguistischen Fragestellungen, können durch Korpusdaten bearbeitet werden? Welche nicht? Wie wird ein Korpus aufgebaut? Zusammenfassung Korpusaufbereitung Wie wird ein Korpus vorverarbeitet? Welche Probleme gibt es jeweils? Welche Entscheidungen müssen getroffen werden? Tokenisierung pos-tagging Lemmatisierung syntaktische Strukturzuweisung/Baumbanken Lesartentagging

Literatur Ide, Nancy & Véronis, Jean (1998) Introduction to the Special Issue on Word Sense Dismabiguation: The State of the Art. In: Computational Linguistics 24(1), 1-40 Jurafsky, Daniel & Martin, James H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall, New Jersey Véronis, Jean (2001) Sense tagging: does it make sense? Paper presented at Corpus Linguistics 2001, Lancaster. http://www.up.univ-mrs.fr/~veronis/pdf/2001-lancastersense.pdf