Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen.

Transkript

1 (Wählen Sie nun "Drucken" aus dem Datei-Menü Ihres Browsers;) 10 - Multi-word terms Mehrgliedrige lexikalische Einheiten Zusammenfassung: In dieser Kurseinheit werden wir die Handhabung, d.h. die Erkennung und lexikographische Behandlung von mehrgliedrigen lexikalischen Einheiten darstellen. Wir werden uns nach einer allgemeineren Übersicht auf Kollokationen und Phraseme konzentrieren Übersicht über das Thema und Klassifikation von MLE Allgemeine Übersicht und Klassifikation Einleitung Wir haben bereits in Kapitel 9 von den paradigmatischen und den syntagmatischen Relationen gesprochen, durch welche sich die Bedeutung lexikalischer Zeichen zumindest teilweise bestimmen lässt. Nachdem wir in Kurseinheit 6 - in Zusammenhang mit GermaNet - ausführlich auf die paradigmatischen, nämlich lexikalisch-semantischen und konzeptuellen, Relationen zwischen sprachlichen Zeichen eingegangen sind, wollen wir in dieser Lehreinheit auf einige syntagmatische Relationen zu sprechen kommen. Wenn wir von einem Modell ausgehen, in dem sprachliche Zeichen, allenfalls eingeschränkt durch ihre syntaktische Kombinierbarkeit, frei distribuiert auftreten können, dann beschreiben wir im Folgenden für einzelne sprachliche Zeichen oder auch für Klassen sprachlicher Zeichen typische Distributionsbeschränkungen. Diese sind aber wiederum so idiosynkratisch, dass sie im Lexikon beschrieben werden sollten. Wir knüpfen damit an den letzten Abschnitt der Kurseinheit 9 an, in dem aus der Sicht der lexikalischen Akquisition Selektionsbeschränkungen als eine Form der Distributionsbeschränkung für lexikalische Zeichen beschrieben wurden. Gegenstände dieser Kurseinheit sind die syntakto-semantische Beziehung der Kollokation, die wir zwischen Paaren von lexikalischen Zeichen ansetzen wollen, und die etwas weiter gefasste, vor allem statistisch definierte Beziehung der Kookkurrenz. Wir werden uns außerdem mit Phrasemen befassen, die eine Klasse komplexer Lexeme darstellen. Das Charakteristische an Phrasemen ist, dass sie eine Gesamtbedeutung haben, die aus den Bedeutungen der einzelnen Konstituenten nicht erschließbar ist. Darüber hinaus sind viele Phraseme syntaktisch nicht wohlgeformt Begriffsdefinition(en) Verschiedentlich wurden und werden die hier beschriebenen lexikalischen Kombinationen unter dem Begriff "Mehrwortlexeme" zusammengefasst. Der Begriff "Mehrwortlexem" ist allerdings problematisch. Wenn wir uns an der terminologischen Unterscheidung zwischen Zeichenkette, (Text-)Wort und lexikalische Einheit orientieren, die wir in Kurseinheit 9 eingeführt haben, dann können wir einzelne Bestandteile von Mehrwortlexemen (z.b. unikale Komponenten wie gäbe in gang und gäbe ) nicht als Textwörter bezeichnen, da sie keine eigene Bedeutung tragen (außerhalb dieses komplexen Lexems). Man spricht deshalb besser von mehrgliedrigen lexikalischen Einheiten (MLE). Die Glieder können dabei einmal Morphe sein, wie bei den meisten deutschen Komposita (vgl. Zahn-bürste) oder aber Zeichenketten, wie bei vielen englischen oder spanischen Komposita (vgl. tooth brush, cepillo de dientes). Wenn wir von Zeichenketten reden, ersparen wir uns die auf jeden Fall schwierige Entscheidung, ob diese, wenn sie ein mehrgliedriges Lexem instantiieren, wirklich Wörter in dem von uns bestimmten Sinn sind Klassifikation Wir wollen die Klasse der mehrgliedrigen lexikalischen Einheiten (MLE) weiter untergliedern. Die verschiedenen Arten von MLE werden sowohl in Printwörterbüchern als auch in elektronischen Wörterbüchern unterschiedlich behandelt, wobei sich bei einigen Arten spezifische Unterschiede der Repräsentation in beiden Medien ergeben. Wir unterscheiden also: Phraseme (engl.: idioms). Die Gesamtbedeutung des Zeichens ist nicht aus den Bedeutungen seiner Teile erschließbar. Kollokationen. Die Bedeutung von Kollokationen ist in fast allen Fällen aus den Bedeutungen ihrer Bestandteile erschließbar. Das Besondere und Idiosynkratische dieser Konstruktionen besteht darin, dass meistens zwei lexikalische Zeichen eine Kombination bilden, die andere, theoretisch mögliche Kombinationen zwischen synonymen lexikalischen Zeichen ausschließen oder markiert erscheinen lassen (z.b. deutsch schütteres Haar = englisch thin hair). mehrgliedrige Komposita. Diese findet man im Englischen und in den romanischen Sprachen, selten im Deutschen. Einige Komposita sind transparent, also aus ihren Bestandteilen erschließbar (tooth brush), andere sind dies nicht. Phrasale Verben und Partikelverben. Verben dieser Klasse bestehen aus einem Basisverb und einem Funktionswort oder Adverb (englisch (to) throw up; deutsch aufstoßen). Während diese lexikalischen Zeichen in der deutschen Tradition einelementig repräsentiert werden, werden im Englischen Verb und Partikel beim Ansetzen einer Grundform getrennt. Mehrgliedrige Funktionswörter. Lexikalische Zeichen dieser Klasse bestehen aus Folgen von Präpositionen, Adverbien etc. Diese Bestandteile müssen im Text nicht unmittelbar aufeinander folgen (vgl. deutsch um NP(gen) willen) Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen. (Anmerkung: in diesem Semester werden wir uns ausschließlich mit den Kollokationen beschäftigen.) Kollokationen in der linguistischen Theorie Kollokationen in der linguistischen Theorie 1 of :37

2 Kollokationen Wir werden im Folgenden drei unterschiedliche Auffassungen von Kollokationen darstellen: 1. Die Auffassung des britischen Kontextualismus, vor allem vertreten durch R. Firth (vgl. Firth, 1957; Firth, 1968a; Firth, 1968b) 2. Die Auffassung der kontinentaleuropäischen (Meta)-Lexikographie, vertreten hier durch die Schriften von Hausmann (vgl. Hausmann, 1985) 3. die Auffassung von Kollokationen als "Lexical Functions", die Mel uk im Rahmen seiner Meaning-Text-Theory entwickelt hat (vgl. Mel cuk, 1998, Wanner, Mel cuk, 1996). Wir werden dabei so wenig wie möglich auf den jeweiligen sprachtheoretischen Rahmen eingehen, sondern uns auf die jeweilige Auffassung von "Kollokation" und die praktischen Folgen dieser Sichtweise im Kontext der Computerlexikographie konzentrieren. Der weitere theoretische Hintergrund kann aus den oben angegebenen Texten erschlossen werden Der britische Kontextualismus Die linguistische Forschung des britischen Kontextualismus ist stark empirisch ausgerichtet. Im Mittelpunkt der Untersuchung steht der Text. Ein wichtiger Gegenstand der Untersuchung sind Wörter. Dabei werden Wörter einerseits, aus paradigmatischer Perspektive, als Systemwörter charakterisiert, andererseits, aus syntagmatischer Perspektive, als Strukturwörter. Dieser Zusammenhang soll in Abbildung 1 verdeutlicht werden. W1 und W2 stehen als Strukturwörter in einer syntagmatischen Beziehung zueinander (in unserem Beispiel: harte Währung ). W1 kann zugleich als Systemwort betrachtet werden (hier: S2) und steht mit anderen Systemwörtern in einer paradigmatischen Beziehung (S1, S3, S4, in unserem Beispiel: stabile, feste, solide). Das Interesse des Kontextualismus liegt eindeutig auf den syntagmatischen Beziehungen zwischen Strukturwörtern. So heißt es bei Firth programmatisch: "I propose to split up meaning or function into a series of component functions. Each function will be defined as the use of some language form or element in relation to some context. Meaning, that is to say, is to be regarded as a complex of contextual relations, and phonetics, grammar, lexicography and semantics each handles its own components of the complex in its appropriate contexts." Firth, 1968a, S. 24 Der Begriff der Kollokation bleibt dabei erstaunlich unscharf: "The habitual collocations in which words under study appear are quite simply the mere word accompaniment, the other word-material in which they are most commonly or most characteristically embedded..." Firth, 1968b, S. 180 Im Prinzip kann in einem Text von 101 Wörtern jedes Wort mit jedem eine Kollokation bilden, was 5500 Kollokationen entspricht. Dass dieses Verfahren so weder linguistisch noch lexikographisch operationalisierbar ist, liegt auf der Hand. In der Praxis werden Kollokationen deshalb so bestimmt, dass die in einem Text enthaltenen Strukturwörter direkt aufeinander folgen müssen oder dass ein einzelnes Strukturwort zur Ausgangseinheit bestimmt wird und die für die Beschreibung seiner kollokativen Bedeutung als wichtig erachteten Strukturwörter hinzugenommen werden (vgl hierzu Lehr, 1996, S. 22f). Firth selber schränkt seinen Begriff der Kollokation durch das Prädikt "habitual" ein (s. das Zitat oben; danach wäre die in Abb. 1 hervorgehobene Verbindung von W1 und W2 habituell). Ein anderer Vertreter des Kontextualismus bringt einen quantitativen Aspekt hinein: "In this study we are only concerned with the first category which we shall call co-occurrents in the narrow sense of collocations which are statistically positive and extremely relevant." Geffroy, Lafon, Seidel, Tournier, 1973, S. 115 Wie wir später sehen werden ist der Begriff der "Signifikanz" des Kovorkommens zweier Textwörter statistisch auf verschiedene Weisen operationalisierbar. Zugleich ist uns mit dem Term co-occurence (deutsch: Kovorkommen) ein Mittel zur weiteren Differenzierung gegeben. "Kollokation" qualifiziert danach ein Wortpaar, das in statistisch signifikanter Weise zusammen vorkommt. Aber nicht jedes signifikant kovorkommende Wortpaar ist eine Kollokation. Die weitere linguistische Qualifikation leistet z.b. der Ansatz von Hausmann, den wir im nächsten Ansatz vorstellen werden. Zunächst wollen wir jedoch auf einige weitere Präzisierungen im Umfeld des Kontextualismus eingehen. Greenbaum (s. Greenbaum, 1970) möchte syntaktische Beziehungen zwischen den Kollokationspartnern berücksichtigt wissen: "A more valuable, if more modest, contribution might be made to the study of collocations if a relatively homogenous class of items were selected and an investigation undertaken of the collocation of each item in the class with other items that are related syntactically in a given way." Greenbaum, 1970, S. 13 Die ursprünglich ungerichtete Beziehung der beiden Kollokationspartner zueinander wird später als gerichtet betrachtet. So unterscheidet z.b. Sinclair zwischen node und collocate. Wir werden diesem Vorschlag bei Hausmann wiederbegegnen. Die Idee der Klassifizierung von lexikalischen Einheiten nach Ähnlichkeiten in ihrem "collocational range" wird im Konzept der lexical sets wiederaufgenommen 2 of :37

3 (vgl. Sinclair, 1991 und Abbildung 2). Weitghend ungeklärt bleibt die Frage, welcher Grad der Ähnlichkeit des Kontextes für die Etablierung eines "lexical set" vorausgesetzt werden muss Hausmann und die deutsche / französische Lexikographie Sowohl in der Praxis als auch in der Theorie hat Franz Josef Hausmann sich vor allem in der deutschen und romanischen Lexikographie einen Namen gemacht. Sein Ansatz, Kollokationen zu bestimmen und zu beschreiben stützt sich stark auf die linguistische Theorie der Romanistik, z.b. auf Coseriu. Kollokationen sind nach seiner Auffassung nicht ein Phänomen der parole, also des empirisch erfassbaren Sprachgebrauchs, sondern, in der Terminologie Coserius, der Norm. Sie sind damit einen Abstraktionsschritt höher angesiedelt als im britischen Kontextualismus. Hausmann richtet sich denn auch gegen den britischen Kontextualismus und dessen Frequenzfetischismus. Kollokationen, die seiner Meinung nach interessant und deshalb verzeichnenswert sind, können in Texten selten auftreten (wir werden aber später sehen, dass es durchaus statistische Verfahren gibt, die diesen Zusammenhang berücksichtigen). Hausmann führt den Unterschied zwischen Basis und Kollokator ein. Zwischen diesen beiden Elementen besteht eine gerichtete Beziehung; die Basis bestimmt den Kollokator. Welche Konsequenzen für die Lexikografie das hat, wollen wir an dem Beispiel der Kollokation schütteres Haar erläutern. Wenn ein Sprecher oder Schreiber einen Text produzieren möchte, dann ist ihm daran gelegen zu erfahren, welche Prädikate dem Gegenstand "Haar(e)" sprachlich zugeschrieben werden können ( lang, kurz, blond, rot, braun, graumeliert, strähnig, voll, dicht, schütter etc.). Dieser potenzielle Benutzer eines Wörterbuchs wird bei der Basis (Haar) nachschlagen, um Unsicherheiten bei der Wortwahl zu klären. Wenn jemand hingegen einen Text liest, dann wird er vermutlich über das Wort schütter stolpern und unter diesem Stichwort nachschlagen, um eine lexikalische Lücke zu schließen. Je nach Verwendungszweck eines Wörterbuches müssen Kollokationen also an unterschiedlichen Stellen eingeordnet werden. Um diesen wörterbuchpraktischen bzw. wörterbuchkritischen Aspekt, und um die Verbesserung der lexikographischen Praxis, geht es Hausmann Kollokationen als "Lexical Functions" Die Behandlung von Kollokationen als lexikalischen Funktionen erfolgt im Rahmen der "Meaning Text Theory". Wir werden nicht weiter auf diesen theoretischen Rahmen eingehen. Dieser ist z.b. in Mel cuk, 1981 dargestellt. Seinen lexikographischen Niederschlag fand und findet dieser theoretische Ansatz in den "Explanatory Combinatorial Dictionaries" (ECD), die für das Russische und für das Französische erschienen sind (vgl. Mel cuk, Zolkovskij (Hrsg.), , Mel cuk (Hrsg.), ). Diese Wörterbücher stellen gewisermaßen einen Typus in der Mitte zwischen dem traditionellen Printwörterbuch und einer lexikalischen Ressource für NLP dar. Zwar sind die o.g. Wörterbücher als Printwörterbücher erschienen. Die lexikographischen Beschreibungen sind aber so stark formalisiert, dass sie einen überaus geübten und eingearbeiteten Benutzer voraussetzen. Andererseits ist diese starke Formalisierung ein Aspekt, der diese Ressourcen für die maschinelle Verarbeitung interessant macht. Der Artikel "Colère" (s. Abbildung 3) mag diesen Aspekt veranschaulichen. 3 of :37

4 Ein Eintrag im ECD besteht aus einer semantischen Zone mit den semantischen Kommentaren, einer syntaktischen Zone, in der Rektionsverhältnisse ("Government Patterns") spezifiziert werden, und einer Beschreibung der lexikalischen Kookkurrenz (vgl. Wanner, Mel cuk, 1996, Abschnitt 2). Der uns hier interessierende "kombinatorische" Askpekt der lexikalischen Beschreibung ist Gegenstand des dritten Bereichs der lexikalischen Beschreibung. Der Anspruch hier ist kein geringerer als eine systematische Abdeckung der Kovorkommens-Restriktionen, die für ein Lexem gelten. Diese Restriktionen sind nun genau eine alternative Formulierung für das Kollokationspotenzial eines Lexems. Das Mittel hierfür ist eine begrenzte Menge von lexikalischen Funktionen, wobei es neben einer kleinen Anzahl von Standard-Funktionen noch eine offene Erweiterungsklasse (non-standard lexical functions) gibt. Die formale Definition einer lexikalischen Funktion ist wie folgt: "An LF f is a dependency that associates with a Lexeme L, called the keyword of f, a set of (quasi-)synonymous lexemes {L(i)}, called the value of f; an L(i) expresses - with respect to L - an abstract meaning which corresponds to f." Wanner, Mel cuk, 1996 Wenn man die Terminologien der drei Ansätze vergleicht, dann entspricht dem "keyword" in diesem Kontext der "collocator" oder die Kollokationsbasis und der Lexemmenge L(i), die hier der Wert der Funktion genannt wird, entspricht die Kollokantenmenge. Das Neue und Interessante des "Lexical Function"-Ansatzes ist genau die Tatsache, dass Gruppen von Kollokanten im Hinblick auf ihre Funktion, die sie in Bezug zur Kollokationsbasis ausüben, zusammengefasst werden. Man beachte aber auch hier die konzeptuelle Nähe zu den "lexical sets" bei John Sinclair. Bei diesen geht die Perspektive allerdings von den Kollokationsbasen aus. Die Standardfunktionen sind, z.b. im Vorwort des "Dictionnaire explicatif et combinatoire du français contemporain", definiert. Die Definition zur Funktion "Magn" etwa lautet wie folgt: "Magn: provides for its keyword (which is a lexeme with a scalable meaning) an adjectival or adverbial phrase that expresses the meaning intense(ly) " Wanner, Mel cuk, 1996 Wir haben die Lexikalische Funktion Magn in dem Artikel in Abbildung 3 markiert. Lexikalische Funktionen können kombiniert und konfiguriert werden, so dass sich aus dem Basisvokabular von ca. 60 Standardfunktionen ein weit größeres Inventar von Funktionen bilden lässt. Die Datenquellen, die mit dem beschriebenen Instrumentarium entwickelt wurden, also die vorhandenen Wörterbücher, sind eine nützliche Quelle für die Sprachproduktion: Man hat, von der gewünschten Funktion eines Kollokanten ausgehend, Zugriff auf die sprachlichen Einheiten, die diese Funktion in Bezug auf das Basiswort erfüllen Extraktion von Kollokationen - quantitative Aspekte - 4 of :37

5 10.3 Extraktion von Kollokationen - quantitative Aspekte Einführung In den verschiedenen linguistischen und lexikographischen Theorien, die Kollokationen beschreiben, tauchen immer wieder Prädikationen auf, über die wir in den letzten Abschnitten erfahren haben, dass diese sich quantitativ und statistisch operationalisieren lassen. Wir haben zugleich festgestellt, dass sich der Begriff der Kollokation nicht vollständig quantitativ herleiten lässt. Auch aus diesem Grunde haben wir den Term Kovorkommen eingeführt. Dieser lässt sich zusammen mit weiteren Prädikationen (z.b. signifikant) auf verschiedene Weise quantifizieren. Wir werden im Folgenden auf einige bisher angewendete Verfahren eingehen, wobei wir uns an Kapitel 5 von "Foundations of Statistical Language Processing" (Manning, SchÃ¼tze, 1999) orientieren Frequenz von Bigrammen oder Trigrammen Dieses recht einfache Verfahren wird wie folgt auf ein Textkorpus angewendet. Man zerlegt die Textbasis in Bigramme bzw. Trigramme (in desem Fall Folgen von zwei oder drei Zeichenketten), filtert aus diesen Bi-/Trigrammen die Zeichenketten heraus, in denen das zu untersuchende Wort (oder eine Wortform des zu untersuchenden Lemmas) vorkommt und ordnet diese Ketten nach der Häufigkeit des Vorkommens in der Textbasis. Man hat auf diese Weise Gruppen - Paare, Tripel - von unmittelbar aufeinander folgenden Wörtern bzw. lexikalischen Zeichen im Blick. Der Recall dieses Verfahrens ist nur dann gut, wenn sich die strukturelle Beziehung zwischen Kollokant und Kollokator in deren räumlicher Nähe niederschlägt wie z.b. bei Adjektiv-Substantivpaaren. Die Precision dürfte eher gering ausfallen, da auch Wortpaare hoch gewertet werden, die lexikographisch uninteressant sind. Dies ist z.b. bei hochfrequenten Kollokanten (der, und etc.) der Fall. Da diese generell häufig vorkommen, werden sie wahrscheinlich auch im Umfeld des Kollokators vorkommen. Mit anderen Worten: Die globale Frequenz der Kollokanten wird nicht berücksichtigt und gewichtet. Die folgenden Beispiele zeigen die Kollokanten des Kollokators essen, einmal in unbereinigter, einmal in manuell bereinigter Form. Liste vorangehender Kollokanten zu "essen" - unbereinigt Liste vorangehender Kollokanten zu "essen" - manuell bereinigt Liste folgender Kollokanten zu "essen" - unbereinigt Liste folgender Kollokanten zu "essen" - manuell bereinigt Durchschnitt und Varianz In der zweiten Versuchsanordnung wird ein Fenster von Wörtern um ein Schlüsselwort herum betrachtet. Jedes Textwort innerhalb dieses Fensters wird als Kollokator betrachtet. Es wird nicht nur die Häufigkeit des Kovorkommens von Schlüsselwort und Umgebungswort betrachtet, sondern auch die räumliche Distanz der beiden zueinander in jedem Beleg. Über allen Distanzwerten werden für jedes Paar der Mittelwert und die Varianz berechnet. Der Varianzwert ist der Indikator für die Güte einer Verbindung. Je niedriger die Varianz, desto konstanter der Abstand von Schlüsselwort und Umgebungswort. Wenn die Varianz niedrig ist, dann gibt der Mittelwert die "typische Position" des Umgebungswortes im Verhältnis zum Schlüsselwort an. Ist die Varianz groß, dann ist der Mittelwert ohne Belang. Das Verfahren oder Maß wurde von Smadja eingeführt und ist in Smadja, 1992 beschrieben. Die folgende Tabelle enthält die Umgebungs"werte" der Kollokanten des Kollokators Mäusen. Liste von Kollokanten zu Mäusen und deren Verteilungsmuster Man sieht, dass das Verteilungsmuster von von, mit den unspezifisch ist, wohingegen die Kollokanten Menschen, transgenen, zerfressen eine klare Präferenz für eine Position aufweisen. Wir haben damit aber noch nichts über weitere linguistische Kriterien gesagt, die diese Kollokanten in Verbindung mit Mäusen zu einer Kollokation im engeren Sinn qualifizieren könnten Testverfahren Was wir eigentlich wissen wollen ist nicht, ob zwei Wörter in einem Korpus oft miteinander vorkommen, sondern, ob sie deutlich öfter vorkommen als sie das täten, wenn alle Wörter zufällig verteilt wären ("more often than chance"). Die Annahme (Hypothese H(0)) ist die, dass das Vorkommen der zwei untersuchten Wörter unabhängig voneinander ist: (H(0)) P(w(1),w(2)) = P(w1)P(w2) für zwei Wörter w1 und w2 Es wird die "Sicherheit" bestimmt, mit der diese Hypothese zurückgewiesen werden kann. Wir werden uns im Folgenden einige Testverfahren ansehen Der t-test Es werden Mittelwert und Varianz einer Stichprobe untersucht unter der Hypothese, dass diese Stichprobe aus einer zugrundeliegenden Verteilung mit dem Mittelwert stammt. Der ermittelte Kennwert t der tatsächlich beobachteten Verteilung gibt an, wie wahrscheinlich es ist, dass die Stichprobe aus der zugrunde liegenden Verteilung stammt. Interpretation: Es geht nur die Varianz der Stichprobe in die Berechnung von t ein. Je größer die Varianz, umso kleiner t. Je größer die Abweichung der beiden Mittelwerte von einander, umso größer ist t. Je größer t, um so sicherer können wir sein, dass die Stichprobe nicht aus der zugrunde liegenden Verteilung stammt, d.h. die Wahrscheinlichkeit, dass diese Behauptung falsch ist, sinkt. Bezogen auf unser Beispiel bedeutet das: Der t-test berücksichtigt die Anzahl der Kovorkommen zweier Wörter w1 und w2 (f(w1, w2)) relativ zur Gesamtzahl der Vorkommen beider einzelner Wörter. Der t-test eignet sich besonders gut dafür, zwei Verteilungen miteinander zu vergleichen. 5 of :37

6 In diese Gleichung (s. Manning, SchÃ¼tze, 1999, S. 167) gehen die Varianzen beider Verteilungen ein. Anwendung dieses Verfahrens ist die Ermittlung von Differenzen im "collocational range" zweier bedeutungsähnlicher Wörter (und damit auch die Ermittlung subtiler Bedeutungsdifferenzen). Church et al. etwa verwenden das Verfahren, um die idiosynkratischen Differenzen im Kollokantenpotenzial der bedeutungsnahen Adjektive strong und powerful zu beschreiben (vgl. Church, Gale, Hanks, Hindle, 1991). Ein Beispiel aus dem Deutschen sind die beiden Substantive Handeln und Tun. Wenn man das Kollokantenpotenzial der beiden lexikalischen Zeichen vergleicht, dann wird man feststellen, dass Tun negativere Kollokanten (verbrecherisch, hinterhältig ) an sich bindet als Handeln (verantwortungsvoll, überlegt) Der chi-quadrat Test Der chi-quadrat-test basiert auf einer Binomialverteilung. Das klassische Beispiel für diese Verteilung ist der wiederholte Wurf einer Münze. Für jedes Ereignis in einer Folge von Ereignissen wird festgestellt, welcher von zwei Klassen es zugeordnet werden kann. Beim Münzwurf sind die beiden Klassen zum Beispiel "Kopf" und "Zahl". Übertragen auf die Beobachtung des Vorkommens eines Wortes in einer Textbasis lässt sich dies so formulieren: für jedes Textwort wird festgestellt, ob es sich um das gesuchte Wort handelt oder nicht. Da es sich hier um Paare von Textwörtern handelt, die wir beobachten anhand der Fragestellung, ob ihr tatsächliches Ko-Vorkommen ihr erwartetes Ko-Vorkommen signifikant übersteigt, haben wir es mit vier verschiedenen möglichen Ergebnissen zu tun. In einem festen Kontext, zum Beispiel einem "Fenster" von fünf Textwörtern, kommen w1 und w2 gemeinsam vor (das uns interessierende Kovorkommen) kommt w1 vor, nicht aber w2 kommt w2 vor, nicht aber w1 kommen weder w1 noch w2 vor Die Ergebnisse kann man in eine Vierfeldertafel eintragen. Das abstrakte Schema einer Vierfeldertafel ist in Abbildung 6 dargestellt. Neben den vier Feldern mit den Vorkommenshäufigkeiten bzw. Wahrscheinlichkeiten der vier möglichen Kombinationen enthält die Tafel Randsummen, zu denen jeweils zwei Werte (einer Spalte oder Zeile) aufaddiert sind. Wir haben den chi-square Test einmal auf eine Paar von Textwörtern angewendet, das wir bereits an anderer Stelle gründlicher untersucht haben (Kapitel 5.2 in Lemnitzer, 1997). Es handelt sich um die Wörter harten und Bandagen. Die möglichen Kombinationen sind in diesem Fall (11) harte + Bandagen (12) harte + nicht(bandagen) (21) nicht(harte) + Bandagen (22) nicht(harte) + nicht(bandagen) Dabei ergab sich folgende Verteilung, die durch die Vierfeldertafel in Abbildung 7 dargestellt wird. Setzt man die Werte in die Formel in Abbildung 8 ein, dann erhält man einen Wert von ,5. Der Wert ist wie folgt zu interpretieren: je höher er ist, umso stärker weicht die beobachtete Verteilung (hier das Kovorkommen der beiden Ereignisse) von einer zufälligen Verteilung der Daten ab. Ein entscheidender Nachteil für die Anwendung dieses Tests in unseren Szenarien ist, dass er "störanfällig" ist und verzerrte Ergebnisse wiedergeben kann, wenn in einer oder mehreren Zellen sehr kleine Werte stehen. Wie wir oben gesehen haben, fallen in den Bereich der Kollokationen aber auch Paare von Textwörtern, die relativ selten vorkommen. Wer sich weitergehend für diese Teststatistik interessiert, denen sei das Chi-square Tutorial von Prof. Connor-Linton empfohlen Likelihood ratios Die maximum likelihood ratio ist ein Wert, der das Verhältnis zweier Ereignisräume zueinander ausdrückt - den gesamten Parameterraum und einen Teil dieses Raums. Es wird gegen die Hypothese der Gleichverteilung in beiden Räumen geprüft. Er baut ebenfalls auf der Vierfeldertafel auf. Der Test ist verlässlicher als der soeben beschriebene, vor allem wenn sehr kleine Zahlen in einigen Zellen stehen. Die Funktion ist asymptotisch chi-quadrat verteilt. Anders ausgedrückt kann so auf die Gleichheit der zweier Binomialverteilungen zugrunde liegenden Parameter geprüft werden. " Ähnlich kann auch die Gleichheit der Parameter p(j) von s Binomialverteilungen B(n(j),p(j)) getestet werden. Dazu schreibe man in die erste Zeile einer 2 x s-tafel jeweils die Anzahl der Erfolge v(j)... und in die zweite Zeile die Anzahl der Misserfolge n(j) - v(j). Der Test auf Unabhängigkeit in dieser Kontingenztafel bedeutet dann gerade das Testen der Hypothese H(0): p(1) =... p(n)" Hartung, 1993, S. 496 Dies kann man für eine Vierfeldertafel mit der folgenden Gleichung ausdrücken (Abbildung 9): 6 of :37

7 Meine eigenen Untersuchungen haben ergeben, dass man mithilfe der maximum likelihood ratio verlässliche und intuitiv einleuchtende Ordnungsstatistiken über den Kollokanten eines Kollokators erreicht. Auf die Problematik von Konfidenzwerten für Tests werden wir weiter unten näher eingehen Mutual information Das ursprüngliche Anwendungsfeld dieses Verfahrens sind Messungen über zwei Zufallsvariablen. Die Kennziffer quantifiziert die Größe, um die unsere Unsicherheit über die Verteilung der möglichen Ausprägungen einer Zufallsvariable abnimmt, wenn wir die Verteilung der jeweils anderen Zufallsvariablen kennen. Das Maß ist symmetrisch. ("It is the reduction in uncertainty of one random variable due to knowing about another" [Manning, SchÃ¼tze, 1999, S. 66]). Dieser generelle Ansatz kann wie folgt auf unsere Fragestellung nach der Kollokabilität von zwei beliebigen Textwörtern übertragen werden: Zwei Textwörter sind desto enger aufeinander bezogen, je mehr Informationen wir aus den Vorkommen des einen Textwortes über das Vorkommen des anderen Textwortes entnehmen können. Als Findeprozedur für Kollokationen wird allerdings die spezifischere "pointwise mutual information" zwischen zwei Ereignissen als Maß angewendet. Gemeinhin wird dieser Wert in bits gemessen, also mit logarithmus zur Basis 2. Man kann nun recht einfach zeigen, dass dieses Maß seltene Ereignisse bevorzugt: Zwei Ereignisse x und y, die jeweils nur einmal beobachtet werden, dann aber gemeinsam, haben den größten Kennwert, nämlich einen der etwa dem Logarithmus dualis von T entspricht (T sei hier die Größe des untersuchten Korpus). Diese Bevorzugung seltener Ereignisse führt auch dazu, dass, aus der Sicht der Kollokationssuche, "uninteresting correspondendes" bevorzugt werden (vgl. Manning, SchÃ¼tze, 1999, S. 179). Abbildung 10 zeigt die MI-Formel: Wenn man die Frequenzen als Schätzer für die Wahrscheinlichkeiten einsetzt, erhält man: In dem Falle, dass die Vorkommensfrequenz immer 1 ist (also: a und b kommen im Korpus je einmal vor und in diesem einen Fall gemeinsam), dann erhält man, wie man durch Umformung zeigen kann, als Maximalwert den Logarithmus dualis von T. Fazit: MI ist ein gutes Maß für statistische Unabhängigkeit, aber ein schlechtes für statistische Abhängigkeit. Um die Unterschiede deutlich zu machen, zeigen wir zum Schluss eine Liste von Kollokanten zur Basis essen. Die Kollokanten sind geordnet nach den Kennziffern, die einmal mittels des "likelihood ratio"-verfahrens ermittelt wurden (Liste 1), und zum anderen mittels des mutual information index (Liste 2). Liste 1 ("maximum likelihood ratio")liste 2 ("mutual information index") Ordnungs- vs. Teststatistiken Die hier beschriebenen statistischen Testverfahren gehen von bestimmten Verteilungshypothesen aus. Die wichtigste und kritischste Annahme ist die, dass die Wörter in den beobachteten Texten zufällig verteilt sind. Von dieser Annahme ausgehend werden die Abweichungen in den tatsächlich aufgetretenen Verteilungen beobachtet. Der Sinn einer Teststatistik ist nun der, einen Schwellenwert festzulegen. Wird dieser überschritten, dann kann man mit einer bestimmten Sicherheit sagen, dass die beobachtete Stichprobe nicht mit der Grundgesamtheit, für die diese Verteilungsannahme postuliert wird, übereinstimmt. Die Abweichung ist "signifikant". Es ist aber bekannt, dass die meisten Texte kein Produkt von Zufallsprozessen sind. Legt man nun ein gängiges Konfidenzintervall zugrunde, dann sind fast alle beobachteten Erscheinungen "signifikant abweichend" von der hypostasierten Grundgesamtheit. Teststatistiken sind deshalb als solche nicht geeignet, um den Ereignisraum schlüssig in "interessante" und "nicht interessante" Phänomene aufzuteilen. Mit ihrer Hilfe gelingt es aber, eine Ordnung in die große Zahl kovorkommender Textwörter zu bringen. Sie sind deshalb als Ordnungsstatistiken eine große Hilfe, den Weizen von der Spreu zu trennen bzw. die Aufmerksamkeit der Lexikographen auf die Phänomene zu lenken, die interessant und verzeichnenswert sein dürften Übung - Übung zu Kurseinheit Vergleichen Sie Zerniks Auffassung, dass die Kombinationen eines lexikalischen Zeichens mit anderen lexikalischen Zeichens keine Schlüsse über die Bedeutung dieses lexikalischen Zeichen erlauben (Zernik 1991a, S. 19f, der Text wurde als Lektüre in Kureinheit 9 empfohlen), mit der berühmten Aussage des britischen Linguisten Firth: "you shall know a word by the company it keeps". Welche unterschiedlichen Auffassungen über die Bedeutung eines Wortes kommen in diesen beiden Aussagen zum Ausdruck? Welcher der beiden Positionen würden Sie eher zustimmen? Mel cuk führt in seinem Inventar lexikalischer Funktionen auch die Funktionen "Incep" ( ~ einsetzen, beginnen) und "Fin" (~ aufhören, zu Ende gehen) auf. Die Lexikalische Funktion "Magn" ist bereits im Lehrtext beschrieben worden. Wenn sie diese drei Lexikalischen Funktionen auf die folgenden Lexeme anwenden: Wut, Ärger, Lust, Freude, Wind, welche Kollokatoren können Sie nennen, die diese Funktion(en) erfüllen (Hinweis: wenn Sie dies wünschen, dann können Sie die Funktionen auch auf die englischen Äquivalente der genannten Lexema anwenden) Bibliographie - 7 of :37

8 Church, Kenneth Ward/Gale, William/Hanks, Patrick/Hindle, Donald, "Using statistics in lexical analysisin: Exploiting On-Line Resources to Build a Lexicon".New York:Lawrence Erlbaum, Firth, John Rupert, "Modes of Meaningin: Papers in Linguistics ".London:Longmans, Firth, John Rupert, "Descriptive Linguistics and the Study of Englishin: Selected papers of J.R. Firth ".London:Longmans, 1968a. Firth, John Rupert, "A synopsis of Linguistic Theoryin: Selected papers of J.R. Firth ".London:Longmans, 1968b. Geffroy, Annie/Lafon, P./Seidel, Gill/Tournier, M., "Lexicometric Analysis of Co-occurrencesin: The Computer and Literary Studies".Edinburgh, Greenbaum, Sydney, "Verb-Intensifier Collocations in English. An experimental approach".den Haag and Paris, Hartung, Joachim, "Statistik. Lehr- und Handbuch der angewandten Statistik". München and Wien, Hausmann, Franz Josef, "Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispielsin: Lexikographie und Grammatik. Akten des Essener Kolloquiums zur Grammatik im Wörterbuch, ".Tübingen:Niemeyer, Lehr, Andrea, "Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze".Tübingen:Niemeyer, Lemnitzer, Lothar, "Extraktion komplexer Lexeme aus Textkorpora".Niemeyer, Tübingen, Manning, Christopher D./Schütze, Hinrich, "Foundations of Statistical Natural Language Processing".Cambridge (Mass.) and London, The M.I.T. Press, Mel cuk, Igor A./Zolkovskij, A. K. (Hrsg.), "Explanatory Combinatorial Dictionary of Modern Russian".Wien:Wiener Slawistischer Almanach, Mel cuk, Igor A. (Hrsg.), "Dictionnaire explicatif et combinatoire du francais contemporain. 3 Vol.".Montreal: Presse de l Universite de Montreal, Mel cuk, Igor A., "Meaning-text Models: a Recent Trend in Soviet Linguistics", Mel cuk, Igor A., "Collocations and Lexical Functionsin: Phraseology: Theory, Analysis, and Applications".Oxford:Clarendon Press, Sinclair, John, "Corpus, Concordance, Collocation".Oxford, Smadja, Frank, "{XTRACT}: An Overview", Wanner, Leo/Mel cuk, Igor A., "Lexical Co-occurrence and Lexical Inheritance. Emotion Lexemes in German: {A} Lexicographic Case Studyin: Lexical Functions in Lexicography and Natural Language Processing".Amsterdam:Benjamins, of :37