basierend auf H Schmid snlp 4 KollokaKonen Maschinelle Sprachverarbeitung: KollokaKonen (Teil 2: Modelle von Wortsequenzen) Basierend auf Kap 3 McEnery & Wilson (2001) & H Schmid snlp Vorlesungsskript Gertrud Faaβ Universität Stu^gart, InsKtut für maschinelle Sprachverarbeitung Azenbergstr. 12, 70174 Stu^gart 0711 685 81385 faaszgd@ims.uni stu^gart.de 1
Kollokationen (mögliche Kriterien I) feste Wortverbindungen: müssen beim Erwerb der Sprache erlernt werden fehlende Kompositionalität: Bedeutung ergibt sich nicht kompositional aus den Einzelbedeutungen der Bestandteile: auf die Palme bringen, mit den Wölfen heulen, Rede halten,...
Kollokationen (mögliche Kriterien II) fehlende Modifizierbarkeit: Im Auge behalten *In den Augen behalten Guten Morgen *Abfuhren erteilen...
Kollokationen (mögliche Kriterien III) fehlende Ersetzbarkeit: Teile können nicht gegen semantisch äquivalente Wörter ausgetauscht werden: *unter die Graberde bringen *sich in der Gruft umdrehen *steifer Wind *hohe Achtung
KollokaKonen (mögliche Kriterien IV) fehlende direkte Übersetzbarkeit eine Entscheidung treffen *to hit a decision Wer A sagt, muss auch B sagen = In for a penny, in for a pound (h^p://german.about.com/library/blredew_intro.htm)
Feststellbarkeit Es geht um Signifikanz! Unser Gehirn speichert Wortsequenzen ( Phraseologie) Mengen von Bedeutungsmöglichkeiten (ambiger) Wörter können aufgrund ihres Co Textes reduziert werden (sense disknckon) 6
Beispiele Häufigste Wortpaare in New York Times: FunkKonswörter : of the, in the, to the, on the,... AdjekKv Nomen: New York, United States, Los Angeles, last year, Saudi Arabia 7
Beispiele Abstand zwischen KollokaKonsbestandteilen kann groesser 1 sein: Abstand bis 5 bei Verb Nomen Paaren im Deutschen: spielen Rolle, sagen Mann, stellen Frage, sehen Seite, geben Grund, schüleln Kopf,... 8
StaKsKsche Tests Tests mutual informakon t test Chi square (χ 2 ) Test... 9
StaKsKsche Tests Tests Wortpaare sollten häufiger sein als aufgrund der Wahrscheinlichkeiten der Einzelwörter zu erwarten ist Nullhypothese: Es besteht keine Beziehung zwischen den Einzelwörtern 10
StaKsKsche Tests Grundsätzlich: Gesamtwahrscheinlichkeit ρ aller möglichen Testergebnisse berechnen und in Bezug zueinander setzen 11
Chi Square Test Chi-Square Test wird auf Kontingenz Tabellen angewendet Aufgabe: prüfe, ob new companies eine Kollokation ist? Zählen, wie oft new mit/ohne companies vorkommt und companies mit/ohne new im Bezug auf die Größe des Korpus (N) 12
Chi Square Test Chi-Square Test wird auf Kontingenz Tabellen angewendet w2 = new w2!=new sums w2 = companies 8 4667 4675 w2!= companies 15820 14287173 14302993 15828 14291840 13
StaKsKsche Tests χ 2 Test Jetzt müssen Summen aus allen Spalten und Zeilen gebildet und durch N geteilt werden 14
StaKsKsche Tests Kalkuliere χ 2 Summe (kalkulierten Werte Frequenzen) im Quadrat geteilt durch kalkulierte Werte 15
StaKsKsche Tests χ 2 muss nun in Bezug gesetzt werden mit dem sog. Freiheitsgrad (degree of freedom: df) = (R 1)*(C 1) = Anzahl Reihen 1 mul\pliziert mit der Anzahl der Zeilen 1. Unser Fall: (2 1)(2 1)=1 16
StaKsKsche Tests Pruefe in einer Chi Square Tabelle (Eingabe Chi Square und d) hlp://davidmlane.com/hyperstat/chi_square.html Was ist Signifikant? > 0.05? Andere Werte? Das muss in der Testphase festgelegt werden. 17
Referenzen McEnery & Wilson (2001). Corpus LinguisKcs (2 nd EdiKon). Edinburgh Textbooks in Empirical LinguisKcs. Edinburgh University Press. Jurafsky and MarKn (2008). Speech and Language Processing. 2 nd EdiKon. Upper Saddle River: PrenKce Hall, Kapitel 4.1 5 Helmut Schmid. StaKsKsche Methoden in der Maschinellen Sprachverarbeitung. Unveröffentlichtes Manuskript zur Lehrveranstaltung. h^p://davidmlane.com/hyperstat/chi_square.html perlscripts: u.a. h^p://search.cpan.org/~mikek/stakskcs DistribuKons 1.02/DistribuKons.pm 18