Proseminarvortrag: Kollokationen. Kollokationen. Referat von Marin Puhr-Westerheide am

Transkript

1 Proseminarvortrag: Kollokationen Kollokationen Referat von Marin Puhr-Westerheide am

2 Proseminarvortrag: Kollokationen -The t Inhalt Einführung Frequency Mean and Hypothesis The t Hypothesis chi-square Likelihood Notion

3 Proseminarvortrag: Kollokationen Einführung -The t Kollokation: ein Ausdruck bestehend aus zwei oder mehr Wörtern, der im üblichen Sprachgebrauch so verwendet wird Nominalphrasen, z.b. strong tea phrasale Verben, z.b. make up stehende Wendungen, z.b. the rich and powerful aber auch Ausnahmen und subtile Regeln, z.b. stiff breeze aber nicht stiff wind Anwendungsbereiche: Generierung natürlicher Sprache computergestützte Lexikographie parsing Sprachuntersuchungen an Korpora 3

4 Proseminarvortrag: Kollokationen -The t Frequency Häufigkeit des Auftretens von Wortfolgen einfache Suche nach beliebigen Wortpaaren ergibt keine guten Ergebnisse 5 w w w C( w ) C(<>) ist die Häufigkeit eines Bigramms im Korpus 8087 the ein Wort in New the York w x keine Kollokationen erster Treffer! 4

5 Proseminarvortrag: Kollokationen -The t Besser: eine sehr einfache Heuristik nach Justeson und Katz wird auf die Ergebnisse angewandt Schablone A N N N A A N A N N N A N N N N N P N Beispiel linear function regression coefficients Gaussian random variable cumulative distribution function mean squared error class probability function degrees freedom A = Adjektiv P = Präposition N = Nomen Diese einfache Schema-Einschränkung ergibt schon wesentlich bessere Ergebnisse: 5

6 Proseminarvortrag: Kollokationen -The t 6 C( w ) New United last hier auf Bigramme beschränkt! Fazit: w w w York States week Schema A N A N A N Solche einfachen Häufigkeitsbetrachtungen ergeben schon brauchbare Ergebnisse für feste Kollokationen. richtige Treffer erster Fehler 6

7 Proseminarvortrag: Kollokationen Mean and -The t viele Kollokationen kommen ohne festen Abstand vor z.b. das Verb knock und das Nomen door: she knocked on his door they knocked at the door he knocked on the metal front door a woman knocked on Donaldson s door zur Erkennung verwendet man eine Routine, die einen Bereich rund um ein Wort untersucht, z.b. einen drei-wort-bereich: Satz she knocked she knocked on she on his she his door Bigramme knocked on knocked his on his knocked door on door his door 7

8 Proseminarvortrag: Kollokationen -The t Zur Untersuchung der Beziehung zwischen Wörtern berechnen wir: den Stichprobenerwartungswert d n d die Stichprobenvarianz s n i = = = n i = i ( d n i d ) Abstand für Auftreten i Anzahl des Auftretens der Paarung Hier wird die Stichprobenabweichung betrachtet. s = s 8

9 Proseminarvortrag: Kollokationen -The t frequenzy strong frequenzy strong position strong with respect to opposition ( d =,5; s = 0,67) position strong with respect to for ( d =,; s =.5) 9

10 Proseminarvortrag: Kollokationen -The t Erwartungswert und Stichprobenabweichung charakterisieren die Verteilung des Abstandes zweier Wörter: geringe Abweichung bedeutet immer ähnliche Abstände hohe Abweichung mit einer Normalverteilung der Abstände lassen auf zufällige Paarung schließen Erwartungswerte um und kleine Abweichung sind Kollokationen, die man auch über Frequenzanalysen findet Fazit: Mit dieser Methode kann man Kollokationen finden, die in variablen Abständen und mit unterschiedlichem umschlossenem Text vorkommen. 0

11 Proseminarvortrag: Kollokationen -The t Hypothesis hohe Frequenz und geringe Varianz könnten zufällig auftreten, ob Ereignisse häufiger als wahrscheinlichkeitsbedingt zusammen auftreten Betrachten einer Stichprobe von n unabhängigen Stichprobenvariablen X, die die selbe Verteilung wie,...,x n die Zufallsvariable X besitzen Annnahme einer Nullhypothese H 0 Überprüfung der Hypothese (Ablehnungsbereich z.b. p < 0,05; 0,0; 0,005; 0,00)

12 Proseminarvortrag: Kollokationen -The t The t Nullhypothese: Normalverteilung mit Erwartungswert der vergleicht den Erwartungswert der Messung mit der Nullhypothese: t ein = x Beispiel s N µ ist der Erwartungswert ist die Varianz, näherungsweise die Strichprobenvarianz ist die Kardinalität der untersuchten Menge µ

13 Proseminarvortrag: Kollokationen -The t Anwendung auf Bigramme z.b. new companies Anzahl von new im Korpus: 5.88 Anzahl von companies im Korpus: Gesamtgröße des Korpus: Wahrscheinlichkeit des Auftretens von new: P( new) =, Wahrscheinlichkeit des Auftretens von companies: P( companies) = 3, Nullhypothese (new und companies sind unabhängig): P( newcompanies) = P( new) P( companies) 3, Vorkommen des Bigramms: x = ,

14 Proseminarvortrag: Kollokationen -The t 7 7 5, , t 0, , ist <, 5758 (der kritische Wert für 0,5% Fehlerrate), damit müssen wir die Hypothese annehmen new companies ist damit keine mögliche Kollokation, da die beiden Wörter rein zufallsbedingt zusammen auftreten Fazit: der eignet sich um festzustellen, ob Wortpaare Kollokationen sein können es können nur Bigramme verglichen werden, die gleich t auftreten nahezu alle Bigramme werden in die Kategorie Kollokationen eingeordnet, da Sprache im Allgemeinen ziemlich regulär ist im Vergleich zu Zufallsgenerierungen eignet sich, eine Reihenfolge der möglichen Kollokationen zu bilden 4

15 Proseminarvortrag: Kollokationen Hypothesis der t- kann auch erweitert werden, um eine möglichst gute Unterscheidung zwischen zwei Wörtern zu finden im Bereich computergestützte Lexikographie interessant z.b. strong und powerful -The t 3,6,884,4494 7,070 6,357 4,6904 t C (w) C ( strong, w) C( powerful, w) Wort computers computer symbol support enough safety 5

16 Proseminarvortrag: Kollokationen -The t aus diesen Tabellen kann man nach Church und Hanks Unterschiede ableiten wie intrinsische Faktoren z.b. strong support einer demographischen Gruppe bedeutet, dass sie aufopferungsvoll in einer Sache agiert extrinsische Faktoren z.b. ein powerful supporter ist jemand, der wirklich Kraft hat Dinge zu bewegen dieser Methode sind schnell Grenzen gesetzt, die Regeln sind komplexer und Teils von kulturellen Aspekten geprägt z.b. strong tea und powerful drugs 6

17 Proseminarvortrag: Kollokationen -The t Pearson s chi-square t- arbeitet mit gleichverteilten Wahrscheinlichkeiten, was im Allgemeinen nicht zutrifft, besser ist der dieser vergleicht die beobachteten mit den bei Unabhängigkeit erwarteten Häufigkeiten; wenn der Unterschied groß ist, wird die Nullhypothese zurückgewiesen z.b. new companies mit w w = companies companies w = χ new 8 (new companies) 580 (z.b. new machines) w new 4667 (z.b. old companies) 4878 (z.b. old machines) 7

18 Proseminarvortrag: Kollokationen -The t Damit berechnen wir N ( OO X = ( O + O )( O + O (8 +,55 O )( O O) + O )( O ( ) 4667 )( )( )( ) aus einer geeigneten Tabelle entnehmen wir den passenden kritischen Wert χ = 3,84, damit müssen wir die Nullhypothese annehmen und new companies ist keine Kollokation Fazit: Dieser leistet ähnliches wie der t (z.b. sind jeweils die 0 Bigramme mit den höchsten Wertungen bei beiden gleich). Allerdings ist er für große Wahrscheinlichkeiten besser geeignet. + O ) = 8

19 Proseminarvortrag: Kollokationen für die Werte bildet man Maximum- Schätzwerte mit Anzahl der Vorkommen von -The t Likelihood ratios geeignet auch für kleine Datenmengen besser interpretierbare Ergebnisse Anwendung bei Kollokationensuche Aufstellen zweier Hypothesen:.. P( w P( w w w ) ) = = p p = P( w # sagt Unabhängigkeit aus, # sagt Abhängigkeit aus es wird eine Binominalverteilung angenommen p, p, p c x p w ) = P( w w ) w x 9

20 Proseminarvortrag: Kollokationen -The t c P ( w w P( w w von Bigrammen sind. c ) von Bigrammen sind c c die L-Werte sind damit:. Hypothese:. Hypothese: und der L-R-Wert: ) w w w w N c b L L H H c p = N c p = N p c p = c c c = N c b c ; c, ) b c ; c, ) ( p ( c p ( p c ; N c, ) b c c ; N c, ) ( p ( ( p H) = b( c; c, p) b( c c; N c, p) H ) = b( c ; c, p ) b( c c ; N c, ) λ = log L ( H L ( H ) ) 0

21 Proseminarvortrag: Kollokationen -The t mit L( k, n, x) k n k = x ( x) der log λ -Wert ist näherungsweise -verteilt, wir nehmen H als Nullhypothese und H als Alternative, um den Hypothesentest durchzuführen angewendet auf Bigramme mit powerful: # log λ C ( w ) C w ) w w ) 9,4 5,05 50,83 34, ( χ C( w w most powerful less powerful powerful magnet powerful cudgels

22 Proseminarvortrag: Kollokationen -The t Fazit: einzeln interpretierbare Ergebnisse, t und chi-square können nur mit Tabellen verglichen werden Verbesserung zum chi-square, weil die Annäherung an die χ -Verteilung bei kleinen Häufigkeiten genauer ist als bei Pearson

23 Proseminarvortrag: Kollokationen The Notion Collocation -The t Drei Kriterien sind für Kollokationen entscheidend: nicht zusammensetzbar: die Bedeutung kann nicht durch Aneinanderfügen der Einzelaussagen erschlossen werden, d.h. es ergibt sich aus der Kombination eine zusätzliche Bedeutungsinformation z.b. kick the bucket (= sterben) nicht ersetzbar: Einzelwörter können nicht durch bedeutungsgleiche Wörter ersetzt werden z.b. white wine, nicht yellow wine nicht modifizierbar: t kann die Wortfolge nicht erweitert werden, das gilt insbesondere für stehende Wendungen z.b. people as poor as chuch mice 3

24 Proseminarvortrag: Kollokationen Weiteres Kriterium: durch Übersetzungsversuch: wenn eine Wendung nicht Wort für Wort übersetzt werden kann, ist das ein Hinweis, dass es sich um eine Kollokation handelt -The t Abgrenzung zu Wortfeldern und gemeinsamen Auftreten Wörter wie nurse doctor oder plane airport sind verknüpft, ohne eine grammatikalische Einheit mit vorgegebenen Regeln zu bilden diese Verallgemeinerung ist nicht mehr im Begriff der Kollokation enthalten Typische Kollokationen: Hilfsverben in Wendungen z.b. make a decision, do a favor Verben und ihre Partikel z.b. to tell f, to go down 4

25 Proseminarvortrag: Kollokationen -The t Eigennamen z.b. New York terminologische Wendungen, Fachsprache Wendungen z.b. hydraulic oil filter sollten, obwohl sie nicht unbedingt Kollokationen sein müssen, in einem Kontext gleich behandelt oder übersetzt werden, um sicherzugehen, dass ein Leser das richtige Objekt damit assoziiert 5

26 Proseminarvortrag: Kollokationen -The t Vielen Dank für ihre Aufmerksamkeit! 6

27 Proseminarvortrag: Kollokationen Beispiel zum t Die Menschen einer Population sind durchschnittlich 58 cm groß. Es soll nun festgestellt werden, ob eine Menge von 00 Menschen mit einem Erwartungswert von 69 cm und einer Varianz ( s ) von 600 aus dieser Population stammt, der Fehler soll hierbei maximal 0,5% betragen. In die Formel eingesetzt ergibt sich Verglichen mit dem Wert aus der t-verteilung (siehe Steger DS II, Seite 4; Zeilenwert von 00 (schließt 00 mit ein); Spaltenwert 0,995): t = ,05 >,659 Der t-wert ist zu groß, damit muss die Hypothese, dass die untersuchte Menge der Population mit 99,5% Sicherheit entstammt, abgelehnt werden. Zurück 7