Linguistische Informatik

Transkript

1 Linguistische Informatik Gerhard Heyer Universität Leipzig Institut für Informatik

2 Das klassische Verarbeitungsmodell Lexikon Grammatik Input: natürlichsprachlicher Satz Parser Output: analysierter Satz 2

3 Statistische Aspekte von Sprache Die lexikalischen Einträge werden nicht gleich häufig verwendet Die grammatischen Regeln werden nicht gleich häufig verwendet Der Erwartungswert bestimmter Wortformen bzw. Wortformenkombinationen hängt ab von der verwendeten Fachsprache 3

4 Zipfsches Gesetz 2 George K. Zipf: Für natürliche Sprache gilt das Principle of Least Effort. Die am häufigsten gebrauchten Wörter sind meist sehr kurze, inhaltsleere Funktionswörter. Wortform Häufigkeit der die und in (vgl. Beispiel: 10 häufigste Wörter aus Projekt Deutscher Wortschatz) den von zu das mit sich

5 Beispiel Deutscher Wortschatz: Wortform Häufigkeit n Rang r r n sich immer Mio Medien Miete vorläufige Gilt Zipfsches Gesetz auch für Märchen Ali-Baba und die 40 Räuber? 5

6 frequency Sprachstatistik Zipf s law in detail List wordforms (types!) of a text by frequency and assign a rank such that the most frequent wordform has rank 1 Now, the rank of a wordform multiplied by its frequency is about constant (for the selected text corpus) r n k (with constant k dependent on selected text) i.e. we get a simple hyperbola n ~ k x 1/r or n ~ k x r -1 rank 6

7 Graphische Darstellung 7

8 Anwendungen Differenzanalyse Abschätzung über Anzahl an Wortformen, die n mal im Text vorkommen Abschätzung des Umfangs des Vokabulars Abschätzung des Zuwachses des Vokabulars, wenn sich Textmenge erhöht Analyse von Suchanfragen 8

9 Statistische Merkmale von Terminologie Fachtermini sind Wörter, die in Fachtexten einer Domäne (und nur dort) wesentlich häufiger auftreten als in anderen Texten: 9

10 Differenzanalyse Charakteristische Begriffe (einer Domäne) Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne. 10

11 Rangliste deutscher Wortformen (Deutscher Wortschatz 1-100) der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte 11

12 Rangliste deutscher Wortformen (Fachwortschatz SAP 1-100) die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim 12

13 Rangliste deutscher Wortformen (Differenzliste signifikanter Fachwortschatzterme SAP/Deutscher Wortschatz 1-30; Mindesthäufigkeitsklasse 8, Faktor 16) etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23),

14 Differenzanalyse Indexierung (mittels automatic term recognition) Beobachtung: domänenspezifische Terme treten in Texten dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache Verwendung eines allgemeinen Korpus als reference corpus R (in unserem Fall: Deutscher Wortschatz) Domänenspezifischer Text T als Grundlage der ATR Identifiziere Wortformen w die signifikant häufiger in T als in R auftreten (cf. Witschel 2005) 14

15 Statistik der Termerkennung Grundlage ist ein statistitischer Test: Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von w ist gleich für T und R Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten von beiden Textkorpora (maximum likelihood estimate) Berechne das Maß der Überraschung, wenn diese Werte unter der Null-Hypothese beobachtet werden. Beispiel: Poisson-Maß sig( w) k(log k log 1) log n k Häufigkeit von w in T np n Länge eines Textes T p relative Häufigk. von w in R 15

16 Application: Textprofiles of internet pages (homepage ASV) 16

17 Application: Textprofiles of internet pages (homepage ASV) 17

18 Ansätze zur Terminologie-Extraktion Drei Hauptrichtungen (fast alles für Englisch!!): Statistisch: meist per TF/IDF oder ähnlichen Maßen; Differenzanalysen Linguistisch: Konzentration auf Extraktion von Mehrwortbegriffen (Phrasen); Verwendung von POS-Taggern, Chunkern oder Parsern. Hybrid: Kombinationen von linguistischen und statistischen Ansätzen, meist Extraktion von Phrasen und danach statistische Filter. 18

19 Link für automatische Terminologie-Extraktion ASV-Verfahren: 19

20 Zipfsches Gesetz: Formeln N Gesamtanzahl aller Wortformen des Textes (tokens) t Umfang des Vokabulars (types) n/n relative Häfigkeit der Wortformen, die n mal auftreten rn größter Rang derjenigen Wortformen, die genau n mal auftreten In Anzahl der Wortformen, die genau n mal auftreten Es gilt: rn n/n = c also: rn = c N/n (Konstante c ist textunabhängig, aber sprachabhängig) 20

21 Herleitung der Formeln 2 Für das Vokabular gilt: t ist so groß wie der größte Rang der häufigkeits-sortierten Liste. Falls Wörter mit Häufigkeit 1 vorkommen folgt damit: t = r1 = c N/1 = c N Für c gilt: c = r n/n (vgl. Formeln oben) = k/n (nach Zipfschem Gesetz) Nach den Daten des Projekts Deutscher Wortschatz gilt damit fürs Deutsche: c = /

22 Seltene Wörter Frequenz Anzahl Anteil Anzahl verschied. Wortformen (types) : Anzahl Wörter im Text (tokens) Beobachtungen: Es gibt viele extrem seltene Wörter. Ca. 65% der Wörter wurden nur einmal gesehen. Häufig begegnen uns neue Wörter. Wir können ca. jedes 70. Wort als neu erwarten. D.h. größerer Korpus liefert noch lange neue Wörter 22

23 Anteil von Wortformen, die nur 1 mal auftreten Für In gilt: In = rn rn+1 = c N/n - c N/(n+1) = cn/(n(n+1)) = t/(n(n+1)) Für I1 gilt insbesondere: I1 = t/2 Die hälfte des Vokabulars eines Textes tritt wahrscheinlich nur 1 mal auf. allgemein: Anteil der Wortformen, die genau n mal auftreten, am Vokabular eines Textes In/t = (t/(n(n+1))) / t = 1/(n(n+1)) 23

24 Textabdeckung Wenn wir nur N Wörter kennen, welcher Anteil von Text wird dadurch abgedeckt? N Textabdeckung (deutsch) Textabdeckung (englisch) 1 3 % 5 % % 23 % % 42 % % 65 % % 90 % % 99 % % 24

25 Wachstum des Vokabulars Heaps Law Das Wachstum des Vokabulars, wenn sich die Textmenge erhöht, läßt sich abschätzen mit: t = kn Typische Werte für die Parameter k und sind 20 < k < 100 und ~ 0,5. Für das Projekt Deutscher Wortschatz gilt k = 20 und = Voraussage: Bei Erweiterung der Textmenge wird etwa jedes 70. Wort zum ersten mal gesehen. 25

26 Wachstum des Vokabulars Heaps Law Hintergrund ist die Annahme, dass die einfachste Beziehung zwischen dem Textumfang und dem Vokabular in einer doppelt logarithmischen Skalierung linear ist. Es folgen 2 Konsequenzen: 1. Für das Textmengenwachstum gibt es keine Obergrenze 2. Das Vokabular für große Textkollektionen ist ebenfalls sehr groß 26

27 Weitere Zusammenhänge Beziehungen, die für den Großteil der Wortformen eines Textes gelten, wobei einzelne Wortformen zum Teil deutlich abweichen können: Bezeichne l die Länge einer Wortform, dann gilt: n ~ 1/l Bezeichne m die Anzahl der Bedeutungen einer Wortform, dann gilt: m ~ 1/ n Gesetzmäßigkeit ist nicht auf Verteilung von Wörtern in Texten beschränkt: Für Ordnung von amerikanischen Städte nach Einwohnerzahl gilt: Rang Einwohnerzahl konstant 27

28 Verbesserung Der Zusammenhang zwischen Rang und Häufigkeit wird für Wortformen mit sehr kleinem oder sehr großem Rang nur unzureichend durch die Formel n~1/r wiedergegeben. Im Diagramm mit logarithmisch skalierten Achsen weichen diese Wortformen stärker von der vorausgesagten Geraden ab. bessere Beschreibung liefert nach B. Mandelbrot: n ~ 1/(r+c 1 ) 1+c 2 bzw. (r+c 1 ) 1+c 2 n k (mit textabhängiger Konstante k) Parameter c 1 und c 2 ermöglichen Anpassung an die konkreten Daten. 28

29 Graphische Darstellung Daten: Projekt Deutscher Wortschatz; logarithmische Skalierung der Achsen! 29

30 Literaturhinweise Manning/Schütze, Statistical Natural Language Processing Heyer/Quasthoff/Wittig, Text Mining Wissensrohstoff Text 30