Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287

Größe: px

Ab Seite anzeigen:

Download "Kapitel 19 Textstatistik. HHU Düsseldorf, WS 2008/09 Information Retrieval 287"

Dagmar Kirchner
vor 5 Jahren
Abrufe

1 Kapitel 19 Textstatistik HHU Düsseldorf, WS 2008/09 Information Retrieval 287

2 Die These von Luhn: Termhäufigkeit als Signifikanzfaktor Luhn, H.P. (1957): A statistical approach to mechanized encoding and searching of literary information. In: IBM Journal 1(4), S HHU Düsseldorf, WS 2008/09 Information Retrieval 288

3 Luhn, H.P. (1958): The automatic creation of literature abstracts. In: IBM Journal 2(2), S HHU Düsseldorf, WS 2008/09 Information Retrieval 289

4 Das informetrische Verteilungsgesetz f (x) ca. 80 % ca. 20% f (x) = C HHU Düsseldorf, WS 2008/09 Information Retrieval 290 x a x

5 Termgewichtung: Was bedeutet "Term"? 1. unbearbeitete (flektierte) Wortform 2. Grundform / Wortstamm 3. Phrase 4. Kompositum und (sinnvolle) Teile 5. "named entities" erkannt 6. Stufen 1 bis 6 mit Eingabefehlerkorrektur 7. Begriff (Synonyme zugefügt - Homonyme getrennt) 8. Begriff inkl. der Anaphora seiner Wörter Informationslinguistischer Reifegrad des IR-Systems HHU Düsseldorf, WS 2008/09 Information Retrieval 291

6 Termgewichtung: Aspekte 1. Dokumentspezifische Termgewichtung (TF) 2. Kollektionsspezifische Termgewichtung (IDF) 3. üblich: TF * IDF HHU Düsseldorf, WS 2008/09 Information Retrieval 292

7 Häufigkeit eines Terms Termgewichtung: Zählbasis Term t im Dokument d: Freq(t,d) Position des Terms im Dokument (P) Term und Ort Term in spezifischem Feld (bzw. Meta-Tag) Anzahl aller Terme in einem Dokument (L) Häufigkeit desjenigen Terms, der im Dokument d am häufigsten vorkommt: maxfreq(d) Anzahl aller Dokumente in einer Datenbank, in denen ein bestimmter Term (mindestens einmal) vorkommt (n) Gesamtanzahl der Dokumente in einer Datenbank (N) Harman, D. (1992): Ranking algorithms. In: Frakes, W.B.; Baeza-Yates, R. (Hrsg.): Information Retrieval. Data Structures & Algorithms. Upper Saddle River, NJ: Prentice Hall PTR, HHU Düsseldorf, WS 2008/09 Information Retrieval 293

8 Termhäufigkeit (TF) 0,1-Verfahren (0: Term kommt nicht vor; 1: Term kommt vor) untauglich absolute Häufigkeit; freq(t,d) untauglich relative Häufigkeit bezogen auf Dokumentlänge (Vorschlag von Salton) TF-relH-Salton(t,d) = freq(t,d) / L relative Häufigkeit bezogen auf auf den häufigsten Term; zusätzlich Gewichtungsfaktor K (Vorschlag von Croft) TF-relH-Croft(t,d) = K + (1 - K) * freq(t,d) / maxfreq(d) WDF (logarithmische Werte) gemäß Harman WDF(t,d) = (ld [Freq(t,d) + 1]) / ld L Frage: Warum im Zähler "+1"? HHU Düsseldorf, WS 2008/09 Information Retrieval 294

9 WDF - Beispiele Beispiel (1) nach Harman-Formel: Dokument 1 hat 1024 Terme; Term A kommt 7mal vor WDF (A,1) = (ld [7+1]) / ld 1024 = 3 / 10 = 0,3 Vergleich: relative Häufigkeit(A): 7/1024 = 0,7% Beispiel (2) nach Harman-Formel: Dokument 1 hat 1024 Terme; Term B kommt 15mal vor WDF (B,1) = (ld [15+1]) / ld 1024 = 4 / 10 = 0,4 Vergleich: relative Häufigkeit(B): 15/1024 = 1,5% Der Wertebereich nach Harman-Formel ist gestauchter als die relative Häufigkeit in %. HHU Düsseldorf, WS 2008/09 Information Retrieval 295

10 Feld- oder positionsspezifische Termhäufigkeit (PWDF) Variante der WDF-Formel PWDF(t,d) = {ld (2 * [freq(t-titel,d)] + 1,7 * [freq(t-sw,d)] + 1,3 * [freq(t-abs,d)] + [freq(t-text,d)] + 1)} / {ld (2 * L(Titel) + 1,7 * L(Sw) + 1,3 * L(Abs) + L(Text))} Die Gewichtungswerte (hier: Titelterm: 2, Schlagwort Sw: 1,7; Term im Abstract Abs: 1,3; Term im Fließtext: 1) sind frei einstellbar. HHU Düsseldorf, WS 2008/09 Information Retrieval 296

11 Inverse Dokumenthäufigkeit (inverted document frequency weight) IDF relative Häufigkeit des Vorkommens eines Terms in Dokumenten der gesamten Datenbank (je häufiger, desto kleiner IDF); je seltener ein Term ist, desto diskriminierender ist er Berechnungsformel nach Karen Sparck Jones: IDF(t) = (ld N / n) + 1 Variante: IDF'(t) = (ld N / n) (Einsatz, wenn keine Stoppwortliste vorhanden ist) Beispiel: Datenbank hat 3584 Datensätze; Term A kommt in 7 Datensätzen vor IDF(A) = (ld 3584 / 7) + 1 = (ld 512) + 1= 9+1 = 10 Sparck Jones, K. (1972): A statistical interpretation of term specificity and its application in retrieval In: Journal of Documentation 28, HHU Düsseldorf, WS 2008/09 Information Retrieval 297

12 Gewichtung G eines Terms t im Dokument d: G(T,d) = TF(t,d) * IDF(t) Der Retrievalstatuswert e des Dokuments ergibt sich durch Akkumulation der Gewichtungswerte bei Booleschen Systemen: Zuordnung der Gewichtungswerte zu den Termen; Beachtung der Regeln erweiterter Boolescher Systeme (--> Kapitel 12) bei natürlichsprachigen Systemen: Zuordnung der Gewichtungswerte zu den Termen Variante 1 ("ODER") e(d) = G(t 1,d) + G(t 2,d) G(t n,d) für alle Dokumente d Variante 2 ("UND") Schritt 1: e(d) = G(t 1,d) + G(t 2,d) G(t n,d) für solche Dokumente, die alle Suchterme enthalten Schritt 2: e(d) = G(t 1,d) + G(t 2,d) G(t n-1,d) für solche Dokumente, die alle Suchterme bis auf einen enthalten usw. HHU Düsseldorf, WS 2008/09 Information Retrieval 298

13 Sortierung nach Gewichtung. Ablauf Harman, D. (1992): Ranking algorithms. In: Frakes, W.B.; Baeza-Yates, R. (Hrsg.): Information Retrieval. Data Structures & Algorithms. Upper Saddle River, NJ: Prentice Hall PTR, HHU Düsseldorf, WS 2008/09 Information Retrieval 299

14 Sortiervariante 1: ODER. Beispiel: Freestyle Errechnung der Gewichtungen durch WDF und IDF; Elimination von Stoppworten und von Hochfrequenzworten Abbildung der Gewichtungswerte für die Dokumente auf eine Skala von >0 bis 100 Schaffen von Transparenz für den Nutzer Angabe von Dokumentenanzahl und (normiertem) IDF für die Suchworte (.WHY) Angabe der top-gerankten Dokumente mit dem Vorkommen bzw. Nichtvorkommen der Suchworte (.WHERE) Stock, W.G. (1998): Lexis-Nexis Freestyle. Natürlichsprachige Suche More like this! In: Password Nr. 11, HHU Düsseldorf, WS 2008/09 Information Retrieval 300

15 Anfragebeispiel: "Wolfgang Clement s opinions for the future of Rheinbraun in Hambach and Garzweiler" (max. 50 Dokumente).WHY: Welche Gewichtungswerte erhalten die Suchargumente? HHU Düsseldorf, WS 2008/09 Information Retrieval 301

16 .WHERE: Wo kommen die Suchargumente vor? HHU Düsseldorf, WS 2008/09 Information Retrieval 302

17 Sortiervariante 2: UND 19. Textstatistik Einsatz bei diversen Suchmaschinen (u.a. AltaVista, Alltheweb/FAST) Variante: Abbruch nach Schritt 1 Risiko: Informationsverlust (Boolesches UND zu restriktiv) HHU Düsseldorf, WS 2008/09 Information Retrieval 303

Ähnliche Dokumente

Kapitel 4 Geschichte des Information Retrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 55

Kapitel 4 Geschichte des Information Retrieval HHU Düsseldorf, WS 2008/09 Information Retrieval 55 Memex Vision von Vannevar Bush (1945): maschinelle Bereitstellung des Wissens nicht mittels eindimensionaler