Kapitel 13 n-gramme. HHU Düsseldorf, WS 2008/09 Information Retrieval 204

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "Kapitel 13 n-gramme. HHU Düsseldorf, WS 2008/09 Information Retrieval 204"

Transkript

1 Kapitel 13 n-gramme HHU Düsseldorf, WS 2008/09 Information Retrieval 204

2 Worte natürlichsprachiges Wort (steht zwischen zwei Leer- oder Satzzeichen) formales Wort der Länge n (n-gramm) Varianten von n-grammen im Retrieval: 1. Zerlegung identifizierter natürlichsprachiger Worte in Zeichenfolgen zu n 2. wie 1., aber hier unter Auffüllen von Leerzeichen am Anfang und am Ende 3. gleitende n-gramme über den Text (ggf. Trennung bei Satzoder Absatzende) HHU Düsseldorf, WS 2008/09 Information Retrieval 205

3 INFORMATION RETRIEVAL in Variante 2 in Tetragrammen ***I, **IN, *INF, INFO, NFOR, FORM, ORMA, RMAT, MATI, ATIO, TION, ION*, ON**, N*** ***R, **RE, *RET, RETR, ETRI, TRIE, RIEV, IEVA, EVAL, VAL*, AL**, L*** in Variante 3 mit gleitenden Tetragrammen ***I, **IN, *INF, INFO, NFOR, FORM, ORMA, RMAT, MATI, ATIO, TION, ION*, ON*R, N*RE, neu *RET, RETR, ETRI, TRIE, RIEV, IEVA, EVAL, VAL*, AL**, L*** HHU Düsseldorf, WS 2008/09 Information Retrieval 206

4 Anzahl der n-gramme ist begrenzt: Alphabet n Bsp.: deutsches Alphabet: 26 Zeichen plus Leerzeichen bei n= = Gramme bei n= = Gramme bei n= = Gramme Vergleich: arbeitet man mit Worten, so ist deren Anzahl (zumindest prinzipiell) unendlich groß nicht alle möglichen n-gramme sind auch besetzt englisch (3-Gramme): nur 16% faktisch vorhanden HHU Düsseldorf, WS 2008/09 Information Retrieval 207

5 Vorteile der n-gramme gegenüber Worten: überschaubares, endliches Material besonders geeignet bei Sprachen ohne Wortgrenzen (chinesisch, japanisch) keine weiteren Algorithmen wie bei der Wortbearbeitung (Morphologie, Zerlegung von Mehrwortausdrücken usw.) da sprachungebunden: mehrsprachiges Retrieval gegeben Relevance Ranking direkt anhand der n-gramme kostengünstig HHU Düsseldorf, WS 2008/09 Information Retrieval 208

6 Nachteile: semantische Fallen sind möglich ( Widerspruchsfreiheit ) kein semantisches Umfeld Präzision suboptimal (allerdings nur im Vergleich mit hochentwickelten Algorithmen der Wortbearbeitung) Probleme mit Flexionen Umlautung (Fuchs Füchsin) Ablaute (singen Gesang) Zirkumfigierung (stöhnen Gestöhne) Infixe (wie im Arabischen) HHU Düsseldorf, WS 2008/09 Information Retrieval 209

7 Pentagramm-Register Identifikation von Registereinträgen innerhalb (auch langer) Worte Beispiel: WIDERSPRUCHSFREIHEITSBEWEIS WIDER, IDERS, DERSP, ERSPR, RSPRU, SPRUC, PRUCH, RUCHS, UCHSF, CHSFR, HSFRE, SFREI, FREIH, REIHE, EIHEI, IHEIT, HEITS, EITSB, ITSBE, TSBEW, SBEWE, BEWEI, EWEIS ins Register übernommen werden die sinnvollen Pentagramme (ein anderes Wort im Register beginnt mit derselben Zeichenfolge) so findet man Widerspruchsfreiheitsbeweis auch unter Beweis, Freiheit, Reihe und Spruch Henrichs, N. (1975): Sprachprobleme beim Einsatz von Dialog-Retrieval-Systemen. In: Deutscher Dokumentartag 1974, Bd. 2. München [u.a.]: Verl. Dokumentation, S HHU Düsseldorf, WS 2008/09 Information Retrieval 210

8 ACQUAINTANCE (Vektorraum-IR-System) commonality : Zentroid-Vektor Damashek, M. (1994): Method or retrieving documents that concern the same topic. Patent-Nr. US Patentanmelder: The United States of America as represented by the Director of National Security Agency, Washington, D.C. Erteilt am: (Eingereicht am ). HHU Düsseldorf, WS 2008/09 Information Retrieval 211

9 ACQUAINTANCE M =: Dokument mit m Dimensionen (d.h. unterschiedlichen n-grammen) N =: anderes Dokument (z.b. Suchanfrage) mit n Dimensionen j =: Anzahl der Dimensionen x(m,j) / y(n,j) =: Gewichtungswert eines n-gramms aus M bzw. N (relative Häufigkeit) µ(j) =: Gewichtungswert des Zentroiden in Dimension j Relevance Ranking nach Cosinus: HHU Düsseldorf, WS 2008/09 Information Retrieval 212

10 HAIRCUT (Probabilistisches IR-System) Berechnung eines Ähnlichkeitswertes zwischen Such-n- Grammen und n-grammen in Texten P: Wahrscheinlichkeit für Relevanz (rechte Gleichungsseite: relative Häufigkeit) D: Dokument (Text) C: gesamte Datenbank (collection) Q: Suchanfrage; q: n-gramm aus Suchanfrage α: Konstante (Glättungsparameter) P(D Q) = [α*p(q 1 D) + (1- α)*p(q 1 C)] *... * [α*p(q n D) + (1- α)*p(q n C)] McNamee, HHU Düsseldorf, P.; Mayfield, WS 2008/09 J. (2004): Character n-gram Information tokenization Retrieval for European language text retrieval In: Information Retrieval 7, S

11 HAIRCUT - Arbeitsschritte Erkennung von Sätzen Löschen von Stoppworten (z.b. the ) (nicht Stopp-n-Grammen; Bsp.: Trigramm the in mathematics) gleitende n-gramme über die Sätze Errechnung der relativen Häufigkeiten Relevance Ranking nach HAIRCUT-Formel HHU Düsseldorf, WS 2008/09 Information Retrieval 214

12 n-gramme: Welches n für welche Sprache? HHU Düsseldorf, WS 2008/09 Information Retrieval 215