2. Textvorverarbeitung. nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments

Transkript

1 Textvorverarbeitung 2. Textvorverarbeitung nicht alle Wörter in einem Dokument sind gleich wichtig, um die Semantik eines Dokuments auszudrücken deswegen lohnt es sich oft, eine Vorverarbeitung durchzuführen bevor man die Indexterme bestimmt Thema wird hier nur angerissen, d.h. Problemfälle werden erläutert (sieht oft leichter aus, als es in Wirklichkeit ist) Einführung in Information Retrieval 22

2 Vor-/Nachteile Vorverarbeitung hat Vor- und Nachteile Vorteile allgemein bessere Retrieval Performance kleineres Datenaufkommen beim Indexieren Nachteile es gibt problematische Spezialfälle führt manchmal zu undurchsichtigem Verhalten aus der Sicht des Benutzers Einführung in Information Retrieval 23

3 Was kann man alles tun? Lexikalische Analyse mit dem Ziel Ziffern, Bindestriche, Satzzeichen und Groß-/Kleinschreibung zu behandeln Eliminierung von sogenannten Stoppwörtern (stop words), also Wörtern, die sehr häufig vorkommen und praktisch keine Aussagekraft haben (z.b.: der, die, das, ein, usw.) Stammwortreduktion (stemming) hat das Ziel, syntaktische Variationen eines Wortes auf eine gemeinsame Form zu bringen (z.b.: binden, verbinden, Verbindung, verbindend, usw.) (automatische) Auswahl von Indextermen Einführung in Information Retrieval 24

4 Lexikalische Analyse 2.1. Lexikalische Analyse Aufgabe der Lex. Analyse ist Konvertierung eines Eingabestroms von Zeichen in einen Strom aus Wörtern, d.h. das Erkennen von Wörtern in einem Text auf den ersten Blick sieht es so aus, als ob es ausreicht, lediglich Leerzeichen zu beachten Einführung in Information Retrieval 25

5 Behandlung von Ziffern ohne Kontext sind Ziffern relativ wertlos Beispiel: ich möchte Statistiken zu Autounfällen zwischen 1980 und 1989 als Antwort bekommt man eventuell nur Statistiken für die Jahre 1980 und 1989 oder Unfalljahre mit 1980 bzw Unfallopfern oder Jahre mit 1980 bzw Unfällen Einführung in Information Retrieval 26

6 Ziffern normalerweise verzichtet man auf Ziffern als Indexterme obwohl es viele Ziffern gibt, die durchaus als Suchterm geeignet sind (z.b. Personalnummern, Kreditkartennummern, Postleitzahlen, usw.) Probleme gibt es auch bei gemischten Ausdrücken (z.b. 150v.Chr., Vitamin B6 und B12) Einführung in Information Retrieval 27

7 Bindestriche normalerweise werden Wörter mit Bindestrichen in Einzelwörter aufgebrochen (da solche Wörter oft inkonsistent geschrieben werden, d.h. mal mit und mal ohne Bindestrich) bei manchen Wörtern sind Bindestriche aber integraler Bestandteil des Worts (z.b. Kann- Vorschrift, Karl-Heinz) Einführung in Information Retrieval 28

8 Satzzeichen auch hier gilt wieder: normalerweise werden alle Satzzeichen entfernt, auch bei Satzzeichen in Wörtern (z.b. bei 150v.Chr.) problematisch in Spezialfällen (z.b. bei Programmcode, man möchte Variablen p.id und pid unterscheiden können) Einführung in Information Retrieval 29

9 Groß-/Kleinschreibung Text wird normalerweise komplett in die eine oder andere Form konvertiert eventuell problematisch im Englischen, da Eigennamen nicht mehr so gut ausfindig gemacht werden können Einführung in Information Retrieval 30

10 Eliminierung von Stoppwörtern 2.2. Eliminierung von Stoppwörtern Stoppwörter sind Wörter, die zu häufig vorkommen, um einen großen Unterschied beim Retrieval zu machen Artikel, Präpositionen und Konjunktionen sind heiße Kandidaten für Stoppwörter diese Liste kann aber durchaus noch länger sein (z.b.: nächste Folien beinhalten 425 Stoppwörter für den Brown Corpus, eine englischsprachige Literatursammlung mit verschiedenen Wörtern) Einführung in Information Retrieval 31

11 Stoppwörter für Brown Corpus Einführung in Information Retrieval 32

12 Stoppwörter für Brown Corpus (2) Einführung in Information Retrieval 33

13 Listenerstellung manuelle Pflege sehr aufwendig Vorschlag von Crouch: eliminiere alle Begriffe, die in mehr als 10% (zu allgemein) und weniger als 1% (zu spezifisch) der Dokumente vorkommen untere Grenze kann problematisch werden (je nach Dokumentgröße) Wörter die nur in einem Dokument vorkommen können gefahrlos eliminiert werden Einführung in Information Retrieval 34

14 Vor-/Nachteile Vorteil: reduziert den benötigten Speicherplatz für Indexstrukturen; invertierte Dateien z.b. sind bis zu 40% kleiner nach Eliminierung von Stoppwörtern (Stoppwörter bilden ja die längsten Listen) Nachteil: kann die Präzision bei einem Indexzugriff verringern (z.b. bei der Suchphrase to be or not to be ) Einführung in Information Retrieval 35

15 Stammwortreduktion 2.3. Stammwortreduktion oft verwendet Benutzer ein Wort in einer Anfrage, das nur in einer Variante in den Dokumenten vorkommt (z.b. Plural, Vergangenheitsform, usw.) deswegen reduziert man die Wörter durch Wegnahme und Umwandlung von Teilen auf ihren Stamm Einführung in Information Retrieval 36

16 Vor-/Nachteile verschiedene Varianten von Wörtern werden auf ein gemeinsames Konzept zurückgeführt, um so die Retrieval Performance zu erhöhen es ist aber nicht erwiesen, daß dies wirklich der Fall ist (Studien von Frakes et.al. kommen zu unterschiedlichen Ergebnissen) die Anzahl verschiedener Indexwörter wird reduziert (verkleinert den Index) Einführung in Information Retrieval 37

17 Verschiedene Vorgehensweisen prinzipiell gibt es vier verschiedene Vorgehensweisen bei der Stammwortreduktion table lookup successor variety n-grams Prä-/Suffix (Affix) Entfernung Einführung in Information Retrieval 38

18 Table Lookup in der Anwendung einfache, aber speicherintensive und mit viel Vorarbeit verbundene Vorgehensweise für jede möglich Wortvariante wird der entsprechende Stamm in einer Tabelle abgelegt erkennt auch unregelmäßige Fälle (z.b. bin/ist/war/sind, Monaco/Monegassen) muß eventuell mühsam per Hand für jede Sprache aufgebaut werden Einführung in Information Retrieval 39

19 Successor Variety verwendet Verfahren aus der Linguistik, um Morpheme eines Worts festzustellen Morpheme sind die kleinsten Einheiten in einer Sprache, die Bedeutung tragen anhand dieser Morpheme wird ein Wort auf die Stammform(en) reduziert Einführung in Information Retrieval 40

20 Finden von Morphemgrenzen man berechnet die successor varieties (Nachfolgervielfalten) eines Wortes gegeben eine Wortmenge aller vorkommenden Worte in einer Dokumentensammlung; dann ist die Nachfolgervielfalt eines Strings die Anzahl von verschiedenen Buchstaben die diesem String folgen können, um ein Wort zu bilden, daß in der Wortmenge vorkommt Einführung in Information Retrieval 41

21 Beispiel angenommen alle Wörter in einer Dokumentmenge sind: able, ape, beatable, fixable, read, readable, reading, reads, red, rope, ripe was sind die Nachfolgervielfalten von readable? r 3 e,i,o read,..., ripe, rope re 2 a,d read,..., red rea 1 d read,... read 3 a,i,s readable, reading, reads reada 1 b readable readab 1 l readable readabl 1 e readable readable 1 readable Einführung in Information Retrieval 42

22 Wie benutzt man diese Informationen? wenn diese Berechnungen auf einer hinreichend großen Dokumentmenge ausgeführt wird (mindestens 2000 verschiedene Wörter laut Hafer und Weiss), dann wird die Nachfolgervielfalt mit länger werdendem String zunächst abnehmen an einer Morphemgrenze wird sie dann aber sprunghaft ansteigen dieses Verhalten wird ausgenutzt, um ein Wort aufzutrennen Einführung in Information Retrieval 43

23 Methoden zur Trennung Cutoff-Methode man legt einen Grenzwert für die Nachfolgervielfalt fest wird dieser Grenzwert überschritten, schneidet man ab Problem: wird Grenzwert zu klein gewählt, schneidet man falsch ab, ist er zu groß, übersieht man korrekte Schnitte Einführung in Information Retrieval 44

24 Methoden zur Trennung (2) peak and plateau method man schneidet ab nach einem Zeichen, dessen Nachfolgervielfalt größer als die des Vorgängers und des Nachfolgers ist bei dem Beispiel also nach read Einführung in Information Retrieval 45

25 Methoden zur Trennung (3) complete word method es wird immer abgeschnitten, wenn momentanes Segment als komplettes Wort in Dokumentsammlung auftaucht im Beispiel also nach read und dann nach able problematisch bei Vorsilben und Endungen die nie einzeln auftreten Einführung in Information Retrieval 46

26 Methoden zur Trennung (4) Entropie Methode berechnet den Informationsgehalt des nächsten Zeichens bei einem gegebenen Teilstring nach Shannon sei D αi die Anzahl der Wörter in der Dokumentsammlung die mit der Anfangssequenz α anfangen, wobei α die Länge i hat sei D αij die Anzahl der Wörter in denen α von j gefolgt wird die Wahrscheinlichkeit, daß ein Element aus D αi den Nachfolger j hat, beträgt D αij D αi Einführung in Information Retrieval 47

27 Informationstheorie nach Shannon Exkurs: Informationstheorie mit Hilfe von Information und Ungewissheit kann man Prozesse beschreiben, die aus einer Menge von Elementen eines aussuchen Beispiel: wir haben einen Automat, der 4 Symbole ausgeben kann: A,B,C,D während wir auf nächstes Zeichen warten, sind wir unsicher, was das nächste Zeichen sein wird sobald das Zeichen erscheint, verkleinert sich unsere Ungewissheit, wir haben Information gewonnen Einführung in Information Retrieval 48

28 Information und Ungewissheit der Informationsgehalt wird in Bits gemessen in unserem Beispiel haben wir 4 Symbole, d.h. durch das Erscheinen eines Symbols gewinnen wir log 2 (4) = 2 Bits Information (unter der Voraussetzung, das jedes Symbol gleich häufig auftritt) sei M die Anzahl der Symbole, dann ist Informationsgehalt log 2 (M) = log 2 (M 1 ) = log 2 ( 1 M ) = log 2 (P ) Einführung in Information Retrieval 49

29 Ungleich verteilte Symbole nehmen wir an, daß das i-te Zeichen die Auftrittswahrscheinlichkeit P i besitzt ( M i=1 P i = 1) dann ist die Information, die wir aus dem Auftreten des i-ten Zeichens gewinnen: u i = log 2 (P i ) je überraschter wir vom Auftreten eines Zeichens sind, desto mehr Information gewinnen wir daraus Einführung in Information Retrieval 50

30 Durchschnittliche Information was ist die durchschnittliche Information für eine Zeichenkette der Länge N? nehmen wir an, daß das i-te Zeichen N i mal auftritt (N = M i=1 N i ) der durchschnittliche Informationsgehalt ist also M i=1 N i u i N = M i=1 N i N u i Einführung in Information Retrieval 51

31 Beliebig lange Zeichenkette wenn wir nun eine beliebig lange Zeichenkette annehmen, strebt N i N gegen P i also haben wir H = M i=1 P i log 2 (P i ) Bits pro Symbol (Ende des Exkurses) Einführung in Information Retrieval 52

32 Entropie Methode bei der Entropie Methode messen wir den Informationsgehalt für jeden Teilstring α der Länge i: H αi = 26 j=1 D αij D αi log 2( D αij D αi ) bei der Nachfolgervielfalt wird nur beachtet mit welchen Zeichen es überhaupt weitergehen kann, bei der Entropie Methode fließt mit ein, wie häufig bestimmte Fortsetzungen auftreten H αi tritt jetzt an die Stelle der Nachfolgervielfalt Einführung in Information Retrieval 53

33 Qualität der Methoden keine der vorgestellten Methoden liefert allein immer das Optimum Kombination mehrerer dieser Methoden liefert allerdings sehr gutes Ergebnis Einführung in Information Retrieval 54

34 Welcher Teil ist Wortstamm? nach der Zerlegung muß aber noch bestimmt werden, welche der Teile Wortstämme sind dafür gibt es im Englischen einfache Faustregel: wenn das erste Segment in mehr als 12 Wörtern auftaucht, ist es höchstwahrscheinlich eine Vorsilbe in diesem Fall wird das zweite Segment als Stamm gewählt andernfalls das erste Segment Einführung in Information Retrieval 55

35 N-Grams zerlegt Wörter in 2-grams/3-grams und versucht daraus Ähnlichkkeiten zwischen Wörtern herzuleiten ist also mehr eine Technik zum Clustern als für Stemming gut geeignet, um Sprachen zu erkennen, aber weniger gut geeignet, um Bedeutung zu erkennen (Cavnar) Einführung in Information Retrieval 56

36 Beispiel Betrachtung der gemeinsamen eindeutigen n-grams statistics st ta at ti is st ti ic cs eindeutig: at cs ic is st ta ti statistical st ta at ti is st ti ic ca al eindeutig: al at ca ic is st ta ti statistics hat neun 2-grams, wovon sieben eindeutig sind statistical hat zehn 2-grams, wovon acht eindeutig sind beide Wörter haben sechs davon gemeinsam Einführung in Information Retrieval 57

37 Ähnlichkeitsmaß nachdem man n-grams durchgezählt hat, berechnet man die Ähnlichkeit mit Hilfe des Dice Koeffizienten: S = 2C A + B A ist Anzahl der eindeutigen n-grams im ersten Wort, B die Anzahl der eindeutigen n-grams im zweiten Wort, C die gemeinsamen eindeutigen n-grams Einführung in Information Retrieval 58

38 Präfix-/Suffix Entfernung versucht Wort durch Entfernen von Präfixen und Suffixen auf Grundform zu reduzieren einfaches Beispiel zur Umwandlung von Plural in Singular (für Englisch) wenn Wort in ies aber nicht in eies oder aies endet, dann ersetze ies durch y wenn Wort in es aber nicht in aes, ees oder oes endet, dann ersetze es durch e wenn Wort in s aber nicht in us oder ss endet, dann ersetze s durch es wird immer nur die erste passende Regel angewendet Einführung in Information Retrieval 59

39 Porter Algorithmus einer der bekanntesten Algorithmen (für englische Sprache) ist der Porter Algorithmus bei diesem Algorithmus wird nacheinander eine Reihe von Regeln auf ein Wort angewendet und dabei wird dieses Wort umgewandelt Einführung in Information Retrieval 60

40 Porter Algorithmus z.b. gibt es unter anderem folgende Regel, um Suffixe zu entfernen s konvertiert Plural in Singular es wird dabei immer zuerst nach der längsten passenden Sequenz gesucht: sses ss s bei Anwendung auf stresses bekommt man stress und nicht stresse (vollständiger Algorithmus auf Webseite) Einführung in Information Retrieval 61

41 Abhängigkeit von Sprache Englisch: gut mit Regeln abdeckbar (schwach flektiert) Italienisch: stärker flektiert, aber noch mit Regeln handhabbar Deutsch: stark flektiert, kaum mit Regeln abzudecken, fast nur noch mit Wörterbuch zu schaffen. Einführung in Information Retrieval 62

42 Auswahl von Indextermen 2.4. Auswahl von Indextermen bei Volltextrepräsentation werden einfach alle Wörter im Text als Indexwörter benutzt die Alternative ist eine Untermenge davon auszuwählen zwei Varianten: manuell (z.b. bei Literaturverzeichnissen wird diese Aufgabe oft von menschlichen Spezialisten übernommen) automatische Indextermgenerierung Einführung in Information Retrieval 63

43 Manuelle Indextermgenerierung zwei Varianten: vorgegebenes Vokabular Freitextindizierung Abwägung zwischen Exaktheit und Eindeutigkeit Einführung in Information Retrieval 64

44 Automatische Indextermgenerierung verschiedene Kriterien Häufigkeit von Begriffen Gewichtung von Begriffen Einführung in Information Retrieval 65

45 Häufigkeit von Begriffen sehr häufige Begriffe: wahrscheinlich Stoppwörter sehr seltene Begriffe: nicht charakteristisch für Dokument man sucht Begriffe mittlerer Häufigkeit das allein ist noch kein besonders gutes Kriterium Einführung in Information Retrieval 66

46 Gewichtung von Begriffen man sucht Begriffe, die in wenigen Dokumenten häufig, insgesamt aber eher selten vorkommen man vermeidet Begriffe, die in vielen Dokumenten mit relativ gleicher Häufigkeit auftauchen Einführung in Information Retrieval 67

47 Gewichtung von Begriffen man bestimmt eine Vorauswahl an Indextermen (z.b. nach Häufigkeit: Eliminierung der Stoppwörter, etc.) Vorauswahl wird in der Regel zu groß sein, d.h. es müssen noch Terme gestrichen werden man will Begriffe behalten, die gut zwischen Dokumenten unterscheiden Einführung in Information Retrieval 68

48 Gewichtung von Begriffen berechne paarweise Ähnlichkeiten zwischen allen Dokumenten sim(d i, D j ), i j (z.b. mit Dice) durchschnittliche Ähnlichkeit: sim = n(n 1) 2 n 1 i=1 n j=i+1 sim(d i, D j ) durchschnittliche Ähnlichkeit ohne Term k: sim k = n(n 1) 2 n 1 i=1 n j=i+1 sim k (D i, D j ) Diskriminanz für Term k: sim k sim Einführung in Information Retrieval 69

49 Gewichtung von Begriffen positive Diskriminanz: Dokumente werden ähnlicher bei Weglassen des Terms Term unterscheidet zwischen Dokumenten guter Indexterm negative Diskriminanz: Dokumente werden unähnlicher bei Weglassen des Terms Term unterscheidet nicht zwischen Dokumenten schlechter Indexterm Einführung in Information Retrieval 70

50 Weitere Punkte weitere lexikalische Analyse auf Indextermen (Stammwortreduktion) Indexterme, die aus mehreren Einzelwörtern bestehen (gemeinsames Auftreten häufiger als Einzelauftreten) tauchen zwei Wörter immer in geringem Abstand zueinander auf? mit Parser herausfinden, der grammatikalische Satzstruktur ermittelt Einführung in Information Retrieval 71

51 Weitere Punkte ein weiterer Ansatz ist die Identifkation von Hauptwortgruppen (wird im Inquery-System verwendet) man geht davon aus, daß Hauptwörter in einem Satz die meiste Bedeutung tragen, alle anderen Wortklassen spielen nur untergeordnete Rolle Einführung in Information Retrieval 72

52 Weitere Punkte man analysiert Sätze und eliminiert systematisch alle anderen Wörter da es im Englischen kaum zusammengesetzte Wörter gibt, faßt man benachbarte Wörter zu einer Indexierungskomponente zusammen (z.b. computer science) Einführung in Information Retrieval 73