Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Signatur (S D ) t1 t2 t3 t4 t5 t6 t7

Transkript

1 Beispiel Eine Beispieldatenbank enthält folgende Datensätze (Signatur wurde mit gegebener Signaturfunktion berechnet): Name Ort Material Signatur (S D ) t Mandro M Schrauben t Müller B Dichtungen t3 Holz Hd Bohrer t4 Schulz Da Hammer t5 Magnum Da Filter t6 Kojak F Hammer t7 Schimi Du Bolzen Eine Anfrage wie Ort= Da AND Material= Hammer kann dann effizient mittels Signaturvergleich evaluiert werden. Sei S Q =. Alle Tupel, welche S Q ( S D )=erfüllen, gelten als Kandidaten. Im Beispiel: {t4,t6} Offensichtlich ist nur t4 ein Treffer; t6 ist ein sogenannter false drop. Mit anderen Worten: der Signaturvergleich kann nur entscheiden, welche Tupel nicht in Frage kommen. Die eigentlichen Treffer müssen in einem zweiten Schritt ermittelt werden. Kap Berechnung der Signaturen Im Folgenden betrachten wir einige Möglichkeiten, um Texte auf Signaturen abzubilden. Vor allem die Hashfunktion muss aber von Fall zu Fall optimiert werden. Notationen: l b i S Q S D g N W SP F Bitlänge der Signatur i-tes Bit in der Signatur Signatur der Anfrage Signatur des Dokumentes D Signaturgewicht eines Terms Anzahl Dokumente Grösse des Wörterbuchs (Anz. verschiedener Terme) Signaturpotential Fehlerrate Kap.-78

2 Binärsignaturen Terme werden eindeutig auf eine der l möglichen Signaturen abgebildet. Gesucht wird mit dem Gleichheitsoperator, d.h. zwei Signaturen müssen exakt übereinstimmen. Diese Methode erlaubt es, sehr effizient zu überprüfen, ob zwei Dokumente (resp. Terme) identisch sind. Sie eignet sich aber nur, falls Dokumente stets aus derselben Anzahl Terme bestehen. Teilanfragen und substring matching sind nicht möglich. Superimposed Coding Ein Term belegt g Bits der gesamten Signatur (g ist das Signaturgewicht); falls ein Dokument aus mehreren Termen besteht, kann mittels Überlagerung eine Signatur für das gesamte Dokument berechnet werden. Die Verknüpfung der Überlagerung entspricht dabei der ODER-Funktion: text S search S methods S 3 text search methods S S S 3 l Terme können auf g verschiedene Signaturen abgebildet werden. Durch die Überlagerung kann aber nicht mehr ermittelt werden, wie die Ursprungssignaturen ausgesehen haben. D.h. es ist möglich, dass zwei verschiedene Dokumente dieselbe Signatur aufweisen. Damit entstehen zusätzliche Fehler. Kap.-79 Die Anfrage wird ebenfalls mittels superimposed coding in eine Signatur transformiert. Der Vergleich mit den Signaturen der Dokumente ist definiert als: jedes Bit in der Anfragesignatur muss auch in der Dokumentensignatur gesetzt sein. Damit kann man garantieren, dass alle Dokumente, welche die Suchterme enthalten auch gefunden werden. Aber: es können auch Dokumente gefunden werden, welche die Suchterme nicht (oder nur z.t.) enthalten (false drops) Eine effiziente Auswertung ergibt sich mittels: S Q ( S D )= Beispiel: text search methods in search of knowledge-based IR an optical system for full text search the lexicon and IR Anfrage: text search Resultat: die ersten drei Dokumente erfüllen den Signaturvergleich; aber das -te Dokument enthält nicht alle Anfrageterme Kap.-8

3 Abbildung der Terme auf Signaturen Die Erzeugung einer Signatur ist stets abhängig von den Termen, welche zur Indexierung benutzt werden und der Dokumentenkollektion Beispiel : im Folgenden bilden Buchstaben die zugrunde liegenden Terme. Dabei werden mehrere Buchstaben zu einer Klasse zusammengefasst, so dass die W keiten der Klassen gleich gross ist: T char <space>,-.;:/... E ÄJNPXY RU CIK HÖS MOTW DGLQ ABÜVZF Buchstaben in gleichwahrscheinliche Klassen eingeteilt Die Hashfunktion basiert auf jeweils zwei aufeinanderfolgende Zeichen (c,c) in einer Zeichenkette. Z.B. (T(c) bestimmt Klasse in der c liegt): h(c,c) = [7*T(c) + T(c)] MOD l Kap.-8 Beispiel : Eine weitere Möglichkeit wäre, allen Buchstaben ihre Position im ASCII-Alphabet zuzweisen (dabei werden alle Formen z.b. des Buchstaben A [a,a,ä,ä,à,à,...] auf die selbe Positon abgebildet). Die Hashfunktion könnte dann wie folgt aussehen h(c,c) = [6*Pos(c) + Pos(c)] MOD l Die Hashfunktionen sollten natürlich so konstruiert werden, dass im Mittel alle Bitpositionen gleich häufig belegt werden. Aufgrund der Termhäufigkeiten oder mittels Experimenten kann eine solche Funktion für das aktuelle Problem bestimmt werden. Ebenso ist es möglich (analytisch oder experimentell) eine optimale Anzahl Bits für die Signaturen zu bestimmen. Disjoint Coding Im Gegensatz zum Superimposed Coding werden die Signaturen der Terme eines Dokumentes/Datensatzes nicht überlagert, sondern zu einer langen Signatur für den ganzen Text verkettet. Die Suche erfolgt dann entlang dieser Kette. Wir nehmen an, dass ein Term genau g Bits der Signatur mit Länge l setzt. Wieviele verschiedene Codierungen (Bitstrings) für Terme gibt es? SP = SP( l,g ) sei das Signaturpotentzial, d.h. die Anzh. verschiedener Codierungen von Termen mit g gesetzten Bits in einer Signatur der Länge l dann ist: l SP( l, g) = = g l! g!( l g)! maximal falls g = l/ Kap.-8

4 Bestimmung der Fehlerrate F Die M verschiedenen Terme werden auf SP verschiedene Signaturen abgeibildet. Somit gibt es pro Signatur M/SP verschiedene Terme. Falls nach einem bestimmten Term gesucht wird mittels Signaturvergleich (Gleichheit der Signaturen), so erhält man ebenfalls Signaturen der M/SP- anderen Termen mit derselben Signatur wie der Anfrageterm. Damit: N: Anz. Dokumente M F = SP N M Will man die Fehlerrate unter eine Grenze drücken, so kann man, gegeben F, das Signaturpotential und damit die Signaturläng berechnen: SP = M N F M + N Bsp für SP : l g SP Kap.-83 Block Superimposed Coding Nur die Signaturen, welche innerhalb eines Textblockes auftreten, werden überlagert (superimposed coding). Die Signaturen der Textblöcke eines Dokumentes werden wie beim Disjoint Coding hintereinander gehängt (d.h. ein Dokument besteht aus mehreren Signaturen) Übersicht der Codierungsvarianten Block Block Block 3 Block 4 This is a text. A text has many words. Words are made from letters. Disjoint Coding Block Superimposed Coding Superimposed Coding h(text) h(many) h(words) h(made) h(letters) = = = = = Kap.-84

5 .4.3. Ähnlichkeitssuche Ähnlichkeitssuche oder Ranking ist mit Signaturen ebenfalls möglich. Im Gegensatz zu den bisher besprochenen Retrievalmodellen können damit auch Dokumente mit Tipfehler oder falsch geschriebene Namen ( Maier, Meier ) gefunden werden. Für die Ähnlichkeitssuche brauchen wir eine Distanzfunktion, welche aussagt, wie gut die Anfragesignatur S Q zur Dokumentensignatur S D passt. Hamming-Distanz Die Distanz wird berechnet als die Anzahl der abweichen Bits in den Signaturen S Q und S D. Eine effiziente Implementierung berechnet erst B=S Q XOR S D. Die Hamming- Distanz ist dann gegeben als die Anzahl gesetzter Bits in B. Seiw() eine Funktion, welche die Anzahl gesetzter Bits in einem Bitstring zählt. Dann ist: hamming(s Q,S D )= w( S Q XOR S D ) Eine schnelle Zählung der Bits kann mittels look-up -Tabellen realisiert werden. Diese Tabelle enthält z.b. für alle 8-Bit Substrings die Anzahl Bits die gesetzt sind (also: -> 3, -> 5). B wird dann in 8-Bit Substrings aufgeteilt, für jeden Substring ermittelt man die Anzahl gesetzter Bits, summiert diese und erhält die Hamming-Distanz zwischen S Q und S D. Kap.-85 Cover-Distanz Die Cover-Distanz berechnet die Anzahl Bits, welche in der Anfragesignatur gestzt sind, nicht aber in der Dokumentensignatur. Eine effiziente Implementierung berechnet erst B=S Q AND S D. Die Cover- Distanz ist dann gegeben als: cover(s Q,S D )= w(s Q )-w( S Q AND S D ) Diskussion: Die Hamming-Distanz eignet sich, falls die Anfrage als vollständiges Beispiel vorgegeben wird, wie die Antwort aussehen sollte. Die Cover-Distanz eignet sich, um Teilanfragen oder unvollständige Anfragen auszuwerten (z.b. kennt man nur den Nachnamen, nicht aber den Vornamen). Kap.-86

6 Speicherstrukturen Sequentielle Signaturen Die Signaturen der Dokumente werden sequentiell gespeichert. Die Beantwortung einer Anfrage erfolgt durch einen linearen Scan durch alle Signaturen (. Phase). In der. Phase müssen die gefunden Kandidaten in Treffer und false drops aufgeteilt werden ( random access auf die Dokumente) Im Vergleich zur Volltextsuche ist diese Organisation sehr viel schneller (Bitoperationen sind günstiger als String-Vergleiche). Im Vergleich zum invertierten Index ist die Performance aber ungenügend. Beispiel: Die Anfragesignatur sei und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) S S S 3 S 4 S 5 S 6 b b S 7 S 8 Kandidaten Treffer false drop Kap.-87 Bitscheibenorganisation ( bitsliced ) - Vertikale Partitionierung Sei l die Länge der Signaturen. Bei der Bitscheibenorganisation wird für jedes der l Bits eine separate Datei unterhalten, so dass in der j-ten Datei an der i-ten Position das j-te Bit der i-ten Dokumentensignatur steht. Der grösste Vorteil dieser Organisation besteht darin, dass man bei der Suche nur jene Bitscheiben lesen muss, für welche in der Anfragesignatur eine gesetzt ist (Aussnahme: Hamming-Distanz) Beispiel: Die Anfragesignatur sei und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) S S S 3 S 4 S 5 S 6 S 7 S 8 S Q b b b Scheiben mit (S Q ) i = lesen b Kandidaten Treffer false drop Kap.-88

7 Horizontale Partitionierung Bei der horizontalen Partitionierung werden die Signaturen in disjunkte Gruppen aufgeteilt und in separaten Dateien ( Buckets ) gespeichert. Die Gruppen werden häufig so gebildet, dass man aufgrund der Anfragesignatur entscheiden kann, ob die Gruppe entweder Kandidaten enthält oder keine Kandidaten enthalten kann (wobei vor allem letzteres entscheidend ist). Die Auswertung folgt dann einem drei-stufigem Verfahren:. Gruppen resp. Buckets identifizieren, welche Kandidaten enthalten können. Alle Buckets lesen, Signaturen vergleichen und Kandidaten bestimmen 3. Dokumente der Kandidaten lesen und überprüfen ob es sich um einen Treffer oder um einen false drop handelt. Zur Bildung der Gruppen wird eine zusätzliche Hash-Funktion benötigt, welche einen Schlüssel für eine Signatur berechnet. Alle Signaturen mit demselben Schlüssel werden in demselben Bucket gespeichert. Eine einfache Hash-Funktion extrahiert die ersten k Bits der Signatur (fixed prefix), wobei k typischerweise klein ist. Bei extended prefix wird der Schlüssel ebenfalls aus den ersten Bits der Sigantur gebildet. Die Länge der Schlüssel ist aber dynamisch, d.h. man extrahiert so viele Bits zu Beginn der Signatur bis ein bestimmtes Gewicht (=Anz. er) überschritten wird. Kap.-89 Beispiel: Der Schlüssel wird aus den ersten zwei Bits gebildet; die Anfrage sei wiederum und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) Keys Buckets b b S S 8 b b S 3 S 6 b b b b S S 5 S 4 S 7 Anfrage Key = (damit enthalten die Gruppen und sicher keine Treffer) b b S S 4 S 5 S 7 Kandidaten 3 Treffer false drop Kap.-9

8 Signatur Baum (S-Tree) Ähnlich wie bei der horizontalen Partitionierung werden Gruppen von Signaturen gebildet. Eine Gruppe ist typischerweise recht klein (passt in eine Datenbankseite) und es gibt keinen Schlüssel wie bei der horizontalen Partitionierung. Stattdessen wird eine Blocksignatur für die ganze Gruppe gebildet (mittels Superimposed Coding). Diese Blocksignaturen werden dann wiederum als Signaturen betrachtet und rekursiv weiter gruppiert. Dabei entsteht ein Baum, der Signatur Baum. Die Gruppenbildung muss offensichtlich so erfolgen, dass die Hamming-Distanzen zwischen den Signaturen einer Gruppe minimal ist. Die dynamische Organisation erfolgt wie beim B-Baum (splits bei Überlauf eines Knotens; merge/reinsert beim Unterlauf eines Knotens). Bei der Auswertung der Anfrage traversiert man all jene Knoten im S-Baum, für welche die Blocksignatur zur Anfragesignatur passt. Dabei kann man wiederum nur diejenigen Signaturen ausschliessen, welche an den Stellen, bei welchen in der Anfragesignatur eine steht, eine in der Signatur aufweisen. Problem: Die Blocksignaturen enthalten sehr viel er (je näher bei der Wurzel, desto mehr er). Damit lassen sich auf den ersten Stufen nur wenige Blöcke ausschliessen. Kap.-9 Beispiel: Die Anfrage sei wiederum und der Signaturvergleich sei enthalten in (siehe Superimposed Coding: S Q ( S D )=) Wurzel (mit Block- Signaturen) b b Übereinstimung mit Anfrage Blätter S 4 S 7 S 8 b b b b S S b b S 3 S 5 S 6 S Kandidaten S 5 Treffer false drop Kap.-9

9 .5 Vergleich verschiedener Suchalgorithmen Im Allgemeinen gibt es mehrere Möglichkeiten Information zu suchen. In Datenbanken aber unterscheiden sich die Verfahren nur bzgl. ihrer Effizienz, nicht aber bzgl. ihrer Güte. Z.B. liefert die Anfrage SELECT * From Person WHERE Name= Meier immer dieselben Tupel zurück (egal ob ein Index für die Suche benutzt wird oder nicht) Im Information Retrieval ist die Effizienz zwar auch wichtig, doch spielt die Güte eine viel zentralere Rolle. Mit Güte ist aber nicht nur die Menge der gefundenen Dokumente gemeint, sondern auch in welcher Reihenfolge die Dokumente präsentiert wird (siehe Suchmaschine: falls das relevante Dokument erst auf Platz steht, dann nützt dies im Allgemeinen nichts). Die Bewertung der Güte ist aber nicht absolut möglich! Sie beruht auf der Bewertung der Relevanz durch einem Spezialisten des entsprechenden Gebiets in einem kontrollierten Datenbestand. Die jährlich stattfindende Text REtrieval Conference (TREC) hat sich zum Ziel gesetzt, die Effektivität von Retrieval-Algorithmen objektiv zu messen. Die ersten Konferenzen haben sich vor allem auf Textdokumente konzentriert; zunehmend werden aber auch andere Dokumenttypen berücksichtigt. Eine Aufgabe besteht aus einer Standard Dokumentenkollektion (mehr als 3 GB) Standard Anfragen ( Queries) Expertenurteile, welche Dokumente relevant zu einer Anfrage sind Kap Boolesches Retrieval Beim Booleschen Retrieval erhält man eine Antwort ohne Ordnung, d.h. das System kann nicht zwischen sehr relevant und möglicherweise relevant unterscheiden. Für die Evaluation von Algorithmen / Systemen haben sich die Grössen Precision und Recall durchgesetzt. Die Precision drückt aus, wieviele der vom System gelieferten Antworten auch wirklich relevant sind. Der Recall hingegen beschreibt, welcher Prozentsatz der relevanten Dokumente der Kollektion auch wirklich gefunden wurde. Daneben benutzt man häufig auch den Fallout, welcher die Fähigkeit des Systems bewertet, irrelevante Dokumente vom Benutzer fernzuhalten. Notationen: A R Q F Q Alle Dokumente Menge der relevanten Dokumente für Anfrage Q (alle in der Kollektion) Menge der vom System gelieferten Dokumente für Anfrage Q Damit lassen sich Precision ( p ), Recall ( r ) und Fallout ( f ) wie folgt definieren: F Q R Q F Q R Q F Q \ R Q p= r= f= F Q R Q A \ R Q Kap.-94

10 Visualisierung Gesamte Kollektion (a) Erhaltene Dokumente (y) relevant, erhalten (x) Relevante Dokumente (z) x x y -x Precision: p= Recall: r= Fallout: f= y z a - z Kap.-95 Weitere Grössen Neben Precision, Recall und Fallout exitsieren noch weitere Grössen: Gesamtrelevanz: R Q g= A Damit ergit sich auch folgender Zusammenhang: f p (-g) = r g (-p) F-Mass: Verechnet Precision und Recall zu einem einzigen Wert. Der Parameter β bestimmt, wie wichtig Precision resp. Recall sind (β =: nur Precision zählt; β = : nur Recall zählt). (β +) p r F β = β p+r Je grösser das F-Mass, desto besser arbeitet der Algorihtmus/das System. Typischerweise arbeitet man mit β =. Kap.-96

11 Mittelwertbildung Normalerweise bewertet man ein System nicht nur mittels einer Anfrage sondern aufgrund von n Experimenten. Dabei ergeben sich auch n Mengen F i (gefundene Dokumente für Anfrage Q i )undn Mengen R i (relevante Dokumente für Anfrage Q i ). Jede Frage liefert dabei ein Precision-Recall-Werte-Paar (r i,p i ). Diese sollen verrechnet werden zu einem einzigen Precision-Recall-Paar (r,p)für das System und die gegebene Menge von Anfragen. Makrobewertung: p resp. r sind gegeben als Mittel der p i resp. r i,also: n- n- F i R i n- n- F i R i p= p i = r = r i = n i= n i= F i n i= n i= R i Mikrobewertung: die Mittelwertbildung erfolgt im Zähler und Nenner i=..n- F i R i i=..n- F i R i p = r = i=..n- F i i=..n- R i Kap Retrieval mit Ordnung der Dokumente Alle Verfahren ausser dem Booleschen Retrieval ordnen die Dokumente. Die Rangordnung sollte bei der Qualitätsbetrachtung berücksichtigt werden. Dabei werden häufig die P-R-Werte in Abhängigkeit der Grösse des Resultates gemessen. Beispiel: Zur Anfrage Q gibt es genau 5 relevante Dokumente in der Kollektion, Ein System liefert folgendes Resultat: n DokNr x=rel. x x x x x p i r i P-R-Werte für die ersten fünf Dokumente (allg. für die ersten n Dokumente im Resultat) Kap.-98

12 Die so gewonnen P-R-Werte können in einem Diagramm gezeichnet werden. Auffallend ist, dass die Recall-Werte springen, d.h. nicht stetig sind, aber monoton zunehmen. Die Precision-Werte sind ebenfalls nicht stetig, nehmen ab, falls ein Dokument nicht relevant ist und nehmen zu, falls es relevant ist. Der resultierende Graph kann nicht zur Interpolation verwendet werden. Deshalb werden für die P-R-Graphen häufig treppenförmige Kurven gewählt. Dabei wird - gedanklich - eine horizontale Linie durch jedes P-R-Paar gelegt und man interpoliert mit diesen Linien den Graphen..8 Precision.6.4. Original Interpoliert Recall Kap.-99 Interpretation Nahe bei (r=,p=): Sehr wenige nicht relevante Dokumente in der Antwort (dafür nicht alle relevanten gefunden); dies wäre ideal für Anfragen wie ist das Mittel XY giftig. Nahe bei (r=,p=): Alle relevanten Dokumente gefunden, aber auch sehr viele nicht relevante; dies wäre ideal für Anfragen wie gibt es bereits ein Patent für XY p= ist im allgemeinen schwer zu erreichen; r= ist einfach (ganze Kollektion zurückgegeben [darin sind alle relevanten Dokumente enthalten]) Ein ideales System würde stets p= liefern und letzltlich beim Punkt (,) ankommen. Generell kann man sagen, dass ein System A besser ist als ein System B, falls der P- R-Graph von A näher beim Punkt (,) liegt, als derjenige von System B. System-Effizienz: E = d Definiert ein Mass für die Güte eines Systems basierend auf dem P-R-Graphen. d entspricht dabei dem mittleren Abstand der P-R-Kurve zum Punkt (,). Kap.-

13 Mittelwertbildung Ebenso wie beim Booleschen Retrieval qualifiziert man einen Algorithmus nicht nur aufgrund eines Experimentes sondern aufgrund von n Anfragen. Wiederum stellt sich die Frage, wie man die mittleren Precision- und Recall-Werte berechnet. Verfahren: Man mittelt über die gleiche Anzahl gefundener Dokumente, d.h. man betrachtet z.b. die ersten Resultate, berechnet p i und r i für alle n Anfragen und mittelt die Werte (ergibt ein P-R-Paar p und r ). Ebenso verfährt man für alle anderen Resultatsgrössen und erhält so eine gemittelt P-R-Kurve.. Verfahren: Man mittelt die Precision-Werte über die gleichen Recall-Werte. Hierzu legt man zuerst die Recall-Punkte fest (z.b..,.,...,.), berechnet für jede Anfrage die dazugehörigen Precision-Werte und mittelt diese. Kap Nützlichkeitsmass Das Nützlichkeitsmass (Frei, Schäuble) ist eine Alternative zur Bewertung mit Precision und Recall. Dazu benötigt man vom Benutzer sogenannte Präferenzen: d< p d bedeutet, dass der Benutzer das Dokument d relevanter (nützlicher) findet als das Dokument d Alle Präferenzen zusammen bilden die Menge π p = {(d,d ) d < p d }, welche alle vom Benutzer angegebenen Präferenzen enthält (unvollständige Ordnung der Dokumente). Sei π p - die inverse Menge zu π p,d.h.(d,d ) π p - falls (d,d ) π p - Ebenso definieren die Algorithmen A und B zwei Ordnungen auf den Dokumenten gemäss den RSV-Werten zur Anfrage q, d.h.: π A = {(d,d ) RSV A (q,d) < RSV A (q,d )} π B = {(d,d ) RSV B (q,d) < RSV B (q,d )} Die Antwortmengen der beiden Algorithmen umfasse r Elemente. Dann ist R die Menge der von A und B gelieferten Dokumente. Damit ist z.b. R π p die Menge der vom Benutzer angegebene Präferenzen, welche nur Dokumente aus R betrachtet. Beachte, dass π p π A, die Menge der Benutzerpräferenzen umfasst, deren Dokumente von Algorithmus A gleich geordnet wurden. π - p π A entspricht den Präzerenzen, deren Dokumente von A falsch geordnet wurden. Kap.-

14 Für jede Anfrage (insgesamt k Anfragen) bestimmt man die folgenden Werte: x i = R p A R R p p A x i entspricht dabei dem Anteil übereinstimmender Präferenzen abzüglich des Anteils der invers übereinstimmenden Präferenzen des Benutzers und Algorithmus A. Analog y i für Algorithmus B. Je grösser der Wert, desto besser stimmt die Ordnung des Algorithmuses zu den Präferenzen des Benutzers. Berechnung des Nützlichkeitsmasses u A,B :. Bilde Differenzen y i -x i und entferne die Paare, deren Differenz ist (übrig bleiben k o Werte). Sortiere die Differenzen nach aufsteigenden Beträgen. Falls mehrere Differnenzen den gleichen Betrag haben, weise ihnen den mittleren Rang zu. 3. Berechne w + als Summe der Ränge der Differenzen mit positivem Vorzeichen w µ k 4. Berechne = + ( k + ) u A, B mit µ = µ 4 u A,B drückt aus, wie oft, im Mittel, y i grösser als x i ist. Ein grosser Wert bedeutet, dass Algorithmus B besser ist als Algorithmus A. y i = R p B R R p p B Kap.-3 Ferner ist es möglich, auszusagen, mit welcher Wahrscheinlichkeit ein so grosser Wert für u A,B zufällig entstanden ist. Dazu berechnet man die W keit P(U A,B u A,B ) wobei U A,B einer Zufallsvariable entspricht. Vereinfachend kann man annehmen, dass U A,B normal verteil ist mit dem Mittelwert µ und der Standardabweichung σ : k µ = ( k ) + 4 σ ( k + )( k ) k + = 4 Damit lässt sich P(U A,B u A,B ) wie folgt bestimmen: P w µ σ + ( U u ) = Φ A, B A, B wobei b x Φ ( b) = e dx π Kap.-4

15 .6 Literatur und Links Allgemeine Bücher zum Textretrieval [FB9] W.B. Frakes and R. Baeza-Yates: Information Retrieval, Data Structures and Algorithms, Prentice Hall, "Englewood Cliffs, New Jersey, USA, 99 [BR99] Ricardo Baeza-Yates, Berthier Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley, 999, ISBN X [GF98] David A. Grossmann, Ophir Friedler, Information Retrieval: Algorithms and Heuristics, Kuwler Academic Publishers, 998 [SM83] Gerard Salton, Michael J. McGill, Information Retrieval - Grundlegendes für Informationswissenschaftler, McGraw-Hill Book Company, Hamburg, 983, ISBN X Latent Semantic Indexing [FDDL+88] George W. Furnas,Scott C. Deerwester,Susan T. Dumais,Thomas K. Landauer,Richard A. Harshman,Lynn A. Streeter,Karen E. Lochbaum: Information Retrieval using a Singular Value Decomposition Model of Latent Semantic Structure.SIGIR 988: [DDL+9] S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, and R. A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 4(6):39--47, 99. [F96] Christos Faloutsos, Searching Multimedia Databases by Content, Kuwler Academic Publishers, 996 Telcordia: Kap.-5 Literatur und Links () IR und DBMS [GF98] David A. Grossmann, Ophir Friedler, Information Retrieval: Algorithms and Heuristics, Kuwler Academic Publishers, 998 Forschungsprototyp PowerDB (massiv paralleles XML/Text-Retrieval mit DBMS): H.-J.Schek,P.Pistor:Data Structures for an Integrated Data Base Management and Information Retrieval System. In: Int. Conf. on Very Large Databases (VLDB) 98, p H.-J. Schek, Nested Transactions in a Combined IRS-DBMS Architecture, in Research and Development in Information Retrieval (ed. C. J. van Rijsbergen), Cambridge University Press, 984. Grabs, T., Böhm, K., Schek, H.-J., High-level Parallelisation in a Database Cluster: a Feasibility Study Using Document Services. To appear in: Proceedings of the 7th International Conference on Data Engineering (ICDE), Heidelberg, Germany, April -6. Kap.-6

16 Literatur und Links (3) Anwendungen der Retrievalmodelle Boolesches Retrieval Vektorraumretrieval Retrieval mit LSI Kap.-7