Kapitel : Information- Modelle Zielsetzung Information (IR) warum hier Thema? Wichtiges Teilgebiet von Informationssystemen, Überblick, besseres Verständnis von Informationssystemen ; Begrifflichkeiten aus Datenbank-Kontet breitere Bedeutung. Implementierung von IR-Modellen mit Datenbank-Technologie interessanter, nicht-trivialer Use Case. Information Information Evolution von Datenbanken und Information () Evolution von Datenbanken und Information () Unterscheidung zwischen strukturierten und nicht-strukturierten Daten. Strukturierte Daten: Datenmodell, Schema als Grundlage, DDL (Data Definition Language), Verwaltung (traditionell) in Datenbanken. Nichtstrukturierte ( unstrukturierte ) Daten: Wenig oder keine Bezugnahme auf Struktur der Daten (Zieldokumente). Suche basiert auf Merkmalen ( Terme oder Features ). Verwaltung (traditionell) in Dokumenten--System (synonym Information ). Information Information 4
Evolution von Datenbanken und Information () Situation heute: Unterschiede verschwinden. (Tet zur Beschreibung strukturierter Entitäten; Strukturierung von Tet, semistrukturierte Datenmodelle.) Ziele: Modelle, die fleible, komplizierte Strukturierung zulassen, fleible Ähnlichkeitssuche und präzise Suche, aber auch Verarbeitung solcher Daten. Information Gliederung Motivation Nicht modell Nicht Latent Semantic Indeing Relevanz-Feedback Evaluation von verfahren Implementierung von IR mit Datenbanken Information 5 Information Dokumentarten Motivation Information Tet-Dokumente enthalten Tet beliebiger Länge, evtl. aufgegliedert in Absätze. Hypertet-Dokumente zusätzlich Verweise (Links) von Positionen im Tet zu anderen Positionen. Beispiel: Definition eines Begriffs. Multimedia-Dokumente: Neben Tet auch Graphiken bzw. Bitmaps, Filmsequenzen und Audio (z. B. Voice Annotation, Begleitmusik). Datenbanksysteme: Verwalten große Bestände strukturierter Daten. IR-Systeme: Verwalten große Sammlungen von Objekten, beschrieben durch verschiedene und in Anzahl variierende Merkmale. Ist bei allen Dokumentarten der Fall. IR-Systeme: Unterstützen Suche nach relevanten Objekten zu spezifiziertem Thema. Thema ist ebenfalls durch (mehr oder weniger) Merkmale umschrieben. Zukunft: Datenbanksysteme werden auch IR-Funktionalität anbieten, zusätzlich zu SQL-artigen Anfragemechanismen. Information 7 Information 8
Multimedia- Veranschaulichung Input: Query-Bild, Ergebnis: Menge ähnlicher Bilder. Wie zu finden? Corbis, NASA: EOS Bilddatenbank Information 9 Beispiel Tetobjekte = Dokumente. Anfrage: I am interested in hash functions using dynamic hash tables. Dokument: W. Litwin: Linear Hashing: A New Tool for File and Table Addressing. Linear hashing is a hashing in which the address space may grow and shrink dynamically. A file or table may then support any number of insertions and deletions without access or memory load performance deterioration. Merkmale in der Anfrage: HASH, FUNCTION, DYNAMIC, HASH TABLE Merkmale im Dokument: LITWIN, LINEAR HASHING, HASHING, TABLE,... Information Beispiel IR-Anfrage auf Datenbank über Bauteile und ihre Verwendung. (Heutige Systeme leisten dies noch nicht.) Anfrage: Gesucht sind Bolzen oder Splinte aus Stahl mit einem Durchmesser von ca. 5 mm, einer Länge von cm und einer Festigkeit, die der DIN-Norm 47 annähernd entspricht. Die Bolzen sollten polierte Oberfläche haben und in Elektromotoren eingesetzt worden sein. Warum IR-Anfrage? Ähnlichkeitssuche, läßt Raum für Interpretation, Merkmalsbasiertheit ( polierte Oberfläche, in Elektromotoren eingesetzt ). Document Author TEXT DOCS D: The dogs walked home. TAGGED DOCS <DOC> <DOCNO> D </DOCNO> <TEXT> The dogs walked home. </TEXT> </DOC> <DOC> <DOCNO>D </DOCNO> <TEXT> Home on the range. </TEXT> </DOC>... Information Übersicht (nach FG99) D: Home on the range. Merkmale INVERTED INDEX dogs --> D, D5, D78 walked --> D,... home --> D, D,... range --> D,...... V SIMILARITY MEASURE RSV(Q,D) =.75 RSV(Q,D) =.4 LIST OF RANKED DOCUMENTS D D TRANSFORMED QUERY dogs home RESULTS QUERY Dogs at home Searchers Information Information
Datenbank-Anfragen vs Information Unterschiede Datenbank-Anfragen Information gewünschte Objekte gewünschte Objekte vage eakt spezifiziert oft reicht einzige Anfrage Oft mehrere Anfragen bzw. Relevance Feedback Resultat ist Menge Resultat ist Liste von Objekten von Objekten Aufgabe eines IR-Systems Erklärung anhand von Tetdokumenten. Gegeben: n Tetdokumente D,..., D n, Anfrage Q eines Benutzers (ebenfalls Tet, in der Regel kurz), gesucht: Geordnete Liste von k Dokumenten D j ( < j k n), die Anfrage Q möglichst gut erfüllen. Information Information 4 Teilschritte Tetretrievalsystem betrachtet Dokument als Menge von Termen (Deskriptoren, Merkmale). Terme sind z. B. Wörter, Phrasen, N-Gramme. (Beispiel für Tri-Gramme: Strasse str, tra, ras, ass, sse) System bildet Dokument auf Menge von Termen ab. Eventuell zusätzliche Attribute wie Häufigkeit und Positionen im Tet.. Elimination der Struktur. Elimination von häufigen Termen (Stopwörter). Tet wird in Terme aufgebrochen (ohne Satzzeichen) 4. Reduktion der Terme auf Stammform (Stammform, Silbenzerlegung) 5. Abbildung auf Indeterme Information 5 Information
(Land: schweiz) pos (Firma: contraves) pos, zwei pos, leukämie pos,, 5 fall pos, (zürich, oerlikon) pos 5 (kollege,kumpel,mitarbeiter) pos (versuch, test) pos 7 uran pos 9 munition pos (mitmachen, beteiligen) pos... Beispiel: schweiz contraves zweiter leukämiefall bei oerlikon contraves gibt es einen zweiten leukämiefall ein mitarbeiter der an den tests mit uran munition beteiligt war ist an leukämie gestorben weiter ungesunde fischkonserven das kantonslabor basel landschaft hat thon und sardellenkonserven in baselbieter pizzerias und bei grossverteilern beanstandet in einzelnen fällen kam es 5 schweiz pos contraves pos, zweiter pos, leukämie pos,, 5 fall pos, oerlikon pos 5 mitarbeiter pos test pos 7 uran pos 9 munition pos beteiligen pos... Silbenzerlegung Stammform stemming 4 schweiz contraves zweiter leukämiefall bei oerlikon contraves gibt es einen zweiten leukämiefall ein mitarbeiter der an den tests mit uran munition beteiligt war ist an leukämie gestorben weiter ungesunde fischkonserven das kantonslabor basel landschaft hat thon und sardellenkonserven in baselbieter pizzerias und bei grossverteilern beanstandet in einzelnen fällen kam es schweiz pos contraves pos, zweiter pos, leukämiefall pos, oerlikon pos 5 mitarbeiter pos tests pos 7 uran pos 9 munition pos beteiligt pos leukämie pos 5... Information 7 Schritt : Strukturelimination HTML als Beispiel. HTML-Dokumente enthalten Markup (Metainformation, andererseits aber Präsentation): Metainformation zum Beispieldokument <meta name="keywords" content="ethz, ETH, swiss,..."> URL der Seite, z. B. http://www-dbs.ethz.ch/projects/ Präsentationsanweisungen: <H>, <BR>, <B> Information 8 Ausnutzen der Struktur von HTML-Dokumenten () Ausnutzen der Struktur von HTML-Dokumenten () Die meisten Suchmaschinen unterscheiden verschiedene Bereiche Titel <title> XYZ </title> Restlicher Header (Meta-Keywords) <head>...</head> Haupttet (<body>...</body>) Tet zwischen tags <I>Hallo</I> Hallo Spezielle Attribute in den Tags <img... alt= Bild von mir > Bild von mir) Die meisten Suchmaschinen unterscheiden verschiedene Bereiche (Forts.) URL/Links Google: Weist den Link-Tet ebenfalls dem gelinkten Dokument zu <A HREF= http://wwwdbs.ethz.ch/ >Database Research Group</A> Database Research Group beschreibt das Dokument mit der URL http://www-dbs.ethz.ch/ Ignorieren von Script-Definitionen und Anweisungen. Information 9 Information
Ausnutzen der Struktur von HTML-Dokumenten () Information Schritt : Elimination von Stopwörtern Stopwörter: Wörter mit geringer Aussagekraft. Keine Verwendung für Indeierung. In fast allen Dokumenten enthalten. Beipiele: Deutsch: in, der, wo, ich Englisch: the, a, is - häufigste Wörter einer Kollektion ebenfalls geringe Aussagekraft. Ca. -% der Vorkommen von Wörtern sind Stopwörter. Eliminierung selten benutzter Wörter Wahrscheinlichkeit, daß sie in Anfragen vorkommen, ist klein. Information Schritt : Tet auf Termmenge abbilden () Schritt : Tet auf Termmenge abbilden () Ziel des Schritts: Ermittlung von Termen zur Beschreibung des Dokuments. Linguistische und/oder statistische Verfahren. Suchmaschinen: Terme sind Wörter und Phrasen (manchmal Stammformreduktion, Fehlerkorrektur, Unterscheidung Groß-/Kleinschreibung). Demo Alternative Inhaltsbeschreibung: Wortfragmente, sogenannte N-Gramme: Bsp. Strasse str, tra, ras, ass, sse (N=): Strassen str, tra, ras, ass, sse, sen Strase str, tra, ras, ase Vorteile: Tippfehler etc. verschlechtern nicht, Stammformreduktion und Silbenzerlegung nicht notwendig. EuroSpider benutzt Tri-Gramme, um OCR Tete zu indeieren. Zentral- und Hochschulbibliothek Luzern http://zhbluzern.eurospider.com/digital_library/ Information Information 4
Positionen und Häufigkeiten von Termen () Positionen und Häufigkeiten von Termen () Anzahl und Positionen der Vorkommen eines Terms nützlich für. Ordnung der gefundenen Dokumente basiert oft auf Termhäufigkeit. Termhäufigkeit ("feature frequency"): tf(t i, D j ) Anzahl Vorkommen des Merkmals T i im Dokument D j Positionen ( feature locations ): loc(t i, D j ) P(N) [Menge von Positionen] Kardinalität von loc(t i, D j ) ist tf(t i, D j ) Positionen der Vorkommen von Termen ebenfalls zur Ordnung/Suche der Dokumente einsetzbar ( phrase matching ). Suche: Q= weisses NEAR Haus Suche Dokumente, in denen Terme weiss und Haus nahe beieinander liegen. Ordnung: Q= Dokumente, bei denen Term Klemens unmittelbar vor Term Böhm auftaucht, sollten in Liste weiter vorn auftauchen. Information 5 Information Schritt 4: Reduktion der Terme auf Stammform () Schritt 4: Reduktion der Terme auf Stammform () Stemming Stammformreduktion. Deutsch: Wörter können in verschiedenen Formen auftreten (Einzahl/Mehrzahl, Konjugation, Deklination). Ziel: Überführung der verschiedenen Formen in einen Term (stemming). Englisch: Porter-Algorithmus. Überführt englische Wörter in Stammform (mit Hilfe von Prefi- und Suffi-Listen). Beispiele: going go, recompile compil, hopping hop Starke Konjugation und Deklination. Ermittlung der Stammform schwierig. Thesaurus enthält für jede Stammform die möglichen Ableitungen; Beispiele: gehen: gehe, gehst, geht, gehen, ging, gingst, gingen, gegangen Haus: Haus, Hauses, Häuser Komposita ausgeprägt. Sollten in Bestandteile aufgespalten werden. Gartenhaus Garten, Haus Information 7 Information 8
Schritt 5: Abbildung auf Indeterme () Problem: Homonyme gleiches Wort, unterschiedliche Bedeutung, Synonyme unterschiedliche Wörter, gleiche Bedeutung. Beispiele: Homonyme: kosten (schmecken vs. wert sein) Synonyme: gehen, laufen Thesauri und Kontetanalysen für korrekte Zuordnung von Synonymen und z. T. auch Homonymen. Betrachtung von Zusammensetzungen oder Phrasen als Termen möglich (z. B. der Lauf der Dinge, computer science ). Information 9 Schritt 5: Abbildung auf Indeterme () Aufbau und Pflege von Thesauri sind kostspielig. Eigener Thesaurus für jede eingesetzte Sprache. Durchaus verfügbar. Alternativer Ansatz: Automatischer Aufbau des Thesaurus. Hierfür statistische Überlegungen (Koeistenz von Wörtern in Dokumenten) oder algebraische Methoden (Singulärwertzerlegung). z Information () () Verwendung des Begriffs uneinheitlich: -Modell, Anfragesprache. Heute vielfach in kommerziellen Systemen angeboten (z. B. Google). Idealbild des IR sieht jedoch anders aus. Benutzer ist verantwortlich für Güte des Ergebnisses. Anfrage zusammengesetzt aus Termen und logischen Operatoren. epression:= term (epression) NOT epression epression AND epression epression OR epression häufig Kontetoperatoren wie SAME, WITHIN, ADJ. Beziehen sich auf Wortabstände oder Satzstruktur (SAME). Beispiel: (cost OR price) AND paper AND NOT article Information Information
Erweitertes (Gewichtetes) () Erweitertes (Gewichtetes) () Ranking anhand von Termhäufigkeiten (in manchen Suchmaschinen angeboten) AND y: tf(, D) * tf(y, D) OR y: tf(, D) + tf(y, D) NOT : if tf(, D) > ; if tf(, D) = Je höher der Wert, desto weiter oben in der Rangliste. Term Frequency: Wie oft kommt Term im Dokument vor? Illustration: tf(, D)=5, tf(, D)=4, tf(, D)=, tf(4, D)= AND rank= AND rank=5 AND 4 rank= OR rank=9 OR rank= OR 4 rank=5 Information Information 4 Zusammenfassung Nicht-, modell () Pro Man kann genau spezifizieren, nach was man sucht. Sehr effiziente Implementierung möglich. Contra Komplee Anfragesprache, verwirrend für den Endbenutzer. Ordnung der Resultatmenge nicht offensichtlich/einfach (Google). -Statuswert (retrieval status value; score) RSV(Q, D j ) quantifiziert Güte eines Dokumentes D j bezüglich Anfrage Q. Darstellung von Dokumenten und Anfragen als Vektoren im m-dimensionalen Raum R m. Illustration. m = Anzahl benutzter Terme, n = Anzahl Dokumente. Metrik zur Berechnung der Abstände zwischen Dokumenten und Anfragen. Information 5 Information
Ähnlichkeitssuche Suche nach dem nächsten Nachbarn Bild-Ebene Feature-Ebene G B R Nicht-, modell () Folgende Werte als Grundlage der Gewichtung neben der Termhäufigkeit tf(t i, D j ): Dokumentenhäufigkeit (document frequency): df(t i ) Anzahl Dokumente, die Merkmal T i enthalten. Inverse Dokumentenhäufigkeit (inverse document frequency): N + idf ( Ti ): = log df T + idf 4 ( ) i N = Distanz im Merkmalsraum: Maß der Unähnlichkeit. df 4 8 df Information 7 Information 8 Darstellung von Dokument und Anfrage im () m Anzahl Merkmale Darstellung von Dokument und Anfrage im () n mit Komponenten a ij bzw. b i : a j d j : = L amj b q : = L b m a ij := tf(t i, D j ) * idf(t i ) b i := tf(t i, Q ) * idf(t i ) Dokument D j : Deskribierungsvektor Anfrage Q: Anfragevektor Term-Dokument-Matri A vom Typ (m,n), m ist Anzahl Terme, n ist Anzahl Dokumente a ij m a ij bzw. b i ist groß, falls das Merkmal T i im Dokument D j (oder der Anfrage Q) häufig auftritt, die Anzahl Dokumente, in denen T i vorkommt, gering ist. Information 9 Information 4
-Funktion: Ordnet dem Anfrage-Dokumentenpaar Relevanzzahl zu, -Statuswert RSV(q, d). Z. B. normiertes inneres Produkt zwischen Dokumenten- und Queryvektor (Kosinus): RSV Bei Anfrage q -Statuswert () ( q, d ) := T q d q d mit q T d Skalarprodukt q Länge von q d Länge von d werden die Dokumente d j nach -Statuswert absteigend geordnet, die ersten k Dokumente zurückgegeben. Wann nimmt man Skalarprodukt, wann Euklidschen Abstand? Skalarprodukt: Richtung der Vektoren ist maßgeblich. Positionen entlang einer Achse von 'Merkmal nicht vorhanden' bis zu 'Merkmal stark ausgeprägt' Absoluter Abstand irreführend. Illustration. Euklidscher Abstand: 'tatsächlicher Wertebereich', z. B. 'hell dunkel', 'groß klein', absolute Position maßgeblich, Winkel würde keinen Sinn machen. Illustration. Information 4 Information 4 -Statuswert () Gegeben A, die Term-Dokumentenmatri (Dokumentenvektoren sind Spalten), Diagonalmatri L, deren Elemente die Kehrwerte der Dokumentenlängen sind. Vektor rsv aller RSV-Werte zwischen normierter Query q'=q / q und allen Dokumenten ist rsv = L A T q' Zusammenstellung RSV-Wert-Berechnungen Inneres Vektor-Produkt RSV(q, d ) = q T d Cosinus-Maß RSV(q, d ) = q T d / d / q Dice-Koeffizient RSV(q, d ) = (q T d) / d T d/ q T q Jaccard-Koeffizient RSV(q, d ) = (q T d) / (d T d+ q T q-q T d) Illustration n RSV T q d, := a q d ij ( q d ) Dokument i m Information 4 Information 44
-Beispiel (aus GF98) Q: gold silver truck D : D : D : Shipment of gold damaged in a fire Delivery of silver arrived in a silver truck Shipment of gold arrived in a truck Dokumentenhäufigkeit des i-ten Terms df(t i ) und inverse Dokumenthäufigkeit idf(t i )= log(n / df(t i )); n= TermNr Term T i df(t i ) idf(t i ) a arrived.7 damaged.477 4 delivery.477 5 fire.477 gold.7 7 in 8 of 9 silver.477 shipment.7 truck.7 Information 45 Dokumenten-Term-Matri A T im Beispiel doc T T T T 4 T 5 T T 7 T 8 T 9 T T D.477.477.7.7 D.7.477.954.7 D.7.7.7.7 Q.7.477.7 Inneres Vektorprodukt als RSV-Funktion:. rsv = A T q =.48. Damit ergibt sich die Ordnung D, D, D (leere Zellen enthalten ) A T Information 4 - Transformation des es, Latent Semantic Indeing () Grundlage: Dokumente als Punkte in m-dimensionalem Raum. Aber: Große Korrelationen zwischen Termen, wenn aus Wörtern, Phrasen oder Wortfragmenten (N-Grammen) entstanden. m-dimensionaler Raum kann zu hochdimensional sein. Koordinatentransformation bildet Dokumente in Teilraum niedrigerer Dimension ab. Approimation dort genügend genau. Information 47 - Transformation des es, Latent Semantic Indeing () Idee: Transformation der Dokumentenvektoren in niedrig-dimensionalen Raum, möglichst genaue Erhaltung der Dokumenteninformation. Es entstehen Linearkombinationen der Terme, die Konzepte darstellen. Latent Semantic Indeing Information 48
- Zur Erinnerung aus der linearen () Für Eigenwert λ und Eigenvektor einer quadratischen (n,n)-matri A gilt: () A = λ Eigenwerte ergeben sich aus Gleichung det(a-λi)=. Polynom n-ten Grades n Wurzeln (können real oder komple und mehrfach sein). Zugehörige Eigenvektoren sind orthogonal. Information 49 - Die Matri Illustration hat die Eigenwerte λ = und λ =, denn = = = = Information 5 - Zur Erinnerung aus der linearen () Symmetrische Matri A hat reale Eigenwerte. Sei r der Rang von A. Dann A wie folgt darstellbar: () A = UΛU T Λ (r,r) Diagonalmatri mit Eigenwerten auf der Diagonalen, U (n,r)-spaltenorthonormale Matri, d. h. U T U = I. Information 5.5 A =.5.77.77 U = -.44.77.77.77.77 -.5.5.77.77.77.77 Illustration Λ = U T = -.44.44.77 =.77.77.77.44.77.77.77.5.5 =.77.77.77.5.5.77.77.77.77 Spalten sind offensichtlich rechtwinklig und haben Länge..77 =.77.77.77 Vektor mit sich selbst multipliziert ergibt, wenn seine Länge =, Vektor mit anderem Vektor multipliziert ergibt (wegen Orthogonalität). Information 5
- Zur Erinnerung aus der linearen () Singulärwertzerlegung verallgemeinert Eigenwertzerlegung auf allgemeine Rechtecksmatrizen. Sei A (m,n)-matri vom Rang r. Dann gibt es (r,r)-diagonalmatri S, spaltenorthonormale (m,r)-matri U und spaltenorthonormale (n,r)-matri V mit () A = U S V T Information 5 A =.77.77.7 S =.77.77.48.77.5774.48.77.5774.85.5774.77.77.7.77.77.77.77.48.77.5774 Illustration =.48.48.77.77.77.77.5774 =.5774.5774 Information 54 U = T V = -.48.48 - Zur Erinnerung aus der linearen (4) () A = U S V T Offensichtlich gilt: (4) A T A= (USV T ) T (USV T )=VSU T USV T =VS V T und (5) AA T =(USV T )(USV T ) T =USV T VSU T =US U T Symmetrische Matri A hat reale Eigenwerte. Sei r der Rang von A. Dann A wie folgt darstellbar: A = UΛU T Spalten von U sind also Eigenvektoren von AA T. Spalten von V sind Eigenvektoren von A T A. Information 55 Terme Dokumente A m d Singulärwertzerlegung der Term-Dokument-Matri = A = U S V T U m r U ist spaltenorthonormal V r r S diagonal, r<=min(m, n) U S ist Spalten von U, gewichtet mit Eigenwert. S V T r n V T zeilenorthonormal Information 5
Terme Dokumente Dimensionsreduktion Weglassen der kleinsten Diagonalelemente und Sortieren der Reihenfolge der Koordinatenachsen absteigend: Reduktion der Diagonalmatri S auf kleinere (k, k)-diagonalmatri S k A k = U U k S k V k T Konstruiertes Beispiel aus Fa98 Term-Dokument-Matri A, m=5 (Terme), n=7 (Dokumente) document term data information retrieval brain lung CS-TRCS-TRCS-TRCS-TR4MED-TRMED-TRMED-TR 5 5 5 m n m k spaltenorthonormal k < r k k diagonal k n zeilenorthonormal j-te Zeile von A gibt an, in welchen Dokumenten Term j wie oft vorkommt. i-te Spalte Beschreibung von Dokument i Information 57 Information 58 - A T A = Dokumentenähnlichkeit () 5 5 5 5 75 Dokumentencluster 8 4 8 4 = d T d = d T d Element (i,j) gegeben als d it d j, d. h. gegeben durch RSV-Wert für inneres Vektor-Produkt. Daher Dokumentenähnlichkeitsmatri. i-te Spalte Beschreibung von Dokument i Information 59 - A T A = Dokumentenähnlichkeit () 5 5 5 5 75 Dokumentencluster 8 4 8 Interpretation des Elements (i,j): 4 = d T d = d T d Falls d it d j groß, dann sind D i und D j ähnlich. Im Etremfall: Identisch. Falls d it d j klein, dann enthalten D i und D j unterschiedliche Inhalte. Im Etremfall (=): Kein Zusammenhang. Information
- AA T = Termähnlichkeit () 4 4 4 4 Sei t i = (tf(t i,d ),..., tf(t i,d n )) Termcluster(= Konzept), eventuell Synonyme Element (i,j) ist t it t j, d. h. Ähnlichkeitswert der Termvektoren. Information - Termähnlichkeit () Interpretation des Elements (i,j): Falls t it t j groß: T i und T j ähnlich. Tauchen häufig miteinander in Dokumenten auf. D. h. T i und T j treten im gleichen Kontet auf (gleiches Konzept; T i und T j eventuell Synonyme) Falls t it t j klein: T i und T j werden nicht zusammen verwendet. Beschreiben unterschiedliche Konzepte. Information! Singulärwertzerlegung von A Rang von A ist (zur Erinnerung:.58.58 9.4 A =.58 5.9.7.7 r= (sei k=r=) m=5 (Terme), n=7 (Dokumente) A R m n, U R m r, V R r n ).8..8.9.5 U=U k S=S k V T =V k T.8.7 Interpretation ( Etremfall ) Es gibt zwei Konzepte, das Computer Science Konzept {data, information, retrieval} und das medizinische Konzept {lung, brain} Information - Interpretation von U k und V k () A T A ist Dokumentenähnlichkeitsmatri. A T A = VS V T Spalten von V sind Eigenvektoren von A T A. Zeilen von V kt (bzw. eigentlich V T ) beschreiben unkorrelierte Hauptrichtungen im Raum. Illustration: V kt =.8..8.9.5.8.7 Achsen des Raums sind die Dokumente. Erste Hauptrichtung ist Richtung der CS-Dokumente, zweite die der Medizin-Dokumente. Information 4
- Interpretation von U k und V k () Spalten von V k T enthalten reduzierte Darstellung der Dokumente, beschreiben Dokument-Konzept Relation. Illustration: Die ersten vier Dokumente sind korreliert. D. h. falls D relevant, dann auch D,..., D, nicht aber D 4,..., D V k T=.8..8.9.5.8.7 Information 5 - Interpretation von U k und V k () Zeilen von U k enthalten reduzierte Darstellung der Terme. Beschreiben Term-Konzept-Relation im Beispiel. U k =.58.58.58.7.7 Wegen A T A=US U T entsprechen Spalten von U k Eigenvektoren der Termähnlichkeitsmatri (A T A). Sie beschreiben unkorrelierte Hauptrichtungen in diesem Raum. Beispiel: Die drei ersten Terme sind positiv korreliert. Negative Korrelation zwischen den ersten drei Termen und den letzten zwei. Information Anfrageauswertung mit () Betrachtung von Anfrage Q als Dokument der Kollektion. Transformation in reduzierte Form, q = q T U k S k - Illustration: Anfrage: data information, d. h.. Erster Schritt:.58.58.7.7 ( ).58 = (. ) Ergebnis: Wie ähnlich ist Query zum ersten und zum zweiten Konzept? Information 7 - - Anfrageauswertung mit () Vergleich von q mit reduzierter Darstellung der Kollektion (=V k ) mittels traditioneller RSV-Funktionen, z. B. RSV( q, d j ) = q T d i, RSV( q, d j ) = q T d i / d i / q Ordnung der Dokumente mit absteigendem RSV-Wert (wie beim retrieval). Information 8
- Einfügen neuer Dokumente () Hinzufügen eines neuen Dokuments D ohne Neuberechnung der SVD möglich. Hierzu Dokumentenvektor d als neue Spalte an A k anhängen. Bestimmung der reduzierten Form d wie bei der Anfrageauswertung. d = d T U k S k - D. h. wie ähnlich ist Dokument (im Beispiel) zum ersten und zum zweiten Konzept? Information 9 - Terme Einfügen neuer Dokumente () Dokumente A k = U U k Dokumentenvektor d anhängen S k V k T reduzierte Form d berechnen und bei V k anhängen Spalten von V sind Eigenvektoren der Dokumentenähnlichkeitsmatri. (D. h. Hauptrichtungen im Raum, dessen Achsen die Dokumente sind.) Information 7 - Einfügen neuer Terme () Hinzufügen eines neuen Terms T ebenfalls ohne Neuberechnung der SVD. Termvektor t als neue Zeile an A k anhängen. Bestimmung der reduzierten Form t wie folgt: t = t T V k S k - Information 7 Terme Dokumente Einfügen neuer Terme () A k = U k - Termvektor t anhängen S k reduzierte Form t berechnen und bei U k anhängen V k T Information 7
Dokumente: c c c c4 c5 m m m m4 Ein größeres Beispiel Human machine interface for Lab ABC computer applications A survey of user opinion of computer system response time The EPS user interface management system System and human system engineering testing of EPS Relation of user-perceived response time to error measurement The generation of random, binary, unordered trees The intersection graph of paths in trees Graph minors IV: Widths of trees and well-quasi-ordering Graph minors: A survey Beispielanfrage: "human computer interaction" Boolsche Suche mit AND liefert kein Dokument zurück. Boolsche Suche mit OR oder retrieval würden nur Dokumente c, c, c4 liefern. Information 7 human interface Beispiel: Termmatri c c computer user system A= response (m=, time - n=9) EPS survey trees graph minors Terme, die in nur einem Dokument vorkommen, und Stopwörter nicht berücksichtigt. Information 74 c c4 c5 m m m m4 U= S= - V T = Beispiel: Zerlegung.4 -..89 -.448 -. -.4.57 -.5 -.47.97 -.7.5 -.55.88.4959 -.74 -.99 -.89.45.4 -.44 -.595 -.8 -.55 -...494.4.57 -.78.99.7.848.9 -.4..445 -.7..5 -.59 -.5 -.58.4.77.5.7 -.4.78.8 -.97.89 -. -.59.5.7 -.4.78.8 -.97.89 -. -.59.8 -.4..88.48.7. -.9 -.5.59.7 -.77 -.4 -.57.89 -.49 -. -.5794.7.49..48.594 -.9 -.88.54 -.54..8..7 -.8.49.59 -.8..8.455.4 -.87 -.5.77.95.784.85.49.547.59.445.548.4.8459.5.7.974..49.54.795.8.4.4.8 -.559.5 -.7 -.8.8.98.479.5.599. -.497.7.599 -.554.98.9.59.79 -.9498 -.8.4.77.5.5.55. -.4.457 -..78 -.5.7.948.495.498 -. -.7 -.55.744 -.89.48 -. -....77 -.4 -.9.48.7 -.48 -.5.49.8 -.44.49.88 -.95 -.58.4545 -.75.449 -.9 -.7.48.4 -.84 -.4 -.98.8.599 -.455 Information 75 Beispiel: Dimensionsreduktion Wir setzen k=; damit ist: U k S k V T k.4 -..97 -.7.45.4.4.57.445 -.7.5.7.5.7.8 -.4.59.7.7.49..8.8.455 A k =.49.547.974..49.54.795.8.4.4.8 -.559.5 -.7 -.8.8.98.479.5.599 neue Darstellung für Dokument c A k damit gegeben durch A k =U k S k V kt und q = q T U k S k -..45.79.47.7 -.57 -.5 -.59 -.98.4.98.9.44.5 -.8 -.7 -.98 -.4.54.55.579.4..4.598.89.4.58.84.57.974.9..8.8.874.4488.44.59.58.55 -.78 -.547 -.9 -.489.59.587.75.49.75.559..889.9.59.587.75.49.75.559..889.9.85.549.5.8.45 -.54 -.45 -.9 -.79.99.5.99.8.5.8.4.4444.45 -.. -.89 -.5.449.44.54.774.7 -.47.5 -.45 -.4.8.57.949.97.8487 -.4.59 -.97 -.79.59..59.79.55 q q - U k S k.8 -.7 Information 7
- Beispiel: Visualisierung der Anfrageauswertung ().7..5.4. m m m4. m c. c5 α α Q -. c c -. c4 -.....4.5..7 acos(rsv) < α Information 77 - Beispiel: Visualisierung der Anfrageauswertung () RSV-Funktion sei Cosinus-Maß: Alle Dokumente im grauen Bereich sind relevant. Dokumente c,...,c5 werden gefunden, obwohl z. B. c keinen Term der Anfrage enthält. latent semantic Information 78 Prüfungsfragen, beispielhaft <Unterschiede und Gemeinsamkeiten von IR-Systemen und DBMSen benennen und erklären können.> Was ist ein IR-Modell? Den Begriff ' ' verwendet man sowohl für ein -Modell als auch für eine Klasse von Anfragesprachen. Erläutern Sie den Zusammenhang. Wann verwendet man zur RSV-Berechnung das Skalarprodukt, wann Euklidschen Abstand? Wie unterscheidet sich Anfrageevaluierung im -Modell von der mit? Information 79