Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg
Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien
Retrievalmodell - allgemein Ein Retrievalmodell besteht aus einer Menge D von Repräsentationen für Dokumente einer Menge Q von Repräsentationen für Benutzeranfragen einer Rankingfunktion R, die jedem Anfrage/Dokumentpaar eine reelle Zahl (das Ranking) zuweist, nach der Dokumente sortiert werden. Hinkelmann: FH Solothurn
IR-Modelle Nicht-probabilitisches Information Retrieval Boolesches Retrieval Vektorraummodell Fuzzy-Retrieval Probabilistisches Information Retrieval Wahrscheinlichkeitswerte für Benutzerinteresse Intelligentes Information Retrieval Concept Search Ähnliche Dokumente
Boolsches Modell Suche auf richtigen Dokumenten und/oder Beschreibungen Verknüpfung von Anfragebestandteilen mit AND, OR und NOT Ausgabe aller Dokumente, für die eine formulierte Bedingung zutrifft. Stärken des Booleschen Retrieval Jede beliebige Teilmenge von verschiedenen Dokumenten kann aus einem Dokumentenbestand selektiert werden einfache Implementierung Probleme des Booleschen Retrievals Größe der Antwortmenge ist schwer zu kontrollieren keine tiefergehende Ordnung auf der Antwortmenge keine Gewichtung möglich Trennung ist oftmals zu streng Frageformulierung bzw. Suchprozess schwerfällig
Boolsches Modell: Schema
Klassisches Modell - Idee Jedes Dokument wird durch spezifische Schlüsselworte in Form von Indizes dargestellt. Ein Index ist ein Kernbegriff des Dokumentes Suchmaschinen nehmen an, dass die formulierten Suchbegriffe Indizes eines Dokumentes sind. Die Bedeutung eines Indizes wird durch Gewichte ausgedrückt.
Klassisches Modell - Veranschaulichung Begriff A (1,0,0) (1,1,0) (1,1,1) Begriff B Begriff C Das Boolsche Modell drückt das Vorhandensein eines Begriffs durch eine 1, das Nichtvorhandensein durch eine 0 aus.
Vektorraummodell - Idee Binäre Gewichte sind in ihrer Aussage begrenzt, so dass nicht-binäre Gewichte die Aussagekraft erhöhen Nicht-binäre Gewichte drücken eine Ähnlichkeit zwischen Suchanfrage und jedem Dokument aus Die Ergebnismenge erlaubt ein genaueres Ranking
Vektorraummodell - Architektur Dokumente und Anfragen als Punkte in einem Vektorraum Position eines Dokument/Anfragevektors bestimmt durch Gewicht einzelner Deskriptoren Retrieval als Suche nach ähnlichen Vektoren zum Fragevektor Ähnlichkeit als Funktion über Anzahl der übereinstimmenden Suchbegriffe und Deskriptoren Ähnlichkeitsmaß notwendig (Frage nach guten Metriken!)
Vektorraummodell - Veranschaulichung
Vektorraummodell - Beispiel kredit Beispiel: Terme: kredit, person, land zwei Dokumente (1,4,3) (3,3,2) person land
Interpretation von Ähnlichkeit d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Wasser 1 1 2 1 5 5 Ätna d 3 d 5,6 Richtung d 1,2,4 Wasser bestimmt durch objektinternes Verhältnis der Terme möglicherweise Hinweis auf Thema Länge (im Verhältnis zu anderen Vektoren) bestimmt durch objektübergreifendes Verhältnis der Termgewichte möglicherweise Hinweis auf Intensität eines Themas Jones/Furnas, 1987
Vektoren in Dokument/Term-Matrizen d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Vesuv 1 1 2 0 2 0 Stromboli 1 1 2 1 3 3 Feuer 1 1 2 0 4 0 Wasser 1 1 2 1 5 5 Lava 1 1 2 0 6 0 Dokumenten-Vektoren T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 Term-Vektoren T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 Quelle: K. Haenelt
Ähnlichkeiten: Anwendungen im Information Retrieval T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 T1 T2 T3 T4 T5 d1 d2 d3 d4 d5 d6 d7 d8 d1 d2 d3 d4 d5 d6 d7 d8 d1 d2 d3 d4 d5 d6 d7 d8 q Dokument/Query-Ähnlichkeit Suchfunktionen Dokument/Dokument-Ähnlichkeit Basis für Dokumentclustering zur Erweiterung der Antwort- Menge Term/Term-Ähnlichkeit Basis für Term-Clustering zur Erweiterung der Suchanfrage Quelle: K. Haenelt
Verhältnisse von Term-Gewichten d 1 d 2 d 3 d 4 d 5 d 6 Ätna 1 1 2 1 1 1 Vesuv 1 1 2 0 2 0 Stromboli 1 1 2 1 3 3 Feuer 1 1 2 0 4 0 Wasser 1 1 2 1 5 5 Lava 1 1 2 0 6 0 objektintern Verhältnis von Term i zu den anderen Termen eines Dokuments Wichtigkeit eines Terms für ein Objekt Hinweise auf semantischen Inhalt oder Themengebiet objektübergreifend Relevanz von Dokument j für Term i Jones/Furnas, 1987
Ähnlichkeitsmaße für Vektoren Korrelationsartige Maße größter Wert entspricht dem ähnlichsten Paar Cosinus des Winkels zwischen Vektoren allgemeine Vektoren (Skalarprodukt relativ zur Länge der Vektoren) normierte Vektoren (einfaches Skalarprodukt) Dice-Koeffizient Jaccard-Koeffizient Overlap-Koeffizient Distanz-Maße kleinster Wert entspricht dem ähnlichsten Paar Euklidische Distanz (Anderberg,1973,134)
Vektorraummodell Beispiel 1 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 1 0 0 0 auto 0 0 1 0 bärlund 0 1 0 1 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanzierung 0 0 1 0 firma 0 0 0 1 halva 0 1 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 1 1 1 1 person 1 1 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0 d1 d4 sind die Dokumente
Vektorraummodell Beispiel 2 Person Kredit Bärlund d1 d2 d3 d4 q abschliessen 0 0 1 0 0 aktiengesellschaft 1 0 0 0 0 auto 0 0 1 0 0 bärlund 0 1 0 1 1 bergen 1 0 0 0 0 bürgschaft 0 1 0 0 0 finanizierung 0 0 1 0 0 firma 0 0 0 1 0 halva 0 1 0 0 0 kaskoversicherung 0 0 1 0 0 kauf 0 0 1 0 0 kredit 1 1 1 1 1 person 1 1 1 0 1 regelung 0 0 0 1 0 risiko 1 0 0 0 0 sicherheit 0 1 0 0 0 vorliegen 0 1 0 0 0 Ergebnis: q * d1 = q * d2 = q * d3 = q * d4 = 2 3 2 2
Vektorraummodell - Bewertung Verbesserung der Retrievalergebnisse Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Sortierung nach Grad der Ähnlichkeit Beste Ergebnisse für allgemeine Dokumentsammlungen Wachsende Popularität in den Internetsuchmaschinen
Vektorraummodell - Nachteile berücksichtigt nicht die Häufigkeit von Termen in Dokumenten berücksichtigt nicht die Seltenheit von Termen über alle Dokumente lange Dokumente werden bevorzugt
Modifikation Termhäufigkeit 1 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 2 0 0 0 auto 0 0 3 0 bärlund 0 2 0 2 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanizierung 0 0 1 0 firma 0 0 0 2 halva 0 2 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 2 1 1 1 person 1 2 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0
Modifikation Termhäufigkeit 2 Person Kredit Bärlund d1 d2 d3 d4 q abschliessen 0 0 1 0 0 aktiengesellschaft 2 0 0 0 0 auto 0 0 3 0 0 bärlund 0 2 0 2 1 bergen 1 0 0 0 0 bürgschaft 0 1 0 0 0 finanizierung 0 0 1 0 0 firma 0 0 0 2 0 halva 0 2 0 0 0 kaskoversicherung 0 0 1 0 0 kauf 0 0 1 0 0 kredit 2 1 1 1 1 person 1 2 1 0 1 regelung 0 0 0 1 0 risiko 1 0 0 0 0 sicherheit 0 1 0 0 0 vorliegen 0 1 0 0 0 Ergebnis: q * d1 = 3 q * d2 = 5 q * d3 = 2 q * d4 = 3
Dokumentenähnlichkeit Finde die ähnlichsten Dokumente zu d2 d1 d2 d3 d4 abschliessen 0 0 1 0 aktiengesellschaft 2 0 0 0 auto 0 0 3 0 bärlund 0 2 0 2 bergen 1 0 0 0 bürgschaft 0 1 0 0 finanizierung 0 0 1 0 firma 0 0 0 2 halva 0 2 0 0 kaskoversicherung 0 0 1 0 kauf 0 0 1 0 kredit 2 1 1 1 person 1 2 1 0 regelung 0 0 0 1 risiko 1 0 0 0 sicherheit 0 1 0 0 vorliegen 0 1 0 0 Ergebnis: d2 * d1 = 4 d2 * d3 = 3 d2 * d4 = 5
Ranking Idee: Zähle Anzahl der Suchbegriffe aus Anfrage, die im Dokument vorkommen Anfrage: Einfluss der Drogeneinnahme auf das Gedächtnis und die kognitiven Fähigkeiten
Relevanz-Feedback Reformulierung von Anfragen nach Rückmeldung durch den Benutzer Prinzip: 1. Benutzer stellt eine Anfrage q 2. Der Benutzer bewertet die Relevanz der ersten Dokumente der Rangordnung 3. Das System berechnet eine verbesserte Anfrage aufgrund des Feedbacks (z.b. Übernahme von Termen der ausgewählten Dokumente, Ausschluss von Termen der nicht gewählten Dokumente) 4. Retrieval mit der verbesserten Anfrage 5. Evtl. Wiederholung der Schritte 2-4
Cluster - Definition Clusterverfahren versuchen, Dokumente zu klassifizieren, so dass ähnliche oder miteinander in Beziehung stehende Dokumente in einem gemeinsamen Dokumentenpool zusammengefasst werden. Dadurch tritt eine Beschleunigung des Suchverfahrens ein, da sämtliche relevanten Dokumente im günstigsten Fall mit einem einzigen Zugriff selektiert werden können
Cluster - Form
Cluster - Probleme Die Cluster müssen stabil und vollständig sein. Die Zahl der Dokumente in einem Cluster und damit die resultierende Trefferliste kann bei speziellen Dokumentationen mit homogenen Dokumenten sehr hoch sein. Im umgekehrten Fall kann die Zahl der Cluster beträchtlich sein, im Extrem können Cluster nur aus jeweils einem Dokument bestehen. Die Überschneidungsrate der Zahl der Dokumente, die in mehr als einem Cluster liegen, ist kaum kontrollierbar.
Cluster - Suche Für eine Suchanfrage wird die Ähnlichkeit mit einem Cluster anhand des Zentroiden als Clusterrepräsentanten bestimmt. Der Zentroid symbolisiert das Durchschnittsdokument eines Clusters. Seine Gewichte ergeben sich als Mittelwert der Gewichte eines Deskriptors über alle Dokumente des Clusters.
Cluster - Dokumentenaufnahme Vergleich der Deskriptoren des neuen Dokumentes D mit allen Clusterzentroiden durch die Bestimmung der Ähnlichkeitskoeffizienten ÄHN(D;Ck). Suche des Clusters mit dem maximalen Ähnlichkeitswert und Integration des Dokumentes in dieses Cluster bzw. Zuweisung zu allen Clustern, deren Ähnlichkeit einen vorgegebenen Schwellenwert überschreitet. Anschließende Neuberechnung der Clusterzentroiden
Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien
Was soll gesucht werden?
Suchmaschinen - Arten Themenkataloge Der Yahoo-Katalog als Beispiel eines Themenkataloges wird nur teilweise automatisch über Roboter gefüllt. In erster Linie sorgt ein Redaktionsstab für den Aufbau. Die Aufnahme neuer WWW-Adressen geschieht durch Benutzeranmeldung bzw. Analyse anderer Informationsquellen Es entsteht hoher redaktioneller Aufwand bei der Überprüfung und Einordnung neuer Inhalte
Suchmaschinen
Suchmaschinen - Pullsysteme Einstieg durch Aufsuchen der Homepage der Suchmaschine, z.b. http://www.google.de Die Recherche läuft über logisch verknüpfte Schlagwörter Die Ablage der Schlagwörter und der zugehörigen WWW- Adressen geschieht in leistungsfähigen Datenbanken Die Suchergebnisse werden durch ein Ranking bewertet
Suchmaschinen - Probleme Bei Verwendung von Kleinbuchstaben suchen die meisten Suchdienste standardmäßig auch alle klein und groß geschriebenen Varianten Die meisten Systeme akzeptieren deutsche Umlaute Sonderzeichen als Wortbestandteil bereiten manchen Suchmaschinen Probleme, z.b. C++ Einige Suchmaschinen (HotBot, Lycos) ignorieren Stoppwörter (for, on, from usw.)
Suchmaschinen - Suchtipps Kataloge Suche zu einem bestimmten, aber weit gefaßten Gebiet (z.b. die Sprache Java), breite Suche Suche, die einen Einstieg in ein Thema bietet Suche, bei der das thematische Umfeld interessiert Die Suchergebnismenge soll klein gehalten werden Suchmaschinen Suchen nach Eigennamen (Daten über eine Person), Individualbegriffen, Akronymen, exotischen Begriffen Suche in URLs Suche nach Themenaspekten, die sich mit Begriffen abgrenzen lassen
Suchmaschinen - Grenzen... decken nur einen Teil des WWW ab Das WWW wächst schneller als die Kapazität der Indizes.... kann keine dynamischen Seiten berücksichtigen Vom Server erzeugte Seiten werden nicht gefunden... Suchkriterien werden nicht richtig interpretiert Suchmaschinen erkennen keine semantischen oder geographischen Zusammenhänge
Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien
Google - Historie 1995 Lawrence Page & Sergey Brin an der Stanford University 1996 Zusammenarbeit an BackRub 1997 Veröffentlichung The Anatomy of a Large-Scale Hypertextual Web Search Engine => Google 1998 Gründung Google Inc. 2004 Börsengang
Crawler Basisinfos aus Title-Tag HTML-Head Meta-Tags (Keywords)
Crawler - Automatische Informationsbeschaffung Crawler (or robots) durchsuchen das WWW durch Hyperlink- Verfolgung. Sie erkennen keine semantischen Zusammenhänge. Die WWW-Dokumente werden auf Schlagwörter analysiert und in die Datenbank der Suchmaschine eingefügt bzw. dort aktualisiert Seiten werden durch Verfolgen von Hyperlinks gefunden. Start der Suche ist die Homepage Crawler verboten! Quelle : Bandholtz, SAG 2000
Indexer Inexer oder Parser, trennt relevante Informationen von Datensammlung entfernt Konjunktionen und Pluralbildung entfernt zu lange Keyword-Listen von Spam-Seiten
Ranking Geschwindigkeit Skalierbarkeit Spamresistenz Plausibilität
Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien
Motivation Viele XML-Dokumente enthalten große Textanteile Damit möchte man Anfragen stellen, wie aus dem Information Retrieval bekannt Anfragesprachen (XPath, XQuery) nicht geeignet, um hier die gewünschten Anfragen zu stellen Erweiterung dieser Anfragesprachen
Image Retrieval - QBIC QBIC (http://wwwqbic.almaden.ibm.com/) Farbe Skizze Layout Textur Ähnlichkeit
Image Retrieval - Blobworld
Literatur Information Retrieval Vorlesungsmanuskript: Norbert Fuhr, http://www.is.informatik.uniduisburg.de/teaching/lectures/ir_ss03/index.html Vorlesungsmanuskript: Reginald Ferber http://teefix.fernuni-hagen.de/~ferber/kurse/dm-ir/index.html Tamino www.softwareag.com Harald Schöning, Tamino - ein reines XML-Datenbanksystem, Tutorial, FH Nürnberg