Information Retrieval Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik peter.becker@fh-bonn-rhein-sieg.de Vorlesung Sommersemester 2004 In die Vorlesung integriert Übungen Bearbeitungszeit: abhängig von den Aufgaben, i.d.r. eine oder zwei Wochen Programmieraufgaben und andere praktische Aufgaben Programmieraufgaben können in einer beliebigen Programmiersprache gelöst werden. Sie bekommen Zugriff auf das Labor Wissens- und Informationsmanagement. ux-2e00.inf.fh-bonn-rhein-sieg.de Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 2 Allgemeines zur Vorlesung Es gibt eine Homepage zur Vorlesung: http://www2.inf.fh-rhein-sieg.de/~pbecke2m/retrieval/ Die Vorlesung wird folienbasiert gehalten. Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der Vorlesung zur Verfügung. Format: PDF, zwei- und vierseitig Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen. Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes. Prüfung Prüfung Bachelor: im 1. Prüfungszeitraum schriftlich über Vorlesung und Übung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 1 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 3
Inhalt 1. Grundlegende Konzepte von IR-Systemen G. J. Kowalski, M. T. Maybury, Information Storage and Retrieval Systems: Theory and Implementation, Kluwer, 2000. R. K. Belew, Finding Out About, Cambridge University Press, 2000. 2. Bewertung von Retrievalsystemen 3. Retrievalmodelle 4. Textalgorithmen 5. Erweiterte Retrieval-Ansätze 6. Web-Suchmaschinen und Informationsagenten Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 4 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 6 Literatur 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen R. Ferber, Information Retrieval, dpunkt.verlag, 2003. R. Baeza Yates, B. Ribeiro Neto, Modern Information Retrieval, Addison Wesley, 1999. I. A. Witten, A. Moffat, T. C. Bell, Managing Gigabytes, Morgan Kaufmann Publishers, 1999. W. B. Frakes, R. Baeza Yates (Hrsg.), Information Retrieval: Data Structures and Algorithms, Prentice Hall, 1992. R. R. Korfhage, Information Storage and Retrieval, John Wiley, 1997. Charakterisierung des Begriffs Information Retrieval Beispiele von Retrievalsystemen Definition: Information Retrieval Aspekte von Retrievalsystemen G. Salton, M. J. McGill, Introduction to Modern Information Retrieval, McGraw Hill, 1983. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 5 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 7
1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Charakterisierung des Begriffs Information Retrieval : 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Warum wird Retrievaltechnologie so wichtig? Weitgefaßt versteht man unter dem Begriff Information Retrieval (IR) jede Art der Wiedergewinnung maschinell gespeicherter Daten. Im Vordergrund stehen dabei Anfragen mit vagen oder unvollständigen Kriterien. weiche Daten im Gegensatz zu den harten Daten in klassischen Datenbanken Die Suche ist in erster Linie an inhaltlichen Kriterien ausgerichtet. Es geht um das Wiederauffinden von Informationen zu thematisch-inhaltlichen Fragen. Vernetzung, Internet und die damit verbundenen Technologien: Produzent: Für Anbieter wird es leicht, Informationsbestände anzubieten. Konsument: Nutzer erhalten einen leichten Zugang zu den Informationsbeständen. standardisierte Formate (HTML, XML, etc.), plattformübergreifende bzw. -unabhängige Software, dedizierte Frameworks für die Verarbeitung von Dokumenten Konsequenzen: bessere Marktfähigkeit von Informationen geringere Preise für die Informationsbeschaffung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 8 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 10 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Textretrieval Sehr häufig ist mit dem Begriff Information Retrieval die inhaltliche Suche in Texten gemeint. Diese Art des IR wird auch als Textretrieval oder Dokumentretrieval bezeichnet. Das klassische Anwendungsgebiet des Textretrievals sind Literaturdatenbanken. Diese enthalten bibliographische Angaben und Kurzfassungen (Abstracts) von Veröffentlichungen und sollen Anwendern die Suche nach Literatur in einem Fachgebiet erleichtern. 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Neue Medien, insbesondere DVD/CD-ROM. Vorteile: Umfangreiche Informationsbestände können kostengünstig verteilt werden. preiswerter und platzsparender als Papier lokale Nutzung möglich zusätzliche Funktionalitäten gut geeignet für Nachschlagewerke wie z. B. technische Handbücher (Beispiel: Answerbook von SUN) DVD plus Retrievalsoftware kann gegenüber gedruckten Handbüchern die Suche nach benötigten Informationen erheblich vereinfachen. Typische Anwendung des Textretrievals sind heute Suchmaschinen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 9 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 11
1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Vermehrte rechnerbasierte Erstellung, Bearbeitung und Archivierung von Dokumenten, u.a. bedingt durch Fortschritte in der Hard- und Softwaretechnologie: Büroinformationssysteme Workflow-Management Archivierungssysteme E-Mail kommerzielle Systeme: Verity, OpenText, Fulcrum, IBM DB2 Text Extender Gen-Datenbanken einfache, auf String-Matching basierende Systeme: Glimpse Neue Anwendungsgebiete wie z.b.: multimediale Informationssysteme molekularbiologische Datenbanken Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 12 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 14 Beispiele von Retrievalsystemen IR am Beispiel von Literaturdatenbanken Suchmaschinen im INTERNET: Google, Yahoo, Overture Metasuchmaschinen zur gleichzeitigen Suche in mehreren Suchmaschinen: Vivisimo, Metager Literatur- und Fachinformationsdatenbanken: Fachinformationszentrum Karlsruhe (STN), http://www.fiz-karlsruhe.de CD-ROM basierte technische Dokumentation experimentelle IR-Systeme: SMART, INQUERY, MG Das folgende Dokument stammt aus der Datenbank CompuScience von STN: L1 ANSWER 10 OF 290 COMPUSCIENCE COPYRIGHT 1996 FIZ KARLSRUHE AN 96(7):CS56570 COMPUSCIENCE TI Experiments in spoken document retrieval. AU Sparck Jones, K.; Jones, G.J.F. (Comp. Lab., Univ. of Cambridge, New Museums Site, Pembroke Str., Cambridge CB2 3QG, UK); Foote, J.T.; Young, S.J. SO Information Processing \& Management. (Jul 1996) v. 32(4) p. 399-417. New York: Pergamon Press. An International Journal. ISSN: 0306-4573 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 13 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 15
DT TC CY LA IP AB CC ST Journal Theoretical United States English FIZKA This paper describes experiments in the retrieval of spoken documents in multimedia systems. Speech documents pose a particular problem for retrieval since their words as well as contents are unknown. The work reported addresses this problem, for a video mail application, by combining state-of-the-art speech recognition with established document retrieval technologies so as to provide an effective and efficient retrieval tool. *H.3.3 Information search and retrieval H.5.1 Multimedia information systems I.2.7 Natural language processing IR(information retrieval); spoken document retrieval; multimedia system; video mail; speech recognition Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 16 Das Dokument enthält: bibliographische Angaben Kurzfassung (Abstract) Einordnung in ein hierarchisches Indexsystem Stichwörter CompuScience ist eine der wichtigsten Datenbanken für die Informatik. Kosten der Informationssuche: STN International Fees and Prices, Effective Jan 1, 1995 COMPUSCIENCE File German ----------------- Marks ------- Connect Hour Fee (per hour). 178,00 Display Fee (per answer)... 1,95 Print Fee (per answer) Total. 1,95 Print Basic Fee for Display Fields without Charge.... 0,20 SDI Search Fee........ 8,00 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 17 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 19
Suche: Die Suche nach Dokumenten geschieht Stichwörter. über Kategorien und Hierzu werden boolsche Kombinationen von Kategorien und Wörtern angegeben. Hierbei sollte es sich um Wörter handeln, die spezifisch für die Fragestellung sind und allgemein genug sind, so daß sie in jedem für die Anfrage wichtigen Artikel auftreten. Das Retrievalsystem liefert als Ergebnis alle Dokumente, die die angegebene Kombination von Wörtern enthalten. Obiges Dokument wurde bei folgender Anfrage gefunden: Die bei STN verwendete klassische Abfragesprache heißt Messenger. Die folgenden Zahlen verdeutlichen beispielhaft den Einfluß von Abstandsoperatoren auf das Retrievalergebnis: L1 L2 L3 4219 MULTIMEDIA 62193 INFORMATION 13573 RETRIEVAL 3595 INFORMATION RETRIEVAL (INFORMATION(W)RETRIEVAL) 290 (MULTIMEDIA AND INFORMATION RETRIEVAL) 560 ((MULTIMEDIA AND INFORMATION) AND RETRIEVAL) 16 MULTIMEDIA INFORMATION RETRIEVAL (MULTIMEDIA(W)INFORMATION(W)RETRIEVAL) Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 20 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 22 s multimedia and information(w)retrieval Bemerkungen: Typischerweise hat man bei der Konstruktion von Anfragen folgende Möglichkeiten: Verwendung boolscher Operatoren Verfeinerung vorangegangener Anfragen bzw. Bezugnahme auf die Ergebnisse vorangeg. Anfragen Verwendung von Abstandsoperatoren Trunkierung Einschränkung der Suche auf bestimmte Felder Vergleichsoperatoren für numerische Felder Durchsuchen von Termlisten (Browsing) Nutzung von Thesauri Boolsches Retrieval ist immer noch der Standard bei vielen kommerziellen Retrievalsystemen. Vorteil der boolschen Systeme ist die logische Klarheit. Nachteile: Sie sind schwierig zu bedienen und liefern auf eine Anfrage eine ungeordnete Menge von Dokumenten. STN ist ein typisches Beispiel eines boolschen Retrievalsystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 21 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 23
1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Definition: Information Retrieval Es gibt keine eindeutige und allgemein akzeptierte Definition für die Begriffe Information Retrieval bzw. Information Retrieval System. Einige Zitate aus der Literatur: Salton und McGill, 1983 Information retrieval (IR) is concerned with the representation, storage, organization, and accessing of information items. In principle no restriction is placed on the type of item handled in information retrieval. In actuality, many of the items found in ordinary retrieval systems are characterized by an emphasis on narrative information. 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Harter, 1986 An information retrieval system is a device interposed between a potential user of information and the information collection itself. For a given information problem, the purpose of the system is to capture wanted items and to filter out unwanted items. Die Fachgruppe Information Retrieval der GI definiert (in Stichworten) den Begriff wie folgt (siehe auch Fuhr, 1995): Gegenstand des IR: Informationssysteme in bezug auf ihre Rolle beim Wissenstransfer vom menschlichen Wissensproduzenten zum Informations-Nachfragenden Schwerpunkt sind Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 24 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 26 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Mresse, 1984 Unter Information Retrieval (IR) im weitesten Sinne des Wortes wird jeder Art der Wiedergewinnung (maschinell) gespeicherter Daten verstanden. Frakes und Baeza-Yates, 1992 An IR system matches user queries formal statements of information need to documents stored in a database. A document is a data object, usually textual, though it may also contain other types of data such as photographs, graphs, and so on. 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen: Fragen mit unscharfen Kriterien und Fragen, die nur im Dialog iterativ durch Reformulierung beantwortet werden können. Die Unsicherheit dieses Wissens resultiert meistens aus der begrenzten Repräsentation der Semantik oder die gespeicherten Daten sind unsicher oder unvollständig. Ein weiterer wichtiger Punkt ist die Bewertung der Qualität der Anworten eines Informationssystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 25 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 27
Prinzip eines Retrievalsystems probabilistisches Retrieval: Die Wichtigkeit eines Dokuments für eine Anfrage wird über die Wahrscheinlichkeit der Relevanz gemessen. Die Berechnungen basieren dabei auf gewissen statistischen Annahmen. Gewichtung und Rangfolgeerstellung ist möglich. Ablauf eines Frage/Antwort-Dialogs...... und seine Ausprägung in einem Retrievalsystem. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 28 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 30 Konzeptuelles Modell Datenstrukturen in Retrievalsystemen Beim konzeptuellen Modell eines IR-Systems handelt es sich um den allgemeinen Ansatz, der dem System zu Grunde liegt. Folgende Ausprägungen sind möglich: Stringsuche: Die Suchanfragen sind Strings oder reguläre Ausdrücke. Nur für kleine Bestände geeignet. boolsches Retrieval: siehe CompuScience Vektorraummodell: Dokumente und Anfragen werden als Vektoren in einem Vektorraum repräsentiert. Als Basis für das Retrieval dient eine Ähnlichkeitsfunktion, die auf den Vektordarstellungen aufsetzt. Vorteile: Möglichkeit der Gewichtung von Anfragetermen und Erstellung von Rangfolgen (Ranking). Zur Unterstützung einer effizienten Suche werden i.d.r. spezielle Datenstrukturen eingesetzt: Invertierte Dateien Signature Files Suffix-Bäume, insbesondere PAT-Trees und Positionsbäume. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 29 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 31
Anfragebearbeitung Termoperationen Möglichkeiten, die ein IR-System für die Bearbeitung von Anfragen zur Verfügung stellt. Anfragesprache Bezugnahme auf alte Anfragen oder Ergebnismengen in neuen Anfragen boolsche Operatoren Rangfolgen (Ranking) Operationen, die auf den Stichwörtern (Termen) eines Dokuments (bei der Indexierung oder einer Anfrage) vom IR-System durchgeführt werden. Trunkierung Lemmatisierungen: Reduzierung eines Worts (als Term) auf seine Grund- oder Stammform; Erkennung von Komposita. Stopwortliste: Filterung aller Wörter, die keinen sinnvollen Beitrag zur Indexierung leisten. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 32 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 34 Relevanzr ückkopplung (relevance feedback): Informationen über die Relevanz von Dokumenten aus früheren Anfragen werden genutzt, um eine Anfrage zu verbessern. Ähnlichkeitssuche Thesaurus: Ein Thesaurus ist eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen. In IR- Systemen bietet sich die Verwendung eines Thesaurus aus folgenden Gründen an: kontrolliertes Vokabular Klassifikation der Dokumente bessere Retrievalergebnisse durch zusätzliche Verwendung von Ober- oder Unterbegriffen Termgewichtung: Verfahren, die Termen beim Indexieren oder bei der Anfrage ein Gewicht zuweisen. Dieses Gewicht soll die Wichtigkeit eines Terms charakterisieren. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 33 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 35
Text Dokumente Resultate einer Suche: Textparsing Dokumente Worte Non-Stopworte Stopwortliste Nr.-Zuweisung Beispielfrage: What is the best SCSI disk drive to buy? Stammform Worte in Funktionales Modell eines (boolschen) IR-Systems: Grundform Gewichtung gewichtete Terme Anfrageterme in Grundform Datenbasis Dokumente mit Dokumentnummern Dokumentmengen Ein relevantes Posting: Stammform bool. Operat. Anfrageterme Gesamtergebnis Queryparsing Anfrage Ranking Schnittstelle bewertetes Gesamtergebnis Relevanzbew. Anfragen Dokumente Benutzer Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 36 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 38 Abgrenzung zu anderen Informationssystemen IR DBMS XPS Datenobjekte Dokumente Tabellen logische Aussagen primäre Operationen prob. Retrieval det. Retrieval Inferenz Datenbankgröße klein bis s. groß klein bis s. groß klein Fakten-Retrieval (DBMS) Information Retrieval Matching exakt partiell (best match) Inferenz Deduktion Induktion (heuristisch) Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal nat ürlich Fragespezifikation vollständig unvollständig gesuchte Objekte erf üllende relevante Reaktion auf Datenfehler sensitiv insensitiv Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 37