Information Retrieval



Ähnliche Dokumente
1. Grundlegende Konzepte von Information Retrieval Systemen

Information Retrieval

2 Evaluierung von Retrievalsystemen

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Vorlesung Information Retrieval Wintersemester 04/05

WS 2002/03. Prof. Dr. Rainer Manthey. Institut für Informatik III Universität Bonn. Informationssysteme. Kapitel 1. Informationssysteme

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Grundbegriffe der Informatik

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Der beste Plan für Office 365 Archivierung.

Warum Suche (trotzdem) bedeutend ist

Wie Google Webseiten bewertet. François Bry

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

Klausur WS 2006/07 Programmiersprache Java Objektorientierte Programmierung II 15. März 2007

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Lernziele: Ausgleichstechniken für binäre Bäume verstehen und einsetzen können.

Informatik 12 Datenbanken SQL-Einführung

Mathematische Grundlagen

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Übungen zur Softwaretechnik

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Begriff 1 Begriff 2 Datenbank 1

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Information Retrieval

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Ihr Weg in die Suchmaschinen

SMART Newsletter Education Solutions April 2015

SWE12 Übungen Software-Engineering

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Informationsblatt Induktionsbeweis

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Daten fu r Navigator Mobile (ipad)

UpToNet DMS Posteingang

Kurzanleitung RACE APP

Formale Sprachen und Grammatiken

Maschinelle Übersetzung

Data Mining: Einige Grundlagen aus der Stochastik

Qualifikationsbereich: Application Engineering Zeit:

Albert HAYR Linux, IT and Open Source Expert and Solution Architect. Open Source professionell einsetzen

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Handbuch. Artologik EZ-Equip. Plug-in für EZbooking version 3.2. Artisan Global Software

Informationskompetenz (Elektronisches Buch)

Vorlesung Dokumentation und Datenbanken Klausur

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

DER BESSER INFORMIERTE GEWINNT!

Online-Sendungsverfolgung. Morgenpost Briefservice GmbH

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Rechnung Angebot Zeiterfassung

Binäre Bäume. 1. Allgemeines. 2. Funktionsweise. 2.1 Eintragen

Kontakte Dorfstrasse 143 CH Kilchberg Telefon 01 / Telefax 01 / info@hp-engineering.com

Die Zeit-Tausch-Börse (ZTB) im Internet

Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

IAWWeb PDFManager. - Kurzanleitung -

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

RT Request Tracker. Benutzerhandbuch V2.0. Inhalte

Einführung in das Web Content Management System (CMS) Typo3

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

Dokumentation für die software für zahnärzte der procedia GmbH Onlinedokumentation

Hilfe zur Urlaubsplanung und Zeiterfassung

DB2 Kurzeinführung (Windows)

12. Dokumente Speichern und Drucken

Whitebox-Tests: Allgemeines

Pflegeberichtseintrag erfassen. Inhalt. Frage: Antwort: 1. Voraussetzungen. Wie können (Pflege-) Berichtseinträge mit Vivendi Mobil erfasst werden?

OP-LOG

Richtlinien für das Design und das Bestellen von Nutzen für Leiterplatten im Pool

Dokumentation zum Spielserver der Software Challenge

Leseauszug DGQ-Band 14-26

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

FRAGEBOGEN ANWENDUNG DES ECOPROWINE SELBSTBEWERTUNG-TOOLS

OSD-Branchenprogramm. OSD-Version Was ist neu? EDV-Power für Holzverarbeiter

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Erstellen eines Screenshot

Kundeninformation PDF-Erzeugung in Adobe Illustrator, Adobe InDesign und QuarkXPress Datenprüfung und Datenübergabe

Urheberrecht im Internet

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

impact ordering Info Produktkonfigurator

Access Verbrecherdatenbank Teil 3

Methoden zur Filterung und Blockung von Mails:

Updatehinweise für die Version forma 5.5.5

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Data Mining-Projekte

Um das Versenden von Anhängen an s zu ermöglichen, wurde der Assistent für die Kommunikation leicht überarbeitet und wo nötig verbessert.

CL-Mini-ABF. Kurzbeschreibung. Installation und Vorbereitung. Stand Ihre HTK-Filiale Michelstadt

Internet Explorer Version 6

SJ OFFICE - Update 3.0

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

white sheep GmbH Unternehmensberatung Schnittstellen Framework

Information Retrieval

DIE SUCHFUNKTION VON WINDOWS 7

Autorisierung. Sicherheit und Zugriffskontrolle & Erstellen einer Berechtigungskomponente

Hinweise zur Recherche in der Suchmaschine der Bibliothek

Transkript:

Information Retrieval Peter Becker FH Bonn-Rhein-Sieg Fachbereich Angewandte Informatik peter.becker@fh-bonn-rhein-sieg.de Vorlesung Sommersemester 2004 In die Vorlesung integriert Übungen Bearbeitungszeit: abhängig von den Aufgaben, i.d.r. eine oder zwei Wochen Programmieraufgaben und andere praktische Aufgaben Programmieraufgaben können in einer beliebigen Programmiersprache gelöst werden. Sie bekommen Zugriff auf das Labor Wissens- und Informationsmanagement. ux-2e00.inf.fh-bonn-rhein-sieg.de Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 2 Allgemeines zur Vorlesung Es gibt eine Homepage zur Vorlesung: http://www2.inf.fh-rhein-sieg.de/~pbecke2m/retrieval/ Die Vorlesung wird folienbasiert gehalten. Die Folien zur Vorlesung (Skript) stehen auf der Homepage vor der Vorlesung zur Verfügung. Format: PDF, zwei- und vierseitig Sie können also die ausgedruckten Folien mit in die Vorlesung bringen und dort mit schriftlichen Bemerkungen versehen. Benutzen Sie zum Drucken bitte die vierseitige Version des Skriptes. Prüfung Prüfung Bachelor: im 1. Prüfungszeitraum schriftlich über Vorlesung und Übung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 1 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 3

Inhalt 1. Grundlegende Konzepte von IR-Systemen G. J. Kowalski, M. T. Maybury, Information Storage and Retrieval Systems: Theory and Implementation, Kluwer, 2000. R. K. Belew, Finding Out About, Cambridge University Press, 2000. 2. Bewertung von Retrievalsystemen 3. Retrievalmodelle 4. Textalgorithmen 5. Erweiterte Retrieval-Ansätze 6. Web-Suchmaschinen und Informationsagenten Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 4 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 6 Literatur 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval 1. Grundlegende Konzepte von Information Retrieval Systemen R. Ferber, Information Retrieval, dpunkt.verlag, 2003. R. Baeza Yates, B. Ribeiro Neto, Modern Information Retrieval, Addison Wesley, 1999. I. A. Witten, A. Moffat, T. C. Bell, Managing Gigabytes, Morgan Kaufmann Publishers, 1999. W. B. Frakes, R. Baeza Yates (Hrsg.), Information Retrieval: Data Structures and Algorithms, Prentice Hall, 1992. R. R. Korfhage, Information Storage and Retrieval, John Wiley, 1997. Charakterisierung des Begriffs Information Retrieval Beispiele von Retrievalsystemen Definition: Information Retrieval Aspekte von Retrievalsystemen G. Salton, M. J. McGill, Introduction to Modern Information Retrieval, McGraw Hill, 1983. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 5 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 7

1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Charakterisierung des Begriffs Information Retrieval : 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Warum wird Retrievaltechnologie so wichtig? Weitgefaßt versteht man unter dem Begriff Information Retrieval (IR) jede Art der Wiedergewinnung maschinell gespeicherter Daten. Im Vordergrund stehen dabei Anfragen mit vagen oder unvollständigen Kriterien. weiche Daten im Gegensatz zu den harten Daten in klassischen Datenbanken Die Suche ist in erster Linie an inhaltlichen Kriterien ausgerichtet. Es geht um das Wiederauffinden von Informationen zu thematisch-inhaltlichen Fragen. Vernetzung, Internet und die damit verbundenen Technologien: Produzent: Für Anbieter wird es leicht, Informationsbestände anzubieten. Konsument: Nutzer erhalten einen leichten Zugang zu den Informationsbeständen. standardisierte Formate (HTML, XML, etc.), plattformübergreifende bzw. -unabhängige Software, dedizierte Frameworks für die Verarbeitung von Dokumenten Konsequenzen: bessere Marktfähigkeit von Informationen geringere Preise für die Informationsbeschaffung Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 8 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 10 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Textretrieval Sehr häufig ist mit dem Begriff Information Retrieval die inhaltliche Suche in Texten gemeint. Diese Art des IR wird auch als Textretrieval oder Dokumentretrieval bezeichnet. Das klassische Anwendungsgebiet des Textretrievals sind Literaturdatenbanken. Diese enthalten bibliographische Angaben und Kurzfassungen (Abstracts) von Veröffentlichungen und sollen Anwendern die Suche nach Literatur in einem Fachgebiet erleichtern. 1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Neue Medien, insbesondere DVD/CD-ROM. Vorteile: Umfangreiche Informationsbestände können kostengünstig verteilt werden. preiswerter und platzsparender als Papier lokale Nutzung möglich zusätzliche Funktionalitäten gut geeignet für Nachschlagewerke wie z. B. technische Handbücher (Beispiel: Answerbook von SUN) DVD plus Retrievalsoftware kann gegenüber gedruckten Handbüchern die Suche nach benötigten Informationen erheblich vereinfachen. Typische Anwendung des Textretrievals sind heute Suchmaschinen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 9 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 11

1. Grundlegende Konzepte von IR-Systemen Charakterisierung von Information Retrieval Vermehrte rechnerbasierte Erstellung, Bearbeitung und Archivierung von Dokumenten, u.a. bedingt durch Fortschritte in der Hard- und Softwaretechnologie: Büroinformationssysteme Workflow-Management Archivierungssysteme E-Mail kommerzielle Systeme: Verity, OpenText, Fulcrum, IBM DB2 Text Extender Gen-Datenbanken einfache, auf String-Matching basierende Systeme: Glimpse Neue Anwendungsgebiete wie z.b.: multimediale Informationssysteme molekularbiologische Datenbanken Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 12 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 14 Beispiele von Retrievalsystemen IR am Beispiel von Literaturdatenbanken Suchmaschinen im INTERNET: Google, Yahoo, Overture Metasuchmaschinen zur gleichzeitigen Suche in mehreren Suchmaschinen: Vivisimo, Metager Literatur- und Fachinformationsdatenbanken: Fachinformationszentrum Karlsruhe (STN), http://www.fiz-karlsruhe.de CD-ROM basierte technische Dokumentation experimentelle IR-Systeme: SMART, INQUERY, MG Das folgende Dokument stammt aus der Datenbank CompuScience von STN: L1 ANSWER 10 OF 290 COMPUSCIENCE COPYRIGHT 1996 FIZ KARLSRUHE AN 96(7):CS56570 COMPUSCIENCE TI Experiments in spoken document retrieval. AU Sparck Jones, K.; Jones, G.J.F. (Comp. Lab., Univ. of Cambridge, New Museums Site, Pembroke Str., Cambridge CB2 3QG, UK); Foote, J.T.; Young, S.J. SO Information Processing \& Management. (Jul 1996) v. 32(4) p. 399-417. New York: Pergamon Press. An International Journal. ISSN: 0306-4573 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 13 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 15

DT TC CY LA IP AB CC ST Journal Theoretical United States English FIZKA This paper describes experiments in the retrieval of spoken documents in multimedia systems. Speech documents pose a particular problem for retrieval since their words as well as contents are unknown. The work reported addresses this problem, for a video mail application, by combining state-of-the-art speech recognition with established document retrieval technologies so as to provide an effective and efficient retrieval tool. *H.3.3 Information search and retrieval H.5.1 Multimedia information systems I.2.7 Natural language processing IR(information retrieval); spoken document retrieval; multimedia system; video mail; speech recognition Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 16 Das Dokument enthält: bibliographische Angaben Kurzfassung (Abstract) Einordnung in ein hierarchisches Indexsystem Stichwörter CompuScience ist eine der wichtigsten Datenbanken für die Informatik. Kosten der Informationssuche: STN International Fees and Prices, Effective Jan 1, 1995 COMPUSCIENCE File German ----------------- Marks ------- Connect Hour Fee (per hour). 178,00 Display Fee (per answer)... 1,95 Print Fee (per answer) Total. 1,95 Print Basic Fee for Display Fields without Charge.... 0,20 SDI Search Fee........ 8,00 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 17 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 19

Suche: Die Suche nach Dokumenten geschieht Stichwörter. über Kategorien und Hierzu werden boolsche Kombinationen von Kategorien und Wörtern angegeben. Hierbei sollte es sich um Wörter handeln, die spezifisch für die Fragestellung sind und allgemein genug sind, so daß sie in jedem für die Anfrage wichtigen Artikel auftreten. Das Retrievalsystem liefert als Ergebnis alle Dokumente, die die angegebene Kombination von Wörtern enthalten. Obiges Dokument wurde bei folgender Anfrage gefunden: Die bei STN verwendete klassische Abfragesprache heißt Messenger. Die folgenden Zahlen verdeutlichen beispielhaft den Einfluß von Abstandsoperatoren auf das Retrievalergebnis: L1 L2 L3 4219 MULTIMEDIA 62193 INFORMATION 13573 RETRIEVAL 3595 INFORMATION RETRIEVAL (INFORMATION(W)RETRIEVAL) 290 (MULTIMEDIA AND INFORMATION RETRIEVAL) 560 ((MULTIMEDIA AND INFORMATION) AND RETRIEVAL) 16 MULTIMEDIA INFORMATION RETRIEVAL (MULTIMEDIA(W)INFORMATION(W)RETRIEVAL) Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 20 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 22 s multimedia and information(w)retrieval Bemerkungen: Typischerweise hat man bei der Konstruktion von Anfragen folgende Möglichkeiten: Verwendung boolscher Operatoren Verfeinerung vorangegangener Anfragen bzw. Bezugnahme auf die Ergebnisse vorangeg. Anfragen Verwendung von Abstandsoperatoren Trunkierung Einschränkung der Suche auf bestimmte Felder Vergleichsoperatoren für numerische Felder Durchsuchen von Termlisten (Browsing) Nutzung von Thesauri Boolsches Retrieval ist immer noch der Standard bei vielen kommerziellen Retrievalsystemen. Vorteil der boolschen Systeme ist die logische Klarheit. Nachteile: Sie sind schwierig zu bedienen und liefern auf eine Anfrage eine ungeordnete Menge von Dokumenten. STN ist ein typisches Beispiel eines boolschen Retrievalsystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 21 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 23

1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Definition: Information Retrieval Es gibt keine eindeutige und allgemein akzeptierte Definition für die Begriffe Information Retrieval bzw. Information Retrieval System. Einige Zitate aus der Literatur: Salton und McGill, 1983 Information retrieval (IR) is concerned with the representation, storage, organization, and accessing of information items. In principle no restriction is placed on the type of item handled in information retrieval. In actuality, many of the items found in ordinary retrieval systems are characterized by an emphasis on narrative information. 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Harter, 1986 An information retrieval system is a device interposed between a potential user of information and the information collection itself. For a given information problem, the purpose of the system is to capture wanted items and to filter out unwanted items. Die Fachgruppe Information Retrieval der GI definiert (in Stichworten) den Begriff wie folgt (siehe auch Fuhr, 1995): Gegenstand des IR: Informationssysteme in bezug auf ihre Rolle beim Wissenstransfer vom menschlichen Wissensproduzenten zum Informations-Nachfragenden Schwerpunkt sind Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 24 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 26 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Mresse, 1984 Unter Information Retrieval (IR) im weitesten Sinne des Wortes wird jeder Art der Wiedergewinnung (maschinell) gespeicherter Daten verstanden. Frakes und Baeza-Yates, 1992 An IR system matches user queries formal statements of information need to documents stored in a database. A document is a data object, usually textual, though it may also contain other types of data such as photographs, graphs, and so on. 1. Grundlegende Konzepte von IR-Systemen Definition: Information Retrieval Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen: Fragen mit unscharfen Kriterien und Fragen, die nur im Dialog iterativ durch Reformulierung beantwortet werden können. Die Unsicherheit dieses Wissens resultiert meistens aus der begrenzten Repräsentation der Semantik oder die gespeicherten Daten sind unsicher oder unvollständig. Ein weiterer wichtiger Punkt ist die Bewertung der Qualität der Anworten eines Informationssystems. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 25 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 27

Prinzip eines Retrievalsystems probabilistisches Retrieval: Die Wichtigkeit eines Dokuments für eine Anfrage wird über die Wahrscheinlichkeit der Relevanz gemessen. Die Berechnungen basieren dabei auf gewissen statistischen Annahmen. Gewichtung und Rangfolgeerstellung ist möglich. Ablauf eines Frage/Antwort-Dialogs...... und seine Ausprägung in einem Retrievalsystem. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 28 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 30 Konzeptuelles Modell Datenstrukturen in Retrievalsystemen Beim konzeptuellen Modell eines IR-Systems handelt es sich um den allgemeinen Ansatz, der dem System zu Grunde liegt. Folgende Ausprägungen sind möglich: Stringsuche: Die Suchanfragen sind Strings oder reguläre Ausdrücke. Nur für kleine Bestände geeignet. boolsches Retrieval: siehe CompuScience Vektorraummodell: Dokumente und Anfragen werden als Vektoren in einem Vektorraum repräsentiert. Als Basis für das Retrieval dient eine Ähnlichkeitsfunktion, die auf den Vektordarstellungen aufsetzt. Vorteile: Möglichkeit der Gewichtung von Anfragetermen und Erstellung von Rangfolgen (Ranking). Zur Unterstützung einer effizienten Suche werden i.d.r. spezielle Datenstrukturen eingesetzt: Invertierte Dateien Signature Files Suffix-Bäume, insbesondere PAT-Trees und Positionsbäume. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 29 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 31

Anfragebearbeitung Termoperationen Möglichkeiten, die ein IR-System für die Bearbeitung von Anfragen zur Verfügung stellt. Anfragesprache Bezugnahme auf alte Anfragen oder Ergebnismengen in neuen Anfragen boolsche Operatoren Rangfolgen (Ranking) Operationen, die auf den Stichwörtern (Termen) eines Dokuments (bei der Indexierung oder einer Anfrage) vom IR-System durchgeführt werden. Trunkierung Lemmatisierungen: Reduzierung eines Worts (als Term) auf seine Grund- oder Stammform; Erkennung von Komposita. Stopwortliste: Filterung aller Wörter, die keinen sinnvollen Beitrag zur Indexierung leisten. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 32 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 34 Relevanzr ückkopplung (relevance feedback): Informationen über die Relevanz von Dokumenten aus früheren Anfragen werden genutzt, um eine Anfrage zu verbessern. Ähnlichkeitssuche Thesaurus: Ein Thesaurus ist eine geordnete Zusammenstellung von Begriffen mit ihren (natürlichsprachlichen) Beziehungen. In IR- Systemen bietet sich die Verwendung eines Thesaurus aus folgenden Gründen an: kontrolliertes Vokabular Klassifikation der Dokumente bessere Retrievalergebnisse durch zusätzliche Verwendung von Ober- oder Unterbegriffen Termgewichtung: Verfahren, die Termen beim Indexieren oder bei der Anfrage ein Gewicht zuweisen. Dieses Gewicht soll die Wichtigkeit eines Terms charakterisieren. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 33 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 35

Text Dokumente Resultate einer Suche: Textparsing Dokumente Worte Non-Stopworte Stopwortliste Nr.-Zuweisung Beispielfrage: What is the best SCSI disk drive to buy? Stammform Worte in Funktionales Modell eines (boolschen) IR-Systems: Grundform Gewichtung gewichtete Terme Anfrageterme in Grundform Datenbasis Dokumente mit Dokumentnummern Dokumentmengen Ein relevantes Posting: Stammform bool. Operat. Anfrageterme Gesamtergebnis Queryparsing Anfrage Ranking Schnittstelle bewertetes Gesamtergebnis Relevanzbew. Anfragen Dokumente Benutzer Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 36 Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 38 Abgrenzung zu anderen Informationssystemen IR DBMS XPS Datenobjekte Dokumente Tabellen logische Aussagen primäre Operationen prob. Retrieval det. Retrieval Inferenz Datenbankgröße klein bis s. groß klein bis s. groß klein Fakten-Retrieval (DBMS) Information Retrieval Matching exakt partiell (best match) Inferenz Deduktion Induktion (heuristisch) Modell deterministisch probabilistisch Klassifikation monothetisch polithetisch Anfragesprache formal nat ürlich Fragespezifikation vollständig unvollständig gesuchte Objekte erf üllende relevante Reaktion auf Datenfehler sensitiv insensitiv Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS 04 37