;,~"., ""'1"" -<'I' '--'.',..".. \", " '''- \.,i "".' "."I! -...,; o ation Retrieval Informationen suchen und finden von Prof. Dr. Wolfgang G. Stock Fachhochschule Köln R. Oldenbourg Verlag München Wien
Inhalt Grundlagen der Informationswissenschaft 1 Ziel der Buchreihe I Lehrbücher zur Informationswissenschaft (1) - Information Retrieval im Kontext der Informationswissenschaft (2) - Zielgruppen (2) - Danksagung (3) 2 Informationswissenschaft 4 Was ist Informationswissenschaft? Eine plakative Annäherung (4) -Infannationswissenschaft im Kontext: Die Nachbardisziplinen (7) - Geschichte der Informationswissenschaft in ftinfteilen (9) - Einsatzbereiche: Intemetwirtschaft und betriebliche Infonnationswirtschaft (12) - Infonnationswissenschaftliche Zeitschriften und Datenbanken (13) - Fazit (15) 3 Information und Wissen 17 Signal, Daten, Wissen, lnfonnation (17) - Infonnation als in Bewegung gesetztes Wissen (22) - "Wissen ist Macht" (26) -lnfonnation als Wirtschaftsgut (29) Fazit (34) Propädeutik des Information Retrieval 4 Geschichte des Information Retrieval 38 Vom Memex über den Sputnik-Schock zum Weinberg-Report (38) - Frühe kommerzielle lnfonnationsdienste: DIALOG, SDC Orbit und Lexis-Nexis (43) - Das World Wide Web und seine Suchwerkzeuge (47) - Fazit (48) 5 Grundbegriffe des Information Retrieval 51 Konkreter und problemorientierter Infonnationsbedarf (51) - Zusammenspiel von Information Indexing und Infannation Retrieval (52) - Dokumentarische Bezugseinheit und Dokumentationseinheit (54) - Kognitive Modelle (57) - Pull- und Pushdienste (58) -lnfonnationsbarrieren (60) - Recall und Precision (63) - Fazit (65) 6 Relevanz und Pertinenz 68 Relevanz, Pertinenz, Nützlichkeit (68) - Aspekte der Relevanz (69) - Relevant oder nicht relevant: Der binäre Ansatz (71) - Relevanzverteilung von Dokumenten zu einem Thema (75) - Relevanzverteilungen (76) - Fazit (79)
VIII Inhal 7 Dokumente 82 Was ist ein Dokument? (82) - Formal publizierte Textdokumente (84) _ Infonnell publizierte Texte (87) - Nicht publizierte Texte (90) - Nicht-textuelle Dokumente (91) - Fazit(93) 8 Typologie von Retrievalsystemen 95 Schwach strukturierte Texte (95) - Retrievalsysteme und tenninologische Kontrolle (97) -Infonnationslinguistische Textbearbeitung (99) - Retrievalmodelle (102) - Oberflächenweb und Deep Web (108) - Fazit (I I I) 9 Architektur eines Retrievalsystems 115 Infonnatik der Retrievalsysteme (115) - Zeichensätze (117) - Aufnahme neuer Dokumente in die Datenbasis (118) - Thematische Crawler (121) - Crawling des Deep Web (123) - Vermeidung von Spam (125) - Erkennung von Dubletten bzw. "Spiegeln" (128) - Aktualisierung der Dokumentationseinheiten (129) - Speicherung und Indexierung (132) -Invertierte Dateien (133) - Trees und Tries (135) Fazit(136) Boolesche Retrievalsysteme 10 Boolesches Retrieval 141 George Booles "Denkgesetze" (141) - Die "atomaren" Suchargumente (142) Boolesche Operatoren (145) - Abstandsoperatoren (147) - Algebraische Operatoren - Häufigkeitsoperator (150) - Menüftihrung und Befehlsführung (150) _ Infonnationsprofile und Selective Dissemination cf Information (154) _ Recherchestrategien (156) - Vor- und Nachteile Boolescher Systeme (162) - Fazit (163) 11 Informetrische Analysen 168 Online-Infonnetrie (168) - Auswahl der Dokumentenmenge (169) - Rangordnungen (174) - Infonnetrische Zeitreihen (176) - Semantische Netze (177) Informationsflussanalysen (179) - Fazit (181) 12 Erweitertes Boolesches Retrieval 185 Boolesche Anfragen und Gewichtung (185) - Der "Wunschzettel" von Cater, Kraft und Waller (187) - Fuzzy Boolesches Retrieval (189) - Ein unscharfer Funktor: UNDODER (191) - Ähnlichkeiten und die p-nonn (192) - Die Negation im erweiterten Booleschen Modell (194) - Vor- und Nachteile erweiterter Boolescher Systeme (196) - Fazit (197)
Inhalt IX Informationslinguistik - Natural Language Processing 13 n-gramme 20 I Worte oder Zeichenfolgen? (20 I) - Henrichs' Pentagramm-Register (204) ACQUAINTANCE: n-gramme im Vektorraum (204) - HAIRCUT: n-gramme probabilistisch bearbeitet (207) - Abhängigkeiten innerhalb der Zeichenfolgen (210) - Vor- und Nachteile n-gramm-basierter Retrievalsysteme (211)- Fazit (212) 14 Worte 216 Schriftsystemerkennung (216) - Spracherkennung (217) - Stoppwortlisten (222) - "Verschmelzung" von Wortformen (Conllation) (227) - Grundformbildung (Lemmatisierung) (228) - Wortstammbildung (Stemming) (232) - Wortbearbeitung bei Handy-Tastaturen (240) - Fazit (243) 15 Phrasen, Eigennamen, Komposita 248 Zusammengesetzte Ausdrücke (248) - Phrasenbildung (250) - Eigennamenerkennung (255) - Die Personennamendatei (256) - Namensidentifikation (258) Kompositazerlegung (262) - Fazit (266) 16 Begriffe 270 Semantische Felder (270) _. Synsets und Deskriptoren als kleinste semantische Einheiten (272) - Die Wort-Begriff-Matrix (274) - Relationen in WordNet (276) - Kalibrierung von Synsets (282) - Relationen im Standard-Thesaurus Wirtschaft (283) - Semantische Ähnlichkeit (285) - Disambiguierung homonymer Worte (288) - Fazit (289) 17 Anaphora 294 Referenzausdrücke (294) - Anaphora und Ellipsen beim Einsatz von Abstandsoperatoren (297) - Anaphora und Ellipsen in der Textstatistik (298) - Anaphoraaullösung (299) - Fazit (302) 18 Fehlertolerantes Retrieval 305 Eingabefehler (305) - Phonetische Ansätze: Soundex und Phonix (307) - Die Damerau-Methode (31 I) - Eingabefehlererkennung und -korrektur durch n-gramme (313) - Fazit(315) Klassische Retrievalmodelle 19 Textstatistik 3 18 Die These von Luhn: Terrnhäufigkeit als Signifikanzfaktor (318) - Terrngewichtungen (321) - Dokumentspezifische Terrngewichtung (TF I WDF) (32 I) - Feldoder positionsspezifische Termgewichtung (323) - Terrngewichtung nach inverser Dokumenthäufigkeit (IDF) (324) - TF*IDF (326) - Textstatistik im praktischen Einsatz: Freestyle (328) - Fazit (330)
x Inhalt 20 Vektorraummodell 334 Dokumente im n-dimensionalen Raum (334) - eiusterung von Dokumenten mittels Zentroidbestimmung (338) - Reievance Feedback (339) - SMART (341) Tennunabhängigkeit (343) - Latent Semantic Indexing (344) - Vor- und Nachteile des Vektorraummodells (349) - Fazit (350) 21 Probabilistisches Modell 354 Die bedingte Relevanzwahrscheinlichkeit eines Dokuments unter einer Anfrage (354) - Suchtermgewinnung und -gewichtung durch Musterdokumente (356) Pseudo-Reievance-Feedback (359) - P(D) im Intervall [0, IJ (360) - Statistische Sprachmodelle (361) - Vor- und Nachteile des probabilistischen Modells (363) Fazit (364) Web Information Retrieval 22 Linktopologie 369 Web Infonnation RetrievaI (369) - Links und Zitationen (371) - Kleinberg Algorithmus (375) - PageRank (382) - Re-Ranking (386) - Fazit (388) 23 Strukturinformationen in Dokumenten 392 Metadaten: Informationen über Dokumente (392) - Strukturinfonnationen in Dokumenten (394) - Anker (399) - Pfadlänge (400) - Aktualität (400) - Fazit (402) 24 Nutzer und Nutzung 405 Simulation von Auskunftsinterviews (405) - Typen von Webanfragen (407) Personalisiertes Retrieval (408) - Nutzungsstatistiken als Rankingkriterium (410) - Ranking nach Sprache (413) - Ranking nach Entfernung: geographisches Infonnation Retrieval (GIR) (415) - Ranking nach Gebot: Sponsored Links (419) Fazit (420) 25 Themenentdeckung und -verfolgung 425 Identifizieren und Verfolgen aktueller Ereignisse (425) - Themenentdeckung (428) - Themenverfolgung (431) - Anfragefreie Nachrichtensuche (433)- Fazit (434) Spezialprobleme des Information Retrieval 26 Soziale Netzwerke und "small worlds" 437 Intertextualität und Netzwerke (437) - ZentraIität eines Akteurs (439) - "degree" von Autoren (442) - Trennpunkte und Brücken (445) - "small worid"-netzwerke (445) - Fazit (448)
Inhalt XI 27 Kontrolliertes Vokabular 451 Paradigmatische und syntagmatische Relationen (451) - Gewichtungsberechnung bei syntaktischer Indexierung (452) - Einstellbare syntagmatische Netze (454) Dynamische Klassierung (456) - Fazit (459) 28 Sprachübergreifendes Retrieval 461 Übersetzung von Anfragen, von Texten oder gar keine Übersetzung? (461) Maschinenlesbare Wörterbücher (465) - Fachthesauri im CLIR (468) - Korpusbasierte Methoden (469) - Fazit (472) 29 Anfragedialog 476 Anfragemodifikationen (476) -Intellektuelle Suchanfragemodifikation (478) Automatische Suchanffageerweiterung (480) - Relevance Feedback als Anfragemodifikation (481) - Vorschlag neuer Suchargumente (481) - Ähnliche Dokumente: More like this' (485) - Vorschlagssysteme (487) - Fazit (493) 30 Retrieval von TextsteIlen 498 Recherche nach Absätzen und Textausschnitten (498) - Ranking von Dokumenten nach den jeweils bestpassenden Stellen (499) - Ranking von TextsteIlen innerhalb eines Dokuments (500) - Frage-Antwort-Systeme (501) - Faktendatenbanken (503) - Fazit (505) 31 Bild- und Tonretrieval 509 Multimedia Retrieval (509) - Dimensionen des Bildretrieval (512) - Anwendungsfalle von Bildretrieval (515) - Videoretrieval (516) - Gesprochene Suchanfragen (519) - Gesprochene Dokumente (520) - Dimensionen des Musikretrieval (MIR) (521) - Musikretrieval mittels Musterdokument (527) - Gesungene, gepfiffene und gesummte Suchanfragen (528) - Fazit (529) 32 Ausblick 537 Die Literatur zum Information Retrieval (537) - Kombiniertes Information Retrieval (539) - Wissensrepräsentation (541) - Empirische Informationswissenschaft (543) - Angewandte Informationswissenschaft (544) - Information Retrieval: Informatik und Informationswissenschaft (545) - Fazit (545) Glossar 547 Register Namensregister (562) - Sachregister (577) 562