Information Retrieval Zusammenfassung

Transkript

1 Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR Brainstorming Grundbegriffe Verwandte Gebiete / Verwandte Begriffe Grundbegriffe zur Nutzerinteraktion Geschichte Teilgebiet Websuchmaschinen Anwendungsgebiete Fuhr-Skript Kapitel 1: Einführung (eigene Zusammenfassung) IR-Methoden und Anwendungen (weitere unterscheidbare Facetten) (wesentliche Unterschiede zu DBS sofort erkennbar) Was ist Information Retrieval? (Stichpunkte der Definition von IR der Fachgruppe IR der GfI) 4 (kennzeichnende Kernpunkte) (Abstraktionsstufen von inhaltsorientierter Suche) (Dimensionen des IR) Daten Information Wissen Rahmenarchitektur für IR-Systeme Kapitel 2: Evaluierung (letzter Absatz des vorherigen Kapitels nennt wesentliche Punkte).. 5 (erste Absätze im Kapitel) (Verschiedene Formen von Evaluierungen je nach Phase)... 5 Evaluierungskriterien Relevanz Distributionen Standpunkte und Bewertungsmaße Benutzerstandpunkte Benutzer- vs. Systemstandpunkte Maße für Ergenismengen Recall, Precision, Fallout Recall-Abschätzung Frageweise Vergleiche Mittelwertbildung Rangordnungen Evaluierung von interaktivem Retrieval Batch- vs. interaktives Retrieval Suchaufgaben Kapitel 3: Wissensrepräsentation für Texte Problemstellung Freitextsuche Grundlagen Informatischer Ansatz Computerlinguistischer Ansatz Dokumentationssprachen Allgemeine Eigenschaften Klassifikationen Thesauri Ontologien Ontologien: Konstrukte Retrieval Werkzeuge und Anwendungen Dokumentationssprachen vs. Freitext Beurteilung der Verfahren zur Repräsentation von Textinhalten Zusammenhang zwischen Modellen und Repräsentationen Kapitel 4: Nicht-probabilistische IR-Modelle Notation Überblick über die Modelle Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache Nachteile des booleschen Retrieval Gründe: Fuzzy-Retrieval Beurteilung des Fuzzy-Retrieval Das Vertorraummodell orthonormaler Vektorraum Coordination Level Match Dokumentindexierung Relevance Feedback Beurteilung des VRM Kapitel 5: Probabilistische IR-Modelle Einführung Parameterabschätzung Beispiel BM Statistische Sprachmodelle Sprachmodell von Zahi und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen Das Probabilistische Ranking-Prinzip Kapitel 6: Interaktives Retrieval Ebenen-Architektur von IR-Systemen Information Seeking Behavior Information Seeking Behavior und Information Searching Ellis Behavioural Model of Information Seeking Strategies.. 11 Information Searching Einfache Modelle für den Suchprozess Belkins Episodic Interaction Modell Ingwersen s Cognitive Model Klassifikation von Suchaktivitäten Ostensive Retrieval Strategische Unterstützung Suchaktivitäten und ihre Unterstützung Proaktivität in IR-Systemen Zusammenfassung zu kognitiven Methoden IIR-PRP: Probabilistisches Ranking Prinzip für Interaktives IR Ansatz / Anforderungen an IIR-PRP Kapitel Kapitel 8: Implementierung von IR-Sytemen Aufbau von IRS Funktionale Sicht Dialogfunktionen herkömlicher IRS (klassische Funktionen eines IRS) 13 Dokumentarchitekturen Zugriffspfade Scanning Ähnlichkeit von Zeichenkettern Invertierte Listen Signaturen PAT-Bäume Schulz-IR-Skript Was ist IR? Typische IR-Suchszenarien Verwandte Arten der Infromationssuche und benachbarte IRS Verwandte Disziplinen Teilaufgaben beim Design eines IRS Klassische, nicht-probabilistische Modelle des IR Dokumentrepräsentation durch Keyword-Vektoren (Term-Dokument-Matrix) (Invertierte Liste) (Auswahl von Keywords: Zipfsches Gesetz nutzbar) Boolesches Retrieval Fuzzy Retrieval Das Vektorraum-Modell Grundprinzip des VR-Modells Formen der Termgewichtung Ähnlichkeitsmaße Relevanz-Feedback und Anfrage-Modifikation Recall-Erhöhung Implementierungsprinzipien und effiziente Ranking-Berechnung 15 Pruning und vereinfachte Berechnung von Ranking-Werten mit thresholding Vor- und Nachteile des VRM Dokumenten-Clustering Probabilistische Modelle des IR Evaluierung von IRS Anwendungen von Methoden der Sprachverarbeitung im IR Probleme einer naiven Indexierung Normalisierung einzelner Wortformen Komposita-Behandlung Behandlung von Mehrwortlexemen Phrasen-Parsing Thesauri Wortnetze Dokumentation, Meta-Information, Begriffssysteme, Wissensressourcen 15 Versuch eines Orientierungsrahmens Beispiele für Klassifikationsschemata Metadaten im Web Begriffshierarchien Mehr zu Konzepthierarchien und Ontologien WordNet als Brück zwischen Ausdrücken und Konzepten EFGT Netze Nawendungen Die Wikipeida als Wissensressource für das IR Methoden der Dokumentenklassifikation Einleitung Textvorbereitung und Textrepräsentation Rocchios Algorithmus Ripper

2 Support Vector Machines Structured document retrieval Introduction Using document structure: what, how and why Markup languages and structure of XML documents the PAT system Region algebra formalisms Tree matching with complete answer aggregates Structured Document Retrieval and Ranking of Answers Websuche Unterschiede zwischen Web0Suche und konventioneller IR-Situation 16 Prinzipielle Architektur einer Websuchmaschine Web-Crawling Indexierung Ranking mittels Link-Analyse Spezielle Webanwendungen Digitale Bibliotheken Tuebinger Online-Kurs Weitere Gebiete Teilgebiet_1 raussuchen Teilgebiet_2 raussuchen Latent Semantische Indexierung von Estelle Visual inter-dings von Estelle Glossar Fragen (potentiell) (interessant) Colophon IR 1. IR a) Fuhr-Skript Kap 1-6 sowie 8, s. Internet (Einführung,IR- Konzepte,Evaluierung,Wissensrepräsentation für Texte,Nicht-probabilistische IR- Modelle,Probabilistic Models in Information Retrieval, Implementierung von IR- Systemen) b) Tuebinger Online-Kurs mit guest,guest einloggen, Online-Kurs auch unter oder c) IR im Web nach meinem Skript. (Achtung: Das Skript ist in Teilen ausfuehrlicher als der Online Kurs und geht z.b. auf Rankingmethoden bei der XML-Anfrage ein!! Auch diese sind moeglicher Pruefungsinhalt! Zu vielen Gebieten sind darueberhinaus im Skript" nur die Ueberschriften angegeben. Hier sollten Sie sich eigenstaendig weitere Materialien besorgen! Beispiel: Metadaten und Semantic Web (hier finden Sie im Ferber-Buch einiges) " 1.1 Brainstorming IR ist grundsätzlich Finden von relevanten Dokumenten bei vagen Suchbegriffen auf unstrukturierten, vagen Dokumenten, vagen Dokumenten-Basen Grundbegriffe Vage Dokumenten-Basen / vage Anfragen Im Gegensatz zu DBS (Datenbank-Systemen) ist die Aufgabe des Information Retrieval natürlichsprachige (vs. Strukturierte Anfrage- Sprache mit Strukturierter DB) Anfragen auf die Datenbasis aus unterschiedlichen Dokumenten (klassisch: Text. modern: Bild, Ton, Film) so abzubilden, dass die der Anfrage relevanten Dokumente gefunden werden. Dazu gehört: Modell (probabilistisch, nicht-probabilistisch), Ranking, Vorverarbeitung, nachträgliche Methoden, Stemming, Lemmatization,... Wissensrepräsentation Die unstrukturierten, vagen Dokumente müssen auf eine Ebene transformiert werden, die es den Modellen erlaubt, die relevanten Dokumente zu finden. Die Wissensbasis muss in eine Repräsentationsform überführt werden, die einem Wissens- Modell entspricht. Probabilistische Modelle BIR, BM25, Statistische Sprachmodelle (Zhai, Lafferty), Probabilistisches Ranking-Prinzip Nicht-Probabilistische Modelle Boolesches Retrieval, Fuzzy-Retrieval, Vektorraum-Modell (VRM) Eminent wichtig beim IR ist die Evaluierung. Da der Unterschied zu relationalen DBS der ist, dass die Ergebnisse nicht exakt bestimmt sind, ist es wichtig, Methoden und Maße zu finden, um die Ergebnisse des Modells beurteilen zu können. Evaluierung In der Evaluierung werden Maße vorgestellt welche die Güte der gefundnen Dokumente (bzgl ihrer Relevanz) beurteilen und vergleichen lassen. Die eingeführten Maße sind: Precision, Recall, Fallout. Darauf lassen sich Rangordnungen aufbauen. Verwandte Gebiete / Verwandte Begriffe IR hat auch viel mit der Benutzer-Interaktion zu tun (siehe auch Interaktives Retrieval), daher hat die IR als angrenzendes Gebiet unter anderem Behavioral Models zum Teilgebiet, Informationsmanagement, Weiteres verwandtes Gebiet: web crawling Grundbegriffe zur Nutzerinteraktion [... ] Geschichte IR hat sein erstes Kerngebiet gehabt in der Informationssuche in Bibliotheksdatenbanken. Teilgebiet Websuchmaschinen Sehr bald aber wurde es zentral in allen Gebieten der Websuchmaschinen. Dennoch gibt es sehr viel mehr mögliche Einsatzgebiete (siehe auch Anwendungsgebiete). Da die lingua franca des Webs (X)HTML ist, sind XML- und SGML-basierte (Teil-)Strukturierte Dokumente auch mit Teil-Gebiete des IR. Zum Teil kann man diese (Teil- )Strukturierten Dokumente als eine Mischform zwischen rein textlichen und DB-basierten Wissens-(Dokument-)-Basen auffassen (Beispiel: Preisauszeichnung bei Produkten). Anwendungsgebiete Weitere Anwendungsmöglichkeiten des IR sind Text-Klassifikation Text-Clustering 1.2 Fuhr-Skript Kap 1-6 sowie 8, s. Internet (Einführung,IR- Konzepte,Evaluierung,Wissensrepräsentation für Texte,Nicht-probabilistische IR-Modelle,Probabilistic Models in Information Retrieval, Implementierung von IR-Systemen) Kapitel 1: Einführung (eigene Zusammenfassung) Teilgebiet von: IR ist Teil der Informatik. Ursprüngliche Verwendung: Literatur- und Patent-Recherche Seit: 1990 erst richtig bekannt. Grund: Davor haben nur speziell ausgebildete Rechercheure diese IRS benutzt, dann kamen die User des WWW dazu. Folge: Mittlerweile breites Spektrum an IR-Anwendungen Gag: Nutzern ist zumeist gar nicht bewusst, dass sie ein IRS benutzen Im IR geht es darum die relevantesten Dokumente für Anfragen zu finden. Dabei sind die Anfragen wenig konkret, bzw. unsicher und, was die beste Antwort ist, ist ebenso nicht ganz komplett sicher. Daher stehen IR-Systeme im Gegensatz zu DB-Systemen. In DB-Systemen sind die Daten konkret (isv XXX) und die Anfragen formal. IR-Systeme funktioneren so, dass sie die Eingangs-Daten entsprechend vorbereiten (Represätentation) und dann verdichten zu einer Beschreibung. Das selbe passiert mit der Anfrage (Lemmatizing, Stemming, etc.) Beispiel-Satz: Der Hund jagt den anderen Hund (der/1) (Hund/2) (....) Dann wird der Input Satz auf die vorhandenen Dokumentet gematcht. Wichtig ist jetzt: Evaluierung woher weiss man ob die Ergebnisse gut sind (Informationsbedürfnis vs. Ergebnis-(Qualität))? Wie repräsentiert man die Fragen und Dokumente? Wie bereitet man die Rertrievalmodelle auf? Unterscheidung: Information Wissen (vergleich zur Informationswissenschaft) Beispiele: Suchmaschinen-Aufzählung / Text vs. Bild Begriffe: Information, Wissen, polithetisch Vergleiichstabellen abbilden Einsatzgebiete: Dokumente auffinden, clustering,.... IR-Methoden und Anwendungen Adhoc-Suche Klassifikation Clustering Informationsextraktion (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme (weitere unterscheidbare Facetten) Sprache: mono- vs. cross-linguale Anwendungen (Google Übersetzer), cross-linguale Suche Struktur: atomare Struktur (klassisch), Feldstruktur (Literatur: Autor, Titel, Kurzfassung, Inhalt), Graph-Struktur (Websuche: Verlinkung), Baum-Struktur (Suche in XML- Dokumenten) Medien: Text, Fakten, Bilder, Audio (Sprache, Musik: Shazaam ), Video, 3d-Daten Objekte: spezialisierte Suchmaschinen nach Objekttypen, z.b. Buch-Suchmaschinen, Personen (123people, yasni), Firmen (firmenfinder) Statische/dynamische Inhalte: meist wird von statischen Inhalten ausgegangen (klassiche Web-Suche, wenn auch in bestimmten Abständen aktualisert) vs. a priori dynamische Inhalte (news.google.de, twitter.com) (wesentliche Unterschiede zu DBS sofort erkennbar) Formulierung des aktuellen Informationsbedürfnisses Iterativer Anfrageprozess potentiell viele Antworten auf eine Anfrage dadurch Rangordnung der Antworten: relevante nach vorne und Nutzerverhalten: nur erste Ergebnisse werden beachtet bei Texten und vor allem bei Bildern zeigt sich, dass z.t. die interne Repräsentation des Inhalts der Dokumente diese inadäquat ist, auf jeden Fall aber mit Unsicherheit behaftet. Was ist Information Retrieval? Informatik == ==Definition der Fachgruppe IR der Gesellschaft für (Stichpunkte der Definition von IR der Fachgruppe IR der GfI) Informationssysteme für Wissenstransfer von Wissensproduzenten zum Informations- Nachfragenden Fragestellung der vagen Anfrage und unsicherem Wissen. Vage Anfrage ist eine Anfrage deren Anwort a priori nicht eindeutig definiert ist. Fragen also nach unscharfen Kriterien, die nur durch Dialog, iterativ mit Reformulierung (in Abhängigkeit zu den bisherigen Antworten(!)) beantwortet werden könnnen. häufig müssen mehrere Datenbasen durchsucht werden für eine Anfrage Darstellungsform des Wissens im IRS prinzipiell nicht beschränkt: Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze Unsicherheit der Semantik kann vorkommen (bei Texten und multimedialen Dokumenten) gespeicherte Daten selbst können unsicher sein, oder unvollständig: oft bei technischwissenschaftlichen Sammlungen Folge dieser Problematik: Notwendigkeit zur Bewertung des Systems in Bezug auf die Unterstützung des Users bei der Lösung seines Anwendungsproblems [Infromationsbedürfnisses?] (kennzeichnende Kernpunkte) vage Anfragen unsicheres Wissen (Abstraktionsstufen von inhaltsorientierter Suche) Syntax Semantik Pragmatik

3 meist ist User an Suche auf pragmatischer Ebene interessiert, heutige IRS können dies aber kaum leisten (Dimensionen des IR) ==Abbildung von Rijsbergen== Matching: Inferenz: Modell: Klassifikation: Anfragesprache: Fragespezifikation: Gesuchte Objekte: Reaktion auf Datenfelder: Daten Information Wissen DBS enthalten Daten IRS helfen bei Suche nach Information (!) ==Unterscheidung D I W== Daten -> Information -> Wissen -> Entscheidung -> Nützlichkeit (Beispiel Linux Manuals, User möchte bestimmen Befehl ausführen und weiß nicht, wie das geht) Rahmenarchitektur für IR-Systeme Informationsbed. -> Frage-Repr. fikt/reales Obj. -> Objekt-Repr. -> Objekt-Besch ==konkretes Beispiel mit Objekt/Dokumenttext -> Reduktion durch das IRS mit ling. Stammform und Elim von Stopwords zu Repräsentation -> Beschreibung durch Term-Multimenge -> Vergleich -> Retrieval-Ergebnisse== Unsicherheit sofort ersichtlich: Ableitung der Repräsentation aus Quelle wesentlicher Faktor von Unsicherheit ( speziell bei Texten und multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden S.8) Kapitel 2: Evaluierung (letzter Absatz des vorherigen Kapitels nennt wesentliche Punkte) Evaluierung ist: Qualität der Ergebnisse vs. Informationsbedürfnis Betrachten: Erstellung von Repräsentation (von Frage und Dokumenten) Herleitungvon Beschreibungen aus den Repräsentationen (erste Absätze im Kapitel) Wichtigkeit: in diesem Teilgebiet der Informatik ist Evaluierung am Wichtigsten Komplexität: Ergebnisse können nicht nicht-expirementell beurteilt werden (zu hohe Komplexität) Vergleich: verschiedene Verfahren miteinander vergleichen Beweis: in der Literatur werden Verfahren und Modelle vorgestellt die sehr plausibel erscheinen stimmt das auch? Vergleich + Beweis: Es gibt gut scheinende, komplexe Modelle, die aber von wesentlich einfacheren in ihren Ergebnissen überboten werden. QA: Qualität messen + beurteilen Blickwinkel + Aspekte: von Usern, Käufern, Managern, Herstellern, Entwicklern ==Beispielfragen== Fazit: Geeignete Evaluierungsmethoden müssen konzipiert und durchgeführt werden 2 Eigenschaften: Reliabilität: selbe Ergebnisse, Wiederholbarkeit, dafür: ausreichende Dokumentation, repäsentative Stichproben, Elimination von Störfaktoren, möglichst Open-Source Daten zwecks Verfikation Validität: Beobachtungen sollen möglichst mit tatsächlichen Verhältnissen übereinstimmen zwecks Gültigkeit der Ergebnisse. Besonders: Frage nach Verallgemeinerbarkeit Obacht: meist stochastische Ergbenisse also nicht immer genau gleich -> ausreichende Zahl von Versuchen durchführen für Reliabilität und Validität (Verschiedene Formen von Evaluierungen je nach Phase) 1. während Entwicklung: formative und iterative Evaluierungen (Entwurfsentscheidungen) 2. Projektende: summatische E. 3. komparative E. Evaluierungskriterien Systemorientiert vs. Benutzerorientiert -> Frage-Beschr Systemorientiert: \ Fokus auf: (System-)Effizienz: Zeit/Speicher VERGLEICH -> ERGEBNISSE Benutzerorientiert: / (plural!) Fokus auf Benutzer: nahe bei Usability Benutzereffizienz Effektivität Zufriedenheit Fokus in E meist auf Effektivität, wg. Vagheit schaut man wie nah am Ideal man ist. Relevanz. (Systemorientiert) Qualitätsmaß: Relevanz. Beziehung Frage < > Antwortmenge Annahmen: Antwort = Menge von Objekten (Dokumente). Anwendung auf Rangordnung ist schon aber auch möglich keine Wechselseitigen Beziheung unter den Antwort-Objekten. (Bsp. Bedeutung eines Dokuments erst klar nach Lektüre des zweiten Doks.) Unberücksichtigt: Komplexe Beziehung zw. Frage und Antwort-Objekt 4 Arten von Relevanz: Situative R.: (tatsächliche) Nützlichkeit des Doks praktisch kaum erfassbar theoretisches Konstrukt Pertinenz: subjektiv empfundene Nützlichkeit (persönliches Relevanzurteil) Objektive: häufig bei Systemevaluierungen: ein oder mehrere Benutzer geben Relevanz an System-R.: vom system geschätzte R. des Dokuments auf Anfrage. Retrievalwert, Retrieval Status Value (RSV) ==Beispiel Handy-Kauf und ciao.de== Standpunkte und Bewertungsmaße als die andere, muss klar sein. Benutzerstandpunkte Benutzer- vs. Systemstandpunkte Maße für Ergenismengen Bewertungsmaß, was eine Distribution besser macht Recall, Precision, Fallout Hier: betrachten Retrievalbewertung der Ergebnismenge Annahme: Benutzer schaut alle Ergebnisse an. GEF := Gefundene Dokumente REL := Relevante Objekte in der DB ALL := Gesamtzahl der Dokumente in der DB REL ^ GEF Precision := p := GEF REL ^ GEF Recall := p := REL GEF - REL Fallout := p := ALL - REL Precision: Anteil der relevanten an den gefundenen Dokumenten Recall: Anteil der relevanten an den tatsätsächlich gefundenen Dokumenten Fallout: Anteil der gefundnen irrelevanten an allen irrelevanten Dokumenten der Kollektion, also wie gut kann das System irrelevante vom Benutzer fernhalten Obacht: Immer entsprechend interpretieren, da stochastisch. (Probabilistische Interpretation) Precision: approximiert, ob zufällig-ausgewähltes gefundenes Dokument relevant ist. Recall: analog, Wahrscheinlichkeit, dass ein zufällig-ausgewähltes Dokument gefunden wird. Fallout: entsprechend ==Teil über Ranggeordnete Evaluierung== Recall-Abschätzung Recall-Abschätzung nicht offen ersichtlich (vs. Precision) Nicht Erkennbar und kann auch nicht vernünftigerweise bestimmt werden. Problem: Mächtigkeit von REL Daher: Näherungsmethoden (Näherungsmethoden) Vollständige Relevanzbeurteilung [... ] Source-Dokument-Methode [... ] Frageerweiterung [... ] Abgleich mit externen Quellen [... ] Pooling-Methode [... ] Distributionen Distributionen = abstrakte Darstellungen von Retrievalantworten als Grundlage für Bewertungsmaße Bsp: Dokumentmenge Distribution (Rangordnung) vom System Relevanzbeurteilung des Nutzers Zusammenführung -> Distribution mit Relevanzurteilen > Abstraktion von spezifischen Dokumenten zur Beurteilung der Retrievalqualität > Äquivalenzklassen von Distributionen mit Relevanzurteilen. Das ist im folgenden Distributionen : Frageweise Vergleiche ==Evtl einfach Beispiele abschreiben== ( ) dist1 ( ) dist2 Wenn Precision und Recall bestimmt, dann Precision-Recall-Graph. Besseres System ist das, das sowohl höheren Recall als auch bessere Precision liefert. Mehr Recall + Schlechtere Precision -> keine Aussage möglich. F-Maß: Gängige methode (r,p)-paare durch eine einzige Zahl auszudrücken [... ] [Recall-Precision-Diagramme mit Interpolationen] Mittelwertbildung Mann muss mehrere Fragen beanworten, um fundierte Aussagen über die Qualität machen zu können -> Mittelwerte für Qualitätsmaße werden gebraucht -> 2 etablierte Methoden 1. Makrobewertung: arithmetisches Mittel der Werte für die einzelnen Fragen, z.b. für Precision: p_m = [... ] Probleme wenn einzelne Frage leere Menge yielden. Stochastische Interpretation: approximiert den Erwartungswert für die Precision bei zufällig ausgewählter Anfrage 2. Mikrobewertung: [... ] Problem der leeren Antwortmengen wird umgangen. Dokument- / Systemorientiert: jedes Dokument geht gleich stark in Mittelwert ein Stochastische Interpretation: approximiert Wahrscheinlichkeit, dass ein zufällig ausgewähltes gefundenes Dokument aus einer der N Anfragen relevant ist. (Analog für Recall und Fallout) Spezielles Problem der Mikrobewertung: fehlende Monotonie-Eigenschaft Rangordnungen Alle Retrievalmethoden liefern Rangordnung von Dokumenten (ausser Boolesches Retrieval) Frage: nur schwache oder totale (lineare) Ordnung? Hier: lineare Ordnungen. Tabelle: n Dokumentnr. rel? Recall Prec dazu: Distribution dazu: Recall-Precision-Graph dazu: Lineare Interpolation dazu: das selbe für Distribution delta_2 (dist2) > Interpolation nach Salton: Sägezähne ausgleichen (durch Extrapolation mit waagrechten) Evaluierung von interaktivem Retrieval Batch- vs. interaktives Retrieval Bisher: Batch-artiges Retrieval (Anfrage dann sofort Qualitätsbestimmung der von den einzelnen Systemen produzierten Ergebnisse). Schwächen: nur einzelne Anfrage wird betrachtet. Interaktive komponente (realistischer) wird nicht beachtet. Relevance Feedback ist die einzig mögliche Relevanzbeurteilung. Markieren relevant/nichtrelevant ist für Benutzer nicht möglich. rechhalitge Funktionalität von heutigen IRS nicht beachtet: Highlighting, Clustering...

4 bei interaktivem Retrieval können beobachtete Qualitätsunterschiede (von herkömmlichen Evaluierungen) vom Benutzer leicht kompensiert werden Fazit: sehr beschränkte Aussagekraft von Batch-Eval. Suche ist iterativer Prozess: reformulierungen von Anfragen. Relevance Feedback unrealistisch, eher Berrypicking. Problemstellung Frage nach geeigneter Repräsentationsform für Textinhalte. Problem zentral vs. DBS. Konzepte können in Texten höchst unterschiedlich formuliert sein. Also soll Repräsentationsform unterschiedliche Formulierungen auf gleiche Repräsentation abbilden (damit Recall erhöhen) UND unklare Formulierungen vereindeutigen (und Precision erhöhen). Generell 2 Lösungansätze: semantischer Ansatz: Zuordnung von Deskriptionen zu Texten. Ziel: Repräsentation, die unabhängig von konkreten Formulierungen ist. Syntax und Semantik dieser Deskriptionen in Dokumentationssprachen abgelegt. Freitextsuche keine zusätzliche Repräsentation, sondern nur Funktionen zur Verbesserung der Suche im Text der Dokumente. Freitextsuche Grundlagen Terminologie: Token, type, Morphem, Flexion, Grundform, Derivation, Stammform, Kompositum, Nominalphrase Ansätze (für Freitextsuche): informatischer Ansatz (in fast allen kommerziellen IRS): Textretrieval als Zeichenkettensuche, Funktionen auf Stringebene computerlinguistischer Ansatz: Normalisierung angestrebt (morpho-syntaktische), damit Suche sich auf Wörter bezieht Vorverarbeitung: 1. Textbereinigung: Trennzeichen etc. entf. 2. Tokenization: Trennung an Leer- und Interpunktionszeichen, schwierig bei Chinesisch 3. Stoppwortbestimmung / -entfernung: 4. Satzendeerkennung Probleme der Freitextsuche (Freitextsuche bezieht sich auf den so bereinigten Text und damit auf die übrigbleibenden Wörter): Homographen Polyseme Suchaufgaben simulated work tasks für Eval von interaktivem Retrieval im Labor. Breites Thema vs. Enges Thema vs Benutzerspezifisches, enges Thema Flexionsformen Instrumentarium: Derivationsformen think-aloud-protokolle [... ] Komposita Beobachtungsdaten [... ] Interviews [... ] Nominalphrasen Fragebögen [... ] Informatischer Ansatz Truncation- und Maskierungs- und Kontext-Operatoren (kurz: Fehleranalysen [... ] Zeitbedarf [... ] Kosten-Nutzen-Analyse [... ] Notwendigkeit der Evaluierung von interaktivem Retrieval anerkannt, jedoch Mühe gescheut. Regex-artige Operatoren), die schr$$b: schreiben, schrieben / schrauben... erlauben retrieval $ information: retrieval of information, retrieval with information loss.... -> Zeug wird dann dem User zuerst als Auswahl vorgeschlagen. Nachteile: Kapitel 3: Wissensrepräsentation für Texte User muss sich zuerst alle möglichen Varianten selbst ausdenken Überproduktion von regexes Zusammenführen von Flexions- und Derivationsformen, Computerlinguistischer Ansatz niemals perfekt, allerdings folgende Ansätze: graphematische Verfahren: Flexions- und Derivationsformen lexikalische Verfahren: multi-word-units und Bedeutungsdisambiguation syntaktische Verfahren: Identifikation von multi-word-units Graphematische Verfahren Grundformreduktion formale Grundform lexikographische Grundform (bspw Kuhlen-77-Reduktionsregel-basierte Reduktion) Stammformreduktion Angeblich für stark flektierende Sprachen wie das Deutsche weniger geeignet? Lexikalische Verfahren Lexikon muss folgende Relationen enthalten: Flexionsformen (Vollformen) Derivationsformen (zugehörige Grundofrmen) Komposita (zugehörige Dekomposition) Nachteile: Ständige Pflege des Wörterbuchs Anpassungsaufwand des Wörterbuchs bei neuer Anwendung Komposita nicht alle erfassbar (Zerlegung schwierig: Fugenelemente, ambige Zerlegungen) Syntaktische Verfahren Hauptsächlich: Identifikation von mehrgliedrigen Ausdrücken. Dazu: POS-Tagging: syntaktische Kategorie-Zuordnung. bei Vollformenlexikon schon gegeben graphematische Verfahren versuchen über Prä- und Suffixe auf Wortart zu schließen -> können auch unbekannte Wörter erkennen Parsing: Erkennen der syntaktischen Struktur. Bei Komposita reicht z.t. partielles Parsing. Obacht: Wortklassen sind nicht fest definiert! Wort kann in zwei Klassen gleichzeitig sein, d.h. man muss tiefer parsen: he goes for a walk // He is walking (walk./) Statistisch lassen sich diese Ergebnisse verbessern (Tagger ca 77% exakt.) Dazu: Parsing / partielles Parsing, bessere Ergebnisse durch Reduktion auf Head-Modifier- Strukturen (Prädikat-Argument-Strukturen?) (z.t. geschachtelt.) Matching-Prozess bei Head-Modifier Strukturen: 1. alles in HMS überführen 2. Test, ob Anfragewort enthalten: (((semistructured, data), retrieval), system) enthalten: (retrieval, system), (data, retrieval) nicht enthalten: (retrieval, data) Suche nach Tür : findet: Haustür, Zimmertür findet nicht: Türschloss Dokumentationssprachen überwinden. Dokumentationssprachen sollen Nachteile der Freitext-Suche Allgemeine Eigenschaften Ziel: Unabhängige Repräsentation von konkreter sprachlicher Formulierung Hilfsmittel: Spezielles Vokabular: soll Mehrdeutigkeiten und morphologische und syntaktische Schwierigkeiten vermeiden. Hier: zwei klassische Arten von Dokumentationssprachen - Klassifikationen - Thesauri - RDF (modern) Klassifikationen Zuordnung von Dokument zu einer Klasse. Schwäche: Dokumente gehören Retrieval gerne zu zwei Klassen. Beispiele: LCC: Library of Congress Classification [... ] Eigenschaften von Klassifikationssytemen Monohierarchie - Polyhierarchie (einei Klasse kann mehrere Superklassen haben) Monodimensionalität - Polydimensionalität: [... ] {bei Schulz nachschauen} analytische vs. synthetische Klassifikation Yahoo-Klassifikation nicht Baum sondern Graph (DAG), d.h. Verweise von einer Kategorie in andere Dezimalklassifikation bekanntestes Beispiel für Klassifiaktionssyteme. Geht zurück auch Dewey Decimal Classification(DDC), 1876 Melvil Dewey, geplant als Universalklassifikation. Erweitert zur Universellen Dezimalklassifkation (DK) von Paul Otlet und Henri Lafontaine (Belgien) Eigenschaften: Hierarchisch gegliedert, maximaler Verzweigungsgrad 10. Gesamt: Klassen. Facettierung durch Anhängezahlen Sonderzeichen zur Verküpfung mehrerer DK-Zahlen Klassen: 0. Allgemeines 1. Philosophie 2. [... ] Computing Classification System (CCS) Verwendet von ACM. general terms für Facettierung classification codes: stellen dreistufige monohierarchische Klassifikation dar subject heading: innerhalb von Klassen zur weiteren Untergliederung free terms: können hinzugenommen werden. Thesauri [... ] Ontologien Sehr populär geworden in letzten Jahren, im Zuge von Semantic Web: RDF Schema (Resource Description Framework, vom W3C vor 10 Jahren schon vorgestellt) und neuer: OWL (Web Ontology Language). Ontologie vereinigt Datenbankschemata und Thesauri: Begrissheriarchien und Relationen zw. Begriffen von Thesauri. Von DB-Schemata: Attribute, Beziehungstupen und insbesondere die Möglichkeit, Instanzen zu Konzepten zu bennen, wobei die möglichen Instanzen durch Bezugnahme auf Datentypen eingeschränkt werden können Ontologien: Konstrukte Ontologie bereit: Konzepte/ Klassen: Konzepte werden als Klassen aufgefasst Vererbungsbeziehungen Eigenschaften/Relationen/Slots: bei Vererbung vererbt Instanzen: füllen die Ontologie (mache Sprachen lassen noch eigene Regeln definieren) Ontologiesprachen stellen folgende Konstrukte zur Definition einer Suche anch Instanzen: Studenten mit mehr als 8 Semestern die IR hören Werkzeuge und Anwendungen Ontologie-Editoren. Wiederverwendung von Ontologien -> Ontologie-Biblioitheken Dokumentationssprachen vs. Freitext Vorteile: - Recall kann erhöt werden durch Abbildungen verschiedener Textformulierungen - dadurch: kontrolliertes Vokabular -> keine mehrdeutigen Begriffe -> höhere Precision - größere Benutzerfreundlichkeit Nachteile: - Benutzung setzt Kenntnis der Dokumentationssprache vorausm zu hohe Hürde für gelegentliche Benutzer - z.t. Granularität zu hoch, bei spezifischen Anfragen schlechtere Precision - (meist) manuelle Klassifikation: Einarbeiten neuer Dokumente in Datenbasis sehr teuer. Aufwand bei Recherchen dagegen billiger. Beurteilung der Verfahren zur Repräsentation von Textinhalten Vorteile von Dokumentationssprachen wissenschaftlich sehr umstritten (unzureichende experimentelle Basis). Oft aber Freitextsuche ebenso gut (Studien sehr alt und nicht realistisch mit 1400 Dokumenten). Bei geographischen und Datumsangaben aber beisst Freitextsuche aus. Anfänglicher Optimismus von wissensbasierten Ansätzen daher heute stark gedämpft semantic

5 web hat Nachweis auch noch nicht erbracht, dass sie für DB mit realistischer Größenordnung traditionellen Ansätzen (bspw. Thesauri) überlegen sind. Syntaktische Verfahren sind wohl hauptsächlich für die Identifikation von Nominalphrasen einsetzbar Maschinenlesbare Wörterbücher immer mehr verfügbar. Nutzung (von Forschergruppen!) zur Disambiguierung. Zusammenhang zwischen Modellen und Repräsentationen Kapitel 4: Nicht-probabilistische IR-Modelle [... ] [kann man auslassen] Notation Dokumente D, Anfragen Q, Relevanzbeziehung zwischen beiden -> Relevanzurteile R. Dokumentrepräsentationen D, Anfragerepräsentationen Q durch Abbildungen α D und α Q. Dokumentrepräsentationen kann z.b. Menge von Terms sein mit zugehörigen Vorkommenshäufigkeiten Anfragerepräsentationen kann z.b. boolescher Ausdruck mit Terms als Operatoren sein Überführung der beiden in Beschreibungen Q D und D D, vergleich mit Retrievalfunktion φ, Erebnis: reelle Zahl. Im Folgenden: verschiedene Retrieval-Modelle, diese können sich unterscheiden in: Retrievalfunktion zugrundeliegenden Repräsentationen abgeleiteten Beschreibungen theoret. Basis Bezug zur Retrievalqualität gewichtete Indexierg gewichtete Frageterme Fragestrukt. linear Fragestrukt. boolesch Überblick über die Modelle Boolesches Retrieval Historisch erstes Retrieval-Modell, bis heute nicht in Frage gestellt, nur funktionale Erweiterungen, geboren aus Hardwareanforderungen ungewichtete Indexierungen Frage-Beschreibungen boolesche Ausdrücke (nach best. Regeln gebildet) Retrieval-Funktion analog rekursiv definiert Retrieval-Gewichte ausschließlich 0 oder 1 -> Zweiteilung der Dokumente: gefunden/nichtgefunden Mächtigkeit der booleschen Anfragesprache (theoretischer) Vorteil: Mächtigkeit: beweisbar, dass jede bel. Teilmenge selektiert werden kann (Voraussetzung: jedes Dokument muss unterscheide Indexierungen/Beschreibungen besitzen). Vorgehensweise: * Frageformulierung * Selektion wie folgt: * Frageformulierung für jedes Dokument, das nur dieses Dok selektiert * danach disjunktive Verknüpfung dieser Teilfragen nur theoretischer Vorteil deswegen: Benutzer kann nicht wissen wie die relevanten Dokumente aussehen und kann daher Anfrage nicht nach hier skizzierter Vorgehensweise forumulieren Nachteile des booleschen Retrieval Klar: ungeeignet Gründe: Größe der Antwortmenge schwer zu kontrollieren keine Ordnung der Antwortmenge nach mehr/weniger relevant keine Möglichkeit zur Gewichtung der Frageterme keine Möglichkeit zu gewichteter Indexierung 0-1 gef/nicht-gef. zu streng umständliche Formulierung der Anfrage schlechte Retrieval-Qualität Boolesch Fuzzy Vektor Probabilistisch Sprachmodelle Einsatz dennoch in best. Gebieten, z.b. Patentrecherche, Patentstreitigkeiten (Frima muss Doks Boolesche Fuzzy VRM Wahrscheinlichk. statistische herausgeben, SM die best. Formulierungen enthalten) Logik Logik Modell theorie Fuzzy-Retrieval Ansatz, um Nachteile des Booleschen Retrievals zu überwinden (hier auch (x) x gewichtete (x) Indexierungen), Retrievalfunktion liefert reelle Zahlen [0..1], dadurch Rangordnung. Beurteilung: Fuzzy-Operator schneidet immer noch schlecht ab und es gibt dann noch Extended Boolean Retrieval aber insgesamt ist einfach an der Stelle VRM besser. x x x Beurteilung x des Fuzzy-Retrieval Vorteile Generaliserung des Boolean Retrievals: Rangordnung der Dokumente durch gewichtete (x) x x Indexierung Nachteile x Keine Fragetermgewichtung. Vorschläge dazu ja, überzeugend nein, am besten noch x x xextended Boolean Retrieval immer noch schlechte Retrievalqualität ggü VRM x x (x) (x) genauso komplizierte Frageformulierungen wie bei Boolean Retrieval. Das Vertorraummodell bekanntestes Modell des IR. Entwickelt seit 1961, SMART Projekt, Table 1: IR-Modelle Salton in Harvard, später Cornell, dann weiterentwickelt von Wong und Raghavan (1986). Dokumente und Fragen sind Punkte in Verktorraum, aufgespannt durch Terme der Datenbasis. Retrieval sucht nach Dokumenten deren Vektoren ähnlich sind. orthonormaler Vektorraum alle Term-Vektoren orthogonal (damit linear unabhängig) alle Term-Vektoren normiert. damit Dimensionalität T Dokument-Beschreibung ähnlich wie bei Fuzzy-Retrieval: gewichtete Indexierung. Frage-Beschreibungen gleiche Struktur. Retrievalfunktion: verwendet verschiedene (Vektor-)Ähnlichkeitsmaße (z.b. Kosinus), meistens wird mit Skalarprodukt gearbeitet. Coordination Level Match Vereinfachte Variante des Vektorraummodells: Frage- und Dokumenttermgewichtung können nur binäre Werte 1 oder 0 haben, damit Frage- und Dokumentbeschreibung wie bei Booleschem Retrieval (hier: binäre Vektoren). Retrievalfunktion verwendet dann meist Skalarprodukt: dadurch zählt die Retrievalfunktion die Anzahl der Frageterme, die im jeweiligen Dokument vorkommen. Relevance Feedback Veränderung der ursprünglichen Termgewichte -> neue Fragevektoren. Grundidee: Fragevektor zeigt im Vektorraum vom Zentroiden der irrelevanten Dokumente zum Zentroiden der relevanten Dokumente. Ziel nun: Fragevektor ermittelt aus tfidf-produkt (Skalarprodukt der Retrievalfunktion) -> maximieren dahingehend dass Vektor möglichst gut relevante und nicht-relevante Dokumente trennt. Rocchio-66 stellt ein Verfahren vor, der die Differenz der RSVs zwitschen rel und nichtrel maximiert. Dafür gibt es ein Optimierungskriterium mit einer Formel [... ]. Wie: ursprünglichen Fragevektor nehmen, Relevanz/Nicht-Relevanz-Ergebnisse nehmen, damit die Terme im ursprünglichen Fragevektor neu justieren, so dass maximales Erbenis entsteht. Optimierungsformel: 1. Formel [... ] 2. zusätzlich mit Nebenbedingung: Betrag es Fragevektors muss beschränkt werden. 3. Jetzt: Extremwertproblem mit Randbedingung: Lösen mit Lagrange-Multiplikator. 4. Zur Lösung nun alle partiellen Ableitungen von F nach Komponenten q i des Fragevektors auf 0 setzen, zusätzlich muss Nebenbedingung gelten. 5. Dann kann man noch zusätzlich den Fragevektors auf einen bestimmten Wert setzen und dann ergibt sich ein optimaler Fragevektor. 6. Der optimale Fragevektor ist somei der Verbindungsvektor der beiden Zentroiden der relevante bzw. irrelevanten Dokumente Allerdings: optimaler Fragevektor stellt nicht immer bestmögliche Lösung dar (bezogen auf die Retrievalqualität). Support Vector Machines können dies besser, sind aber auch aufwendiger. Dokumentindexierung VRM macht keine Aussagen, wie die Dokumentbeschreibung zu erstellen ist. Heuristischer Verbesserungsvorschlag von Rocchio: rel und irrel Doks unterschiedlich Im SMART-Projekt wurden heuristische Werte Indexierungsgewichte entwickelt, diese sind sehr leistungsfähig. Gewichtungsformel hier ist relativ neu. Datengrundlage: Bag of terms. Parameter: d T m: Menge der in d m vorkommenden Terms l m : Dokumentlänge von d m (# Wörter) al: durchschnittliche Dokumentlänge tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt gewichten: d,.h. Vektor zum Zentroider der irrel Doks weniger stark in Lösung einfließen lassen. Intuitiv: rel Doks weisen idr höhere Indexierungsgewichte auf als irrel Doks, damit wird der Fragevektor in die richtige Richtung gedreht. Generelle Vorgehensweise also: 1. Retrieval mit Fragevektor vom Benutzer 2. Relevanzbeurteilung der obesten Dokumente der Rangordnung 3. Berechnung des verbesserten Fragevektors aufgrund der Feedback-Daten 4. Retrieval mit verbessertem Vektor 5. Evtl Wdh der Schritte 2-4 N: # Dokumente der Kollektion Komponenten der Gewichtung Beurteilung des VRM Vorteile idf: Inverse Dokumenthäufigkeit (desto höher je seltener ein Term in der Kollektion VRM ist ein relativ einfaches Modell: durch einfache Frageformulierung besonders vorkommt) Nutzerfreundlich Modell unmittelbar auf Kollektion anwendbar: probabilistische Modelle erfrodern dagegen idf i = log N teilweise zuerst das Sammeln von Relevance-Feedback-Das für eine Menge von Fragen, ni bevor sie sinnvoll eingesetzt werden können N + 1 Moidell liefert in Kombination mit den SMART-Gewichtungsformeln sehr gute Retrievalqualität normalisierte Vorkommenshäufigkeit ntf i : gewichtet Terme entsprechend ihrer Vkh im Dokument. Doklength von allen geht mit ein, Doklength auszugleichen endgültiges Indexierungsgewicht tfidf aus Produkt der beiden Nachteile zu viele heuristische Komponenten: bleiben diese gültig bei Wechsel der Kollektion (zb Volltexte statt Kurzfassungen)? w mi = ntf mi idf mi Dokumentrepräsentation kann nur schlecht erweitert werden durch heuristische Berechnung der Indexierungsgewichte: man braucht erst umfangreiche Experimente wenn man zb den Titel stärker gewichten will, also um die richtige Gewichtungsformel zu finden Modell nimmt keinerlei Bezug zur Retrievalqualität. Warum dieses oder jenes Dokument rel oder nicht-rel ist, lässt sich nicht theoretisch begründen Kapitel 5: Probabilistische IR-Modelle Einführung Nochmal: viel schwierigere Situation bei IRS ggü DBS: inhärente Unsicherheit vs. eindeutige, präzise Frage mit eindeutig definierter Antwort.

6 IR ist grundlegend approximativ und zudem keine Vorschrift, was Antwort auf Frage ist. Probabilistische Modelle haben sich hier als erfolgreichste Modelle erwiesen. Geschichte: relevanzorientierte Modelle (seit 1960ern), heute statistische Sprachmodelle (seit 1998) #### Das Binary-Independence-Retrieval-Modell Klassisches, populärstes IR-Modell, relevanzorientiert. ##### Herleitung Relevanzorientiert: versucht Wahrscheinlichkeit zu schätzen, dass dokument relevant ist bzgl der aktuellen Anfrage q, dazu Verteilung der Terme in der Kollektion betrachten. Voraussetzung: Anname, dass die Verteilung in den rel./nicht-rel. unterschiedlich ist. Relevanzwahrscheinlichkeit wird mit Hilfe von 2 Transformationen berechnet: 1. Bayes sches Theorem: P (a b) = P (b a) P (a)/p (b) 2. Verwendung von Odds (Chancen) anstelle von Wahrscheinlichkeiten, wobei O(y) = P (y)/p (ȳ) = P (y)/[1 P (y)]) Damit lässt sich Chance berechnen, dass ein Dok rel zu Anfrage q ist, basierend auf seinem binären Vektor x Parameterabschätzung Beispiel BM25 Statistische Sprachmodelle Sprachmodell von Zahi und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen Das Probabilistische Ranking-Prinzip Kapitel 6: Interaktives Retrieval Ebenen-Architektur von IR-Systemen Ebenen-Modell: 1. physische Ebene: Datenstrukturen und Algorithmen 2. logische Ebene: wesentliche Suchfunktionalität des Systems durch IR-Modell 3. syntaktische Ebene: Betrachtung von syntaktischen Objekteigenschaften (Text als String, Bilder als Pixelmatrix) 4. semantische Ebene: Beschäftigung mit den im Dokument dargestellen Objekten und Beziehungen zwischen diesen (v.a. wie bei Dokumentationssprachen und Ontologien) 5. pragmatische Ebene: fokussiert Anwendungszweck unter dem Dokument betrachtet wird. Wichtig bei Beurteilung der Relevanz 6. kognitive Ebene: Unterstützung des Benutzers bei Suchprozess 7. Benutzerschnitstelle Zu beachten: Nie alle Ebenen vorhanden, Nutzer muss diese übernehmen, v.a. Semantik + Pragmatik enge Verzahnung, keine konkreten Trennlinien. Rest des Kapitels: Kognitive Ebene. Information Seeking Behavior Information Seeking Behavior und Information Searching fundiertem Modell des Nutzerverhaltens bei Informationssuche. Annahmen die bisher hier gemacht wurden: Frage nach empirisch klassisches Modell: Nutzer sucht in unstrukturierten Datenbeständen, mit vagem Informationsbedürfnis, bei unsicherer Repräsentation der Inhalte systemorientiert: Nutzer ist Orakel und beurteilt relevant/irrelevant statisches Informationsbedürfnis Dagegen: interaktives Information Retrieval (IIR): Interaktion des Nutzers mit dem System im Vordergrund, dh. Änderungungen des Informationsbedürfnisses Zwei Betrachtungsweisen in IIR: Information Seeking Behavior: breitere Sicht auf Informationssuche: Verhalten, Motivation und Vorgehen des Benutzers werden modelliert. Information Searching: Fokus auf Interaktion des Benutzers mit Informationsquellen im Allgemeinen. Quellen können auch Umfeld sein. Ellis Behavioural Model of Information Seeking Strategies populärer Ansatz, generelles Modell zur Beschreibung des Suchverhaltens. Starting Chaining Browsing Differentiating Monitoring Extracting Verifying Ending Suche nicht sequentiell (1-4 Suchprozess, ab Differentiating Filterung) Dann Wiederholung und Überprüfung von Meho und Tibbo 2003: bestätigt Ellis, erweitert um 3 Kategorien: Accessing Networking Information Managing Auf Grundlage solcher Modelle lassen sich nun bessere Informationssysteme bauen Information Searching Interaktino des Benutzers mit der Informationssystem. Lassen Informationsbeschaffung und Informationsmanagement ausser Acht. Einfache Modelle für den Suchprozess 1. Information Need 2. Query 3. Send to System 4. Recieve Results 5. Evaluate Results 6. Done? a. No: Goto 2 b. Yes: Goto 7 Klassisches Modell: 7. Done Annahme: Nutzer verbessert Anfrage so lange bis er ein zufriendestellendes Ergebnis bekommt. Tatsächlich aber Suche eine Serie von von zusammenhängenden aber unterschiedlichen Suchen -> Berrypicking Modell (Kontinuierliche Verschiebung des Informationsbedürfnis + der Anfragen, Informationsbedürfnis kann nicht durch eine einzige Antwortmenge befriedigt werden, Folge von Selektionen und Aufsammeln von Informationsbrocken). Aufgabe Ziele und Absichten Suchhistorie Arten von Infromationsobjekten weitere unerfassbare Faktoren Gute Informationssysteme sollten daher Schnittstellen zu den Aktivitäten Suchen Browsen Interpretation Modifikation Beurteilung der Ergebnisse liefern Methode (Art der Interaktion): Scannen... Suchen Modus (kann Benutzer erkennen oder spezifizieren?): Erkennen... Spezifizieren Objekte mit denen interagiert wird: Ebene: Information.... Meta-Information Medium: Text, Bilder, Sprache, Video,... Quantität: 1 Objekt, Menge von O, Datenbasis Gemeinsame Dimensionen der Interaktion Belkins Episodic Interaction Modell Komplexeres Modell vs. klassiche System mit best match Prinzip : Annahme vs anderen Benutzer kann nicht Informationsbedürfnis nicht exakt Informationsobjekte: Teile.... vollständige Objekte formulieren: Anomalous State of Knowledge (ASK). Dieses Modell umfasst weitere Stadien als Systematik: zufällig.... systematisch die von Ellis, Meho/Tibbo gegebenen Suchphasen (bilden nur Kernphase der Suche ab) Unterschiedliche Formen der Interaktion und Suchstrategien werden durchlaufen Grad: selektiv... Abhängig von Faktoren wie Ostensive Retrieval ostensive = Definition bei Pointing. Idee: iterative spezifizierung, Informationsbedürfnis kann sich währen Suche verändern, dem User werden immer mehrere Informationobjekte gezeigt User wählt aus neue Informationsobjekte werden gezeigt es ergibt sich Pfad neue Objekte werden mit gängigem Relevance Feedback generiert Ingwersen s Cognitive Model Andere Richtung als Belkin, globale Perspektive: Modell umfasst alle beeinflussbaren Faktoren mit denne Benutzer interagiert: Umfeld, UR-System Informationsobjekte Benutzerschnitstelle Benutzer selbst. Also: Modell befasst sich mit kognitiven Strukturen Proaktivität in IR-Systemen Mögliche Strategie zur Unterstützung: Polyrepräsentation. Im einfachsten Fall: Informationsbedürfnis durch mehrere Anfragen repräsentieren Komplizierter: bei Handbüchern Wie installiere ich einen Drucker? Daher: IR-System erstellt verschiedene interne Repräsentationen für Informationsobjekte und gleicht diese mit konkreten Bedürfnissen des Nutzers ab. Klassifikation von Suchaktivitäten Andere Herangehensweise zur Entwicklung Benutzerfreundliciher IR-Systeme durch Klassfikation von Suchaktiviäten. Grundiedee: Anpassung des Zusammenfassung zu kognitiven Methoden Benutzerinterface. Zugriff Strategische Unterstützung Jede der Such-Phasen des Benutzers sollte unterstützt sein, d.h. Interaktionsmöglichkeiten zur Verfügung stellen. Wegweisend: Marcia Bates zur stategische Unterstützung, und zur Integration der genannten Modelle. Hier: Ideen. Suchaktivitäten und ihre Unterstützung Move elementare Aktion oder identifizierbarer Gedanke Taktik zielorientierte Aktion zur Verbesserung des Suchergebnisses. In der Regel mehrere Moves. Bsp: Auswahl von Synonymen zur Erweiterung der Suchanfrage bei zu wenigen Ergebnissen, Einengung durch spezielle Begriffe Strategem ( Kriegslist ) mehrere Taktiken um Informationsstrukturen in einer Domäne zu nutzen. Bsp: Navigieren in Inhaltsverzeichnissen einer Zeitschrift, Verfolgen von Referenzen und Fußnoten, auch: inhaltsorientierte Suche durch Folge von Anfragen Strategie umfassender Plan zur Befriedigung eines Informationsbedürfnisses, enthält alle 3 oberen. Bsp: Suche nach Literatur zu Seminarthema: man beginnt bei inhaltsorientierter Suche, folgt Autoren, liest weitere Artikel dieser Autoren Witz ist: meiste IR-System erlauben nur Moves, Rest muss Benutzer selbst übernehmen. Momentan fokussiert sich Forschung auf proaktive Unterstützung von Taktiken Hier: Ansätze zur proaktiven Unterstützung von Taktiken und Strategemen. Daffodil-System macht Rechtschreibkorrektur etc., extrahiert Autoren und unterstützt Nutzer mit Taktiken. Diese gelangen zu wesentlich besseren Ergebnissen, treffen bessere Entscheidungen. Fuhr et al. unterstützen mit case based reasoning und bieten passende Taktiken aus einem set von Taktiken an. Benutzer sind zufriedener und finden signifikant mehr relevante Dokumente. Ausgangspunkt Information Seeking Behavior und IRS-Interaktionsbezogenem Information Searching. ISB sollten als Grundlage genommen werden um neue Systeme zu entwickeln die alle Phasen der Informationbeschaffung unterstützen. Information Searching trägt zu iterativem Aspekt bei, Versuchen zahlreiche Einflussfaktoren mitzuberücksichtigen (wichtig für Qualitätsverbesserungen)