Information Retrieval Zusammenfassung

Größe: px
Ab Seite anzeigen:

Download "Information Retrieval Zusammenfassung"

Transkript

1 Information Retrieval Zusammenfassung Daniel Bruder Oct/Nov 2012 Contents 1 IR Brainstorming Grundbegriffe Verwandte Gebiete / Verwandte Begriffe Grundbegriffe zur Nutzerinteraktion Geschichte Teilgebiet Websuchmaschinen Anwendungsgebiete Fuhr-Skript Kapitel 1: Einführung (eigene Zusammenfassung) IR-Methoden und Anwendungen (weitere unterscheidbare Facetten) (wesentliche Unterschiede zu DBS sofort erkennbar) Was ist Information Retrieval? (Stichpunkte der Definition von IR der Fachgruppe IR der GfI) 4 (kennzeichnende Kernpunkte) (Abstraktionsstufen von inhaltsorientierter Suche) (Dimensionen des IR) Daten Information Wissen Rahmenarchitektur für IR-Systeme Kapitel 2: Evaluierung (letzter Absatz des vorherigen Kapitels nennt wesentliche Punkte).. 5 (erste Absätze im Kapitel) (Verschiedene Formen von Evaluierungen je nach Phase)... 5 Evaluierungskriterien Relevanz Distributionen Standpunkte und Bewertungsmaße Benutzerstandpunkte Benutzer- vs. Systemstandpunkte Maße für Ergenismengen Recall, Precision, Fallout Recall-Abschätzung Frageweise Vergleiche Mittelwertbildung Rangordnungen Evaluierung von interaktivem Retrieval Batch- vs. interaktives Retrieval Suchaufgaben Kapitel 3: Wissensrepräsentation für Texte Problemstellung Freitextsuche Grundlagen Informatischer Ansatz Computerlinguistischer Ansatz Dokumentationssprachen Allgemeine Eigenschaften Klassifikationen Thesauri Ontologien Ontologien: Konstrukte Retrieval Werkzeuge und Anwendungen Dokumentationssprachen vs. Freitext Beurteilung der Verfahren zur Repräsentation von Textinhalten Zusammenhang zwischen Modellen und Repräsentationen Kapitel 4: Nicht-probabilistische IR-Modelle Notation Überblick über die Modelle Boolesches Retrieval Mächtigkeit der booleschen Anfragesprache Nachteile des booleschen Retrieval Gründe: Fuzzy-Retrieval Beurteilung des Fuzzy-Retrieval Das Vertorraummodell orthonormaler Vektorraum Coordination Level Match Dokumentindexierung Relevance Feedback Beurteilung des VRM Kapitel 5: Probabilistische IR-Modelle Einführung Parameterabschätzung Beispiel BM Statistische Sprachmodelle Sprachmodell von Zahi und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen Das Probabilistische Ranking-Prinzip Kapitel 6: Interaktives Retrieval Ebenen-Architektur von IR-Systemen Information Seeking Behavior Information Seeking Behavior und Information Searching Ellis Behavioural Model of Information Seeking Strategies.. 11 Information Searching Einfache Modelle für den Suchprozess Belkins Episodic Interaction Modell Ingwersen s Cognitive Model Klassifikation von Suchaktivitäten Ostensive Retrieval Strategische Unterstützung Suchaktivitäten und ihre Unterstützung Proaktivität in IR-Systemen Zusammenfassung zu kognitiven Methoden IIR-PRP: Probabilistisches Ranking Prinzip für Interaktives IR Ansatz / Anforderungen an IIR-PRP Kapitel Kapitel 8: Implementierung von IR-Sytemen Aufbau von IRS Funktionale Sicht Dialogfunktionen herkömlicher IRS (klassische Funktionen eines IRS) 13 Dokumentarchitekturen Zugriffspfade Scanning Ähnlichkeit von Zeichenkettern Invertierte Listen Signaturen PAT-Bäume Schulz-IR-Skript Was ist IR? Typische IR-Suchszenarien Verwandte Arten der Infromationssuche und benachbarte IRS Verwandte Disziplinen Teilaufgaben beim Design eines IRS Klassische, nicht-probabilistische Modelle des IR Dokumentrepräsentation durch Keyword-Vektoren (Term-Dokument-Matrix) (Invertierte Liste) (Auswahl von Keywords: Zipfsches Gesetz nutzbar) Boolesches Retrieval Fuzzy Retrieval Das Vektorraum-Modell Grundprinzip des VR-Modells Formen der Termgewichtung Ähnlichkeitsmaße Relevanz-Feedback und Anfrage-Modifikation Recall-Erhöhung Implementierungsprinzipien und effiziente Ranking-Berechnung 15 Pruning und vereinfachte Berechnung von Ranking-Werten mit thresholding Vor- und Nachteile des VRM Dokumenten-Clustering Probabilistische Modelle des IR Evaluierung von IRS Anwendungen von Methoden der Sprachverarbeitung im IR Probleme einer naiven Indexierung Normalisierung einzelner Wortformen Komposita-Behandlung Behandlung von Mehrwortlexemen Phrasen-Parsing Thesauri Wortnetze Dokumentation, Meta-Information, Begriffssysteme, Wissensressourcen 15 Versuch eines Orientierungsrahmens Beispiele für Klassifikationsschemata Metadaten im Web Begriffshierarchien Mehr zu Konzepthierarchien und Ontologien WordNet als Brück zwischen Ausdrücken und Konzepten EFGT Netze Nawendungen Die Wikipeida als Wissensressource für das IR Methoden der Dokumentenklassifikation Einleitung Textvorbereitung und Textrepräsentation Rocchios Algorithmus Ripper

2 Support Vector Machines Structured document retrieval Introduction Using document structure: what, how and why Markup languages and structure of XML documents the PAT system Region algebra formalisms Tree matching with complete answer aggregates Structured Document Retrieval and Ranking of Answers Websuche Unterschiede zwischen Web0Suche und konventioneller IR-Situation 16 Prinzipielle Architektur einer Websuchmaschine Web-Crawling Indexierung Ranking mittels Link-Analyse Spezielle Webanwendungen Digitale Bibliotheken Tuebinger Online-Kurs Weitere Gebiete Teilgebiet_1 raussuchen Teilgebiet_2 raussuchen Latent Semantische Indexierung von Estelle Visual inter-dings von Estelle Glossar Fragen (potentiell) (interessant) Colophon IR 1. IR a) Fuhr-Skript Kap 1-6 sowie 8, s. Internet (Einführung,IR- Konzepte,Evaluierung,Wissensrepräsentation für Texte,Nicht-probabilistische IR- Modelle,Probabilistic Models in Information Retrieval, Implementierung von IR- Systemen) b) Tuebinger Online-Kurs mit guest,guest einloggen, Online-Kurs auch unter oder c) IR im Web nach meinem Skript. (Achtung: Das Skript ist in Teilen ausfuehrlicher als der Online Kurs und geht z.b. auf Rankingmethoden bei der XML-Anfrage ein!! Auch diese sind moeglicher Pruefungsinhalt! Zu vielen Gebieten sind darueberhinaus im Skript" nur die Ueberschriften angegeben. Hier sollten Sie sich eigenstaendig weitere Materialien besorgen! Beispiel: Metadaten und Semantic Web (hier finden Sie im Ferber-Buch einiges) " 1.1 Brainstorming IR ist grundsätzlich Finden von relevanten Dokumenten bei vagen Suchbegriffen auf unstrukturierten, vagen Dokumenten, vagen Dokumenten-Basen Grundbegriffe Vage Dokumenten-Basen / vage Anfragen Im Gegensatz zu DBS (Datenbank-Systemen) ist die Aufgabe des Information Retrieval natürlichsprachige (vs. Strukturierte Anfrage- Sprache mit Strukturierter DB) Anfragen auf die Datenbasis aus unterschiedlichen Dokumenten (klassisch: Text. modern: Bild, Ton, Film) so abzubilden, dass die der Anfrage relevanten Dokumente gefunden werden. Dazu gehört: Modell (probabilistisch, nicht-probabilistisch), Ranking, Vorverarbeitung, nachträgliche Methoden, Stemming, Lemmatization,... Wissensrepräsentation Die unstrukturierten, vagen Dokumente müssen auf eine Ebene transformiert werden, die es den Modellen erlaubt, die relevanten Dokumente zu finden. Die Wissensbasis muss in eine Repräsentationsform überführt werden, die einem Wissens- Modell entspricht. Probabilistische Modelle BIR, BM25, Statistische Sprachmodelle (Zhai, Lafferty), Probabilistisches Ranking-Prinzip Nicht-Probabilistische Modelle Boolesches Retrieval, Fuzzy-Retrieval, Vektorraum-Modell (VRM) Eminent wichtig beim IR ist die Evaluierung. Da der Unterschied zu relationalen DBS der ist, dass die Ergebnisse nicht exakt bestimmt sind, ist es wichtig, Methoden und Maße zu finden, um die Ergebnisse des Modells beurteilen zu können. Evaluierung In der Evaluierung werden Maße vorgestellt welche die Güte der gefundnen Dokumente (bzgl ihrer Relevanz) beurteilen und vergleichen lassen. Die eingeführten Maße sind: Precision, Recall, Fallout. Darauf lassen sich Rangordnungen aufbauen. Verwandte Gebiete / Verwandte Begriffe IR hat auch viel mit der Benutzer-Interaktion zu tun (siehe auch Interaktives Retrieval), daher hat die IR als angrenzendes Gebiet unter anderem Behavioral Models zum Teilgebiet, Informationsmanagement, Weiteres verwandtes Gebiet: web crawling Grundbegriffe zur Nutzerinteraktion [... ] Geschichte IR hat sein erstes Kerngebiet gehabt in der Informationssuche in Bibliotheksdatenbanken. Teilgebiet Websuchmaschinen Sehr bald aber wurde es zentral in allen Gebieten der Websuchmaschinen. Dennoch gibt es sehr viel mehr mögliche Einsatzgebiete (siehe auch Anwendungsgebiete). Da die lingua franca des Webs (X)HTML ist, sind XML- und SGML-basierte (Teil-)Strukturierte Dokumente auch mit Teil-Gebiete des IR. Zum Teil kann man diese (Teil- )Strukturierten Dokumente als eine Mischform zwischen rein textlichen und DB-basierten Wissens-(Dokument-)-Basen auffassen (Beispiel: Preisauszeichnung bei Produkten). Anwendungsgebiete Weitere Anwendungsmöglichkeiten des IR sind Text-Klassifikation Text-Clustering 1.2 Fuhr-Skript Kap 1-6 sowie 8, s. Internet (Einführung,IR- Konzepte,Evaluierung,Wissensrepräsentation für Texte,Nicht-probabilistische IR-Modelle,Probabilistic Models in Information Retrieval, Implementierung von IR-Systemen) Kapitel 1: Einführung (eigene Zusammenfassung) Teilgebiet von: IR ist Teil der Informatik. Ursprüngliche Verwendung: Literatur- und Patent-Recherche Seit: 1990 erst richtig bekannt. Grund: Davor haben nur speziell ausgebildete Rechercheure diese IRS benutzt, dann kamen die User des WWW dazu. Folge: Mittlerweile breites Spektrum an IR-Anwendungen Gag: Nutzern ist zumeist gar nicht bewusst, dass sie ein IRS benutzen Im IR geht es darum die relevantesten Dokumente für Anfragen zu finden. Dabei sind die Anfragen wenig konkret, bzw. unsicher und, was die beste Antwort ist, ist ebenso nicht ganz komplett sicher. Daher stehen IR-Systeme im Gegensatz zu DB-Systemen. In DB-Systemen sind die Daten konkret (isv XXX) und die Anfragen formal. IR-Systeme funktioneren so, dass sie die Eingangs-Daten entsprechend vorbereiten (Represätentation) und dann verdichten zu einer Beschreibung. Das selbe passiert mit der Anfrage (Lemmatizing, Stemming, etc.) Beispiel-Satz: Der Hund jagt den anderen Hund (der/1) (Hund/2) (....) Dann wird der Input Satz auf die vorhandenen Dokumentet gematcht. Wichtig ist jetzt: Evaluierung woher weiss man ob die Ergebnisse gut sind (Informationsbedürfnis vs. Ergebnis-(Qualität))? Wie repräsentiert man die Fragen und Dokumente? Wie bereitet man die Rertrievalmodelle auf? Unterscheidung: Information Wissen (vergleich zur Informationswissenschaft) Beispiele: Suchmaschinen-Aufzählung / Text vs. Bild Begriffe: Information, Wissen, polithetisch Vergleiichstabellen abbilden Einsatzgebiete: Dokumente auffinden, clustering,.... IR-Methoden und Anwendungen Adhoc-Suche Klassifikation Clustering Informationsextraktion (Text-)Zusammenfassung Frage-Antwort-Systeme Recommender-Systeme (weitere unterscheidbare Facetten) Sprache: mono- vs. cross-linguale Anwendungen (Google Übersetzer), cross-linguale Suche Struktur: atomare Struktur (klassisch), Feldstruktur (Literatur: Autor, Titel, Kurzfassung, Inhalt), Graph-Struktur (Websuche: Verlinkung), Baum-Struktur (Suche in XML- Dokumenten) Medien: Text, Fakten, Bilder, Audio (Sprache, Musik: Shazaam ), Video, 3d-Daten Objekte: spezialisierte Suchmaschinen nach Objekttypen, z.b. Buch-Suchmaschinen, Personen (123people, yasni), Firmen (firmenfinder) Statische/dynamische Inhalte: meist wird von statischen Inhalten ausgegangen (klassiche Web-Suche, wenn auch in bestimmten Abständen aktualisert) vs. a priori dynamische Inhalte (news.google.de, twitter.com) (wesentliche Unterschiede zu DBS sofort erkennbar) Formulierung des aktuellen Informationsbedürfnisses Iterativer Anfrageprozess potentiell viele Antworten auf eine Anfrage dadurch Rangordnung der Antworten: relevante nach vorne und Nutzerverhalten: nur erste Ergebnisse werden beachtet bei Texten und vor allem bei Bildern zeigt sich, dass z.t. die interne Repräsentation des Inhalts der Dokumente diese inadäquat ist, auf jeden Fall aber mit Unsicherheit behaftet. Was ist Information Retrieval? Informatik == ==Definition der Fachgruppe IR der Gesellschaft für (Stichpunkte der Definition von IR der Fachgruppe IR der GfI) Informationssysteme für Wissenstransfer von Wissensproduzenten zum Informations- Nachfragenden Fragestellung der vagen Anfrage und unsicherem Wissen. Vage Anfrage ist eine Anfrage deren Anwort a priori nicht eindeutig definiert ist. Fragen also nach unscharfen Kriterien, die nur durch Dialog, iterativ mit Reformulierung (in Abhängigkeit zu den bisherigen Antworten(!)) beantwortet werden könnnen. häufig müssen mehrere Datenbasen durchsucht werden für eine Anfrage Darstellungsform des Wissens im IRS prinzipiell nicht beschränkt: Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze Unsicherheit der Semantik kann vorkommen (bei Texten und multimedialen Dokumenten) gespeicherte Daten selbst können unsicher sein, oder unvollständig: oft bei technischwissenschaftlichen Sammlungen Folge dieser Problematik: Notwendigkeit zur Bewertung des Systems in Bezug auf die Unterstützung des Users bei der Lösung seines Anwendungsproblems [Infromationsbedürfnisses?] (kennzeichnende Kernpunkte) vage Anfragen unsicheres Wissen (Abstraktionsstufen von inhaltsorientierter Suche) Syntax Semantik Pragmatik

3 meist ist User an Suche auf pragmatischer Ebene interessiert, heutige IRS können dies aber kaum leisten (Dimensionen des IR) ==Abbildung von Rijsbergen== Matching: Inferenz: Modell: Klassifikation: Anfragesprache: Fragespezifikation: Gesuchte Objekte: Reaktion auf Datenfelder: Daten Information Wissen DBS enthalten Daten IRS helfen bei Suche nach Information (!) ==Unterscheidung D I W== Daten -> Information -> Wissen -> Entscheidung -> Nützlichkeit (Beispiel Linux Manuals, User möchte bestimmen Befehl ausführen und weiß nicht, wie das geht) Rahmenarchitektur für IR-Systeme Informationsbed. -> Frage-Repr. fikt/reales Obj. -> Objekt-Repr. -> Objekt-Besch ==konkretes Beispiel mit Objekt/Dokumenttext -> Reduktion durch das IRS mit ling. Stammform und Elim von Stopwords zu Repräsentation -> Beschreibung durch Term-Multimenge -> Vergleich -> Retrieval-Ergebnisse== Unsicherheit sofort ersichtlich: Ableitung der Repräsentation aus Quelle wesentlicher Faktor von Unsicherheit ( speziell bei Texten und multimedialen Dokumenten kann deren Inhalt nur unzureichend erschlossen werden S.8) Kapitel 2: Evaluierung (letzter Absatz des vorherigen Kapitels nennt wesentliche Punkte) Evaluierung ist: Qualität der Ergebnisse vs. Informationsbedürfnis Betrachten: Erstellung von Repräsentation (von Frage und Dokumenten) Herleitungvon Beschreibungen aus den Repräsentationen (erste Absätze im Kapitel) Wichtigkeit: in diesem Teilgebiet der Informatik ist Evaluierung am Wichtigsten Komplexität: Ergebnisse können nicht nicht-expirementell beurteilt werden (zu hohe Komplexität) Vergleich: verschiedene Verfahren miteinander vergleichen Beweis: in der Literatur werden Verfahren und Modelle vorgestellt die sehr plausibel erscheinen stimmt das auch? Vergleich + Beweis: Es gibt gut scheinende, komplexe Modelle, die aber von wesentlich einfacheren in ihren Ergebnissen überboten werden. QA: Qualität messen + beurteilen Blickwinkel + Aspekte: von Usern, Käufern, Managern, Herstellern, Entwicklern ==Beispielfragen== Fazit: Geeignete Evaluierungsmethoden müssen konzipiert und durchgeführt werden 2 Eigenschaften: Reliabilität: selbe Ergebnisse, Wiederholbarkeit, dafür: ausreichende Dokumentation, repäsentative Stichproben, Elimination von Störfaktoren, möglichst Open-Source Daten zwecks Verfikation Validität: Beobachtungen sollen möglichst mit tatsächlichen Verhältnissen übereinstimmen zwecks Gültigkeit der Ergebnisse. Besonders: Frage nach Verallgemeinerbarkeit Obacht: meist stochastische Ergbenisse also nicht immer genau gleich -> ausreichende Zahl von Versuchen durchführen für Reliabilität und Validität (Verschiedene Formen von Evaluierungen je nach Phase) 1. während Entwicklung: formative und iterative Evaluierungen (Entwurfsentscheidungen) 2. Projektende: summatische E. 3. komparative E. Evaluierungskriterien Systemorientiert vs. Benutzerorientiert -> Frage-Beschr Systemorientiert: \ Fokus auf: (System-)Effizienz: Zeit/Speicher VERGLEICH -> ERGEBNISSE Benutzerorientiert: / (plural!) Fokus auf Benutzer: nahe bei Usability Benutzereffizienz Effektivität Zufriedenheit Fokus in E meist auf Effektivität, wg. Vagheit schaut man wie nah am Ideal man ist. Relevanz. (Systemorientiert) Qualitätsmaß: Relevanz. Beziehung Frage < > Antwortmenge Annahmen: Antwort = Menge von Objekten (Dokumente). Anwendung auf Rangordnung ist schon aber auch möglich keine Wechselseitigen Beziheung unter den Antwort-Objekten. (Bsp. Bedeutung eines Dokuments erst klar nach Lektüre des zweiten Doks.) Unberücksichtigt: Komplexe Beziehung zw. Frage und Antwort-Objekt 4 Arten von Relevanz: Situative R.: (tatsächliche) Nützlichkeit des Doks praktisch kaum erfassbar theoretisches Konstrukt Pertinenz: subjektiv empfundene Nützlichkeit (persönliches Relevanzurteil) Objektive: häufig bei Systemevaluierungen: ein oder mehrere Benutzer geben Relevanz an System-R.: vom system geschätzte R. des Dokuments auf Anfrage. Retrievalwert, Retrieval Status Value (RSV) ==Beispiel Handy-Kauf und ciao.de== Standpunkte und Bewertungsmaße als die andere, muss klar sein. Benutzerstandpunkte Benutzer- vs. Systemstandpunkte Maße für Ergenismengen Bewertungsmaß, was eine Distribution besser macht Recall, Precision, Fallout Hier: betrachten Retrievalbewertung der Ergebnismenge Annahme: Benutzer schaut alle Ergebnisse an. GEF := Gefundene Dokumente REL := Relevante Objekte in der DB ALL := Gesamtzahl der Dokumente in der DB REL ^ GEF Precision := p := GEF REL ^ GEF Recall := p := REL GEF - REL Fallout := p := ALL - REL Precision: Anteil der relevanten an den gefundenen Dokumenten Recall: Anteil der relevanten an den tatsätsächlich gefundenen Dokumenten Fallout: Anteil der gefundnen irrelevanten an allen irrelevanten Dokumenten der Kollektion, also wie gut kann das System irrelevante vom Benutzer fernhalten Obacht: Immer entsprechend interpretieren, da stochastisch. (Probabilistische Interpretation) Precision: approximiert, ob zufällig-ausgewähltes gefundenes Dokument relevant ist. Recall: analog, Wahrscheinlichkeit, dass ein zufällig-ausgewähltes Dokument gefunden wird. Fallout: entsprechend ==Teil über Ranggeordnete Evaluierung== Recall-Abschätzung Recall-Abschätzung nicht offen ersichtlich (vs. Precision) Nicht Erkennbar und kann auch nicht vernünftigerweise bestimmt werden. Problem: Mächtigkeit von REL Daher: Näherungsmethoden (Näherungsmethoden) Vollständige Relevanzbeurteilung [... ] Source-Dokument-Methode [... ] Frageerweiterung [... ] Abgleich mit externen Quellen [... ] Pooling-Methode [... ] Distributionen Distributionen = abstrakte Darstellungen von Retrievalantworten als Grundlage für Bewertungsmaße Bsp: Dokumentmenge Distribution (Rangordnung) vom System Relevanzbeurteilung des Nutzers Zusammenführung -> Distribution mit Relevanzurteilen > Abstraktion von spezifischen Dokumenten zur Beurteilung der Retrievalqualität > Äquivalenzklassen von Distributionen mit Relevanzurteilen. Das ist im folgenden Distributionen : Frageweise Vergleiche ==Evtl einfach Beispiele abschreiben== ( ) dist1 ( ) dist2 Wenn Precision und Recall bestimmt, dann Precision-Recall-Graph. Besseres System ist das, das sowohl höheren Recall als auch bessere Precision liefert. Mehr Recall + Schlechtere Precision -> keine Aussage möglich. F-Maß: Gängige methode (r,p)-paare durch eine einzige Zahl auszudrücken [... ] [Recall-Precision-Diagramme mit Interpolationen] Mittelwertbildung Mann muss mehrere Fragen beanworten, um fundierte Aussagen über die Qualität machen zu können -> Mittelwerte für Qualitätsmaße werden gebraucht -> 2 etablierte Methoden 1. Makrobewertung: arithmetisches Mittel der Werte für die einzelnen Fragen, z.b. für Precision: p_m = [... ] Probleme wenn einzelne Frage leere Menge yielden. Stochastische Interpretation: approximiert den Erwartungswert für die Precision bei zufällig ausgewählter Anfrage 2. Mikrobewertung: [... ] Problem der leeren Antwortmengen wird umgangen. Dokument- / Systemorientiert: jedes Dokument geht gleich stark in Mittelwert ein Stochastische Interpretation: approximiert Wahrscheinlichkeit, dass ein zufällig ausgewähltes gefundenes Dokument aus einer der N Anfragen relevant ist. (Analog für Recall und Fallout) Spezielles Problem der Mikrobewertung: fehlende Monotonie-Eigenschaft Rangordnungen Alle Retrievalmethoden liefern Rangordnung von Dokumenten (ausser Boolesches Retrieval) Frage: nur schwache oder totale (lineare) Ordnung? Hier: lineare Ordnungen. Tabelle: n Dokumentnr. rel? Recall Prec dazu: Distribution dazu: Recall-Precision-Graph dazu: Lineare Interpolation dazu: das selbe für Distribution delta_2 (dist2) > Interpolation nach Salton: Sägezähne ausgleichen (durch Extrapolation mit waagrechten) Evaluierung von interaktivem Retrieval Batch- vs. interaktives Retrieval Bisher: Batch-artiges Retrieval (Anfrage dann sofort Qualitätsbestimmung der von den einzelnen Systemen produzierten Ergebnisse). Schwächen: nur einzelne Anfrage wird betrachtet. Interaktive komponente (realistischer) wird nicht beachtet. Relevance Feedback ist die einzig mögliche Relevanzbeurteilung. Markieren relevant/nichtrelevant ist für Benutzer nicht möglich. rechhalitge Funktionalität von heutigen IRS nicht beachtet: Highlighting, Clustering...

4 bei interaktivem Retrieval können beobachtete Qualitätsunterschiede (von herkömmlichen Evaluierungen) vom Benutzer leicht kompensiert werden Fazit: sehr beschränkte Aussagekraft von Batch-Eval. Suche ist iterativer Prozess: reformulierungen von Anfragen. Relevance Feedback unrealistisch, eher Berrypicking. Problemstellung Frage nach geeigneter Repräsentationsform für Textinhalte. Problem zentral vs. DBS. Konzepte können in Texten höchst unterschiedlich formuliert sein. Also soll Repräsentationsform unterschiedliche Formulierungen auf gleiche Repräsentation abbilden (damit Recall erhöhen) UND unklare Formulierungen vereindeutigen (und Precision erhöhen). Generell 2 Lösungansätze: semantischer Ansatz: Zuordnung von Deskriptionen zu Texten. Ziel: Repräsentation, die unabhängig von konkreten Formulierungen ist. Syntax und Semantik dieser Deskriptionen in Dokumentationssprachen abgelegt. Freitextsuche keine zusätzliche Repräsentation, sondern nur Funktionen zur Verbesserung der Suche im Text der Dokumente. Freitextsuche Grundlagen Terminologie: Token, type, Morphem, Flexion, Grundform, Derivation, Stammform, Kompositum, Nominalphrase Ansätze (für Freitextsuche): informatischer Ansatz (in fast allen kommerziellen IRS): Textretrieval als Zeichenkettensuche, Funktionen auf Stringebene computerlinguistischer Ansatz: Normalisierung angestrebt (morpho-syntaktische), damit Suche sich auf Wörter bezieht Vorverarbeitung: 1. Textbereinigung: Trennzeichen etc. entf. 2. Tokenization: Trennung an Leer- und Interpunktionszeichen, schwierig bei Chinesisch 3. Stoppwortbestimmung / -entfernung: 4. Satzendeerkennung Probleme der Freitextsuche (Freitextsuche bezieht sich auf den so bereinigten Text und damit auf die übrigbleibenden Wörter): Homographen Polyseme Suchaufgaben simulated work tasks für Eval von interaktivem Retrieval im Labor. Breites Thema vs. Enges Thema vs Benutzerspezifisches, enges Thema Flexionsformen Instrumentarium: Derivationsformen think-aloud-protokolle [... ] Komposita Beobachtungsdaten [... ] Interviews [... ] Nominalphrasen Fragebögen [... ] Informatischer Ansatz Truncation- und Maskierungs- und Kontext-Operatoren (kurz: Fehleranalysen [... ] Zeitbedarf [... ] Kosten-Nutzen-Analyse [... ] Notwendigkeit der Evaluierung von interaktivem Retrieval anerkannt, jedoch Mühe gescheut. Regex-artige Operatoren), die schr$$b: schreiben, schrieben / schrauben... erlauben retrieval $ information: retrieval of information, retrieval with information loss.... -> Zeug wird dann dem User zuerst als Auswahl vorgeschlagen. Nachteile: Kapitel 3: Wissensrepräsentation für Texte User muss sich zuerst alle möglichen Varianten selbst ausdenken Überproduktion von regexes Zusammenführen von Flexions- und Derivationsformen, Computerlinguistischer Ansatz niemals perfekt, allerdings folgende Ansätze: graphematische Verfahren: Flexions- und Derivationsformen lexikalische Verfahren: multi-word-units und Bedeutungsdisambiguation syntaktische Verfahren: Identifikation von multi-word-units Graphematische Verfahren Grundformreduktion formale Grundform lexikographische Grundform (bspw Kuhlen-77-Reduktionsregel-basierte Reduktion) Stammformreduktion Angeblich für stark flektierende Sprachen wie das Deutsche weniger geeignet? Lexikalische Verfahren Lexikon muss folgende Relationen enthalten: Flexionsformen (Vollformen) Derivationsformen (zugehörige Grundofrmen) Komposita (zugehörige Dekomposition) Nachteile: Ständige Pflege des Wörterbuchs Anpassungsaufwand des Wörterbuchs bei neuer Anwendung Komposita nicht alle erfassbar (Zerlegung schwierig: Fugenelemente, ambige Zerlegungen) Syntaktische Verfahren Hauptsächlich: Identifikation von mehrgliedrigen Ausdrücken. Dazu: POS-Tagging: syntaktische Kategorie-Zuordnung. bei Vollformenlexikon schon gegeben graphematische Verfahren versuchen über Prä- und Suffixe auf Wortart zu schließen -> können auch unbekannte Wörter erkennen Parsing: Erkennen der syntaktischen Struktur. Bei Komposita reicht z.t. partielles Parsing. Obacht: Wortklassen sind nicht fest definiert! Wort kann in zwei Klassen gleichzeitig sein, d.h. man muss tiefer parsen: he goes for a walk // He is walking (walk./) Statistisch lassen sich diese Ergebnisse verbessern (Tagger ca 77% exakt.) Dazu: Parsing / partielles Parsing, bessere Ergebnisse durch Reduktion auf Head-Modifier- Strukturen (Prädikat-Argument-Strukturen?) (z.t. geschachtelt.) Matching-Prozess bei Head-Modifier Strukturen: 1. alles in HMS überführen 2. Test, ob Anfragewort enthalten: (((semistructured, data), retrieval), system) enthalten: (retrieval, system), (data, retrieval) nicht enthalten: (retrieval, data) Suche nach Tür : findet: Haustür, Zimmertür findet nicht: Türschloss Dokumentationssprachen überwinden. Dokumentationssprachen sollen Nachteile der Freitext-Suche Allgemeine Eigenschaften Ziel: Unabhängige Repräsentation von konkreter sprachlicher Formulierung Hilfsmittel: Spezielles Vokabular: soll Mehrdeutigkeiten und morphologische und syntaktische Schwierigkeiten vermeiden. Hier: zwei klassische Arten von Dokumentationssprachen - Klassifikationen - Thesauri - RDF (modern) Klassifikationen Zuordnung von Dokument zu einer Klasse. Schwäche: Dokumente gehören Retrieval gerne zu zwei Klassen. Beispiele: LCC: Library of Congress Classification [... ] Eigenschaften von Klassifikationssytemen Monohierarchie - Polyhierarchie (einei Klasse kann mehrere Superklassen haben) Monodimensionalität - Polydimensionalität: [... ] {bei Schulz nachschauen} analytische vs. synthetische Klassifikation Yahoo-Klassifikation nicht Baum sondern Graph (DAG), d.h. Verweise von einer Kategorie in andere Dezimalklassifikation bekanntestes Beispiel für Klassifiaktionssyteme. Geht zurück auch Dewey Decimal Classification(DDC), 1876 Melvil Dewey, geplant als Universalklassifikation. Erweitert zur Universellen Dezimalklassifkation (DK) von Paul Otlet und Henri Lafontaine (Belgien) Eigenschaften: Hierarchisch gegliedert, maximaler Verzweigungsgrad 10. Gesamt: Klassen. Facettierung durch Anhängezahlen Sonderzeichen zur Verküpfung mehrerer DK-Zahlen Klassen: 0. Allgemeines 1. Philosophie 2. [... ] Computing Classification System (CCS) Verwendet von ACM. general terms für Facettierung classification codes: stellen dreistufige monohierarchische Klassifikation dar subject heading: innerhalb von Klassen zur weiteren Untergliederung free terms: können hinzugenommen werden. Thesauri [... ] Ontologien Sehr populär geworden in letzten Jahren, im Zuge von Semantic Web: RDF Schema (Resource Description Framework, vom W3C vor 10 Jahren schon vorgestellt) und neuer: OWL (Web Ontology Language). Ontologie vereinigt Datenbankschemata und Thesauri: Begrissheriarchien und Relationen zw. Begriffen von Thesauri. Von DB-Schemata: Attribute, Beziehungstupen und insbesondere die Möglichkeit, Instanzen zu Konzepten zu bennen, wobei die möglichen Instanzen durch Bezugnahme auf Datentypen eingeschränkt werden können Ontologien: Konstrukte Ontologie bereit: Konzepte/ Klassen: Konzepte werden als Klassen aufgefasst Vererbungsbeziehungen Eigenschaften/Relationen/Slots: bei Vererbung vererbt Instanzen: füllen die Ontologie (mache Sprachen lassen noch eigene Regeln definieren) Ontologiesprachen stellen folgende Konstrukte zur Definition einer Suche anch Instanzen: Studenten mit mehr als 8 Semestern die IR hören Werkzeuge und Anwendungen Ontologie-Editoren. Wiederverwendung von Ontologien -> Ontologie-Biblioitheken Dokumentationssprachen vs. Freitext Vorteile: - Recall kann erhöt werden durch Abbildungen verschiedener Textformulierungen - dadurch: kontrolliertes Vokabular -> keine mehrdeutigen Begriffe -> höhere Precision - größere Benutzerfreundlichkeit Nachteile: - Benutzung setzt Kenntnis der Dokumentationssprache vorausm zu hohe Hürde für gelegentliche Benutzer - z.t. Granularität zu hoch, bei spezifischen Anfragen schlechtere Precision - (meist) manuelle Klassifikation: Einarbeiten neuer Dokumente in Datenbasis sehr teuer. Aufwand bei Recherchen dagegen billiger. Beurteilung der Verfahren zur Repräsentation von Textinhalten Vorteile von Dokumentationssprachen wissenschaftlich sehr umstritten (unzureichende experimentelle Basis). Oft aber Freitextsuche ebenso gut (Studien sehr alt und nicht realistisch mit 1400 Dokumenten). Bei geographischen und Datumsangaben aber beisst Freitextsuche aus. Anfänglicher Optimismus von wissensbasierten Ansätzen daher heute stark gedämpft semantic

5 web hat Nachweis auch noch nicht erbracht, dass sie für DB mit realistischer Größenordnung traditionellen Ansätzen (bspw. Thesauri) überlegen sind. Syntaktische Verfahren sind wohl hauptsächlich für die Identifikation von Nominalphrasen einsetzbar Maschinenlesbare Wörterbücher immer mehr verfügbar. Nutzung (von Forschergruppen!) zur Disambiguierung. Zusammenhang zwischen Modellen und Repräsentationen Kapitel 4: Nicht-probabilistische IR-Modelle [... ] [kann man auslassen] Notation Dokumente D, Anfragen Q, Relevanzbeziehung zwischen beiden -> Relevanzurteile R. Dokumentrepräsentationen D, Anfragerepräsentationen Q durch Abbildungen α D und α Q. Dokumentrepräsentationen kann z.b. Menge von Terms sein mit zugehörigen Vorkommenshäufigkeiten Anfragerepräsentationen kann z.b. boolescher Ausdruck mit Terms als Operatoren sein Überführung der beiden in Beschreibungen Q D und D D, vergleich mit Retrievalfunktion φ, Erebnis: reelle Zahl. Im Folgenden: verschiedene Retrieval-Modelle, diese können sich unterscheiden in: Retrievalfunktion zugrundeliegenden Repräsentationen abgeleiteten Beschreibungen theoret. Basis Bezug zur Retrievalqualität gewichtete Indexierg gewichtete Frageterme Fragestrukt. linear Fragestrukt. boolesch Überblick über die Modelle Boolesches Retrieval Historisch erstes Retrieval-Modell, bis heute nicht in Frage gestellt, nur funktionale Erweiterungen, geboren aus Hardwareanforderungen ungewichtete Indexierungen Frage-Beschreibungen boolesche Ausdrücke (nach best. Regeln gebildet) Retrieval-Funktion analog rekursiv definiert Retrieval-Gewichte ausschließlich 0 oder 1 -> Zweiteilung der Dokumente: gefunden/nichtgefunden Mächtigkeit der booleschen Anfragesprache (theoretischer) Vorteil: Mächtigkeit: beweisbar, dass jede bel. Teilmenge selektiert werden kann (Voraussetzung: jedes Dokument muss unterscheide Indexierungen/Beschreibungen besitzen). Vorgehensweise: * Frageformulierung * Selektion wie folgt: * Frageformulierung für jedes Dokument, das nur dieses Dok selektiert * danach disjunktive Verknüpfung dieser Teilfragen nur theoretischer Vorteil deswegen: Benutzer kann nicht wissen wie die relevanten Dokumente aussehen und kann daher Anfrage nicht nach hier skizzierter Vorgehensweise forumulieren Nachteile des booleschen Retrieval Klar: ungeeignet Gründe: Größe der Antwortmenge schwer zu kontrollieren keine Ordnung der Antwortmenge nach mehr/weniger relevant keine Möglichkeit zur Gewichtung der Frageterme keine Möglichkeit zu gewichteter Indexierung 0-1 gef/nicht-gef. zu streng umständliche Formulierung der Anfrage schlechte Retrieval-Qualität Boolesch Fuzzy Vektor Probabilistisch Sprachmodelle Einsatz dennoch in best. Gebieten, z.b. Patentrecherche, Patentstreitigkeiten (Frima muss Doks Boolesche Fuzzy VRM Wahrscheinlichk. statistische herausgeben, SM die best. Formulierungen enthalten) Logik Logik Modell theorie Fuzzy-Retrieval Ansatz, um Nachteile des Booleschen Retrievals zu überwinden (hier auch (x) x gewichtete (x) Indexierungen), Retrievalfunktion liefert reelle Zahlen [0..1], dadurch Rangordnung. Beurteilung: Fuzzy-Operator schneidet immer noch schlecht ab und es gibt dann noch Extended Boolean Retrieval aber insgesamt ist einfach an der Stelle VRM besser. x x x Beurteilung x des Fuzzy-Retrieval Vorteile Generaliserung des Boolean Retrievals: Rangordnung der Dokumente durch gewichtete (x) x x Indexierung Nachteile x Keine Fragetermgewichtung. Vorschläge dazu ja, überzeugend nein, am besten noch x x xextended Boolean Retrieval immer noch schlechte Retrievalqualität ggü VRM x x (x) (x) genauso komplizierte Frageformulierungen wie bei Boolean Retrieval. Das Vertorraummodell bekanntestes Modell des IR. Entwickelt seit 1961, SMART Projekt, Table 1: IR-Modelle Salton in Harvard, später Cornell, dann weiterentwickelt von Wong und Raghavan (1986). Dokumente und Fragen sind Punkte in Verktorraum, aufgespannt durch Terme der Datenbasis. Retrieval sucht nach Dokumenten deren Vektoren ähnlich sind. orthonormaler Vektorraum alle Term-Vektoren orthogonal (damit linear unabhängig) alle Term-Vektoren normiert. damit Dimensionalität T Dokument-Beschreibung ähnlich wie bei Fuzzy-Retrieval: gewichtete Indexierung. Frage-Beschreibungen gleiche Struktur. Retrievalfunktion: verwendet verschiedene (Vektor-)Ähnlichkeitsmaße (z.b. Kosinus), meistens wird mit Skalarprodukt gearbeitet. Coordination Level Match Vereinfachte Variante des Vektorraummodells: Frage- und Dokumenttermgewichtung können nur binäre Werte 1 oder 0 haben, damit Frage- und Dokumentbeschreibung wie bei Booleschem Retrieval (hier: binäre Vektoren). Retrievalfunktion verwendet dann meist Skalarprodukt: dadurch zählt die Retrievalfunktion die Anzahl der Frageterme, die im jeweiligen Dokument vorkommen. Relevance Feedback Veränderung der ursprünglichen Termgewichte -> neue Fragevektoren. Grundidee: Fragevektor zeigt im Vektorraum vom Zentroiden der irrelevanten Dokumente zum Zentroiden der relevanten Dokumente. Ziel nun: Fragevektor ermittelt aus tfidf-produkt (Skalarprodukt der Retrievalfunktion) -> maximieren dahingehend dass Vektor möglichst gut relevante und nicht-relevante Dokumente trennt. Rocchio-66 stellt ein Verfahren vor, der die Differenz der RSVs zwitschen rel und nichtrel maximiert. Dafür gibt es ein Optimierungskriterium mit einer Formel [... ]. Wie: ursprünglichen Fragevektor nehmen, Relevanz/Nicht-Relevanz-Ergebnisse nehmen, damit die Terme im ursprünglichen Fragevektor neu justieren, so dass maximales Erbenis entsteht. Optimierungsformel: 1. Formel [... ] 2. zusätzlich mit Nebenbedingung: Betrag es Fragevektors muss beschränkt werden. 3. Jetzt: Extremwertproblem mit Randbedingung: Lösen mit Lagrange-Multiplikator. 4. Zur Lösung nun alle partiellen Ableitungen von F nach Komponenten q i des Fragevektors auf 0 setzen, zusätzlich muss Nebenbedingung gelten. 5. Dann kann man noch zusätzlich den Fragevektors auf einen bestimmten Wert setzen und dann ergibt sich ein optimaler Fragevektor. 6. Der optimale Fragevektor ist somei der Verbindungsvektor der beiden Zentroiden der relevante bzw. irrelevanten Dokumente Allerdings: optimaler Fragevektor stellt nicht immer bestmögliche Lösung dar (bezogen auf die Retrievalqualität). Support Vector Machines können dies besser, sind aber auch aufwendiger. Dokumentindexierung VRM macht keine Aussagen, wie die Dokumentbeschreibung zu erstellen ist. Heuristischer Verbesserungsvorschlag von Rocchio: rel und irrel Doks unterschiedlich Im SMART-Projekt wurden heuristische Werte Indexierungsgewichte entwickelt, diese sind sehr leistungsfähig. Gewichtungsformel hier ist relativ neu. Datengrundlage: Bag of terms. Parameter: d T m: Menge der in d m vorkommenden Terms l m : Dokumentlänge von d m (# Wörter) al: durchschnittliche Dokumentlänge tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. n i : # Dokumente, in denen t i vorkommt gewichten: d,.h. Vektor zum Zentroider der irrel Doks weniger stark in Lösung einfließen lassen. Intuitiv: rel Doks weisen idr höhere Indexierungsgewichte auf als irrel Doks, damit wird der Fragevektor in die richtige Richtung gedreht. Generelle Vorgehensweise also: 1. Retrieval mit Fragevektor vom Benutzer 2. Relevanzbeurteilung der obesten Dokumente der Rangordnung 3. Berechnung des verbesserten Fragevektors aufgrund der Feedback-Daten 4. Retrieval mit verbessertem Vektor 5. Evtl Wdh der Schritte 2-4 N: # Dokumente der Kollektion Komponenten der Gewichtung Beurteilung des VRM Vorteile idf: Inverse Dokumenthäufigkeit (desto höher je seltener ein Term in der Kollektion VRM ist ein relativ einfaches Modell: durch einfache Frageformulierung besonders vorkommt) Nutzerfreundlich Modell unmittelbar auf Kollektion anwendbar: probabilistische Modelle erfrodern dagegen idf i = log N teilweise zuerst das Sammeln von Relevance-Feedback-Das für eine Menge von Fragen, ni bevor sie sinnvoll eingesetzt werden können N + 1 Moidell liefert in Kombination mit den SMART-Gewichtungsformeln sehr gute Retrievalqualität normalisierte Vorkommenshäufigkeit ntf i : gewichtet Terme entsprechend ihrer Vkh im Dokument. Doklength von allen geht mit ein, Doklength auszugleichen endgültiges Indexierungsgewicht tfidf aus Produkt der beiden Nachteile zu viele heuristische Komponenten: bleiben diese gültig bei Wechsel der Kollektion (zb Volltexte statt Kurzfassungen)? w mi = ntf mi idf mi Dokumentrepräsentation kann nur schlecht erweitert werden durch heuristische Berechnung der Indexierungsgewichte: man braucht erst umfangreiche Experimente wenn man zb den Titel stärker gewichten will, also um die richtige Gewichtungsformel zu finden Modell nimmt keinerlei Bezug zur Retrievalqualität. Warum dieses oder jenes Dokument rel oder nicht-rel ist, lässt sich nicht theoretisch begründen Kapitel 5: Probabilistische IR-Modelle Einführung Nochmal: viel schwierigere Situation bei IRS ggü DBS: inhärente Unsicherheit vs. eindeutige, präzise Frage mit eindeutig definierter Antwort.

6 IR ist grundlegend approximativ und zudem keine Vorschrift, was Antwort auf Frage ist. Probabilistische Modelle haben sich hier als erfolgreichste Modelle erwiesen. Geschichte: relevanzorientierte Modelle (seit 1960ern), heute statistische Sprachmodelle (seit 1998) #### Das Binary-Independence-Retrieval-Modell Klassisches, populärstes IR-Modell, relevanzorientiert. ##### Herleitung Relevanzorientiert: versucht Wahrscheinlichkeit zu schätzen, dass dokument relevant ist bzgl der aktuellen Anfrage q, dazu Verteilung der Terme in der Kollektion betrachten. Voraussetzung: Anname, dass die Verteilung in den rel./nicht-rel. unterschiedlich ist. Relevanzwahrscheinlichkeit wird mit Hilfe von 2 Transformationen berechnet: 1. Bayes sches Theorem: P (a b) = P (b a) P (a)/p (b) 2. Verwendung von Odds (Chancen) anstelle von Wahrscheinlichkeiten, wobei O(y) = P (y)/p (ȳ) = P (y)/[1 P (y)]) Damit lässt sich Chance berechnen, dass ein Dok rel zu Anfrage q ist, basierend auf seinem binären Vektor x Parameterabschätzung Beispiel BM25 Statistische Sprachmodelle Sprachmodell von Zahi und Lafferty Ähnlichkeit von Wahrscheinlichkeitsverteilungen Das Probabilistische Ranking-Prinzip Kapitel 6: Interaktives Retrieval Ebenen-Architektur von IR-Systemen Ebenen-Modell: 1. physische Ebene: Datenstrukturen und Algorithmen 2. logische Ebene: wesentliche Suchfunktionalität des Systems durch IR-Modell 3. syntaktische Ebene: Betrachtung von syntaktischen Objekteigenschaften (Text als String, Bilder als Pixelmatrix) 4. semantische Ebene: Beschäftigung mit den im Dokument dargestellen Objekten und Beziehungen zwischen diesen (v.a. wie bei Dokumentationssprachen und Ontologien) 5. pragmatische Ebene: fokussiert Anwendungszweck unter dem Dokument betrachtet wird. Wichtig bei Beurteilung der Relevanz 6. kognitive Ebene: Unterstützung des Benutzers bei Suchprozess 7. Benutzerschnitstelle Zu beachten: Nie alle Ebenen vorhanden, Nutzer muss diese übernehmen, v.a. Semantik + Pragmatik enge Verzahnung, keine konkreten Trennlinien. Rest des Kapitels: Kognitive Ebene. Information Seeking Behavior Information Seeking Behavior und Information Searching fundiertem Modell des Nutzerverhaltens bei Informationssuche. Annahmen die bisher hier gemacht wurden: Frage nach empirisch klassisches Modell: Nutzer sucht in unstrukturierten Datenbeständen, mit vagem Informationsbedürfnis, bei unsicherer Repräsentation der Inhalte systemorientiert: Nutzer ist Orakel und beurteilt relevant/irrelevant statisches Informationsbedürfnis Dagegen: interaktives Information Retrieval (IIR): Interaktion des Nutzers mit dem System im Vordergrund, dh. Änderungungen des Informationsbedürfnisses Zwei Betrachtungsweisen in IIR: Information Seeking Behavior: breitere Sicht auf Informationssuche: Verhalten, Motivation und Vorgehen des Benutzers werden modelliert. Information Searching: Fokus auf Interaktion des Benutzers mit Informationsquellen im Allgemeinen. Quellen können auch Umfeld sein. Ellis Behavioural Model of Information Seeking Strategies populärer Ansatz, generelles Modell zur Beschreibung des Suchverhaltens. Starting Chaining Browsing Differentiating Monitoring Extracting Verifying Ending Suche nicht sequentiell (1-4 Suchprozess, ab Differentiating Filterung) Dann Wiederholung und Überprüfung von Meho und Tibbo 2003: bestätigt Ellis, erweitert um 3 Kategorien: Accessing Networking Information Managing Auf Grundlage solcher Modelle lassen sich nun bessere Informationssysteme bauen Information Searching Interaktino des Benutzers mit der Informationssystem. Lassen Informationsbeschaffung und Informationsmanagement ausser Acht. Einfache Modelle für den Suchprozess 1. Information Need 2. Query 3. Send to System 4. Recieve Results 5. Evaluate Results 6. Done? a. No: Goto 2 b. Yes: Goto 7 Klassisches Modell: 7. Done Annahme: Nutzer verbessert Anfrage so lange bis er ein zufriendestellendes Ergebnis bekommt. Tatsächlich aber Suche eine Serie von von zusammenhängenden aber unterschiedlichen Suchen -> Berrypicking Modell (Kontinuierliche Verschiebung des Informationsbedürfnis + der Anfragen, Informationsbedürfnis kann nicht durch eine einzige Antwortmenge befriedigt werden, Folge von Selektionen und Aufsammeln von Informationsbrocken). Aufgabe Ziele und Absichten Suchhistorie Arten von Infromationsobjekten weitere unerfassbare Faktoren Gute Informationssysteme sollten daher Schnittstellen zu den Aktivitäten Suchen Browsen Interpretation Modifikation Beurteilung der Ergebnisse liefern Methode (Art der Interaktion): Scannen... Suchen Modus (kann Benutzer erkennen oder spezifizieren?): Erkennen... Spezifizieren Objekte mit denen interagiert wird: Ebene: Information.... Meta-Information Medium: Text, Bilder, Sprache, Video,... Quantität: 1 Objekt, Menge von O, Datenbasis Gemeinsame Dimensionen der Interaktion Belkins Episodic Interaction Modell Komplexeres Modell vs. klassiche System mit best match Prinzip : Annahme vs anderen Benutzer kann nicht Informationsbedürfnis nicht exakt Informationsobjekte: Teile.... vollständige Objekte formulieren: Anomalous State of Knowledge (ASK). Dieses Modell umfasst weitere Stadien als Systematik: zufällig.... systematisch die von Ellis, Meho/Tibbo gegebenen Suchphasen (bilden nur Kernphase der Suche ab) Unterschiedliche Formen der Interaktion und Suchstrategien werden durchlaufen Grad: selektiv... Abhängig von Faktoren wie Ostensive Retrieval ostensive = Definition bei Pointing. Idee: iterative spezifizierung, Informationsbedürfnis kann sich währen Suche verändern, dem User werden immer mehrere Informationobjekte gezeigt User wählt aus neue Informationsobjekte werden gezeigt es ergibt sich Pfad neue Objekte werden mit gängigem Relevance Feedback generiert Ingwersen s Cognitive Model Andere Richtung als Belkin, globale Perspektive: Modell umfasst alle beeinflussbaren Faktoren mit denne Benutzer interagiert: Umfeld, UR-System Informationsobjekte Benutzerschnitstelle Benutzer selbst. Also: Modell befasst sich mit kognitiven Strukturen Proaktivität in IR-Systemen Mögliche Strategie zur Unterstützung: Polyrepräsentation. Im einfachsten Fall: Informationsbedürfnis durch mehrere Anfragen repräsentieren Komplizierter: bei Handbüchern Wie installiere ich einen Drucker? Daher: IR-System erstellt verschiedene interne Repräsentationen für Informationsobjekte und gleicht diese mit konkreten Bedürfnissen des Nutzers ab. Klassifikation von Suchaktivitäten Andere Herangehensweise zur Entwicklung Benutzerfreundliciher IR-Systeme durch Klassfikation von Suchaktiviäten. Grundiedee: Anpassung des Zusammenfassung zu kognitiven Methoden Benutzerinterface. Zugriff Strategische Unterstützung Jede der Such-Phasen des Benutzers sollte unterstützt sein, d.h. Interaktionsmöglichkeiten zur Verfügung stellen. Wegweisend: Marcia Bates zur stategische Unterstützung, und zur Integration der genannten Modelle. Hier: Ideen. Suchaktivitäten und ihre Unterstützung Move elementare Aktion oder identifizierbarer Gedanke Taktik zielorientierte Aktion zur Verbesserung des Suchergebnisses. In der Regel mehrere Moves. Bsp: Auswahl von Synonymen zur Erweiterung der Suchanfrage bei zu wenigen Ergebnissen, Einengung durch spezielle Begriffe Strategem ( Kriegslist ) mehrere Taktiken um Informationsstrukturen in einer Domäne zu nutzen. Bsp: Navigieren in Inhaltsverzeichnissen einer Zeitschrift, Verfolgen von Referenzen und Fußnoten, auch: inhaltsorientierte Suche durch Folge von Anfragen Strategie umfassender Plan zur Befriedigung eines Informationsbedürfnisses, enthält alle 3 oberen. Bsp: Suche nach Literatur zu Seminarthema: man beginnt bei inhaltsorientierter Suche, folgt Autoren, liest weitere Artikel dieser Autoren Witz ist: meiste IR-System erlauben nur Moves, Rest muss Benutzer selbst übernehmen. Momentan fokussiert sich Forschung auf proaktive Unterstützung von Taktiken Hier: Ansätze zur proaktiven Unterstützung von Taktiken und Strategemen. Daffodil-System macht Rechtschreibkorrektur etc., extrahiert Autoren und unterstützt Nutzer mit Taktiken. Diese gelangen zu wesentlich besseren Ergebnissen, treffen bessere Entscheidungen. Fuhr et al. unterstützen mit case based reasoning und bieten passende Taktiken aus einem set von Taktiken an. Benutzer sind zufriedener und finden signifikant mehr relevante Dokumente. Ausgangspunkt Information Seeking Behavior und IRS-Interaktionsbezogenem Information Searching. ISB sollten als Grundlage genommen werden um neue Systeme zu entwickeln die alle Phasen der Informationbeschaffung unterstützen. Information Searching trägt zu iterativem Aspekt bei, Versuchen zahlreiche Einflussfaktoren mitzuberücksichtigen (wichtig für Qualitätsverbesserungen)

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen Ontologien Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken

Mehr

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr 1 / 23 Ontologien Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken,

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 14. Oktober 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 1 Themenübersicht

Mehr

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval

Kapitel IR:I. I. Einführung. Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval Kapitel IR:I I. Einführung Retrieval-Szenarien Begriffsbildung Einordnung Information Retrieval IR:I-1 Introduction STEIN 2005-2010 Retrieval-Szenarien Liefere Dokumente, die die Terme «Information» und

Mehr

Information Seeking & Searching

Information Seeking & Searching Information Seeking & Searching Ingo Frommholz Universität Duisburg-Essen Vorlesung "Information Engineering" SS 2007 UNIVERSITÄT D U I S B U R G E S S E N Organisatorisches Diese Woche keine Übungen,

Mehr

Beschreibungslogiken. Daniel Schradick 1schradi@informatik.uni-hamburg.de

Beschreibungslogiken. Daniel Schradick 1schradi@informatik.uni-hamburg.de Beschreibungslogiken Daniel Schradick 1schradi@informatik.uni-hamburg.de Was sind Beschreibungslogiken? Definition: Formalisms that represent knowledge of some problem domain (the world ) by first defining

Mehr

Internet-Suchmaschinen 1. Einführung

Internet-Suchmaschinen 1. Einführung Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Einführung Internet-Suche Internet-Suche Beispiele Web-Suche 4 / 1 Internet-Suche Beispiele Produktsuche in Internet-Shops 5 / 1 Internet-Suche

Mehr

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen

Mehr

Ähnlichkeitssuche auf XML-Daten

Ähnlichkeitssuche auf XML-Daten Ähnlichkeitssuche auf XML-Daten Christine Lehmacher Gabriele Schlipköther Übersicht Information Retrieval Vektorraummodell Gewichtung Ähnlichkeitsfunktionen Ähnlichkeitssuche Definition, Anforderungen

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Recommender Systems Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006 Inhalt 1 - Einführung 2 Arten von Recommender-Systemen 3 Beispiele für RCs 4 - Recommender-Systeme und

Mehr

Information Retrieval in XML- Dokumenten

Information Retrieval in XML- Dokumenten Inhalt Information Retrieval in XML- Dokumenten Norbert Fuhr Universität Dortmund fuhr@cs.uni-dortmund.de I. Einführung II. III. IV. IR-Konzepte für XML XIRQL HyREX-Retrievalengine V. Zusammenfassung und

Mehr

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Text Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale? Textklassifikationen Natürliche bzw. unstrukturierte Texte Normale Texte ohne besondere Merkmale und Struktur Semistrukturierte

Mehr

Kontextbasiertes Information Retrieval

Kontextbasiertes Information Retrieval Kontextbasiertes Information Retrieval Modell, Konzeption und Realisierung kontextbasierter Information Retrieval Systeme Karlheinz Morgenroth Lehrstuhl für Medieninformatik Fakultät Wirtschaftsinformatik

Mehr

Wissenschaftliche Suchmaschinen

Wissenschaftliche Suchmaschinen Wissenschaftliche Suchmaschinen Beatrice Altorfer 14.5.2013 1 Überblick 1. Grundlagen des Internet 2. Allgemeine Suchmaschinen 3. Metasuchmaschinen 4. Wissenschaftliche Suchmaschinen 5. Google Scholar

Mehr

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK Martin Hacker Richard Schaller Künstliche Intelligenz Department Informatik FAU Erlangen-Nürnberg 16.05.2013 Gliederung 1 Vorverarbeitung

Mehr

Information Retrieval in P2P-Netzen

Information Retrieval in P2P-Netzen Information Retrieval in P2P-Netzen Vorstellung der Vortragsthemen zum Seminar Henrik Nottelmann 30. Oktober 2003 Henrik Nottelmann 1/21 Grundstruktur A) Filesharing-Systeme (3 Themen) B) Zugriffsstrukturen

Mehr

3. Ontologien und Wissensbasen

3. Ontologien und Wissensbasen Ontologien Ontologien stellen mittlerweile die Basis für viele innovative wissensbasierte Systeme dar: 3. Ontologien und Wissensbasen ecommerce/elearning Knowledge Management Informationsextraktion/Data-mining

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

Inhalt. Interaktives Information Retrieval. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen

Inhalt. Interaktives Information Retrieval. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen Inhalt Interaktives Information Retrieval Norbert Fuhr Universität Duisburg-Essen 22. November 2011 Ebenen-Architektur von IR-Systemen Information Seeking Behaviour Information Searching Strategische Unterstützung

Mehr

Anfrage Erweiterung 03.11.2011 Jan Schrader

Anfrage Erweiterung 03.11.2011 Jan Schrader Anfrage Erweiterung 03.11.2011 Jan Schrader Vocabulary Mismatch Problem Anfrage und Dokument passen nicht zusammen obwohl Dokument zur Anfrage relevant Grund: Synonymproblem verschiedene Menschen benennen

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou

WMS Block: Management von Wissen in Dokumentenform PART: Text Mining. Myra Spiliopoulou WMS Block: Management von Wissen in nform PART: Text Mining Myra Spiliopoulou WIE ERFASSEN UND VERWALTEN WIR EXPLIZITES WISSEN? 1. Wie strukturieren wir Wissen in nform? 2. Wie verwalten wir nsammlungen?

Mehr

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung Einführung nternet-suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Web-Suche nternet-suche 4 / 1 Produktsuche in nternet-shops ntranet-suche 5 / 1 6 / 1 Suche in Online-Publikationen Suche

Mehr

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen Wintersemester 2006 Institut für Germanistik I Vorlesung Computerphilologie Ontologien und Ontologie-Sprachen Wie kann man Inhalte (von Webseiten) erschließen? v.hahn Uni Hamburg 2005 1 Was bringen Ontologien

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht

Semantic Markup für die Dokumentenklassifizierung. Seminarvortrag von Mirko Pracht Semantic Markup für die Dokumentenklassifizierung Seminarvortrag von Mirko Pracht Ziel des Vortrags Aufbau digitaler Bibliotheken Verbesserung Informationssuche Semantic Markup Gliederung 1. Grundlagen

Mehr

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR Suchportale der nächsten Generation Dr. Thomas Schwotzer Leiter Forschung, neofonie Suche eine Folien Geschichte 1993: Beginn der HTML-Ära 1993

Mehr

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Nutzerverhalten Wie gut sind die gängigen Suchmaschinen? Suche und Web 2.0

Mehr

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht

Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Suchmaschinen verstehen Einsatz einer didaktischen Suchmaschine im Unterricht Informationen im Internet zu finden ist ein Kinderspiel! Wer sich für die Entwicklung des Ozonlochs interessiert, gibt auf

Mehr

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Die treffende Auswahl anbieten: Im Internet (Referat 3a) www.zeix.com Die treffende Auswahl anbieten: Im Internet (Referat 3a) Fachtagung: Suchfunktionen im Web Zürich, 26. Oktober 2006 Jürg Stuker, namics Gregor Urech, Zeix Bern, Frankfurt, Hamburg, München,

Mehr

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager Website-Suche mit OpenText Web Site Management Frank Steffen - Senior Product Manager Inhalt Überblick Konzepte der Suchmaschinenanbindung Verity K2 Anbindung Der neue OT Search Engine Connector Federated

Mehr

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006 Seminar Informationsintegration und Informationsqualität TU Kaiserslautern 30. Juni 2006 Gliederung Autonomie Verteilung führt zu Autonomie... Intra-Organisation: historisch Inter-Organisation: Internet

Mehr

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz P2P - Projekt 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen 1. Natürlicher Suchalgorithmus 2. Small Worlds 3. Automatische Semantische Konvergenz 1. Netzwerkerstellung 2. Suche 1. Die

Mehr

DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken

DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken DAFFODIL : Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken C.-P. Klas N. Fuhr S. Kriewel A. Schaefer G. Fischer Informatik 2005 Outline Motivation Strategische Unterstützung Höhere

Mehr

Modul 5: Semantik im WWW

Modul 5: Semantik im WWW Modul 5: Semantik im WWW Lernziele The Internet will become a repository of knowledge, Vinton Cerf (geb. not only a compendium of facts. 1943), einer der Väter des Internets [W1] Interoperabilität und

Mehr

Semantische Bildsuche mittels kollaborativer Filterung und visueller Navigation

Semantische Bildsuche mittels kollaborativer Filterung und visueller Navigation Semantische Bildsuche mittels kollaborativer Filterung und visueller Navigation Prof. Dr. Kai Uwe Barthel HTW Berlin / pixolution GmbH Übersicht Probleme der gegenwärtigen Bildsuchsysteme Schlagwortbasierte

Mehr

Semantic Web Technologies I

Semantic Web Technologies I Semantic Web Technologies I Lehrveranstaltung im WS11/12 Dr. Elena Simperl PD Dr. Sebastian Rudolph M. Sc. Anees ul Mehdi Ontology Engineering Dr. Elena Simperl XML und URIs Einführung in RDF RDF Schema

Mehr

2 Volltext-Suchmaschinen

2 Volltext-Suchmaschinen 2 Volltext-Suchmaschinen Volltext-Suchmaschinen werden vor allem für die Suche im Internet benutzt, jedoch gibt es auch Erweiterungen (Data Cartridge, Oracle) um Volltextsuche bei SQL-Suchmaschinen wie

Mehr

2. Vorlesung. Slide 40

2. Vorlesung. Slide 40 2. Vorlesung Slide 40 Knobelaufgabe Was tut dieses Programm? Informell Formal Wie stellt man dies sicher? knobel(a,b) { Wenn a = 0 dann return b sonst { solange b 0 wenn a > b dann { a := a - b sonst b

Mehr

Industrie- und Handelskammer Stuttgart

Industrie- und Handelskammer Stuttgart Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.

Mehr

... MathML XHTML RDF

... MathML XHTML RDF RDF in wissenschaftlichen Bibliotheken (LQI KUXQJLQ;0/ Die extensible Markup Language [XML] ist eine Metasprache für die Definition von Markup Sprachen. Sie unterscheidet sich durch ihre Fähigkeit, Markup

Mehr

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele

INEX. INitiative for the Evaluation of XML Retrieval. Sebastian Rassmann, Christian Michele INEX INitiative for the Evaluation of XML Retrieval Was ist INEX? 2002 gestartete Evaluierungsinitiative Evaluierung von Retrievalmethoden für XML Dokumente Berücksichtigt die hierarchische Dokumentstruktur

Mehr

Ontologien und Ontologiesprachen

Ontologien und Ontologiesprachen Ontologien und Ontologiesprachen Semantische Datenintegration SoSe2005 Uni Bremen Yu Zhao Gliederung 1. Was ist Ontologie 2. Anwendungsgebiete 3. Ontologiesprachen 4. Entwicklung von Ontologien 5. Zusammenfassung

Mehr

Lernende Suchmaschinen

Lernende Suchmaschinen Lernende Suchmaschinen Qingchui Zhu PG 520 - Intelligence Service (WiSe 07 / SoSe 08) Verzeichnis 1 Einleitung Problemstellung und Zielsetzung 2 Was ist eine lernende Suchmaschine? Begriffsdefinition 3

Mehr

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de

Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Deutsche Suchmaschinen im Vergleich: AltaVista.de, Fireball.de, Google.de und Lycos.de Joachim Griesbaum 1 / Marc Rittberger 2 / Bernard Bekavac 1 1 Universität Konstanz Fach D 87 D-78457 Konstanz 2 Heinrich-Heine-Universität

Mehr

The integration of business intelligence and knowledge management

The integration of business intelligence and knowledge management The integration of business intelligence and knowledge management Seminar: Business Intelligence Ketevan Karbelashvili Master IE, 3. Semester Universität Konstanz Inhalt Knowledge Management Business intelligence

Mehr

Jens Kupferschmidt Universitätsrechenzentrum

Jens Kupferschmidt Universitätsrechenzentrum Einordnung der Metadaten im MyCoRe Projekt Connection to other databases Data presentations MyCoResearch over instances Classifications Metadate and search Derivate User and access rights GUI Workflow

Mehr

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Laut Studienordnung Master/Diplom: 16ECTS/15KP Entspricht: 480 Semesterstunden = 34h/Woche pp p.p.

Mehr

Data Mining im Internet

Data Mining im Internet Data Mining im Internet Dipl.-Dok. Helga Walter Bayer HealthCare, Wuppertal PH-R-EU Scientific Information and Documentation 1 Arten / Quellen wissenschaftlicher Information Strukturierte Informationen:

Mehr

Semantic Web Services

Semantic Web Services Semantic Web Services Daniel Fischer TU Chemnitz - WS 2011/12 1 Gliederung (1) Web Services (2) Semantic Web Services: Motivation (3) Ontologien (4) Technologien 1. WSDL 2. SA-WSDL 3. WSMF / WSMO 4. OWL-S

Mehr

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph!

Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! Semantic Web Technologies I! Lehrveranstaltung im WS10/11! Dr. Andreas Harth! Dr. Sebastian Rudolph! www.semantic-web-grundlagen.de Ontology Engineering! Dr. Sebastian Rudolph! Semantic Web Architecture

Mehr

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen

INFORMATIONSLOGISTIK VERSUS SUCHE. Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen INFORMATIONSLOGISTIK VERSUS SUCHE Wie die aktive Bereitstellung von Informationen hilft, Zeit zu sparen und Ziele zu erreichen 2 Informationslogistik versus Suche Inhalt Seite Thema 3 Suchen 3 Grundlegende

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de

Mehr

Seminar Datenbanksysteme

Seminar Datenbanksysteme Seminar Datenbanksysteme Recommender System mit Text Analysis für verbesserte Geo Discovery Eine Präsentation von Fabian Senn Inhaltsverzeichnis Geodaten Geometadaten Geo Discovery Recommendation System

Mehr

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling

30. Juni 2006 - Technische Universität Kaiserslautern. Paul R. Schilling 30. Juni 2006 - Technische Universität Kaiserslautern Paul R. Schilling ! " #$% & '( ( ) *+, - '. / 0 1 2("$ DATEN SIND ALLGEGENWÄRTIG Bill Inmon, father of data warehousing Unternehmen In einer vollkommenen

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Kapitel 1 Überblick Content Management und Digitale Bibliotheken

Kapitel 1 Überblick Content Management und Digitale Bibliotheken Kapitel 1 Überblick Content Management und Digitale Bibliotheken Prof. Dr.-Ing. Stefan Deßloch Geb. 36, Raum 329 Tel. 0631/205 3275 dessloch@informatik.uni-kl.de 1 Überblick Was ist Content? Daten, Dokumente,

Mehr

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03 Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation)

Mehr

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S.

Nutzer verwenden außerbibliothekarische Recherchesysteme zur Vorbereitung von Literatursuchen in Bibliotheksangeboten (Akselbo et al. 2006, S. VuFind seit 2007 Produktiver Betrieb und Entwicklung seit 2008: Suchkiste für DFG Nationallizenzen: http://finden.nationallizenzen.de/ Ergebnis aus positiven Erfahrungen: GBV Discovery Index: Solr Index

Mehr

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg Information Retrieval Modelle und neue Technologien Prof. Dr. Wolfgang Riggert FDH Flensburg Gliederung IR-Modelle Suchmaschinen Beispiel: Google Neue Technologien Retrievalmodell - allgemein Ein Retrievalmodell

Mehr

Content Management Systeme auf dem Weg zum Semantic Web

Content Management Systeme auf dem Weg zum Semantic Web Content Management Systeme auf dem Weg zum Semantic Web Semantic Web baut auf der Anreicherung bestehender Datenbestände mit strukturierten Metadaten auf. Um die vieldiskutierten Vorteile von Semantic

Mehr

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher:

Quellen: Towards a Human Computer InteractionPerspective. Übersicht. Warum visuelle Sprachen? Begriffsdefinitionen: Hinderungsgründe bisher: Quellen: Towards a Human Computer InteractionPerspective von B.K. & B.K. LV: Visuelle Sprachen (03-763) Universität Bremen WS 2001/02 Visual Language Theory: Towards a Human- Computer Perspective; N. Hari

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an

generiere aus Textdokumenten zunächst Metadaten, wende Data Mining - Techniken dann nur auf diese an 9. Text- und Web-Mining Text Mining: Anwendung von Data Mining - Verfahren auf große Mengen von Online-Textdokumenten Web Mining: Anwendung von Data Mining - Verfahren auf Dokumente aus dem WWW oder auf

Mehr

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember 2012 1/19

YAGO YAGO. A semantic knowledge base. Paul Boeck. Humboldt Universität zu Berlin Institut für Informatik. Dezember 2012 1/19 1/19 A semantic knowledge base Paul Boeck Humboldt Universität zu Berlin Institut für Informatik Dezember 2012 2/19 Übersicht 1 Einführung 2 Das Modell Struktur Semantik 3 Das System 4 Anwendung 3/19 Einführung

Mehr

Semantic Web Paradigmen

Semantic Web Paradigmen #1 10.12.2014 SIMON HEIMLER Semantic Web Paradigmen Semantic Web Paradigmen Simon Heimler heimlersimon@gmail.com Master of Applied Research Computer Science Prof. Dr. Sabine Müllenbach Faculty of Computer

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Melikka Khosh-Niat Matthias Jordan 23. Mai 3. Juni 2011 Lösungen: Upload bis 3. Juni 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr

!!!!T!!! Systems!() Multimedia Solutions

!!!!T!!! Systems!() Multimedia Solutions Inhalt. Was ist das semantische Web? Wie findet man einen Arzttermin mit Hilfe des semantischen Web? Wie gibt man Inhalten einen Sinn? Welche Werkzeuge stehen zur Verfügung? Wo können strukturierte Inhalte

Mehr

Datenbank- Recherche. SS 2015 8. Veranstaltung 18. Juni 2015. Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.

Datenbank- Recherche. SS 2015 8. Veranstaltung 18. Juni 2015. Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis. Datenbank- Recherche SS 2015 8. Veranstaltung 18. Juni 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz- InsFtut für SozialwissenschaJen 2 Themen der heu2gen

Mehr

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr. N. Fuhr, U. Duisburg-Essen. Lehrangebot Lehrangebot Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr N. Fuhr, U. Duisburg-Essen Lehrangebot 1 Lehrangebot des FG Informationssysteme Datenbanken Internet-Suchmaschinen Information Retrieval

Mehr

Überblick. Seminar Beauty is our Business Tipps zur Ausarbeitung. 12.7.2007 Felix Naumann

Überblick. Seminar Beauty is our Business Tipps zur Ausarbeitung. 12.7.2007 Felix Naumann Seminar Beauty is our Business Tipps zur Ausarbeitung 12.7.2007 Felix Naumann Überblick 2 Organisatorisches Tipps zur Ausarbeitung Literatur Ihre Gliederungen 1 Organisatorisches 3 Heute letzter Termin

Mehr

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen)

Datenmodelle im Kontext von Europeana. Stefanie Rühle (SUB Göttingen) Datenmodelle im Kontext von Europeana Stefanie Rühle (SUB Göttingen) Übersicht Datenmodelle RDF DCAM ORE SKOS FRBR CIDOC CRM Datenmodelle "Datenmodellierung bezeichnet Verfahren in der Informatik zur formalen

Mehr

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten

Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Webinfolab / CHEVAL: Evaluationslabor für Information Retrieval Systeme mit semantischen und visuellen Komponenten Vortrag anlässlich der ODOK 2007 (20. September 2007, Graz) Joachim Pfister Schweizerisches

Mehr

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte

tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte IVDW-Workshop 2011, Berlin (6. Oktober) Institut für Visualisierung und Interaktive Systeme tfacet: Hierarchisch-facettierte Exploration semantischer Daten mit Hilfe bekannter Interaktionskonzepte Philipp

Mehr

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join

Einleitung Projektion Selektion Join Mengenop. Vollst.keit. Einleitung Projektion. Selektion Join. Vollst.keit. Einleitung Projektion Selektion Join Parsen der Anfrage (SQL) Transformation in eine Standardform (Relationenalgebra) Logische Optimierung Transformation in alternative Zugriffspläne, Physische Optimierung Ausführung des gewählten Zugriffsplans

Mehr

Dokumenten- und Content Management

Dokumenten- und Content Management Dokumenten- und Content Management 1 Dokumentenbeschreibung...2 1.1 SGML...2 1.2 HTML...3 1.3 XML...3 1.4 XML-Anwendungen...6 1.5 Datenaustausch mit XML...6 2 Content-Management...7 2.1 Medienprodukte...7

Mehr

Information Engineering und Information Life Cycle

Information Engineering und Information Life Cycle Norbert Fuhr Universität Duisburg-Essen Information Engineering Einführung Inhaltsverzeichnis 1 Übersicht über die Vorlesung 2 Information Engineering 3 Informationskompetenz 4 Suchkompetenz 5 Daten Information

Mehr

Cognitive Systems Master thesis

Cognitive Systems Master thesis Cognitive Systems Master thesis Recherche Phase SS 2011 Gliederung 1. Einleitung 2. Analogie Modelle 2.1 SME 2.2 Ava 2.3 Lisa 3. Zusammenfassung 4. Ausblick 2 Einleitung Analogie Problemsituation wird

Mehr

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14 Universität Augsburg, Institut für Informatik Wintersemester 2013/14 Prof. Dr. W. Kießling 10. Oktober 2013 F. Wenzel, D. Köppl Suchmaschinen Vorlesung Suchmaschinen Semesterklausur Wintersemester 2013/14

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Entwurf und Implementierung einer XML-Volltext-Suchmaschine

Entwurf und Implementierung einer XML-Volltext-Suchmaschine Technische Universität Kaiserslautern Fachbereich Informatik AG Datenbanken und Informationssysteme Prof. Dr.-Ing. Dr. h.c. Theo Härder Entwurf und Implementierung einer XML-Volltext-Suchmaschine Diplomarbeit

Mehr

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen.

Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Lucene Hilfe Begriffe Eine Abfrage (Query) ist in Begriffe und Operatoren unterteilt. Es gibt zwei verschiedene Arten von Begriffen: einzelne Begriffe und Phrasen. Ein einzelner Begriff ist ein einzelnes

Mehr

Kapitel DB:III. III. Konzeptueller Datenbankentwurf

Kapitel DB:III. III. Konzeptueller Datenbankentwurf Kapitel DB:III III. Konzeptueller Datenbankentwurf Einführung in das Entity-Relationship-Modell ER-Konzepte und ihre Semantik Charakterisierung von Beziehungstypen Existenzabhängige Entity-Typen Abstraktionskonzepte

Mehr

Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de

Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de Nur jetzt! Jubiläumsabo März / April 2012 Jubiläumsausgabe #1-12 Deutschland Euro 12,00 ISSN: 1864-8398 www.dokmagazin.de Enterprise Search Strategien für Erfolg Dokumentenmanagement mit SharePoint: Neue

Mehr

Inhalt. Interaktives Information Retrieval. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen

Inhalt. Interaktives Information Retrieval. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen. Ebenen-Architektur von IR-Systemen Inhalt Interaktives Information Retrieval Norbert Fuhr Universität Duisburg-Essen 2. Juli 2013 Ebenen-Architektur von IR-Systemen Information Seeking Behaviour Information Searching Strategische Unterstützung

Mehr

DAFFODIL Strategische Unterstützung bei der Informationssuche in Digitalen Bibliotheken

DAFFODIL Strategische Unterstützung bei der Informationssuche in Digitalen Bibliotheken DAFFODIL Strategische Unterstützung bei der Informationssuche in Digitalen Bibliotheken Vom Fachbereich Ingenieurwissenschaften der Universität Duisburg-Essen zur Erlangung des akademischen Grades eines

Mehr

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien

BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien BINGO! Ein fokussierender Crawler zur Generierung personalisierter Ontologien Martin Theobald Stefan Siersdorfer,, Sergej Sizov Universität des Saarlandes Lehrstuhl für Datenbanken und Informationssysteme

Mehr

Informationsintegration I Einführung

Informationsintegration I Einführung Informationsintegration I Einführung Felix Naumann Integrierte Informationssysteme Anfrage Integriertes Informationssystem Oracle, DB2 Anwendung Dateisystem Web Service HTML Form Integriertes Info.-system

Mehr

PinK meets Web2.0, 3.07.2007 Maya Biersack. Tagging auch für s Geschäft interessant

PinK meets Web2.0, 3.07.2007 Maya Biersack. Tagging auch für s Geschäft interessant PinK meets Web2.0, 3.07.2007 Maya Biersack Tagging auch für s Geschäft interessant Tagging im geschäftlichen Umfeld Agenda! Was ist Tagging?! Anwendungsgebiete! Eigenschaften/Probleme! Im geschäftlichen

Mehr