Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung.

Größe: px
Ab Seite anzeigen:

Download "Einführung. Information Retrieval. Anwendungsgebiet. Was ist Information Retrieval? Was ist Information Retrieval? Ein Kurzeinführung."

Transkript

1 Einführung Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Was ist Information Retrieval? Definition IR Syntax, Semantik und Pragmatik Retrievalqualität Konzeptuelles Modell Anwendungsgebiet Was ist Information Retrieval? Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken Populäres Beispiel: Internet-Suchmaschinen (Google & Co.) Suche in wissensintensiven Aufgaben Unterstützung des Information Seeking & Searching Suche in Texten (Dokumentretrieval) Multimedialen Daten Faktendatenbanken (z.b. Internet-Shops) 4 / 121

2 Unterschiede zur Datenbanksuche Information Retrieval Formulierung des Informationsbedürfnisses als passende Anfrage problematisch Anfrage liefert sehr viele Treffer (siehe Google), aber nur wenige sind interessant Unsicherheit und Vagheit Information Retrieval (IR) beschäftigt sich mit Vagheit und Unsicherheit in Informationssystemen Grundlage der Internetsuche 1950er frühe Arbeiten ab 1960 Gerard Salton (Harvard, Cornell) als populärer Pionier 1962 Online-Informationssysteme 1991 WAIS (Wide area Information System): verteilte Suche im Internet 1993 WWW 1994 Webcrawler als erste Internet-Suchmaschine 5 / / 121 Vagheit und Unsicherheit Definition IR Vagheit: Benutzer kann seinen Informationswunsch nicht präzise spezifizieren vage Anfragebedingungen iterative Frageformulierung Unsicherheit System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte unsichere Repräsentation ( fehlerhafte Antworten) unvollständige Repräsentation ( fehlende Antworten) 8 / 121

3 IR = inhaltsorientierte Suche (engere Definition) Suche auf verschiedenen Abstraktionsstufen: Syntax Semantik Pragmatik Syntax, Semantik und Pragmatik 9 / 121 Syntax, Semantik und Pragmatik bei Texten Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen. Syntax: Forschungsansatz no match Semantik Forschungsschwerpunkt match Pragmatik potenzielle Kooperationspartner für Entwicklung multimedialer Informationssysteme? Abstraktionsstufen für die Suche Syntax Dokument als Zeichenkette von Symbolen, Zeichenkettensuche in Texten Bildretrievalverfahren: Suche nach Merkmalen wie Farbe, Textur, Kontur Semantik Bedeutung eines Dokuments, Wissensrepräsentation Semantisches Bildretrieval: z.b. Suche nach Menschen, Häusern, etc. Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck (Beispiel: Literatursuche zu einem vorgegebenen Seminarthema) Nutzer: Suche auf der pragmatischen Ebene Gängige Retrievalverfahren: syntaktische und semantische Ebene 11 / / 121

4 Retrievalqualität Retrievalqualität gefunden (GEF) relevant (REL) Kollektion (ALL) 14 / 121 Retrievalmaße Precision p: GEF: Menge der gefundenen Antwortdokumente REL: Menge der relevanten Dokumente in der Datenbank Anteil der relevanten an den gefundenen Recall r: Anteil der gefundenen an den relevanten p = REL GEF GEF r = REL GEF REL Konzeptuelles Modell Beispiel: 20 relevante Dokumente zur aktuellen Anfrage. System liefert 10 Dokumente, von denen 8 relevant sind. Precision: p = 8/10 = 0.8 Recall: r = 8/20 = / 121

5 Konzeptuelles Modell Repräsentation von Textinhalten Evaluierung Informations bedürfnis Frage Repräsentation Frage Beschreibung Freitextsuche Wissensrepräsentation Vergleich Ergebnisse Dokumentationssprachen fiktives/ reales Objekt Objekt Repräsentation Objekt Beschreibung Retrievalmodelle 17 / 121 Repräsentation von Textinhalten Konzepte aus der Anfrage können im Text auf unterschiedlichste Weise formuliert werden Freitextsuche informatischer Ansatz: Textretrieval als Zeichenkettensuche computerlinguistischer Ansatz: i.w. Normalisierung von Wortformen semantischer Ansatz Zuordnung von Deskriptionen zu Texten Klassifikationen Thesauri Ontologien Tagging Freitextsuche Informatischer Ansatz Computerlinguistischer Ansatz 19 / 121

6 Freitextsuche Probleme: Homographen und Polyseme Tenor: Sänger / Ausdrucksweise Bank: Sitzgelegenheit / Geldinstitut Synonyme Banken Geldinstitute Sparkassen Flexionsformen Haus (des) Hauses Häuser schreiben schreibt schrieb geschrieben Derivationsformen Formatierung Format formatieren Komposita (zusammengesetzte Wörter) Donaudampfschiffahrtsgesellschaftskapitän Bundeskanzlerwahl Nominalphrasen (aus mehreren Nomen zusammengesetzte Begriffe) Wahl des Bundeskanzlers information retrieval retrieval of information information was retrieved 21 / 121 Informatischer Ansatz Zeichenketten-Operatoren für die Freitextsuche Truncation Front-/End-Truncation, beschränkt ($) / unbeschränkt(#) schreib#: schreiben, schreibt, schreibst, schreibe schreib$$: schreiben, schreibst #schreiben: schreiben, beschreiben, anschreiben, verschreiben $$schreiben: beschreiben, anschreiben (Mitten-)Maskierung do$umentation: documentation, Dokumentation schr$$b#: schreiben, schrieb / schrauben 22 / 121 Truncation und Maskierung dienen dazu, Flexions- und Derivationsformen von Wörtern zusammenzuführen (auch für Komposita geeignet) Vorteil: weniger Schreibarbeit als beim expliziten Aufzählen Nachteil: möglicherweise unerwünschte Wörter dabei 23 / 121 Kontextoperatoren zur Suche nach mehrgliedrigen Ausdrücken (Nominalphrasen) information AND retrieval: boolesche Operatoren beziehen sich nur auf das Vorkommen irgendwo im Text! genauer Wortabstand ($): retrieval $ information: retrieval of information, retrieval with information loss maximaler Wortabstand (#): text # # retrieval: text retrieval, text and fact retrieval Wortreihenfolge (,): information #, retrieval: information retrieval, retrieval of information gleicher Satz (.): information # retrieval. matcht nicht... this information. Retrieval of data... aber auch nicht:... storage of information. Its retrieval / 121

7 Computerlinguistischer Ansatz Graphematische Verfahren Arten von Verfahren: graphematische Verfahren auf der Analyse von Buchstabenfolgen basierende Algorithmen, hauptsächlich zur Zusammenführung von Flexions- oder Derivationsformen (Morphologie) lexikalische Verfahren Wörterbuch-basierte Verfahren zur Zusammenführung von Flexions- oder Derivationsformen, mehrgliedrige Ausdrücke und Synonyme syntaktische Verfahren zur Identifikation von mehrgliedrigen Ausdrücken Grundformreduktion Zurückführen auf die Grundform, d.h. Substantive im Nominativ Singular, Verben im Infinitiv applies apply Duisburgs Duisburg aber nicht: Duisburger Duisburg Stammformreduktion Entfernen der Derivationsendungen, d.h. Zurückführen auf den Wortstamm computer, compute, computation, computerization comput Anwendungssysteme beschränken sich meist auf Grundformreduktion Stammformeduktion nur in der Forschung 25 / / 121 Dokumentationssprachen Klassifikationen Ontologien Dokumentationssprachen (Thesauri) Klassifikationen Ontologien (Tagging) 28 / 121

8 Klassifikationen Web-Klassifikation: DMOZ Produkt-Klassifikation: Amazon 29 / / 121 Ontologien Ontologien: Konstrukte Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken jetzt populär semantic Web verschiedene Formalismen (Sprachen) OWL: Web Ontology Language Weiterentwicklung von Datenbankschemata und Thesauri: aus Thesauri: Begriffshierarchie, Relationen zwischen Begriffen aus Datenbank-Schemata: Attribute und Beziehungen, Instanzen zu Konzepten, Datentypen Konzepte/Klassen Vererbung Eigenschaften/Relationen Facetten von Eigenschaften Instanzen (Regeln) 31 / / 121

9 Konzepte/Klassen Vererbung Konzepte werden als Klassen aufgefasst Klasse = Menge von Instanzen mit gleichen/ähnlichen Eigenschaften analog zu objektorientierter Programmierung Beispiele: Student als Klasse aller Studenten Reiseziel als Menge aller möglichen Destinationen Information Retrieval als Menge aller möglichen IR-Themen analog zu objektorientierter Programmierung Vererbung als Teilmengenbeziehung zwischen Klassen Beispiele: Bachelor-Student und Master-Student als Unterklassen von Student Hiwi als Unterklasse von Student und Mitarbeiter Stadt und Strand als Unterklassen von Reiseziel Klassifikation als Unterklasse von Information Retrieval viele Ontologie-Sprachen erlauben keine Mehrfachvererbung 33 / / 121 Beispiel-Klassenhierarchie Slots: Eigenschaften/Relationen ein Konzept hat i.d.r. mehrere Slots ein Slot beschreibt entweder eine Eigenschaft bzw. eine Relation Instanzen eines Konzeptes unterscheiden sich in den Werten für die Slots Wert ist entweder von elementarem Datentyp oder einer Klasse Beispiel Student: Eigenschaften: Name: string, Matrikelnr: integer, Semester: integer Relation: studiert Studiengang, hört Vorlesung 35 / / 121

10 Beispiel-Properties Facetten von Slots I Domain und Range Domain: Konzepte, bei denen dieser Slot vorkommt Range: Klassen/Datentypen, zu denen die Slot-Werte gehören Bs.: Domain(Name)= {Mitarbeiter,Student}, Range(Name)=string Bs.: Domain(studiert)={Student}, Range(studiert) = Studiengang Kardinalität: Anzahl möglicher Werte für diesen Slot Angabe von minimaler und maximaler Anzahl Bs.: card(name)=(1,1) Bs.: card(studiert)= (1,2) 37 / / 121 Facetten von Slots II Slots und Vererbung Hierarchien auf Slots Spezialisierung: Instanzen eines spezielleren Slots sind auch Instanzen des generelleren Slots Bs.: hört Pflicht und hört Wahlpflicht als Spezialisierung von hört speziellerer Slot kann bzgl. Domain, Range, und Kardinalität eingeschränkt sein Default-Wert: falls kein expliziter Slot-Wert angegeben wird Unterklasse erbt alle Slots ihrer Oberklasse zusätzlich kann sie weitere Slots haben vererbte Slots können eingeschränkt werden: bzgl. Range: Unterklasse des Range der Oberklasse Bs.: Ingenieurstudent studiert Ingenieurstudiengang bzgl. Kardinalität Bs.: Diplomand: card(hört) = (0,0) speziellerer Slot 39 / / 121

11 Instanzen Anwendungsbeispiel: heise-preisvergleich Konzepthierarchie Füllen der Ontologie mit Werten Instanz einer Klasse muss alle Bedingungen der Klasse erfüllen Retrieval = Suche nach Instanzen einer Klasse (mit allen Unterklassen), die zusätzlich bestimmte Wertebedingungen erfüllen Bs.: Ingenieurstudenten mit Zweitstudiengang Bs.: Studenten mit mehr als 8 Semestern, die IR hören 41 / / 121 Anwendungsbeispiel: heise-preisvergleich Slots und Instanzen YAGO Suche automatisch extrahierter Instanzen aus Wikipedia (siehe auch DBpedia) 43 / / 121

12 YAGO Ontology Browser Freebase Manuell erstellte Dokumenten/Faktenbasis: 45 / / 121 Freebase - Suchergebnis Integration von Fakten- und Web-Suche 47 / / 121

13 Fakten-Suche im Web Werkzeuge und Anwendungen Ontologie-Editoren zur Ontologie-Entwicklung überprüfen Widerspruchsfreiheit der Ontologie und Erfüllung der Konsistenzbedingungen von Instanzen Systeme: Protegé: protege.stanford.edu Chimaera: Java Ontology Editor (JOE): Weitere siehe en.wikipedia.org/wiki/ontology editor 49 / / 121 Nicht-probabilitische Retrievalmodelle Boolesches Retrieval Vektorraummodell

14 Ein Dokument (Objekt) Beispiel: Text, Repräsentation, Beschreibung Text: Research in the probabilistic theory of information retrieval involves the construction of mathematical models. In this kind of theory construction the assumptions laid down... Stoppwortentfernung und Stemming: research probabil theory informat retriev involv construct mathemat model kind theory construct assume lay down Repräsentation (Bag of words): (research,1), (probabil,1), (theory,2), (informat,1), (retriev,1), (involv,1), (construct,2), (mathemat,1), (model,1), (kind,1), (assum,1), (lay,1), (down,1), Beschreibung: (research,0.5), (probabil,0.5), (theory,1.0), (informat,0.5), (retriev,0.5), (involv,0.5), (construct,1.0), (mathemat,0.5), (model,0.5), (kind,0.5), (assum,0.5), (lay,0.5), (down,0.5) 53 / / 121 Konzeptuelles Modell R rel. judg. Q D α Q α D Q D β β Q D Q D D D ρ IR Boolesches Retrieval q D k q k Q: Anfrage/Info-bed. q k Q Anfragerepräs. QD : Anfragebeschr. R: Relevanzskala d m D: Dokument d m D Dokumentrepräs. d D m D D : Dokumentbeschr. ϱ: Retrievalfunktion IR Retrievalwert T = {t 1,..., t n }: Indexierungsvokabular dm D : d m = (d m1,..., d mn ): Dokument-Beschreibung als Menge von Indexierungsgewichten 55 / 121

15 Boolesches Retrieval Attribute und Anfragen Historisch erstes Retrievalmodell Ungewichtete Indexierung (nur Vorkommen eines Terms) Liefert Zweiteilung in gefundene und nicht gefundene Dokumente Heute nur noch in speziellen IR-Systemen eingesetzt (Bibliothekssysteme, Patentretrieval) Definition (Attribut) Ein Attribut ist eine Abbildung t : D T, die einem Dokument d D einen Attributwert t i T zuweist. Definition (Anfrage) Paar, das aus einem Attribut und einem dazugehörigen Attributwert (Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch die Operatoren AND, OR und NOT verknüpft werden. 57 / / 121 Boolesche Operationen Nachteile des Booleschen Retrievals Sei t(d) = t i ein Attribut. Menge der Dokumente, bei denen das Attribut t den Wert t i annimmt: D t,ti = t 1 (t i ) = {d D t(d) = t i } Diese Menge wird auf eine Anfrage, die nur aus dem Attribut-Wert-Paar (t, t i ) besteht, zurück geliefert Boolesche Operationen (t, t 1 ) AND (s, s 1 ) (t, t 1 ) OR (s, s 1 ) NOT (t, t 1 ) Durchschnitt D t,t1 D s,s1 Vereinigung D t,t1 D s,s1 Komplement D \ D t,t1 Größe der Antwortmenge schwierig zu kontrollieren Keine Ordnung der Antwortmenge Keine Gewichtung Trennung zu scharf Frageformulierung (boolescher Ausdruck) zu umständlich für gelegentliche Nutzer schlechte Retrievalqualität 59 / / 121

16 Vektorraummodell Vektorraummodell Menge der Terme T = {t 1,..., t n } spannt n-dimensionalen Vektorraum auf. Beschreibung eines Dokuments als Vektor von Termgewichten d ji R: d j = (d j1,..., d jn ) Vektorielle Beschreibung von Anfragen (mit q i R): q = (q 1,..., q n ) 62 / 121 Retrievalfunktion Beispiel-Frage Berechnung eines Retrieval Status Value (RSV) mittels eines Vektor-Ähnlichkeitmaßes, z.b. Skalarprodukt: RSV (d j, q) = d j q = t2 d 2 q n d ji q i i=1 side effects of drugs on memory and cognitive abilities t i q ki d 1i d 2i d 3i d 4i side effect drugs memory cognitive ability Retrievalgewicht d1 Rangordnung der Dokumente nach absteigendem RSV t1 63 / / 121

17 Coordination Level Match Gewichtungsmethoden Vereinfachung des Vektorraummodells: nur binäre Frage- und Dokumenttermgewichtung Dokument-Beschreibung: ähnlich wie Boolesches Retrieval d j mit d ji {0, 1} für i = 1,..., n Frage-Beschreibung: q mit q i {0, 1} für i = 1,..., n Retrievalfunktion: Skalarprodukt q T : Menge der Terme in q dj T : Menge der Terme in d j RSV ( q, d j ) = q d j = q T d T j Definition (term frequency) tf (t, d) := occ(t, d) occ(t max, d) Definition (inverse document frequency) N n(t) occ(t, d) idf (t) := log N n(t) Anzahl der Dokumente Anzahl der Dokumente, in denen t auftritt Auftrittshäufigkeit von t in d 65 / / 121 Gewichtungsmethoden Relevance Feedback im Vektorraummodell tf und idf können zur Gewichtung von Dokument- und Fragetermen benutzt werden Beispiel: d ji = tf (t i, d j ) q i = idf (t i ) Angaben über die Relevanz bzw. Nicht-Relevanz werden zur Verbesserung der Retrievalqualität benutzt Modifikation des ursprünglichen Fragevektors Definition (Roccio-Formel) q = q α 1 D R dj β 1 D N d j D R d j D N dj D R D N Menge der relevanten Dokumente Menge der nicht-relevanten Dokumente α, β heuristische, nicht-negative Konstanten 67 / / 121

18 t2 Probabilistisches Retrieval Probability Ranking Principle t1 Binary-Independence-Retrieval-Modell unterschiedliche Gewichtung positiver und negativer Beispiele: BM25 t2 qi q opt q q R Learning to Rank IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR t 1 69 / 121 Probabilistische Modelle Zu Grunde liegende Frage: Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d für eine Anfrage q als relevant eingeschätzt wird? Schätzen der Wahrscheinlichkeit durch Vereinfachungen und Unabhängigkeitsannahmen Ereignis R: Ein Dokument wird als relevant eingeschätzt Probability Ranking Principle Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben wird, unter der Bedingung, dass die Anfrage q und das Dokument d vorliegen: P(R q, d) Verfahren können durch Relevanzurteile (Relevance Feedback) Parameter lernen 71 / 121

19 Probability Ranking Principle Theoretische Rechtfertigung der probabilistischen Modelle: Optimales Retrieval Entscheidungstheoretische Begründung: Minimale Kosten für den Benutzer, wenn Ranking nach aufsteigenden erwarteten Kosten EC(d, q): EC(d, q) = C P(R q, d) C (1 P (R q, d)) C Kosten für das Retrieval eines relevanten Dokuments C Kosten für das Retrieval eines nicht-relevanten Dokuments Annahme: C > C Ranking nach absteigender Wahrscheinlichkeit P(R q, d) PRP-Beispiel System berechnet folgende Relevanzwahrscheinlichkeiten P(R q, d): (0.9, 0.8, 0.5, 0.4, 0.35, 0.3, 0.25, 0.2, 0.15, 0.1, 0.05, 0.0) Benutzer schaut sich nur die ersten drei Dokumente an 1. Sei C = 0 und C = 2. Wie hoch sind die erwarteten Kosten für den Nutzer? 2. Erwartete Precision? 3. Erwarteter Recall? 1. EC(q, d) = C P(R q, d) C(1 P(R q, d)) = 2 (1 P(R q, d)) EC(q) = = p = ( )/3 = i P(R q, d i) = 4, r = ( )/4 = / / 121 Retrievalfunktionen für binäre Indexierung repräsentiere Anfragen und Dokumente als Mengen von Termen T = {t 1,..., t n } Menge der Terme in einer Kollektion Binary-Independence-Retrieval-Modell q Q: Anfragerep. d m D: Dokumentrep. q T : Menge von Fraget. d T m : Menge von Dokumentt. Repräsentation des Dokumentes d m als binären Vektor Retrievalfunktionen für binäre Indexierung Anwendung des BIR-Modells x = (x 1,..., x n ) mit x i = { 1, falls ti d T m 0, sonst P(R) W., dass ein arbiträres Dokument relevant ist zur Anfrage P( x R) W., dass ein arbiträres, relevantes Dokument den Termvektor x besitzt P( x R) W., dass ein arbiträres, nicht-relevantes Dokument den Termvektor x besitzt 76 / 121

20 Beispiel d m r(d m ) x 1 x 2 P(R x) d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R d 9 R 1 0 d 10 N 1 0 d 11 N 1 0 P(R) = P(1, 1 R) = 4 12 d m r(d m ) x 1 x 2 P(R x) d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 P(1, 1 R) = 1 8 p i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren relevanten Dokument vorkommt s i = P(x i =1 R) Wahrscheinlichkeit, dass t i in einem arbiträren nicht-relevanten Dokument vorkommt Retrievalfunktion: c i = log p i(1 s i ) s i (1 p i ) ϱ BIR (q, d m ) = t i ɛd T m qt c i 77 / / 121 Parameterschätzung Relevance Feedback t i occurs t i occurs relevant r i r r i r relevant n i r i n n i r r i n r n i n n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt p i r i r s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i r i n r n i n Parameterschätzung ohne Relevance Feedback n - # Dok. in der Kollektion n i - # Dok. mit Term t i s i = P(t i R) W., dass t i in einem arbiträren nicht-relevanten Dok. vorkommt s i n i n p i = P(t i R) W. dass t i in einem arbiträren relevanten Dok. vorkommt nehme konstanten Wert an: p = 0.5 c i = log p i(1 s i ) s i (1 p i ) = log p 1 p log 1 s i s i = 0 log n n i n i log n n i IDF (inverse document frequency) Gewichtung: log n/n i 79 / / 121

21 Beispiel für BIR BIR Beispiel d m r(d m ) x 1 x 2 P(R x) BIR d 1 R 1 1 d 2 R 1 1 d 3 R d 4 R 1 1 d 5 N 1 1 d 6 R 1 0 d 7 R 1 0 d 8 R 1 0 d 9 R d 10 N 1 0 d 11 N 1 0 d m r(d m ) x 1 x 2 P(R x) BIR d 12 R 0 1 d 13 R 0 1 d 14 R 0 1 d 15 N d 16 N 0 1 d 17 N 0 1 d 18 R 0 0 d 19 N d 20 N 0 0 p 1 = 8 12 = 2 3 s 1 = 3 8 c 1 = log p 1(1 s 1 ) s 1 (1 p 1 ) 2 3 = log (1 3 8 ) 3 8 (1 2 3 ) = log 10 3 p 2 = 7 12 s 2 = 4 8 = 1 2 c 2 = log p 2(1 s 2 ) s 2 (1 p 2 ) 7 12 = log (1 1 2 ) 1 2 ( ) = log / / 121 BM25 heuristische Erweiterung des BIR-Modells von binärer auf gewichtete Indexierung (Berücksichtigung der Vorkommenshäufigkeit tf ) BM25 84 / 121

22 Übergang zu gewichteter Indexierung l m Dokumentlänge (# laufende Wörter in d m ) al durchschnittliche Dokumentlänge in D tf mi : Vorkommenshäufigkeit (Vkh) von t i in d m. b Gewichtung der Längennormalisierung, 0 b 1 k Gewichtung der Vorkommenshäufigkeit Längennormalisierung: B = ( (1 b) b l ) m al normalisierte Vorkommenshäufigkeit: ntf mi = tf mi /B BM25-Retrievalfunktion ϱ BM25 (q, d m ) = u mi c i t i ɛdm T qt = tf mi k((1 b) b lm al ) tf mi t i ɛd T m qt log p i(1 s i ) s i (1 p i ) BM25-Gewicht: u mi = = ntf mi k ntf mi tf mi k ( (1 b) b lm al ) tfmi 85 / / 121 Learning to Rank Parameter-Lernen im IR [Fuhr 92] Learning to Rank Lernansätze im IR 88 / 121

23 Learning to Rank bei der Web-Suche IIR-PRP: Probabilistisches Ranking-Prinzip für Interaktives IR Motivation Ansatz Das Modell Anwendungsmöglichkeiten Schätzung der IPRP-Parameter durch Eyetracking 89 / 121 Das klassische PRP Einwände gegen die PRP-Annahmen Ranking nach fallender Relevanzwahrscheinlichkeit liefert optimale Retrievalqualität Annahmen: Aufgabe: finde relevante Dokumente Relevanz eines Dokumentes zu einer Anfrage ist unabhängig von anderen Dokumenten Durchsehen der Ergebnisliste ist die Hauptaufgabe des Benutzers (und die einzige berücksichtigte Aktivität) Relevanz hängt von den Dokumenten ab, die der Benutzer bereits gesehen hat. Relevanzbeurteilung ist nicht die aufwändigste Aktivität des Benutzers TREC interactive Track: Systeme mit unterschiedlicher Retrievalqualität sind bei interaktivem Retrieval gleich gut [Turpin & Hersh 01] Benutzer können Qualitätsunterschiede beim Ranking leicht kompensieren 91 / / 121

24 Interaktives Retrieval Anforderungen an ein IIR-PRP Benutzer haben vielfältige Interaktionsmöglichkeiten (Re)formulierung der Anfrage Dokumentauswahl anhand von Summaries unterschiedlicher Granularität Auswahl verwandter Suchterme aus einer Liste Verfolgen von Dokument-Links Relevanzbeurteilung Informationsbedürfnis ändert sich während der Suche Keine theoretische Fundierung für die Konstruktion von Systemen für interaktives IR Berücksichtigung der vollständigen Interaktion zwischen Mensch und Computer Spezifische Kosten für unterschiedliche Aktivitäten Mögliche Änderungen des Informationsbedürfnisses berücksichtigen 93 / / 121 Grundlegende Annahmen Beispiele für Auswahllisten Fokussiere auf die funktionalen Aspekte der Interaktion (Usability hier nicht berücksichtigt) System präsentiert dem Benutzer Auswahlliste Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Nur positive Entscheidungen (Annahme von Vorschlägen) helfen dem Benutzer Rangliste von Dokumenten Liste von Summaries Liste von Dokument-Clustern KWIC-Liste Liste von Termen zur Frage-Expansion Links zu verwandten Dokumenten / / 121

25 Abstraktion: Situationen mit Auswahllisten Grundlegende Ideen Benutzer bewegt sich von einer Situation zur nächsten In jeder Situation s i wird dem Benutzer eine Liste von (binären) Vorschlägen < c i1, c i2,..., c i,ni > präsentiert Benutzer beurteilt die Vorschläge in der angezeigten Reihenfolge Die erste positive Entscheidung bringt den Benutzer in eine neue Situation s j 97 / / 121 Ein probabilistisches Modell für einzelne Situationen Erwarteter Nutzen eines Vorschlages p ij q ij e ij b ij g ij Wahrscheinlichkeit, dass der Nutzer Vorschlag c ij akzeptiert Wahrscheinlichkeit, dass diese Entscheidung korrekt war < 0: Aufwand zur Beurteilung des Vorschlages c ij > 0: resultierender Nutzen einer positiven Entscheidung 0: Kosten zur Korrektur bei fälschlicher Annahme des Vorschlages c ij Erwarteter Nutzen des Vorschlages c ij E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) 99 / / 121

26 Beispiel Maximierung des erwarteten Nutzens Web-Suche: Java n 0 =290 Mio. Treffer System schlägt Terme zur Frageerweiterung vor: term n i p ij b ij p ij b ij program 195 Mio blend 5 Mio island 2 Mio Nutzen b ij = log n 0 n i E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) (Annahme: Nutzen b ij und Korrekturaufwand g ij sind gegeben) 1. minimiere Beurteilungsaufwand e ij aber ohne p ij (Auswahlwahrsch.) und q ij (Erfolgswahrsch.) zu beeinträchtigen 2. maximiere p ij : Benutzer sollte c ij wählen, wenn dies angemessen ist aber ohne die Erfolgswahrscheinlichkeit q ij zu beeinträchtigen erhöhter Aufwand e ij 3. maximiere q ij, indem fälschliche Annahmen vermieden werden erhöhter Beurteilungsaufwand e ij 101 / / 121 Weitere Anmerkungen E(c ij ) = e ij p ij (q ij b ij (1 q ij )g ij ) Erwarteter Nutzen sollte positiv sein Vorschläge mit negativem Erwartungswert sollten dem Benutzer nicht präsentiert werden. Methoden zu Schätzung der Parameter p ij, q ij, b ij, e ij, g ij : Gegenstand weiterer Forschung Nachfolgend sei a ij = q ij b ij (1 q ij )g ij ( mittlerer Nutzen ) E(c ij ) = e ij p ij a ij 103 / 121 Beispiel Systemvorschläge nach Eingabe der Anfrage (mit Parametertripeln (e ij, p ij, a ij )) ( 1.0, 0.3, 8) Füge einen vorgeschlagenen Term zur Anfrage hinzu ( 2.0, 0.4, 10) Betrachte das erste Element der Ergebnisrangliste ( 10.0, 0.4, 25) Gehe unmittelbar zum ersten Antwortdokument. ( 5.0, 0.3, 20) Betrachte einer Zusammenfassung der ersten zehn Dokumente. (Werte für Aufwand und Nutzen z.b. als Zeitangabe) Erwartete Nutzen: ( ) = 1.4 ( ) = 2 ( ) = 0 ( ) = / 121

27 Auswahllisten Erwarteter Nutzen einer Auswahlliste Situation s i mit Liste von Vorschlägen r i =< c i1, c i2,..., c i,ni > Erwarteter Nutzen einer Auswahlliste: E(r i ) = e i1 p i1 a i1 (1 p i1 ) (e i2 p i2 a i2 (1 p i2 ) (e i3 p i3 a i3... (1 p i,n 1 ) (e in p in a in ) )) ( n j 1 ) = (1 p ik ) (e ij p ij a ij ) j=1 k=1 E(r i ) = n ( j 1 j=1 k=1 ) (1 p ik ) (e ij p ij a ij ) 105 / / 121 Ranking von Vorschlägen Betrachte zwei aufeinanderfolgende Vorschläge c il und c i,l1 wobei E(r i ) = n j=1 l j l1 ( j 1 ) (1 p ik ) (e ij p ij a ij ) t l,l1 i k=1 l 1 t l,l1 i = (e il p il a il ) (1 p ik ) k=1 (e i,l1 p i,l1 a i,l1 ) l (1 p ik ) k=1 Differenz zwischen alternativen Rangfolgen d l,l1 i = tl,l1 i l 1 Für d l,l1 i t l1,l i k=1 (1 p ik) = e il p il a il (1 p il )(e i,l1 p i,l1 a i,l1 ) (e i,l1 p i,l1 a i,l1 (1 p i,l1 )(e il p il a il )) = p i,l1 (e il p il a il ) p il (e i,l1 p i,l1 a i,l1 )! 0 ergibt sich a il e il p il a i,l1 e i,l1 p i,l1 analog t l1,l i für <..., c i,l1, c il,,... > 107 / / 121

28 PRP für Interaktives IR Erwarteter Nutzen: Einzelner Vorschlag vs. Liste a il e il p il a i,l1 e i,l1 p i,l1 Erwarteter Nutzen: E(c ij ) = p ij a ij e ij Ranking-Kriterium: ϱ(c ij ) = a il e il p il IIR-PRP Ordne Vorschläge nach fallenden Werten von ϱ(c ij ) = a il e il p il Beispiel: Vorschlag p ij a ij e ij E(c ij ) ϱ(c ij ) c c E(< c 1, c 2 >) = = 5.5 E(< c 2, c 1 >) = = / / 121 IIR-PRP vs. PRP IIR-PRP: Beobachtungen a il e il p il a i,l1 e i,l1 p i,l1 Sei e ij = C, C > 0 und ail = C > 0: C C C C p il p il p i,l1 Klassisches PRP weiterhin gültig! p i,l1 Ordne Vorschläge nach a ij e ij p ij p ij Relevanzwahrscheinlichkeit immer noch involviert Tradeoff zwischen Aufwand e ij und Nutzen a ij Unterschied zwischen PRP und IIR-PRP aufgrund der variablen Werte für e ij und a ij IIR-PRP betrachtet nur die erste positive Entscheidung 111 / / 121

29 Anwendungsmöglichkeiten Benutzerschnittstelle 1. Auswahlwahrscheinlichkeit p ij : Gegenstand vieler IR-Modelle, aber Bedarf an Modellen für dynamische Informationsbedürfnisse 2. Aufwandsparameter e ij : größter Forschungsbedarf 3. Nutzen a ij : Eingesparter Aufwand (s.u.) 113 / / 121 Areas of Interest für Eyetracking AOI-Sequenz 115 / / 121

30 Aufgabenstellung Markov.Modell für komplexen Task Complex tasks [Tran & Fuhr 12] Retrievalexperimente mit 12 Testpersonen Benutzer mussten je 15 Minuten an zwei verschiedenen Aufgaben arbeiten Komplexer Task: Betrachtung der Benutzerreviews notwendig zur Bestimmung der relevanten Dokumente Enger Task: Lesen der Abstracts zur Relevanzbeurteilung ausreichend Benutzer platzieren aus ihrer Sicht relevante Dokumente im basket Query 4,9 sec 100 % 3 % Result Item 2,3 sec 15 % 2% 85 % 1 % 74 % 9 % Basket 1,7 sec 24 % Detail 15,3 sec 87 % 117 / / 121 Markov-Modelle: komplexer vs. enger Task Schätzung der iprp-parameter Complex tasks Complex tasks Narrow tasks Query 4,9 sec 15 % Basket 1,7 sec Query 4,9 sec 15 % Basket 1,7 sec Query 5,4 sec 6 % Basket 1,7 sec 2% 24 % 2% 24 % 5 % 21 % 100 % 3 % 85 % 100 % 3 % 85 % 100 % 4 % 94% 1 % Result Item 2,3 sec 87 % 74 % 9 % 1 % Detail 15,3 sec Result Item 2,5 sec 83 % 75 % 12 % 1 % Detail 9,8 sec Result Item 2,3 sec 87 % 74 % 9 % Detail 15,3 sec Aufwand: Zeit, die in einer Situation verbracht wird Akzeptanzwahrsch. = Übergangswahrsch. Nutzen? 119 / / 121

31 Erwartete Zeit zum Erreichen des baskets Erwartete Zeiten und Nutzen Aufwand in den Zuständen: t q, t r, t d und t b p XY : Übergangswahrscheinlichkeit von Zustand X nach Zustand Y Erwartete Zeiten T q, T r und T d zum Erreichen des baskets T q = t q p qr T r T r = t r p rq T q p rr T r p rd T d T d = t d p dq T q p dr T r Query 4,9 sec 100 % 3 % Result Item 2,3 sec Complex tasks 2% 74 % 9 % 85 % 15 % 1 % Basket 1,7 sec Detail 15,3 sec 24 % complex narrow T q T r T d b q b r b d % 121 / / 121 IPRP für nicht-binäre Auswahlmöglichkeiten Verfeinerung des Modells c ij : Auswahl Query 15 % Basket m ij Alternativen c ijk, k = 1,..., m ij a ijk zugehörige Nutzenwerte q ijk Auswahlwahrscheinlichkeiten, wobei m ij q ijk = 1 k=1 und m ij q ijk a ijk = a ij. k=1 Beipiel: Betrachten eines Elements der Ergebnisliste im komplexen Task: b r = 0.03(T q T r ) 0.01(T r 0) 0.09(T d T r ) = 17.7s 100 % 3 % Result Item 1 2 % 85 % 1 % Detail 1 Result Item 2 Detail 2 Result Item 3 Detail 3 24 % / 121

32 IPRP zur Benutzerführung Zusammenfassung IIR-PRP Heutigen IIR-Systemen fehlt eine theoretische Fundierung Interaktives IR als Fällen von Entscheidungen Expected time(s) Tq Tri r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 Nutzer bearbeitet lineare Auswahlliste positive Entscheidungen bringen den Nutzer in eine neue Situation, mit (möglicherweise) neuer Auswahlliste Modell beschränkt sich auf einzelne Situationen, keine Aussagen über Interaktionspfade IIR-PRP ist Generalisierung des klassischen PRP Einführung zusätzlicher Parameter Parameterschätzung ist Gegenstand zukünftiger Forschung Rank 126 / 121

Information Retrieval

Information Retrieval Ein Kurzeinführung Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Retrieval Einführung 1 Was ist Information Retrieval? 2 Definition IR 3 Syntax, Semantik und Pragmatik 4 Retrievalqualität

Mehr

Information Retrieval

Information Retrieval Ein Überblick Norbert Fuhr Universität Duisburg-Essen Vorlesung Information Engineering SS 2013 UNIVERSITÄT D U I S B U R G E S S E N Inhaltsverzeichnis 1 Einführung 2 Repräsentation von Textinhalten 3

Mehr

5. Probabilistische Retrievalmodelle

5. Probabilistische Retrievalmodelle 5. Probabilistische Retrievalmodelle 1 5. Probabilistische Retrievalmodelle Norbert Fuhr Notationen 5. Probabilistische Retrievalmodelle 3 Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D

Mehr

Internet-Suchmaschinen Probabilistische Retrievalmodelle

Internet-Suchmaschinen Probabilistische Retrievalmodelle Internet-Suchmaschinen Probabilistische Retrievalmodelle Norbert Fuhr 1 / 41 Notationen Notationen Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage/Info-bed. q Q Anfragerepräs.

Mehr

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen

Ontologien. Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Ontologien: Konstrukte. Konzepte/Klassen Ontologien Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken, Beschreibungslogiken

Mehr

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr

Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr Ontologien (aus ISM Kap. 3. Wissensrepräsentation für Texte) Norbert Fuhr 1 / 23 Ontologien Ursprung: semantische Netze aus der künstlichen Intelligenz (1970er) weiterentwickelt als terminologische Logiken,

Mehr

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr.

Inhaltsverzeichnis. Information Retrieval. Anwendungsgebiet. Einführung. Ein Überblick. Einführung. Freitextsuche. Norbert Fuhr. Inhaltsverzeichnis Information Retrieval Ein Überblick Norbert Fuhr Einführung Freitextsuche Universität Duisburg-Essen Vorlesung "Information Engineering" WS 2007/8 Retrievalmodelle Evaluierung UNIVERSITÄT

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Information Retrieval

Information Retrieval Information Retrieval Eine kurze Einführung von Ronny Berger 18. Juli 2002 Typeset by FoilTEX IR-Konzepte Definition von Information Retrieval: Gegenstand des Information-Retrieval ist die inhaltliche

Mehr

Information Retrieval

Information Retrieval Information Retrieval 1 Information Retrieval Norbert Fuhr 13. Oktober 2011 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Daten Information Wissen 4 Dimensionen des IR 5 Rahmenarchitektur für IR-Systeme

Mehr

4. Nicht-Probabilistische Retrievalmodelle

4. Nicht-Probabilistische Retrievalmodelle 4. Nicht-Probabilistische Retrievalmodelle 1 4. Nicht-Probabilistische Retrievalmodelle Norbert Fuhr 4. Nicht-Probabilistische Retrievalmodelle 2 Rahmenarchitektur für IR-Systeme Evaluierung Informations

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Probabilistische IR-Modelle

Probabilistische IR-Modelle Kapitel 4 Probabilistische IR-Modelle 4.1 Einführung Ein wesentlicher Unterschied zwischen IR-Systemen und vielen anderen klassischen Informationssystemen besteht in der intrinsischen Unsicherheit des

Mehr

Information Retrieval

Information Retrieval Information Retrieval Norbert Fuhr 12. April 2010 Einführung 1 IR in Beispielen 2 Was ist IR? 3 Dimensionen des IR 4 Daten Information Wissen 5 Rahmenarchitektur für IR-Systeme IR in Beispielen IR-Aufgaben

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig

Rückblick. Aufteilung in Dokumente anwendungsabhängig. Tokenisierung und Normalisierung sprachabhängig 3. IR-Modelle Rückblick Aufteilung in Dokumente anwendungsabhängig Tokenisierung und Normalisierung sprachabhängig Gesetz von Zipf sagt aus, dass einige Wörter sehr häufig vorkommen; Stoppwörter können

Mehr

Grundbegriffe des Information Retrieval

Grundbegriffe des Information Retrieval Grundbegriffe des Information Retrieval Alexandra Bünzli 11.04.2001 1 Allgemeines 1.1 Motivation Datenmenge wächst Immer mehr Menschen haben Zugang zu diesen Daten Nutzen der Daten ist nur gewährleistet,

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr Einführung Information Retrieval Norbert Fuhr 13. Oktober 2011 IR in Beispielen Was ist IR? Daten Information Wissen Dimensionen des IR Rahmenarchitektur für IR-Systeme Adhoc-Suche: Web IR in Beispielen

Mehr

5 Nicht-Probabilistische Retrievalmodelle

5 Nicht-Probabilistische Retrievalmodelle Nicht-Probabilistische Retrievalmodelle 1 5 Nicht-Probabilistische Retrievalmodelle Boolesches Retrieval Fuzzy-Retrieval Vektorraummodell Clustering Nicht-Probabilistische Retrievalmodelle 2 5.1 Notationen

Mehr

Information Retrieval,

Information Retrieval, Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse Information Retrieval Konstruktion von

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Kapitel IR:III (Fortsetzung)

Kapitel IR:III (Fortsetzung) Kapitel IR:III (Fortsetzung) III. Retrieval-Modelle Modelle und Prozesse im IR Klassische Retrieval-Modelle Bool sches Modell Vektorraummodell Retrieval-Modelle mit verborgenen Variablen Algebraisches

Mehr

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen.

Rahmenarchitektur für IR-Systeme. Internet-Suchmaschinen Nicht-Probabilistische Retrievalmodelle. Notationen. Notationen. Rahmenarchitektur für IR-Systeme Internet-Suchmaschinen Nicht-Prbabilistische Retrievalmdelle Infrmatins bedürfnis Frage Repräsentatin Evaluierung Frage Beschreibung Nrbert Fuhr Wissensrepräsentatin Vergleich

Mehr

Evaluation von IR-Systemen

Evaluation von IR-Systemen Evaluation von IR-Systemen Überblick Relevanzbeurteilung Übereinstimmung zwischen Annotatoren Precision Recall (Präzision u. Vollständigkeit) Text Retrieval Conference (TREC) Testkollektionen Beurteilen

Mehr

Interaktives Information Retrieval

Interaktives Information Retrieval Interaktives Information Retrieval Norbert Fuhr Universität Duisburg-Essen 17. Juni 2008 UNIVERSITÄT D U I S B U R G E S S E N Inhalt 1 Information Seeking Behaviour 2 Information Searching 3 Strategische

Mehr

Klassisches Information Retrieval Jan Schrader

Klassisches Information Retrieval Jan Schrader Klassisches Information Retrieval 27.10.2011 Jan Schrader Information Retrieval (IR) Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Information Retrieval und Question Answering

Information Retrieval und Question Answering und Question Answering Kai Kugler 19. November 2009 Auffinden von relevantem Wissen Die Relevanz der aufzufindenden Information ist abhängig vom... aktuellen Wissen des Benutzers dem aktuellen Problem

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis

Inhaltsverzeichnis. Geleitwort. Abbildungsverzeichnis. Tabellenverzeichnis. Abkürzungsverzeichnis. Symbolverzeichnis Inhaltsverzeichnis Geleitwort Vorwort Abbildungsverzeichnis Tabellenverzeichnis Abkürzungsverzeichnis Symbolverzeichnis i iü xi xiii xv xvii 1 Einleitung 1 1.1 Problemstellung 1 1.2 Zielsetzung der Arbeit

Mehr

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A

Praxisteil. Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A Experimental setup Collections: TREC-123, wt10g Index: BM25 und TFIDF Queries: - Topics 51-100 aus trec123.topics (für den ersten Teil)

Mehr

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen

Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übungen zu Multimedia-Datenbanken Aufgabenblatt 2 - Musterlösungen Übung: Dipl.-Inform. Tina Walber Vorlesung: Dr.-Ing. Marcin Grzegorzek Fachbereich Informatik, Universität Koblenz Landau Ausgabe: 03.05.200

Mehr

Information Retrieval Übung

Information Retrieval Übung Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive

Mehr

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt.

3. Retrievalmodelle Grundkonzept des Vektorraummodells. Vektorraummodell. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. 3. Retrievalmodelle Grundkonzept des Vektorraummodells Vektorraummodell Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird durch die in der Datenbank enthaltenen

Mehr

Erweitertes boolsches Retrieval

Erweitertes boolsches Retrieval Erweitertes boolsches Retrieval In diesem Unterabschnitt werden andere Ansätze zur Verbesserung des boolschen Retrievals vorgestellt. Im Gegensatz zum Vektorraummodell wird bei diesen Ansätzen versucht,

Mehr

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr

Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13. Norbert Fuhr Internet-Suchmaschinen Skriptum zur Vorlesung im WS 12/13 Norbert Fuhr 7. Januar 2013 Inhaltsverzeichnis 1 Einführung 4 1.1 Internet-Suche........................................... 4 1.1.1 Suchqualität........................................

Mehr

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist

Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal ist Rückblick Probabilistisches IR bestimmt die Wahrscheinlichkeit, dass ein Dokument d zur Anfrage q relevant ist Probabilistic Ranking Principle besagt, dass Rangfolge gemäß dieser Wahrscheinlichkeiten optimal

Mehr

Ontologiesprachen. 1.Was ist eine Ontologie 2.Aufbau einer Ontologie 3.RDF 4.RDFSchema 5.DAML+OIL / OWL 6.Frame-Logic

Ontologiesprachen. 1.Was ist eine Ontologie 2.Aufbau einer Ontologie 3.RDF 4.RDFSchema 5.DAML+OIL / OWL 6.Frame-Logic Ontologiesprachen 1.Was ist eine Ontologie 2.Aufbau einer Ontologie 3.RDF 4.RDFSchema 5.DAML+OIL / OWL 6.Frame-Logic 1.Was ist eine Ontologie Der Begriff leitet sich vom griechischen onta (das Seiende)

Mehr

Boole'sches Modell <is web>

Boole'sches Modell <is web> Boole'sches Modell basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär: im Dokument enthalten oder nicht

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

3. Evaluierung. Norbert Fuhr

3. Evaluierung. Norbert Fuhr 3. Evaluierung Norbert Fuhr Perspektiven auf IR-Systeme Benutzer Käufer Manager Hersteller Entwickler... Fragestellungen an die Evaluierung Was kann ich ändern, um die Qualität eines Systems zu verbessern?

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Internet-Suchmaschinen 1. Einführung

Internet-Suchmaschinen 1. Einführung Internet-Suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Einführung Internet-Suche Internet-Suche Beispiele Web-Suche 4 / 1 Internet-Suche Beispiele Produktsuche in Internet-Shops 5 / 1 Internet-Suche

Mehr

Information Retrieval

Information Retrieval Reginald Ferber Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web d p u n kt.ver I ag Inhaltsverzeichnis I Grundlagen und klassische IR-Methoden 1 1 1.1 1.2 1.3

Mehr

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Vektorraummodell T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente. Dokumente und Anfragen werden als Vektoren in einem Vektorraum aufgefaßt. Der Vektorraum wird

Mehr

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme

Kapitel IR:II. II. Grundlagen des Information Retrieval. Retrieval-Evaluierung Indexterme Kapitel IR:II II. Grundlagen des Information Retrieval Retrieval-Evaluierung Indexterme IR:II-1 Basics STEIN 2005-2010 Batch-Mode-Retrieval einmaliges Absetzen einer Anfrage; nur eine Antwort wird geliefert

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren.

Indexvokabular {Korsika, Sardinien, Strand, Ferienwohnung, Gebirge} Verknüpfung von Enthaltenseinsbedingungen mittels Boole'scher Junktoren. Boole'sches Modell Boole'sches Modell: Beispiel basiert auf Mengentheorie und Boole'scher Algebra sehr einfaches Modell mit klarer Semantik Dokumente als Mengen von Indextermen Termgewichte sind binär:

Mehr

Information Retrieval. Domenico Strigari Dominik Wißkirchen

Information Retrieval. Domenico Strigari Dominik Wißkirchen Information Retrieval Domenico Strigari Dominik Wißkirchen 2009-12-22 Definition Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies

Mehr

Boolesche- und Vektorraum- Modelle

Boolesche- und Vektorraum- Modelle Boolesche- und Vektorraum- Modelle Viele Folien in diesem Abschnitt sind eine deutsche Übersetzung der Folien von Raymond J. Mooney (http://www.cs.utexas.edu/users/mooney/ir-course/). 1 Retrieval Modelle

Mehr

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert)

Klassen von Retrieval-Modellen. Boolesche und Vektorraum- Modelle. Weitere Modell-Dimensionen. Retrieval-Modelle. Boolesche Modelle (Mengen-basiert) Klassen von Retrieval-Modellen Boolesche und Vektorraum- Modelle Boolesche Modelle (Mengen-basiert) Erweitertes Boolesches Modell Vektorraummodelle (vector space) (statistisch-algebraischer Ansatz) Latente

Mehr

Kompendium semantische Netze

Kompendium semantische Netze Klaus Reichenberger Kompendium semantische Netze Konzepte, Technologie, Modellierung Inhaltsverzeichnis 1 Warum dieses Buch? 1 1.1 Was erwartet Sie in diesem Buch? I 2 Grundlagen semantischer Netze 3 2.1

Mehr

Bücher und Artikel zum Thema

Bücher und Artikel zum Thema Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Materialsammlung zur Implementierung von Information Retrieval Systemen

Materialsammlung zur Implementierung von Information Retrieval Systemen Materialsammlung zur Implementierung von Information Retrieval Systemen Karin Haenelt 11.12.2005/11.12.2004/06.12.2003/10.11.2002 1 Bücher und Artikel zum Thema Frakes/Baeza-Yates, 1992 Baeza-Yates/Ribeiro-Neto,

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Wissensrepräsentation

Wissensrepräsentation Wissensrepräsentation Vorlesung Sommersemester 2008 12. Sitzung Dozent Nino Simunic M.A. Computerlinguistik, Campus DU Übersicht Rückblick, Zusammenhänge Mysterien 2 Inhalte im abstrakten Überblick Künstliche

Mehr

Internet-Suchmaschinen 2. Wissensrepräsentation für Texte

Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Norbert Fuhr 1 / 115 Problemstellung Problemstellung Problemstellung Repräsentation von Textinhalten: Problem: Konzepte aus der Anfrage können

Mehr

Internet-Suchmaschinen 2. Wissensrepräsentation für Texte

Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Internet-Suchmaschinen 2. Wissensrepräsentation für Texte Norbert Fuhr Problemstellung Problemstellung Problemstellung Repräsentation von Textinhalten: Problem: Konzepte aus der Anfrage können im Text

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2015: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

<is web> Information Systems & Semantic Web

<is web> Information Systems & Semantic Web Information Systems University of Koblenz Landau, Germany 3 Prinzipien des Information Retrieval Einführung Information-Retrieval-Modelle Relevance Feedback Bewertung von Retrieval-Systemen Nutzerprofile

Mehr

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany

<is web> Information Systems & Semantic Web University of Koblenz Landau, Germany Information Systems University of Koblenz Landau, Germany Information Retrieval Hinweise: 3 Prinzipien des Information Retrieval Andreas Henrich Information Retrieval 1 Grundlagen, Modelle und Anwendungen

Mehr

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr

Lehrangebot. Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr Lehrangebot Fachgebiet Informationssysteme Prof. Dr. Norbert Fuhr N. Fuhr, U. Duisburg-Essen Lehrangebot 1 Lehrangebot des FG Informationssysteme Datenbanken Internet-Suchmaschinen Information Retrieval

Mehr

Semantic Web für Menschen wie du und ich

Semantic Web für Menschen wie du und ich Semantic Web für Menschen wie du und ich benutzerfreundliche Anwendung semantischer Technologien Tobias Kuhn Institut für Informatik Universität Zürich 16. KnowTalk 1. Februar 2011 KnowGravity Inc., Zürich

Mehr

Information Retrieval - Übersicht. Norbert Fuhr

Information Retrieval - Übersicht. Norbert Fuhr Information Retrieval - Übersicht Norbert Fuhr 1 1. Einführung IR unterscheidet sich wesentlich zur Suche in klassischen Datenbanken IR beschäftigt sich mit Unsicherheit und Vagheit in Informationssystemen

Mehr

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie)

Retrieval Modelle. Boolesche- und Vektorraum- Modelle. Weitere Modell-Dimensionen. Klassen von Retrieval Modellen. Boolesche Modelle (Mengentheorie) Retrieval Modelle Boolesche- und Vektorraum- Modelle Ein Retrieval-Modell spezifiziert die Details der: Repräsentation von Dokumenten Repräsentation von Anfragen Retrievalfunktion Legt die Notation des

Mehr

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval

12. Vorlesung. Statistische Sprachmodelle für Information Retrieval 12. Vorlesung Statistische Sprachmodelle für Information Retrieval Allgemeiner Ansatz Unigram Modell Beziehung zum Vektorraummodell mit TF-IDF Gewichten Statistische Spachmodelle zur Glättung Idee von

Mehr

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Sprache und Modelle SS 2015: Grossmann, Jenko Einleitung Was ist ein Modell? Sprachlich orientierte Modelle Beispiele Wie entstehen Modelle? Zusammenhang Modell

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik

Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Rückblick Information Retrieval als Fachgebiet in der Schnittmenge zwischen Informationswissenschaft, Informatik und Computerlinguistik Präzision und Ausbeute als elementare Gütemaße Zerlegung und Normalisierung

Mehr

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07

Semantic Web. Ekaterina Timofeeva & Johannes Knopp Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web Ekaterina Timofeeva & Johannes Knopp 29.01.2007 Vorlesung Information Retrieval Dr. Karin Haenelt Universität Heidelberg WS2006/07 Semantic Web - Übersicht Was ist Semantic Web? Idee Wie funktioniert

Mehr

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit) Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern 7. Logische Agenten 8. Prädikatenlogik 1. Stufe 9. Schließen in der Prädikatenlogik 1. Stufe 10. Wissensrepräsentation IV

Mehr

Probabilistische Datalog und PIRE

Probabilistische Datalog und PIRE Probabilistische Datalog und PIRE Betreut von: Dipl. Informatiker Henrik Nottelmann WS 05/06 Probabilistische Datalog Datalog ist eine logik-basierte Programmiersprache, die auf funktionsfreie Hornklauselprädikatslogik

Mehr

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen

Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Automatische Rekonstruktion und Spezifizierung von Attributnamen in Webtabellen Mark Reinke Bachelorarbeit TU Dresden 17. Februar 2014 Webtabellen Warum sind Webtabellen von Bedeutung? Sie können relationale

Mehr

Übung zur Vorlesung Wissenschaftliches Rechnen Sommersemester 2012 Auffrischung zur Programmierung in C++, 2. Teil

Übung zur Vorlesung Wissenschaftliches Rechnen Sommersemester 2012 Auffrischung zur Programmierung in C++, 2. Teil MÜNSTER Übung zur Vorlesung Wissenschaftliches Rechnen Sommersemester 2012 Auffrischung zur Programmierung in C++ 2. Teil 18. April 2012 Organisatorisches MÜNSTER Übung zur Vorlesung Wissenschaftliches

Mehr

Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 06. Nov Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 2

Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 06. Nov Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 2 Universität Augsburg, Institut für Informatik WS 2009/2010 Prof. Dr. W. Kießling 06. Nov. 2009 Dr. A. Huhn, F. Wenzel, M. Endres Lösungsblatt 2 Aufgabe 1: ER-Modellierung 1. Siehe Unterstreichungen in

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

ECDL MODUL COMPUTING. Syllabus Version 1.0

ECDL MODUL COMPUTING. Syllabus Version 1.0 ECDL MODUL COMPUTING Syllabus Version 1.0 DLGI Dienstleistungsgesellschaft für Informatik Am Bonner Bogen 6 53227 Bonn Tel.: 0228-688-448-0 Fax: 0228-688-448-99 E-Mail: info@dlgi.de, URL: www.dlgi.de In

Mehr

Learning to Rank Sven Münnich

Learning to Rank Sven Münnich Learning to Rank Sven Münnich 06.12.12 Fachbereich 20 Seminar Recommendersysteme Sven Münnich 1 Übersicht 1. Einführung 2. Methoden 3. Anwendungen 4. Zusammenfassung & Fazit 06.12.12 Fachbereich 20 Seminar

Mehr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr

Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12. Norbert Fuhr Einführung in Information Retrieval Skriptum zur Vorlesung im WS 11/12 Norbert Fuhr 16. Dezember 2011 Inhaltsverzeichnis 1 Einführung 3 1.1 IR-Methoden und -Anwendungen.................................

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Einführung in die Informatik I (autip)

Einführung in die Informatik I (autip) Einführung in die Informatik I (autip) Dr. Stefan Lewandowski Fakultät 5: Informatik, Elektrotechnik und Informationstechnik Abteilung Formale Konzepte Universität Stuttgart 24. Oktober 2007 Was Sie bis

Mehr

Lernende Suchmaschinen

Lernende Suchmaschinen Lernende Suchmaschinen Qingchui Zhu PG 520 - Intelligence Service (WiSe 07 / SoSe 08) Verzeichnis 1 Einleitung Problemstellung und Zielsetzung 2 Was ist eine lernende Suchmaschine? Begriffsdefinition 3

Mehr

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining 6. Data Mining Inhalt 6.1 Motivation 6.2 Klassifikation 6.3 Clusteranalyse 6.4 Asszoziationsanalyse 2 6.1 Motivation Data Mining and Knowledge Discovery zielt darauf ab, verwertbare Erkenntnisse (actionable

Mehr

Logik I. Symbole, Terme, Formeln

Logik I. Symbole, Terme, Formeln Logik I Symbole, Terme, Formeln Wie jede geschriebene Sprache basiert die Prädikatenlogik erster Stufe auf einem Alphabet, welches aus den folgenden Symbolen besteht: (a) Variabeln wie zum Beispiel v 0,v

Mehr

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung

Internet-Suchmaschinen. Web-Suche. Internet-Suche. Norbert Fuhr. 2. April 2015. 1. Einführung Einführung nternet-suchmaschinen 1. Einführung Norbert Fuhr 2. April 2015 1 / 1 Web-Suche nternet-suche 4 / 1 Produktsuche in nternet-shops ntranet-suche 5 / 1 6 / 1 Suche in Online-Publikationen Suche

Mehr

Internet-Suchmaschinen Evaluierung

Internet-Suchmaschinen Evaluierung Internet-Suchmaschinen Evaluierung Norbert Fuhr 1 / 83 Vorüberlegungen Warum evaluieren? Anforderungen an Evaluierungen Qualitätskriterien Vorüberlegungen Warum evaluieren? Perspektiven auf IR-Systeme

Mehr

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen

Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, Funktionen Interdisziplinäre fachdidaktische Übung: Formale Sprache Definitionen, en SS 2013: Grossmann, Jenko 1 Definitionen Folgenden Begriffe werden oft synonym verwendet: Formale Sprache Programmiersprache Computersprache

Mehr

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko

Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der Informatik. SS 2016: Grossmann, Jenko Interdisziplinäre fachdidaktische Übung: Modelle für Sprachen in der SS 2016: Grossmann, Jenko Die Beschreibung orientiert sich am Begriffssystem der Beschreibung natürlicher Sprachen Sprache in der steht

Mehr

2 Evaluierung von Retrievalsystemen

2 Evaluierung von Retrievalsystemen 2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...

Mehr

3. Wissensrepräsentation für Texte

3. Wissensrepräsentation für Texte 3. Wissensrepräsentation für Texte 1 3. Wissensrepräsentation für Texte Norbert Fuhr Problemstellung 3. Wissensrepräsentation für Texte 3 Problemstellung Problemstellung Repräsentation von Textinhalten:

Mehr

Inhaltsverzeichnis 1 Der objektorientierte Ansatz 2 Elementare Objekte und Ausdrücke

Inhaltsverzeichnis 1 Der objektorientierte Ansatz 2 Elementare Objekte und Ausdrücke Inhaltsverzeichnis 1 Der objektorientierte Ansatz... 1 1.1 Ein einführendes Beispiel...2 1.1.1 Aktive Objekte...4 1.1.2 Klassifikation...4 1.1.3 Datenkapselung...6 1.2 OOP im Überblick...6 1.3 Programmaufbau...7

Mehr

Inhaltsverzeichnis 1 Einführung Was ist Information Retrieval? IR-Konzepte Daten μ Wissen μ Information..

Inhaltsverzeichnis 1 Einführung Was ist Information Retrieval? IR-Konzepte Daten μ Wissen μ Information.. Informationssysteme Stammvorlesung im WS 01/02 (IR-Teil) Norbert Fuhr 31. Januar 2002 Inhaltsverzeichnis 1 Einführung 3 1.1 Was ist Information Retrieval?............................. 3 2 IR-Konzepte 5

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr