Information Retrieval p. 1/15 Information Retrieval Übung Raum LF052, Montags 8:30-10:00 Dipl.-Inform. Sascha Kriewel, Raum LF137 sascha.kriewel@uni-duisburg.de Institut für Informatik und Interaktive Systeme Universität Duisburg-Essen Campus Duisburg
Information Retrieval p. 2/15 Abgaben bis Mittwochs 13:30 in Briefkästen vor den Räumen LF135 LF140 alternativ als E-Mail an sascha.kriewel@uni-duisburg.de nur als Adobe PDF (gleiche Deadline) spätere Abgaben können nicht mehr bis zur nächsten Woche korrigiert werden
Information Retrieval p. 3/15 40 % der Übungspunkte Teilnahme an der Übung Vorführen einer eigenen Lösung
Information Retrieval p. 4/15 Abstraktionsstufen aus der Vorlesung: Syntax Semantik Pragmatik In welchen Bereich gehören Wissen, Information oder Daten?
Information Retrieval p. 5/15 Übung zu Evaluation Fallbeispiel: Eine Schülerin soll ein Referat zur Passat schreiben, einem der größten Segelschiffe der Welt, das vor Travemünde liegt. Sie benutzt Google, um Information zu diesem Schiff zu suchen.
Information Retrieval p. 6/15 Suche mit Google: Rangliste
Information Retrieval p. 7/15 Google: Relevanzurteile
Information Retrieval p. 8/15 Distribution = ( - + + - + - - - - - )
Information Retrieval p. 8/15 Distribution = ( - + + - + - - - - - ) Bestimmung von Precision und Recall: p = REL GEF GEF r = REL GEF REL
Information Retrieval p. 8/15 Distribution = ( - + + - + - - - - - ) Bestimmung von Precision und Recall: p = REL GEF GEF r = REL GEF REL Was ist Prec@1, Prec@5, Prec@10?
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF Menge der gefundenen Dokumente = 10
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF Menge der gefundenen Dokumente = 10 Menge der relevanten gefundenen Dokumente an den Punkten 1, 5 und 10 = 0, 3 und 3
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF Menge der gefundenen Dokumente = 10 Menge der relevanten gefundenen Dokumente an den Punkten 1, 5 und 10 = 0, 3 und 3 Prec@1 = 0 1
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF Menge der gefundenen Dokumente = 10 Menge der relevanten gefundenen Dokumente an den Punkten 1, 5 und 10 = 0, 3 und 3 Prec@1 = 0 1 Prec@5 = 3 5
Information Retrieval p. 9/15 Precision an Rang x p = REL GEF GEF Menge der gefundenen Dokumente = 10 Menge der relevanten gefundenen Dokumente an den Punkten 1, 5 und 10 = 0, 3 und 3 Prec@1 = 0 1 Prec@5 = 3 5 Prec@10 = 3 10
Information Retrieval p. 10/15 Precision 0.5 0.4 0.3 0.2 0.1 1 5 10 Rang
Information Retrieval p. 11/15 Bestimmung des Recall Wie lässt sich der Recall an diesen Punkten bestimmen?
Information Retrieval p. 11/15 Bestimmung des Recall Wie lässt sich der Recall an diesen Punkten bestimmen? Eine Möglichkeit: wir nehmen an, dass alle relevanten Dokumente unter den angezeigten Dokumenten sind.
Information Retrieval p. 11/15 Bestimmung des Recall Wie lässt sich der Recall an diesen Punkten bestimmen? Eine Möglichkeit: wir nehmen an, dass alle relevanten Dokumente unter den angezeigten Dokumenten sind. z.b.: Recall an Punkt 3 = 2 3 = 0.66
Information Retrieval p. 11/15 Bestimmung des Recall Wie lässt sich der Recall an diesen Punkten bestimmen? Eine Möglichkeit: wir nehmen an, dass alle relevanten Dokumente unter den angezeigten Dokumenten sind. z.b.: Recall an Punkt 3 = 2 3 = 0.66 Probablistische Interpretation: die Wahrscheinlichkeit, dass ein zufälliges relevantes Dokument im Web unter den ersten 3 Antworten ist, beträgt 66%...
Information Retrieval p. 11/15 Bestimmung des Recall Wie lässt sich der Recall an diesen Punkten bestimmen? Eine Möglichkeit: wir nehmen an, dass alle relevanten Dokumente unter den angezeigten Dokumenten sind. z.b.: Recall an Punkt 3 = 2 3 = 0.66 Probablistische Interpretation: die Wahrscheinlichkeit, dass ein zufälliges relevantes Dokument im Web unter den ersten 3 Antworten ist, beträgt 66%... offensichtlich zu optimistische Schätzung
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn Vollständige Relevanzbeurteilung: selbst für eine Stichprobe völlig inpraktikabel
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn Vollständige Relevanzbeurteilung: selbst für eine Stichprobe völlig inpraktikabel mehr Resultate ansehen (insgesamt ca. 500.000 Treffer)
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn Vollständige Relevanzbeurteilung: selbst für eine Stichprobe völlig inpraktikabel mehr Resultate ansehen (insgesamt ca. 500.000 Treffer) Experten zu Rate ziehen
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn Vollständige Relevanzbeurteilung: selbst für eine Stichprobe völlig inpraktikabel mehr Resultate ansehen (insgesamt ca. 500.000 Treffer) Experten zu Rate ziehen mit anderen Suchmaschinen suchen, Metasuchmaschinen benutzen
Information Retrieval p. 12/15 Abschätzungen für REL Wie kann man die Menge der relevanten Dokumente besser abschätzen, um bessere Annäherungen für den Recall zu bekommenn Vollständige Relevanzbeurteilung: selbst für eine Stichprobe völlig inpraktikabel mehr Resultate ansehen (insgesamt ca. 500.000 Treffer) Experten zu Rate ziehen mit anderen Suchmaschinen suchen, Metasuchmaschinen benutzen Frageerweiterung: z.b. mit zusätzlichen Termen Segelschiff oder Schiff
Information Retrieval p. 13/15 alternative Retrievalsysteme www.anyfinder.de bietet automatische Kategorisierung von Ergebnissen MetaGer: meta.rrzn.uni-hannover.de als Metasuchmaschine Liste von Suchmaschinen: www.ub.uni-hannover.de/dt-suchm.htm Wissenschaftliche Suche, z.b. mit www.scirus.com Metasuche mit forschungsportal.net bietet Suchoperatoren wie Phrase, nah, nicht, oder, sollte CiteSeer: citeseer.ist.psu.edu zur Suche in Publikationen
Information Retrieval p. 14/15 Google: Frageerweiterung
Information Retrieval p. 15/15 Google: Frageerweiterung