Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Größe: px

Ab Seite anzeigen:

Download "Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion"

Pamela Junge
vor 8 Jahren
Abrufe

1 Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische Herausforderungen Effizienz Was ist der bessere Hub? HITS: kontra-intuitiv 2,7 2,8 0,1 Lösung von Borodin et al. 2002: Durchschnittbildung 3* = 2,7 Durchschnitt Durchschnitt 4* 0,5 = 2,0 0,5 0,1 Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Zusammenfassen mehrerer Evidenzen unterschiedliche Suchmaschinen unterschiedliche Ranking-Algorithmen Grundidee Verfahren Metasuchmaschinen 1 A 0,5 B 0,45 C 0,4 D 0,3 2 Endgültige B C 0,3 D 0,2 A 0,15 3 A 0,25 G 0,2 B 0,15 D 0,1 E 0,1 F 0,1 C 0 1

2002: Durchschnittbildung 3* = 2,7 Durchschnitt Durchschnitt 4* 0,5 = 2,0 0,5 0,1 Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Zusammenfassen mehrerer Evidenzen

2 Meta-Suchmaschinen und Fusion Verfahren Round Robin: Nimm immer von jeder Liste einen Treffer Summierung der Gewichte vorher normalisieren gewichtete Summierung der Gewichte ein System ist als besser bekannt Obersten Treffer einer Liste nach den Werten einer anderen neu sortieren wohl häufig in Link-Analyse angewandt Transparente Fusion QSV Qualitätsfilter 1. Treffer Treffer 0, Treffer 0,79 0,2 4. Treffer 0, Treffer 0, Treffer 0, Treffer 0,66 0,1 8. Treffer 0, Treffer 0, Treffer 0, Treffer 0,51 1 QSV 1. Treffer Treffer 0, Treffer 0,43 4. Treffer 0, Treffer 0, Treffer 0, Treffer 0, Treffer 0,65 0,8 9. Treffer 0, Treffer 0, Treffer 0,51 0 Qualitätsaufwertung Data Mining Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm (U. Fayyad 1997, in Heft 1 der Zeitschrift Data Mining and Knowledge Discovery) Data Mining im Knowledge Discovery Prozess Aus: Fayyad et al Web-Mining: Einführung Finden von Mustern in großen Mengen von Daten, die im Internet vorliegen oder gesammelt werden Teilgebiete Web Usage Mining Web Structure Mining Web Content Mining 2

Treffer 0,79 0,2 4. Treffer 0,78 1 5. Treffer 0,73 1 6. Treffer 0,70 1 7. Treffer 0,66 0,1 8. Treffer 0,65 1 9. Treffer 0,59 1 10. Treffer 0,53 1 11. Treffer 0,51 1 QSV 1. Treffer 1 0 2.

3 Web-Mining Benutzer Benutzer wandern auf Pfaden Dokumenten-Bestand (aus WWW) s zeichnen Aktionen auf Usage Mining Suche nach Mustern Beobachtung des Informations-verhaltens zahlreicher Benutzer (und Autoren) Log- Datei Log- Datei Mögliche Anwendungen: - Usability untersuchen - Benutzer kategorisieren Web-Mining Beispiel Erstellung eines Klassifizierers Extraktion von Wissen: Listen mit typischem Vokabular Terme Gesundheit: Apotheke Arzt Terme Freizeit: Kino Film Terme Politik: Kanzler Parlament Übertragung auf weitere Seiten: Klassifizieren und Filtern Web IR im Zusammenhang Gesamtumfang unklar und schwer zu erfassen: CRAWLING Stark heterogene Inhalte und Darstellung semantische Het., wemantic web Wissen über Beziehungen, Ähnlichkeiten und Verteilungen MODELLE des Web, Link-Analyse, Kategorisierung Thematische Zuordnung Extraktion von Wissen Uebertragung auf weitere Seiten Autoren Informations- Suchender Erstellung Fortsetzung des Informationsprozesses durch Browsing möglich, Information seeking, foraging WWW Information Extraktion Repräsentation Dokumente (Objekte) Indexierung Ergebnis- Dokumente Interaktionsparadigma Agenten und Filtering Objekt- Eigenschaft- Matrix Ähnlichkeitsberechnung Kommerzielle Interessen (Reklame, Manipulation) Linkanalyse Formulierung Anfrage Indexierung Anfrage- Repräsentation 3

Vokabular Terme Gesundheit: Apotheke Arzt Terme Freizeit: Kino Film Terme Politik: Kanzler Parlament Übertragung auf weitere Seiten: Klassifizieren und Filtern Web IR im Zusammenhang Gesamtumfang

4 Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische Herausforderungen Effizienz Erfolgkontrolle: typische Prüfungsfragen Welche Herausforderungen stellt das Internet an das IR? Wie funktioniert Link-Analyse? Wozu wird sie im IR eingesetzt? Wie plausibel sind die Grundannahmen der Link-Analyse? Welche Evaluierungsergebnisse zur Linkanalyse sind Ihnen bekannt? Wer im Raum hat in den letzten drei Monaten Google benutzt? Wer eine andere Suchmaschine benutzt? Wer hat eine Suchmaschine mit grafischer Unterstützung wie Kartoo benutzt? Wer hat eine Suchmaschine mit Cluster- Funktionalität wie Visimo benutzt? Würden Sie ein intelligentes System benutzen? Was erwarten Sie von einem intelligenten System? Ist Google intelligent? Scirus 4

Welche Evaluierungsergebnisse zur Linkanalyse sind Ihnen bekannt? Wer im Raum hat in den letzten drei Monaten Google benutzt? Wer eine andere Suchmaschine benutzt?

5 newsmaps Newsmaps.com Visimo Kartoo Wer im Raum hat in den letzten drei Monaten Google benutzt? Wer eine andere Suchmaschine benutzt? Wer hat eine Suchmaschine mit grafischer Unterstützung wie Kartoo benutzt? Wer hat eine Suchmaschine mit Cluster- Funktionalität wie Visimo benutzt? Würden Sie ein intelligentes System benutzen? Was erwarten Sie von einem intelligenten System? Ist Google intelligent? 5

Wer hat eine Suchmaschine mit grafischer Unterstützung wie Kartoo benutzt?

Ähnliche Dokumente

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining. Personalisierung Personalisierung Thomas Mandl Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung Klassifikation Die Nutzer werden in vorab bestimmte Klassen/Nutzerprofilen