Information-Retrieval: Web-Retrieval

Größe: px

Ab Seite anzeigen:

Download "Information-Retrieval: Web-Retrieval"

Henriette Bösch
vor 5 Jahren
Abrufe

1 Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010

2 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)

3 Ein vollständiges IR-System Abbildung:

4 Klassisches IR Korpus als feststehende Sammlung von Dokumenten Ziel: Rückgabe relevanter Dokumente Bewertung der von Anfrage-Dokument-Paaren hinsichtlich der Erfüllung eines Informationsbedarfs Spezifischer Suchkontext ist vorgegeben Spezifischer Benutzer wird ignoriert

5 Web-Retrieval Das Web: Riesig, chaotisch, verlinkt, ändert sich ständig Inhaltserstellung und Suche sind eng verknüpft mit vielfältigen kommerziellen Interessen Größter Unterschied: Mangelnde Kooperation (Spam) Anforderungen: Ein Interface für viele Zwecke und Bedürfnisse (Anfragen, Straßenkarten, Börsenkurse, etc.) Kontextualisierung (IP-Adresse, Geo-Tagging) Personalisierung durch Suchprofile

6 Web-Retrieval Abbildung:

7 Web-Retrieval Das Web als Korpus Crawling Literatur

8 Historisches Ca rein keywordbasierte Suche (Altavista, Excite, Infoseek, lnktomi) oder Taxonomien (Yahoo) Paid Placement: Ranking gegen Bezahlung (goto.com/overture) Ab 1998: Linkbasiertes Ranking (Google) Verdrängt keywordbasierte Suche Link-Analyse heute Standard Ab ca. 2000: Google-Ads Trennung von algorithmischem Ergebnis und Werbung ist quasi das Verdienst von google Yahoo folgt dem Beispiel, kauft Overture (für paid placement) und lnktomi (für Suche)

9 Anfragen: Informationsbedarf vs. Nutzerbedürfnis Information: Wissen befriedigen (klassischer Informationsbedarf) Navigation: Zu einer bestimmten Seite gehen Transaktion: Etwas bestimmtes tun Services (Wetter, Staus, etc) Downloads Shops Grauzonen: Explorative Suche Surfen

10 Nutzerverhalten Oft fehlerhafte Anfragen: Kurz (Ø 2-3 Terme, 80% aller Anfragen 3 Wörter) Unpräzise (keine Operatoren) Große Varianz: Bedürfnisse / Erwartungen / Vorwissen Faktor Bandbreite (historisch) Spezielles Verhalten: 85% schauen nur auf die erste Ergebnisseite 78% deranfragen werden nicht nachjustiert Links verfolgen statt Suchen

11 Nutzerbedürfnisse Qualität von Webseiten variiert erheblich Relevanz im bisherigen Sinne reicht für Bewertung nicht aus Erwünschte Qualitäten (auch über IR-Kontext hinaus): Inhalt: Vertrauenswürdig, gepflegt, aktuell, nicht redundant Web-Lesbarkeit: Saubere und schnelle Anzeige Frei von Ärgernissen (pop-ups etc.) Precision vs. Recall: Precision wovon? Der ersten 10? 100? Recall spielt im Web meist geringe Rolle

12 Nutzerbedürfnisse Einfaches und fehlertolerantes Interface Gültigkeit und Relevanz der Ergebnisse Objektivität der Resultate (Faktor Vertrauen) Tools für Vor- und Nachbereitung: Ausgleich von Eingabefehlern (Spell checking, Syntax) Feedback: Suche in Ergebnissen, Spracheinstellungen, etc. Antizipation: Ähnliche Suchen Web-spezifisches Vokabular (Smileys, URLs) Auswirkungen auf ling. Tools (Stemming, etc.)

13 Web-Retrieval Abbildung:

14 Das Web als Korpus Demokratisierung der VÖ (verteilte Erstellung, Verlinkung) Keine Designrichtlinien, keine Koordination Stark heterogene Inhalte: Wahr/falsch, überflüssig, widersprüchlich... Strukturiert (DBs) Semi-strukturiert (XML, annotierte Bilddateien, etc.) Unstrukturiert (Text, HTML,... ) Dynamisch Spam: Cloaking, doorway pages, link spam, bombs Web als größtes denkbares Korpus

15 Größe des Web? Anzahl Hosts? Netcraft: Monatlicher Bericht über Anzahl Hosts & Server survey.html Anzahl (statischer) HTML-Seiten? SS/ir/sizeoftheweb.html Größe des Datenvolumens? All diese Zahlen ändern sich permanent!

16 Größe des Web? Schwierigkeiten: Im Schnitt mehr als 8 Links/Seite Duplikate, Mirror-Sites ( 30%) Server z.t. nur zeitweise online Das Web ist de facto unendlich: Dynamische Inhalte 404er Problem für Suchmaschinendesign Auswirkung auf Crawling: Recall

17 Dynamische Inhalte Seiten ohne statische HTML-Version z.b. aktueller Status von Flug Nr. AB1234 Werden ad hoc auf Server erstellt Erkennbar am? in der URL (vgl. Wikipedia) Abbildung:

18 Dynamische Inhalte Großteil dynamischer Inhalte wird ignoriert u.a. wg. sog. spider traps Zu viel zu indexieren Statische Inhalte in der Regel wichtiger Aber: De facto werden auch viele statische Inhalte ad hoc erstellt (php u.ä.: Header, Datum, Ads, etc.)

19 Crawling: Grundidee Beginne irgendwo ( URL seeds ) Seite holen, parsen Text indexieren URLs extrahieren URLs zu Queue hinzufügen ( URL frontier ) Gehe zu nächster URL und beginne von vorn Grundannahme: Das Web ist ordentlich verlinkt

20 Schwierigkeiten Skalierung: Crawling muss verteilt erfolgen 20,000,000,000 Seiten/Monat 8000/Sek Es kann und soll nicht alles gecrawlt werden Schwankungen in Sichtbarkeit und Bandbreite Tiefe der Seitenhierarchie Mirrors und Duplikate Spam Spider Traps

21 Grundregeln Pflicht Höflichkeit: Nur erlaubte Seiten, nicht permanent blockieren Explizit: Robots exclusion protocol (robots.txt) Robustheit: spider traps, dynamische Seiten, große Sites Kür Verteilt operieren Effizienz & Skalierbarkeit (Rechenleistung/Bandbreite) Qualität & Aktualität Erweiterbarkeit (neue Formate, Protokolle)

22 robots.txt Protokoll zur Einschränkung des Zugriffs durch bots (seit 1994) robots.txt legt fest, was (nicht) gecrawled werden darf Bsp.: Kein Zugriff auf URLs mit lehre/temp, außer durch bot searchengine : User-agent: * Disallow: /lehre/temp/ User-agent: searchengine Disallow: / Crawler muss zu allen besuchten Seiten die robots.txt speichern

23 Verarbeitungsschritte beim Crawling URL aus frontier auswählen Dokument zur URL holen (IP über DNS) Prüfen, ob bereits bekannt ( fingerprints, shingles ) Falls nicht: Dokument zu Index hinzufügen Links extrahieren (relative URLs beachten) Für jede extrahierte URL URL filter tests (regex, robots.txt) Prüfen, ob bereits in der frontier Hinzufügen (Priorisierung)

24 Grundarchitektur www DNS fetch parse doc robots FPs templates content seen? URL filter URL set dup URL elim URL frontier

25 Verteilter Crawler www DNS fetch parse doc FPs to other nodes content URL host seen? filter splitter URL set dup URL elim URL frontier from other nodes

26 Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel (siehe

Ähnliche Dokumente

Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider Webspider Dr. Christian Herta June 11, 2009 1 von 14 Dr. Christian Herta Webspider Referenz-Architektur: Mercator Referenz-Architektur: Webcrawler Mercator [2] modular und Komponenten-basiert, so wird