Information-Retrieval: Web-Retrieval

Ähnliche Dokumente
Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Information-Retrieval: Evaluation

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Rangierungsprizipien 1bei Suchsystemen

Information-Retrieval: Unscharfe Suche

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

6. Suche im World Wide Web

Mobile SEO: Prepping für den Mobile First Index

Text-Mining: Einführung

Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page

Suchen im WWW. Einführung

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Suchmaschinenoptimierung in der Praxis

Was Google nicht findet gibt es nicht

Suchmaschinen im Internet

Web Crawling Die Erschließung des Webs

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung

SEO WORKSHOP. Thomas Kloos

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Information Retrieval. Peter Kolb

6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen

7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

LEHRSTUHL FÜR DATENBANKEN

Ihr SEO-Paket im Überblick

Text-Mining: Clustering

Tipps und Tricks der Suchmaschinenoptimierung

Kompendium der Web-Programmierung

Sichere Programmierung. Klaus Kusche

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Suchen mit der Suchmaschine

WordPress SEO Basics. WordPress fit machen für Google

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH

HS Information Retrieval

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Einführung in Apache Solr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP

Inhalt. 1 Einführung Funktionsweise von Suchmaschinen So werden Suchergebnisse gewichtet... 39

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

SEO KURZ-CHECK WHEELSANDMORE.DE

Suche im Web und Ranking

Suchmaschinen und das Web 2.0

Technische Erläuterungen zum Betrieb Ihrer TOHA-Webseite

Informationssysteme für Ingenieure

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche

Websuche Spidering 1

Recherchieren im Internet

Websuche Spidering 1

Information Retrieval im Internet

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

Swoogle. Patrice Matthias Brend amour

Information Retrieval oder: wie Suchmaschinen funktionieren

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

SharePoint 2013 als Wissensplattform

IHK regional Suchmaschinenoptimierung und -marketing

Text-Mining: Datenaufbereitung und -repräsentation

Suchmaschinen Hakan Erci. Threeway

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting

Top Ranking im Web. (c) 2000 Prof. Dr. Mario Fischer 1. Erschließen neuer Kundensegmente durch Suchmaschinenoptimierung. nichts, nada nothing, nö..

customweb Einleitende Informationen Multishop Erstmals Herzlichen Dank für den Kauf dieses Moduls und Ihr entgegengebrachtes Vertrauen.

FRANZIS PROFESSIONAL SERIES. Das Praxisbuch FRANZIS. Maik Caro / Christoph Lindemann. Mit 252 Abbildungen

Checkliste Google Analytics Einrichtung

Webarchiv Schweiz. Ausbildung, Teil 1: Sammeln. 8. und 14. März 2007 Silvia Hofmann / Jean-Philippe Accart

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Web Scraping. Seminar Aktuelle Software-Engineering Praktiken für das World Wide Web JK

When your browser turns against you Stealing local files

Erfolgreiche Internetsuche

#Backlinks: Was macht einen guten Backlink aus?

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

IPv6 für mehr Datenschutz

Volltextsuche und Text Mining

Wissenschaftliche Suchmaschinen

Suche im Web und Ranking

Suchen im WWW. Web-Vorgeschichte. Das World Wide Web. Web-Browser-Geschichte. Einführung

Suche im Web und Ranking

Webseiten-Bericht für sitekur.bbs.tr

Implementierung des Vektor Modells

Auf diese Inhalte sollten Sie nicht verzichten

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

limlhaidftswgirzälhimds

VSA e.v. SEO NEXT LEVEL. Frankfurt, 27. November Seite

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

SEO & Relaunch: Chancen und Risiken. Jens Fauldrath Relaunch Konferenz 2016, Hamburg

(Bamberg)

HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, Stuttgart

Praktikum Information Retrieval Wochen 12: Suchmaschine

Transkript:

Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010

Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)

Ein vollständiges IR-System Abbildung: www.informationretrieval.org

Klassisches IR Korpus als feststehende Sammlung von Dokumenten Ziel: Rückgabe relevanter Dokumente Bewertung der von Anfrage-Dokument-Paaren hinsichtlich der Erfüllung eines Informationsbedarfs Spezifischer Suchkontext ist vorgegeben Spezifischer Benutzer wird ignoriert

Web-Retrieval Das Web: Riesig, chaotisch, verlinkt, ändert sich ständig Inhaltserstellung und Suche sind eng verknüpft mit vielfältigen kommerziellen Interessen Größter Unterschied: Mangelnde Kooperation (Spam) Anforderungen: Ein Interface für viele Zwecke und Bedürfnisse (Anfragen, Straßenkarten, Börsenkurse, etc.) Kontextualisierung (IP-Adresse, Geo-Tagging) Personalisierung durch Suchprofile

Web-Retrieval Abbildung: www.informationretrieval.org

Web-Retrieval Das Web als Korpus Crawling Literatur

Historisches Ca. 1995-1997 rein keywordbasierte Suche (Altavista, Excite, Infoseek, lnktomi) oder Taxonomien (Yahoo) Paid Placement: Ranking gegen Bezahlung (goto.com/overture) Ab 1998: Linkbasiertes Ranking (Google) Verdrängt keywordbasierte Suche Link-Analyse heute Standard Ab ca. 2000: Google-Ads Trennung von algorithmischem Ergebnis und Werbung ist quasi das Verdienst von google Yahoo folgt dem Beispiel, kauft Overture (für paid placement) und lnktomi (für Suche)

Anfragen: Informationsbedarf vs. Nutzerbedürfnis Information: Wissen befriedigen (klassischer Informationsbedarf) Navigation: Zu einer bestimmten Seite gehen Transaktion: Etwas bestimmtes tun Services (Wetter, Staus, etc) Downloads Shops Grauzonen: Explorative Suche Surfen

Nutzerverhalten Oft fehlerhafte Anfragen: Kurz (Ø 2-3 Terme, 80% aller Anfragen 3 Wörter) Unpräzise (keine Operatoren) Große Varianz: Bedürfnisse / Erwartungen / Vorwissen Faktor Bandbreite (historisch) Spezielles Verhalten: 85% schauen nur auf die erste Ergebnisseite 78% deranfragen werden nicht nachjustiert Links verfolgen statt Suchen

Nutzerbedürfnisse Qualität von Webseiten variiert erheblich Relevanz im bisherigen Sinne reicht für Bewertung nicht aus Erwünschte Qualitäten (auch über IR-Kontext hinaus): Inhalt: Vertrauenswürdig, gepflegt, aktuell, nicht redundant Web-Lesbarkeit: Saubere und schnelle Anzeige Frei von Ärgernissen (pop-ups etc.) Precision vs. Recall: Precision wovon? Der ersten 10? 100? Recall spielt im Web meist geringe Rolle

Nutzerbedürfnisse Einfaches und fehlertolerantes Interface Gültigkeit und Relevanz der Ergebnisse Objektivität der Resultate (Faktor Vertrauen) Tools für Vor- und Nachbereitung: Ausgleich von Eingabefehlern (Spell checking, Syntax) Feedback: Suche in Ergebnissen, Spracheinstellungen, etc. Antizipation: Ähnliche Suchen Web-spezifisches Vokabular (Smileys, URLs) Auswirkungen auf ling. Tools (Stemming, etc.)

Web-Retrieval Abbildung: www.informationretrieval.org

Das Web als Korpus Demokratisierung der VÖ (verteilte Erstellung, Verlinkung) Keine Designrichtlinien, keine Koordination Stark heterogene Inhalte: Wahr/falsch, überflüssig, widersprüchlich... Strukturiert (DBs) Semi-strukturiert (XML, annotierte Bilddateien, etc.) Unstrukturiert (Text, HTML,... ) Dynamisch Spam: Cloaking, doorway pages, link spam, bombs Web als größtes denkbares Korpus

Größe des Web? Anzahl Hosts? Netcraft: Monatlicher Bericht über Anzahl Hosts & Server http://news.netcraft.com/archives/web_server_ survey.html Anzahl (statischer) HTML-Seiten? http://www.ims.uni-stuttgart.de/lehre/teaching/ 2007-SS/ir/sizeoftheweb.html Größe des Datenvolumens? All diese Zahlen ändern sich permanent!

Größe des Web? Schwierigkeiten: Im Schnitt mehr als 8 Links/Seite Duplikate, Mirror-Sites ( 30%) Server z.t. nur zeitweise online Das Web ist de facto unendlich: Dynamische Inhalte 404er Problem für Suchmaschinendesign Auswirkung auf Crawling: Recall

Dynamische Inhalte Seiten ohne statische HTML-Version z.b. aktueller Status von Flug Nr. AB1234 Werden ad hoc auf Server erstellt Erkennbar am? in der URL (vgl. Wikipedia) Abbildung: www.informationretrieval.org

Dynamische Inhalte Großteil dynamischer Inhalte wird ignoriert u.a. wg. sog. spider traps Zu viel zu indexieren Statische Inhalte in der Regel wichtiger Aber: De facto werden auch viele statische Inhalte ad hoc erstellt (php u.ä.: Header, Datum, Ads, etc.)

Crawling: Grundidee Beginne irgendwo ( URL seeds ) Seite holen, parsen Text indexieren URLs extrahieren URLs zu Queue hinzufügen ( URL frontier ) Gehe zu nächster URL und beginne von vorn Grundannahme: Das Web ist ordentlich verlinkt

Schwierigkeiten Skalierung: Crawling muss verteilt erfolgen 20,000,000,000 Seiten/Monat 8000/Sek Es kann und soll nicht alles gecrawlt werden Schwankungen in Sichtbarkeit und Bandbreite Tiefe der Seitenhierarchie Mirrors und Duplikate Spam Spider Traps

Grundregeln Pflicht Höflichkeit: Nur erlaubte Seiten, nicht permanent blockieren Explizit: Robots exclusion protocol (robots.txt) Robustheit: spider traps, dynamische Seiten, große Sites Kür Verteilt operieren Effizienz & Skalierbarkeit (Rechenleistung/Bandbreite) Qualität & Aktualität Erweiterbarkeit (neue Formate, Protokolle)

robots.txt Protokoll zur Einschränkung des Zugriffs durch bots http://robotstxt.org (seit 1994) robots.txt legt fest, was (nicht) gecrawled werden darf Bsp.: Kein Zugriff auf URLs mit lehre/temp, außer durch bot searchengine : User-agent: * Disallow: /lehre/temp/ User-agent: searchengine Disallow: / Crawler muss zu allen besuchten Seiten die robots.txt speichern

Verarbeitungsschritte beim Crawling URL aus frontier auswählen Dokument zur URL holen (IP über DNS) Prüfen, ob bereits bekannt ( fingerprints, shingles ) Falls nicht: Dokument zu Index hinzufügen Links extrahieren (relative URLs beachten) Für jede extrahierte URL URL filter tests (regex, robots.txt) Prüfen, ob bereits in der frontier Hinzufügen (Priorisierung)

Grundarchitektur www DNS fetch parse doc robots FPs templates content seen? URL filter URL set dup URL elim URL frontier

Verteilter Crawler www DNS fetch parse doc FPs to other nodes content URL host seen? filter splitter URL set dup URL elim URL frontier from other nodes

Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel 19+20 (siehe www.informationretrieval.org)