Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web

Ähnliche Dokumente
Wie Google Webseiten bewertet. François Bry

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

1 topologisches Sortieren

Erfolgreich suchen im Internet

Web Grundlagen zum Spidering

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den

Diskrete Modellierung

Herzlich Willkommen zu meinem Webinar!

Grundlagen, Informationen und Hintergründe von Wiki Systemen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

White Paper DocCheck Search

2 Evaluierung von Retrievalsystemen

Konzepte der Informatik

TYPO3-Suchmaschinenoptimierung für Redakteure

Webalizer HOWTO. Stand:

Wie funktioniert das WWW? Sicher im WWW

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

WEBSEITEN ENTWICKELN MIT ASP.NET

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Hilfedatei der Oden$-Börse Stand Juni 2014

Thematische Abfrage mit Computerlinguistik

Die Statistiken von SiMedia

Primzahlen und RSA-Verschlüsselung

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Webhost Unix Statistik

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

Unbeschränkter Zugang zu Wissen?

Marketinginformationen Tipps für Suchmaschinenmarketing

Warum Suche (trotzdem) bedeutend ist

Homepage-Leitfaden. So werden Sie bei Google gefunden

Themenschwerpunkt Social SEO

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Man unterscheidet zwischen LAN (Local Area Network) und WAN (Wide Area Network), auch Internet genannt.

IINFO Storyboard

Übung - Konfigurieren einer Windows 7-Firewall

Migration von statischen HTML Seiten

Lehrer: Einschreibemethoden

Statuten in leichter Sprache

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Motivation. Inhalt. URI-Schemata (1) URI-Schemata (2)

Word 2010 Schnellbausteine

Datenexport aus JS - Software

Veröffentlichen von Apps, Arbeitsblättern und Storys. Qlik Sense Copyright QlikTech International AB. Alle Rechte vorbehalten.

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Hosted.Exchange. Konfigurationsanleitung Outlook 2007

WinWerk. Prozess 6a Rabatt gemäss Vorjahresverbrauch. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

StudyDeal Accounts auf

Internet online Update (Mozilla Firefox)

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Datenbanken Microsoft Access 2010

Anmerkungen zur Übergangsprüfung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Teil 1: IT- und Medientechnik

Bedienungsanleitung Rückabwicklungsrechner

Maschinelle Übersetzung

Aufgabe 1 Berechne den Gesamtwiderstand dieses einfachen Netzwerkes. Lösung Innerhalb dieser Schaltung sind alle Widerstände in Reihe geschaltet.

Ihr Weg in die Suchmaschinen

Verwendung von QR-Codes zum Teilen von digitalen Rezepten in Printmedien mittels der Recipe Packaging Toolbox von My Own Cookbook

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

CTI SYSTEMS S.A. CTI SYSTEMS S.A. 12, op der Sang. Fax: +352/ L Lentzweiler. G.D.

teamsync Kurzanleitung

Rente = laufende Zahlungen, die in regelmäßigen Zeitabschnitten (periodisch) wiederkehren Rentenperiode = Zeitabstand zwischen zwei Rentenzahlungen

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Vitaminkapseln.ch - SEO Check

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Glaube an die Existenz von Regeln für Vergleiche und Kenntnis der Regeln

Was sind Jahres- und Zielvereinbarungsgespräche?

Monatstreff für Menschen ab 50 Temporäre Dateien / Browserverlauf löschen / Cookies

egovernment für das Open Source CMS Contao

Wie ist das Wissen von Jugendlichen über Verhütungsmethoden?

Bedienungsanleitung: Onlineverifizierung von qualifiziert signierten PDF-Dateien

Konzentration auf das. Wesentliche.

Gambio GX2 FAQ. Inhaltsverzeichnis

Festigkeit von FDM-3D-Druckteilen

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

S Sparkasse Hohenlohekreis. Leitfaden zu Secure

ITT AQUAVIEW WEB-Server. Kurzbedienungsanleitung

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

Markus Mauritz 4BBW 97/98 BET - Referat. ABC Analyse (Kostenschwerpunktanalyse)

Außerdem verwenden wir Cookies für andere Zwecke, wie zum Beispiel:

Anleitung über den Umgang mit Schildern

MARCANT - File Delivery System

Benutzerhandbuch - Elterliche Kontrolle

Information Systems Engineering Seminar

Stornierungsbedingungen und weitere Voraussetzungen

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

Protect 7 Anti-Malware Service. Dokumentation

SEO 2 - SUCHMASCHINENOPTIMIERUNG. Profitable Keywords finden

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Nutzung dieser Internetseite

Zeichen bei Zahlen entschlüsseln

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Handbuch zum besseren Verständnis des Webalizers Kurzanleitung

1 Part-of-Speech Tagging

Transkript:

Web Information Retrieval Web Information Retrieval Ingo Frommholz / Norbert Fuhr 30. Januar 2012 Informationssuche im Web Browsing und Suche Beispiel einer Web-Suchmaschine: Google Hypertext und Web IR Suchstrategien von Web-Suchmaschinen Das World Wide Web Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Technische Definition: Alle Ressourcen und Benutzer im Internet, die das Hypertext Transfer Protokoll (HTTP) benutzen Allgemeinere Definition (Tim Berners-Lee): The World Wide Web is the universe of network-accessible information, an embodiment of human knowledge informationell Suche nach Webseite zur Befriedigung eines Informationsbedürfnisses transaktionell Suche nach Seiten, um eine bestimmte Transaktion durchzuführen (Einkauf, Buchung,...) navigierend Suche nach einer bestimmten Web-Seite

Informationssuche im Web Probleme Exponentielles Informationswachstum Fehlende Beständigkeit der Dokumente (Error 404) Heterogene Dokumenttypen Qualität der Dokumente Multilingualität Browsen in Katalogen Suche nach Dokumenten kann vereinfacht werden durch gezieltes Ansteuern interessanter Kategorien Kataloge wie Yahoo! oder DMOZ bieten ein hierarchisches Kategorienschema an Jedes Web-Dokument ist einer oder mehrerer Kategorien zugeordnet (wertvolle Hinweise über die Thematik des Dokuments) Thematik wird spezieller je tiefer man im Kategorienschema ist Hierarchisches Kategorienschema: Beispiel: Yahoo! Vor- und Nachteile von Browsing + Einschränkung des Suchraums, daher höhere Präzision + Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme): Suche nach Bank ist in einer Kategorie Finanzwesen eindeutig. Suche nach Baum filtert in einer Kategorie Forstwirtschaft alle Dokumente, die die Datenstruktur Baum beschreiben, raus. + Finden weiterer relevanter Dokumente durch rumstöbern + Benutzer muss keine Suchanfrage formulieren Benutzer muss vorher wissen, welche Kategorie anzusteuern ist ( Suche) nur ein geringer Teil des Web abgedeckt

Suche im Web Basiskomponenten einer Suchmaschine Fülle der Dokumente im Web kann ohne geeignete Suchmaschinen nicht erschlossen werden Das Web ist ein Dschungel Zusammenspiel mit Browsing möglich Standard IR-Methoden plus Ausnutzen der Linkstruktur Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservern beim Dokumentzugriff, folgt Links zu neuen Quellen Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiert die Dokumente Speichersystem Effiziente Speicherung der extrahierten und aufbereiteten Informationen (z.b. in einer Datenbank mit invertierten Listen) Benutzerschnittstelle Eingabe von Anfragen, interagiert mit zugrundeliegendem Speichersystem Basiskomponenten sind prinzipiell von einfacher Struktur Riesige Datenmengen und sehr hohe Zugriffsraten Beispiel: Google Google-Architektur Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

Google-Architektur: Komponenten URL Server Sammelt Liste von abzurufenden URLs aus dem Dokumentindex, schickt diese an den Crawler Crawler Sammelt/liest Webseiten Store Server Komprimiert Webseiten, speichert diese im Repository, vergibt Dokument-ID Google-Architektur: Komponenten Indexer Liest Repository, dekomprimiert und parst Daten Konvertiert jedes Dokument in eine Menge von Wortvorkommen (Hits) Hits enthalten das Wort, die Position im Dokument, Fontgröße und Groß- und Kleinschreibung. Hits werden in Barrels einsortiert (nach Dokument-IDs) Google-Architektur: Komponenten Google-Architektur: Komponenten Indexer (Forts.) Parst alle Links im Dokument und speichert wichtige Information (Quelle, Ziel und Text) über diese in der Anchors-Datei URL Resolver Liest Anchors-Dateien, wandelt relative in absolute URLs und Document-IDs um, generiert Link-Datenbank Sorter Generiert invertierte Listen aus den Barrels und füllt das Lexikon Page Rank Generiert den Page Rank aus der Link-Struktur Searcher Eigentliche Suchkomponente, benutzt Page Rank, invertierte Listen und Lexikon zur Beantwortung von Anfragen

Web Information Retrieval Das Web als Hypertext Suchmaschinen setzen bekannte IR-Verfahren ein Die bisher diskutierten Verfahren waren aber mehr oder weniger inhaltsbasiert (Berechnung eines Retrieval Status Value eines Dokuments bzgl. der Anfrage, Ranking der Dokumente) Im Web haben wir eine weitere Informationsquelle zur Verfügung: die Linkstruktur Diese kann zur Berechnung inhaltsbasierter Relevanz herangezogen werden, aber auch nicht-inhaltsbasierte Information vermitteln, die für das Retrieval interessant sind Definition (Hypertext) Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten) Kanten (Links) zwischen diesen und bildet einen Graph. Auch das Web ist ein Hypertext (zyklischer Graph). Hypertext und Web Information Retrieval Spreading Activation-Algorithmus von Frei und Stieger Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zum Information Retrieval In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR Möglichkeiten (u.a.): Benutzen der Linkstruktur zum Anpassen des RSV (z.b. Spreading Activation) Identifizieren der Wichtigkeit von Dokumenten und von Hubs und Authorities (PageRank, HITS) Numerischer Spreading Activation Ansatz aus dem Hypertext IR Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfrage werden zum Anpassen des RSV des Ausgangsknoten benutzt

Beispiel: Constrained Spreading Activation Spreading Activation Beispiel 1. Initialisierung: Berechnung von RSV q,n 0 für Knoten n bzgl. Anfrage q 2. Navigation, Entscheidungsphase: Selektiere Knoten (z.b. auf Grund des Linktyps) 3. Navigationsphase: Berechne RSV q,n q,n 1 d+1 := RSVd + w d+1 Nd+1 n n N n d+1 RSV q,n 0 mit w d : Propagierungsfaktor für Distanz d Nd n: Menge der Nachfolgeknoten von n mit Distanz d RSV q,n d : RSV von Knoten n zur Anfrage q in Iteration d Spreading Activation Beurteilung Page Rank + Benutzung der Linkstruktur zum Anpassen des Retrieval Status Value + Kann mit verschiedenen Linktypen umgehen + Auch negative Links möglich (dann negativer Propagation Faktor) Realzeitberechnung kritisch Anwendbarkeit auf das Web? Berühmt geworden durch Google (Brin/Page, 1998) Ermitteln der Autorität (Authority) eines Dokuments Grundannahme: ein Dokument ist umso wichtiger, je mehr andere wichtige Dokumente es referenzieren Ranking von inhaltlich relevanten Seiten nach absteigendem Page Rank Iterative Berechnung des Page Rank, propagieren des Page Ranks an nachfolgende Knoten

Random-Surfer-Modell Berechnung des Page Rank Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alle Nachfolger propagiert Iterative Berechnung des Page Rank PR(p) für eine Seite p: PR(p) = (1 β) 1 N + β q p PR(q) out(q) mit N: Anzahl Knoten β: Konstante zwischen 0 und 1 out(q): Anzahl ausgehender Links aus q q p: Es existiert ein Link von q nach p In der Regel hat man nach 100 Iterationen Konvergenz (Henzinger, 2000) Initial erhält jede Seite den Page Rank 1 Interpretation des Page Rank Page Rank Beurteilung Benutzer springt mit der Wahrscheinlichkeit (1 β) auf eine beliebige Webseite (von der jede wiederum die Wahrscheinlichkeit 1/N hat) und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist also gegeben durch die Wahrscheinlichkeit eines zufälligen Sprungs auf p plus der Wahrscheinlichkeit, dass man von einer Vorgängerseite q auf p springt + Offline-Berechnung unabhängig von der Anfrage möglich + Page Rank bevorzugt populäre Seiten + Gute Ergebnisse für die Suche nach Home Pages +- Page Rank bevorzugt Einstiegsseiten von Web Sites Zu engeren thematischen Anfragen liefern andere Verfahren bessere Ergebnisse PageRank kann vielfältig manipuliert werden, z.b. durch Verkaufen von eingehenden Links ( Link-Farmen ) Nachteil resultiert aus der Unabhängigkeit von Inhalt und Anfrage Theoretisch ist es möglich, viele (z.b. 10.000) eingehende Links zu kaufen, um einen besseren PageRank zu bekommen

Kleinbergs HITS-Algorithmus HITS: Zweistufiger Algorithmus Ermitteln von Hubs und Authorities zu einem Thema Hub: Verweist zu guten Authorities Authority: Hat viele eingehende Links von guten Hubs 1. Berechnung des RSV zur Anfrage für alle Webseiten. Auswahl des Subnetzes der potenziell relevanten Dokumente: Antworten + damit verlinkte Dokumente (Neighbourhood Graph) 2. Berechnung eines Hub- und Authority-Werts für jede Webseite im gewählten Subnetz Berechnung des Hub- und Authority-Werts Skizze des Algorithmus für Hubs und Authorities Iterative Berechnung des Hub- und Authority-Werts a p = q p h q mit a p : h q : h q = q p a p Authority-Gewicht für Knoten p Hub-Gewicht für Knoten p 1. Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten 2. Berechne neuen Hub- und Authority-Gewichte für jeden Knoten 3. Normalisiere neue Werte hinsichtlich Normalisierungsbedingung 4. Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt und Normalisierungsbedingung a p = 1 p und h p = 1 p

HITS-Beispiel Beurteilung des HITS-Algorithmus Start 1. Iteration Normalisierung 2. Iteration Normalisierung + Berechnung von getrennten Werten für Hubs und Authorities ermöglicht komplexere Suchstrategien Authority-Gewichte sind in etwa vergleichbar mit dem Page Rank und bezeichnen wichtige Dokumente Suche nach wichtigen Dokumenten Hubs stellen durch ihre Verlinkung zu Authorities einen guten Überblick dar Suche nach guten Übersichtsseiten + Hub- und Authority-Werte sind auf die Anfrage abgestimmt Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten Suchstrategien von Web-Suchmaschinen Diversity Ranking Eliminierung von Spam (vs. search engine optimization ) Indexierung von Seiteninhalt + Anchor-Text Klassifikation von Suchfragen: navigierend vs. informationell Berücksichtigung von Page Rank Einbeziehung zusätzlicher Informationsquellen (Query Log, Faktendatenbanken,... ) Personalisierung, Social Search Diversifizierung der Ergebnisliste Retrievalfunktion basierend auf maschinellen Lernverfahren ( learning to rank ) [Fuhr 1989] Optimierung basierend auf click-through Daten

Learning to Rank