Suchstrategien PG 402. Phillip Look Christian Hüppe

Ähnliche Dokumente
Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Wie Google Webseiten bewertet. François Bry

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Kurze Einführung in Web Data Mining

Detecting Near Duplicates for Web Crawling

Universität Duisburg-Essen, Standort Duisburg Institut für Informatik und interaktive Systeme Fachgebiet Informationssysteme

Web Data Management Systeme

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

SEODisc: Ansatz zur Erkennung von SEO-Attacken

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Suchmaschinen Grundlagen. Thomas Grabowski

Dokumenten-Clustering. Norbert Fuhr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Web Grundlagen zum Spidering

Erfahrungen, Einblicke, Experimente

Industrie- und Handelskammer Stuttgart

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen

Erfolgreich suchen im Internet

Vorlesung Information Retrieval Wintersemester 04/05

Inhalt. 1 Einführung Funktionsweise von Suchmaschinen So werden Suchergebnisse gewichtet... 39

Information Retrieval Modelle und neue Technologien. Prof. Dr. Wolfgang Riggert FDH Flensburg

Informationsexplosion oder falsche Suchstrategie? Suchstrategien...

SEODisc. Analyse SEO vergifteter Suchmaschinenergebnisse. Matthias Meyer. TU Dortmund / G Data

limlhaidftswgirzälhimds

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Seminar Datenbanksysteme

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Vorlesung Information Retrieval Wintersemester 04/05

Recommender Systems. Stefan Beckers Praxisprojekt ASDL SS 2006 Universität Duisburg-Essen April 2006

Seminar Text- und Datamining Textmining-Grundlagen Erste Schritte mit NLTK

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Suchen im WWW. Web-Vorgeschichte. Das World Wide Web. Web-Browser-Geschichte. Einführung

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

Information Retrieval,

Tipps und Tricks der Suchmaschinenoptimierung

2 Evaluierung von Retrievalsystemen

Vorlesung Information Retrieval Wintersemester 04/05

ShopBot, ein Software-Agent für das Internet

Semantische Suche auf einem Web-Korpus

Vorstellung des Diplomarbeitsthemas. dawn. (direction. anticipation in web-navigation. navigation) Sebastian Stober 12.

Ohne Mathematik undenkbar!

PG520 - Webpageranking

Personalisierung. Der Personalisierungsprozess Nutzerdaten erheben aufbereiten auswerten Personalisierung. Data Mining.

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Deep Web Suchen wir was man finden könnte?

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

P2P - Projekt. 1. Die gleiche Aufgabe zwei Herangehensweisen 2. Voraussetzungen. 3. Automatische Semantische Konvergenz

SuchmaschinenOptimierung

SEO Controlling zur Sicherung und Ausweitung der Erfolge

Exploration und Klassifikation von BigData

Exposé zur Studienarbeit. 04. August 2010

Prototypische Komponenten eines Information Retrieval Systems: Vektormodell

2.4.1 Hubs und Authorities. Authority. Hub

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO Sybille Peters

Link Analysis and Web Search Jan Benedikt Führer

Generierung von sozialen Netzwerken. Steffen Brauer WiSe 2011/12 HAW Hamburg

Diskrete Modellierung

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Kapitel 23 Strukturinformationen in Dokumenten. HHU Düsseldorf, WS 2008/09 Information Retrieval 368

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Indexstrukturen in XML

Lernende Suchmaschinen

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Informationsrecherche im Internet mit Hilfe der Google Web APIs

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking

Verteilte Systeme - 2. Übung

Wer suchet, der findet

Mit KI gegen SPAM. Proseminar Künstliche Intelligenz

neofonie DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR

Alles nur Google? Das Innenleben der Suchmaschinen

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Maximizing the Spread of Influence through a Social Network

Was bisher geschah. 1. Zerlegung in monotone Polygone 2. Triangulierung der monotonen Teilpolygone

Web Mining und Farming

Textmining Clustering von Dokumenten

SEO für TYPO3 Redakteure

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Ähnlichkeitssuche auf XML-Daten

APEX URLs Suchmaschienen- und Benutzerfreundlich

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

I N T E R N E T. Einsteigerkurs. Teil 6 Suchmaschinen

3. Baumstrukturen. 3.1 Dateien und Ordner

Einführung. Information Retrieval. IR-Aufgaben. IR in Beispielen. Adhoc-Suche: Web. IR in Beispielen. Was ist IR? Norbert Fuhr

Duplikatfilterung und Sampling von Webseiten

Agenda. Anwendungsfälle. Integration in Java

Big Data bei unstrukturierten Daten. AW1 Vortrag Sebastian Krome

Recherchieren im Internet

Semantik in Suchmaschinen Beispiele. Karin Haenelt

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski

TYPO3-Suchmaschinenoptimierung für Redakteure

Transkript:

Suchstrategien PG 402 Phillip Look Christian Hüppe

Überblick Einführung Untersuchung von 2 Suchmaschinen Verbesserung der Rankingfunktion mit Hilfe von Clickthrough-Daten Clustering von Query Logs Strukturorientierte Ansätze Phillip Look, Christian Hüppe 2

Arbeitsweise von Suchmaschinen Dokumente anfordern Dokumente Internet Suchanfrage Webseite mit Ergebnissen Robot Ergebnisse Suchmodul URLs, Dokumente Indexer Index interne Abfrage Phillip Look, Christian Hüppe 3

Ranking Handgepflegte Listen (Katalogsysteme) Häufigkeit der Schlagworte Formatierung der Schlagworte (Überschrift, fett, unterstrichen usw.) Link-Popularität Link-Qualität manuell automatisch Phillip Look, Christian Hüppe 4

Kriterien einer guten Suchmaschine Geschwindigkeit der Antwort Anzahl u. Aktualität des Indexes Qualität des gelieferten Rankings Absolute Qualität Precision / Recall Relative Qualität Benutzerverhalten Wie kann man das Ranking verbessern? Phillip Look, Christian Hüppe 5

Verbesserung des Rankings Benutzerfeedback einbeziehen: Problem: schwer zugänglich, gering vorhanden 1 Lösung: System beobacht, welche Links benutzt werden Clickthrough-Daten analysieren 1 WebWatcher: A Tour Guide for the World Wide Web, T. Joachims, D. Freitag, T. Mitchell, Proceedings of IJCAI97, August 1997 Phillip Look, Christian Hüppe 6

Clickthrough Daten Speicherung von Name der anfragenden Maschine IP-Adresse der anfragenden Maschine Browser-Typ Bildschirmauflösung Benutzeranfragen gewählte URLs usw. für uns interessant Phillip Look, Christian Hüppe 7

Beispiel für Clickthrough Daten Phillip Look, Christian Hüppe 8

Vorteile von Clickthrough- Daten man kommt sehr einfach an Daten die Datenmenge ist quasi unendlich unbeeinflusstes Benutzerverhalten wird aufgezeichnet man kann sinngemäße Queries / URLs finden Benutzer wählen gleiche URLs bei unterschiedlichen Queries Benutzer wählen unterschiedliche URLs bei gleicher Query Phillip Look, Christian Hüppe 9

Experiment 1 Vergleichen von 2 Suchmaschinen A und B: Einheitliche Benutzeroberfläche Keine Einschränkung der Produktivität des Benutzers Benutzerbeurteilung soll klar demonstriert werden Phillip Look, Christian Hüppe 10

Experiment 1 Query wird an Suchmaschine A und B gesandt Ranking A = (a 1, a 2,...) und B = (b 1, b 2,...) können in ein gemeinsames Ranking C = (c 1, c 2,...) gemischt werden, so dass für jeden Rang n von C gilt {c 1,..., c n } = {a 1,..., a na } {b 1,..., b nb } mit n b n a n b + 1. Phillip Look, Christian Hüppe 11

Ranking generieren public void combine( Vector a, Vector b, int na, int nb, Vector c ) { if ( na == nb ) { if (!c.contains( a.get( na + 1 ) ) ) { c.add( a.get ( na + 1 ) ); } this.combine( a, b, na+1, nb, c ); } else { if (!c.contains( b.get( nb + 1 ) ) ) { c.add( b.get( nb + 1 ) ); } this.combine( a, b, na, nb +1, c ); } } Phillip Look, Christian Hüppe 12

Vorteile dieses Aufbaus Annahme: Alle Links werden ohne Ausnahme betrachtet Benutzer nimmt von Top-Ranking A und Top- Ranking B gleich viele Links wahr Benutzer wählt relevante Links Kurzzusammenfassung bietet genug Informationen Wahl nicht zufällig Klicks enthalten Informationen über die Qualität der Top n a und n b Links beider Suchmaschinen Phillip Look, Christian Hüppe 13

Phillip Look, Christian Hüppe 14

Google vs. MSNSearch Ranging A Ranging B A besser B besser A = B Total Google MSNSearch 34 20 69 123 Google Standard 18 1 15 34 MSNSearch Standard 16 2 5 23 Phillip Look, Christian Hüppe 15

Benutzerfeedback aus Clickthrough-Daten Extrahieren Gegebenes Ranking: (link 1, link 2, link 3,... ) C ist Ranking der angeklickten Links link i < r* link j für alle Paare 1 j < i, mit i C und j C. Phillip Look, Christian Hüppe 16

Lernen einer Rankingfunktion mit der SVM Vereinfache das Problem in ein binäres Klassifikations-Problem relevanter Link unrelevanter Link Trainingmenge mit queries q und (optimales) Zielranking r* (q 1,r* 1 ), (q 2,r* 2 ),..., (q n,r* n ). Phillip Look, Christian Hüppe 17

Attribute eines Links zum Lernen Link-Rang bei anderen Suchmaschinen Domain-Name in Query enthalten Länge der URL Länderkennung der URL Domain der URL Tilde in der URL Cosinusmaß zwischen URL-Worten und Query Cosinusmaß zwischen Titel und Query Phillip Look, Christian Hüppe 18

Vektorraummodell (1) Terme der Datenbasis spannen einen orthogonalen Vektorraum auf Dokumente und Queries sind Punkte in diesem Vektorraum Gesucht werden Dokumente, deren Vektoren ähnlich zum Queryvektor sind Phillip Look, Christian Hüppe 19

Vektorraummodell (2) Ähnlichkeit wird über Cosinusmaß bestimmt Cosinusmaß: Cosinus des Winkels zwischen zwei Dokumentvektoren bzw. zwischen Query- und Dokumentvektor Wenn Vektoren ähnlich ausgerichtet sind Winkel entsprechend klein Phillip Look, Christian Hüppe 20

Vektorraummodell - Beispiel d 2 d 1 d 3 q 1 d 5 q 2 d 4 Phillip Look, Christian Hüppe 21

Clustering von Query Logs Phillip Look, Christian Hüppe 22

Clustering von Query Logs Daten Clickthroughdaten {Query, ausgewählte URLs} Betrachtung der Daten als Graph Konten Queries und URLs Kanten Zusammenhang: Query und URL Besonderheit Inhalt der URLs wird ignoriert Phillip Look, Christian Hüppe 23

Clustering Algorithmus hierarchical agglomerative clustering (HAC) Inhalt wird entgegen normalen HAC- Algorithmen ignoriert Vorteil: Clustering erfordert keine Speicherung von großen Datenmenge Kann auch bei textfreien Seiten angewandt werden (z. B. Bilder) Implementierung ist sehr viel einfacherer (Kein aufwendiges Preprocessing um Inhalte aufzuarbeiten) Phillip Look, Christian Hüppe 24

Clustering Algorithmus Clustering von queries Beispiel: Benutzer stellt Anfrage q q Cluster C System schlägt andere queries aus C vor Gute Unterstützung, bei unbefriedigendem Ergebnis Phillip Look, Christian Hüppe 25

Graph-Based Iterative Clustering Disjunkte Mengen von Anfragen Disjunkte Mengen von URLs Anfrage Ergebnis q8 q4 url Q url A url P url C q3 q10 q13 url G url E q7 q1 q2 url J url Y q16 url X url M q4 q12 url N q6 Phillip Look, Christian Hüppe 26

Algorithmus 1 Input: Clickthrough-Daten C Output: Graph G 1. Sammle alle Anfragen aus C in der Menge Q 2. Sammle alle URLs aus C in der Menge U 3. Für jedes Element in Q erzeuge einen weißen Knoten in G 4. Für jede URL in U erzeuge einen schwarzen Knoten in G 5. Wenn Anfrage q mit einer URL u auftritt, dann lege eine Kante in G zwischen den schwarzen und den weißen Knoten Phillip Look, Christian Hüppe 27

Beispiel zum Algorithmus 1 http://www-ai.cs. uni-dortmund.de/ Künstliche Intelligenz http://www.joachims.org/ http://ki.cs.tu-berlin.de/ support.html Phillip Look, Christian Hüppe 28

Ähnlichkeit zwischen Knoten N(x) = Menge benachbarter Knoten von x in einem Graphen Knoten y ähnelt x, wenn N(x) und N(y) eine große Überschneidung haben Formal: N(x) N(y) def σ(x,y) = N(x) N(y) 0 Mit N(x) N(y) > 0 Phillip Look, Christian Hüppe 29

Beispiel zur Ähnlichkeit Überschneidung x y Ähnlichkeit: 2 σ(x, y) = 4 Phillip Look, Christian Hüppe 30

Algorithmus 2 Input: Graph G Output: Neuer Graph G : 1. Bewerte alle weißen Knotenpaare in G 2. Füge die Knoten w x, w y zusammen, für die σ(w x, w y ) am größten ist 3. Schritt 1 und 2 für schwarze Knoten durchführen 4. Bis zur Abbruchbedingung gehe zu 1 Phillip Look, Christian Hüppe 31

Iterativeransatz? Manche Ähnlichkeiten können nicht im Originalgraphen erkannt werden a 1 a b b 1 c 2 c σ(a, c)=0 σ(1, 2)=1/3 σ(a, c)=1 Phillip Look, Christian Hüppe 32

Originalgraph Phillip Look, Christian Hüppe 33

Query Clustering Phillip Look, Christian Hüppe 34

URL Clustering Phillip Look, Christian Hüppe 35

Fertige Cluster Phillip Look, Christian Hüppe 36

Strukturorientierte Ansätze Überblick: Fish-Search Enhanced Categorization Focused Crawling Related Pages Fourier Domain Scoring Phillip Look, Christian Hüppe 37

Fish-Search zum Verfahren: Eingabe: URL folge den Links * bewerte die Seite gehe zu (*) (einzelner Fisch) (Fischschwarm) (Stärke des Fisches) P.M.E. De Bra, R.G.J. Post 1994 Phillip Look, Christian Hüppe 38

Fish-Search Vor- und Nachteile: + gefundenen Seiten existieren + keine Datenbank erforderlich - hohe Netzlast - nicht gelinkte Seiten werden nicht gefunden - Sackgassen werden nicht verlassen Phillip Look, Christian Hüppe 39

Fish-Search für uns: ausgehende Links verfolgen URL als Ausgangspunkt Phillip Look, Christian Hüppe 40

Enhanced Categorization zum Verfahren: gegeben ist eine Unterteilung in Kategorien (Freizeit / Sport / Tennis / Turniere /...) für jede Kategorie sind gute Beispiele vorhanden ermittle Diskriminanten und Rauschen Soumen Chakrabarti, Byron Dom, Piotr Indyk 1998 Phillip Look, Christian Hüppe 41

Enhanced Categorization erweitere Inhalt der Seite um: a) Text der benachbarten Seiten b) Pfad der benachbarten Seiten (besser) Ordne die Seite in eine Kategorie ein. Phillip Look, Christian Hüppe 42

Enhanced Categorization Vor- und Nachteile: + Nachbarschaft der Seite wird mit untersucht - große Beispielmengen erforderlich (20.000 Seiten von Yahoo) - Einteilung in Kategorien erforderlich - benötigte Kategorien zu speziell Phillip Look, Christian Hüppe 43

Enhanced Categorization für uns: Diskriminanten finden aus- und eingehende Links untersuchen Phillip Look, Christian Hüppe 44

Focused Crawling Verfahren: vereint die ersten beiden Verfahren Ausgangspunkt ist eine URL Nachkommen werden auch kategorisiert Vor- und Nachteile: + Search-On-Demand spart Speicherplatz - Interaktion Soumen Chakrabarti, Byron Dom, Martin van den Berg 1999 Phillip Look, Christian Hüppe 45

Related Pages zum Verfahren: Eingabe: URL Ausgabe: ähnliche Seiten basiert nur auf der Linkstruktur zwei verschiedene Ansätze Jeffrey Dean, Monika Henzinger 1998 basiert auf HITS Algo. von Kleinberg 1998 Phillip Look, Christian Hüppe 46

Related Pages zum Verfahren: (cocitation) 1. suche Eltern und Kinder der Start-URL 2. suche Geschwister 3. wähle die besten Geschwister Phillip Look, Christian Hüppe 47

Related Pages zum Verfahren: (companion) 1. baue vincinity-graph 2. entferne Duplikate (Mirror Seiten) 3. bewerte Kanten 4. wähle die bestbewerteten Seiten Phillip Look, Christian Hüppe 48

Related Pages Vor- und Nachteile: + einfache zu implementieren - es werden nicht alle Dokumente gefunden - hohe Performance nur mit Cache für uns: mehrere Generationen von Links verarbeiten Phillip Look, Christian Hüppe 49

Fourier Domain Scoring zum Verfahren: Idee: betrachte Wörter als Wellen Eingabe: Schlüsselwörter 1. teile Text in Abschnitte 2. berechne die Wellen 3. Fourier-Transformation -> Amplitude, Phase 4. vergleiche Dokument mit der Eingabe Laurence Park, M. Palaniswami, R. Kotagiri, 2001 Phillip Look, Christian Hüppe 50

Fourier Domain Scoring Vor- und Nachteile: + Häufigkeit und Position werden beachtet für uns: als Post-Processing-Schritt möglich Unbekannte: Fourier-Transformation Phillip Look, Christian Hüppe 51

Auswertung Qualität der Links: gleicher guter gute gesamt Host Inhalt Links absolut (ein.): 15 12 3 5 relativ (ein.): 1,6 80% 20% 33% absolut (aus.): 138 138 19 14 relativ (aus.): 15,5 100% 14% 10% Phillip Look, Christian Hüppe 52

Auswertung Links verfolgen: es gibt kaum Links zu guten Treffern Sackgassen werden nicht verlassen Verfolgung der Links lohnt sich nicht Phillip Look, Christian Hüppe 53

Auswertung Diskriminanten finden: Schlüsselwörter: Alterspyramide, Deutschland Diskriminante: Bevölkerungsentwicklung Suchergebnis: viele gute Treffer Ansatz ist vielversprechend Phillip Look, Christian Hüppe 54

Literatur [Fish-Search] P.M.E. De Bra, R.G.J. Post, 1994, Information Retrieval in the World-Wide- Web: Making Client-based search feasible [Enhanced Categorization] Soumen Chakrabarti, Byron Dom, Piotr Indyk, 1998, Enhanced Hypertext Categorization using hyperlinks [Focused Crawling] Soumen Chakrabarti, Byron Dom, Martin van den Berg, 1999, Focused Crawling: a new approach to topic-specific Web resource discovery [Related Pages] Jeffrey Dean, Monika Henzinger, 1998, Finding Related Pages in the World Wide Web [Fourier Domain Scoring] Laurence Park, M. Palaniswami, R. Kotagiri, 2001, Internet Document Filtering using Fourier Domain Scoring [Untersuchung von 2 Suchmaschinen] Joachims Thorsten, 2002, Evaluating Search Engines using Clickthrough Data [Verbesserung der Rankingfunktion mit Hilfe von Clickthrough-Daten ] Joachims Thorsten, 2002, Optimizing Search Engines using Clickthrough Data [Clustering von Query Logs] Beeferman Doug, Berger Adam, 200?, Agglomerative clustering of a search engine query log [Einführung] Babiak Ulrich, 1997, Effektive Suche im Internet Phillip Look, Christian Hüppe 55

Ende Phillip Look, Christian Hüppe 56

Google entwickelt von Lawrence Page u. Sergey Brin Prototyp 1997, Stanford-Universität Abdeckung: 1.2 Milliarden (ges. 2 Milliarden )* Strategie, Analyse: Wie sind die Seiten vernetzt? Beispiel: Zitate in wissenschaftlichen Artikel Welche Seite verweißt auf eine andere? Ranghöhe von Seite A bestimmt Ranghöhe von Seite B * Stand: Feb. 2001 Phillip Look, Christian Hüppe 57

Menge von Dokumenten D = {d 1,..., d m } optimales Ranking r* Phillip Look, Christian Hüppe 58