Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Ähnliche Dokumente
Google PageRank vs. HITS

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg

Ranking Functions im Web: PageRank & HITS

Hyperlink Induced Topic Search (HITS)

Diskrete Modellierung

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst

Wie Google Webseiten bewertet. François Bry

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse

PG520 - Webpageranking

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Web Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web

Vorlesung Wissensentdeckung

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

PageRank und HITS. Frank Habermann 11. Februar 2007

Link Analysis and Web Search Jan Benedikt Führer

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Suche im Web und Ranking

Vorlesung Information Retrieval Wintersemester 04/05

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

Seminar über Algorithmen

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013

Web Marshals Fighting Curly Link Farms

Suche im Web und Ranking

Ranking am Beispiel von Google (1998):

ADS: Algorithmen und Datenstrukturen 2

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

Suche im Web und Ranking

1 Bibliometrische Maße und Link-Analyse

Small Worlds und Communities

Erfahrungen, Einblicke, Experimente

Suche im Web und Ranking

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

Das Prinzip der Suchmaschine Google TM

Panorama der Mathematik und Informatik

Kapitel 4 Geschichte des Information Retrieval. HHU Düsseldorf, WS 2008/09 Information Retrieval 55

6. Suche im World Wide Web

PageRank-Algorithmus

Nachteile Boolesches Retrieval

Gambler s Ruin. B ist die Bank ) 4/40

Big Data Analytics in Theorie und Praxis Theorieteil

Item-based Collaborative Filtering

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

Algorithmische Methoden zur Netzwerkanalyse

Websuche. Einflussfaktor (Impact Factor) Bibliographische Kopplung. Bibliometrik: Zitatanalyse. Linkanalyse

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Ohne Mathematik undenkbar!

Ideen und Konzepte der Informatik Websuche

Algorithmische Methoden zur Netzwerkanalyse

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

D 1 D 2 D 3 D 4 D 5... D m S S S S n

Graphalgorithmen in massiv parallelen Umgebungen

Bewertung von linktopologischen Verfahren als bestimmender Ranking-Faktor bei WWW- Suchmaschinen

Suchmaschinen Grundlagen. Thomas Grabowski

Detecting Near Duplicates for Web Crawling

Entity Search. Michel Manthey Arne Binder 2013

Verlinkung von Webseiten

Algorithmen zur Berechnung der Transitiven Hülle einer Datenbankrelation

Suchmaschinen und Markov-Ketten 1 / 42

Suchmaschinen: Für einen sich rasant ändernden Suchraum gigantischer Größe sind Anfragen ohne merkliche Reaktionszeit zu beantworten.

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

Suchstrategien PG 402. Phillip Look Christian Hüppe

Informationsrecherche im Internet mit Hilfe der Google Web APIs

Suchmaschinen und Markov-Ketten 1 / 42

Suchmaschinenoptimierung. Dr. Lars Göhler

Ranking: Google und CiteSeer

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

Algorithmen und Komplexität

Algorithmische Methoden der Netzwerkanalyse

Vorlesung 2: Graphentheorie

PageRank-Algorithmus

Die Suchmaschine Google

DisMod-Repetitorium Tag 3

Social Media. Live Beispiel

Web Information Retrieval

Hauptseminar Information Retrieval. Karin Haenelt Vorschläge für Seminarprojekte

2.4.1 Hubs und Authorities. Authority. Hub

12. Graphen Programmieren / Algorithmen und Datenstrukturen 2 Prof. Dr. Bernhard Humm FB Informatik, Hochschule Darmstadt Wintersemester 2012 / 2013

Deep Web. Timo Mika Gläßer

8. Vorlesung, 5. April Numerische Methoden I. Eigenwerte und Eigenvektoren

Tensoren in der Datenanalyse

Ein Index zur Berechnung von Prestige in Koautornetzwerken

Computergestützte Freizeitplanung basierend auf Points of Interest

Einleitung. Komplexe Anfragen. Suche ist teuer. VA-File Verfeinerungen. A0-Algo. GeVAS. Schluß. Folie 2. Einleitung. Suche ist teuer.

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Web Grundlagen zum Spidering

Arbeitsgruppe: Public Ranking

Information Retrieval 1

Komprimierung von dünnbesetzten Matrizen

Suchmaschinenwerbung: Sponsored Links als Geschäftsmodell der Suchwerkzeuge

Der Konzern Daten Generatoren Multiplikatoren & Spezifikatoren Datennutzung Maßnahmen. Guten Morgen!

Transkript:

Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval

Grundgedanken zum Link-basierten Rankingverfahren << An improved weighted HITS Algorithm based on similarity and popularity >> C. Zhang 1. Das Web ist ein großer Graph G=(V, E),mit: Knoten A, B,C,D,E V sind Webseiten, gerichtete Kante (A C) E ist ein Hyperlink(Inhalt ignoriert) 2. Links zwischen Seiten können als Empfehlung dienen.

Hypertext-Induced Topic Search 1. Von Jon Kleinberg an der Cornell University entwickelt(1998) 2. implementiert in IBM-CLEVER Suchmaschine 3. wichtige Begriffe: Hubs Authorities Hub-Gewichte & Authority-Gewichte

Authorities << An improvedhits algorithmbasedon structureanalysis>> Zhong & Jing Authorities: Seiten, auf die viele andere Seiten verlinken auch von Pagerank verwendet

Hubs << An improvedhits algorithmbasedon structureanalysis>> Zhong & Jing Seiten, die auf viele Seiten verlinken Hubs selbst müssen nicht wichtig sein, aber sie verweisen auf wichtige Webseiten(Authorities).

Hub-Gewichte(h) & Authority- Gewichte(a) << An improved weighted HITS Algorithm based on similarity and popularity >> C. Zhang Jede Webseite i im Web erhält zwei Bewertungen: h(i) & a(i) Hub-Gewichte h(i): Summe aller Authority-Gewichte der Seite, die von i verlinkt werden. h(a)=a(c)+a(d) Authority-Gewichte a(i): Summe alle Hub-Gewichte der Seiten, die auf i verlinken. a(c)=h(a)+h(b)

HITS Umsetzung(1) Anfrage in die textbasierte Suchmaschine eingeben (klassische Suchmaschine, zb Altavista) Root set(s) bekommen PageRank& HITS Schwarz& Beyer

HITS Umsetzung(2) Root Set erweitern (durch eingehende und ausgehend Links) Basis Set (T) bekommen PageRank& HITS Schwarz& Beyer

HITS Umsetzung(3) Authority-& Hub-Gewichte berechnen Variante1: Initialisierung : a(p)=1, h(p)=1 Gewichte iterativ aktualisieren durch zwei Operationen bis sie konvergieren I Operation Variante2 Entsprechende Lösung in Matrix a = A a ( A= M T M ) h = H h ( H = M M T ) O Operation

HITS Umsetzung(3)(Variante 2) 1. die Webgraphen werden als Adjazenzmatrix (Verlinkungsmatrix) M beschrieben, wobei gilt: M i,j = 1, wenn Seite i einen Link auf Seite j besitzt M i,j = 0 wenn dies nicht der Fall ist M T : die transponierte Matrix von M M= 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 PageRank & HITS Schwarz & Beyer

HITS Umsetzung(3)(Variante 2) Hub Matrix H= MM T Authority Matrix A= M T M 1 0 1 0 0 0 0 0 0 1 1 0 1 1 1 0 1 1 4 0 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 1 1 1 0 0 1 1 0 1 2 1 1 0 1 1 0 1 1 2 0 0 0 0 0 0 1 0 1 5 1 0 0 1 1 1 1 1 2 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 2 0 1 1 0 0 1 0 0 1

HITS Umsetzung(3)(Variante 2) H =MM T h= Hubs 1 0 1 0 0 0 0 0 1 1.24 0 1 1 0 1 1 1 0 1 3.37 1 1 4 0 1 1 1 0 1 6.72 0 0 0 1 0 0 0 0 1 0 0 1 1 0 1 1 1 0 1 3.37 0 1 1 0 1 2 1 1 1 4.14 0 1 1 0 1 1 2 0 1 4.00 0 0 0 0 0 1 0 1 1 0.76 h n-dimensionalen Gewichtsvektoren für Hubs mit h = (h(1), h(2),,h(n)) h = H h ( gesamt Hub- und Authority-Gewichte von base set)

HITS Umsetzung(3)(Variante 2) A = M T M a= Authorities 5 1 0 0 1 1 1 1 1 18.11 1 2 0 0 1 0 0 1 1 6.67 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 1 0 0 1 1 5.63 1 0 0 0 0 1 0 0 1 3.35 1 0 0 0 0 0 2 0 1 4.11 1 1 0 0 1 0 0 1 1 5.63 a n-dimensionalen Gewichtesvektoren für Authorities mit a = (a(1), a(2),,a(n)) a =A a ( gesamt Hub- und Authority-Gewichte von base set)

HITS Umsetzung(3)(Variante 2) 2. Die Iteration von Matrix-Berechnung a = A a ( A= M T M ) h = H h ( H = M M T ) ( a = a / a 2, h = h / h 2 ) Kleinberg hat bewiesen, dass nach genügend Iterationen a und h zu den betragsgrößten Eigenvektoren der Matrixen M T M und MM T konvergieren. Nach der Konvergenz wurden die am dichtesten verlinkten Hubs und Authorities (Haupt Community) gezeigt.

Vergleich: HITS & Pagerank HITS Berechnung erfolgt nach der Eingabe der Anfrage Suchergebnisse erweitern(s T) (die nicht Anfrage beinhaltenden wichtigen Documenten auch zu finden) Authority und Hub berechnen Schwierig in Echtzeit Pagerank Berechnung erfolgt vor Eingabe der Anfrage Völlig Suchergebnisse abhängig Nur Authority berechnen Echtzeit verwendbar

gegenseitiger Verstärkungs-Effekt (zwischen Hub und Authority) Grund : nur die am besten verknüpften Hubs und Authorities in T werden zurückgegeben : 1.recall-problem: die anderen Webseiten könnten auch wichtig sein 2.Precision-problem(Topic drift): In T könnte es Webseiten geben, in denen es nicht direkt um die Anfrage geht, die aber sehr dicht miteinander verlinkt(tightly-knit Community Effect) sind. solche Webseiten werden sehr wahrscheinlich zurückgegeben.

Vor- und Nachteile von Hyperlinkbasiertes Ranking Vorteile Die Informationen von Webseiten ausnutzen (Hyperlink als Empfehlung) Nachteile Links zwischen Webseiten sind nicht immer thematisch ähnlich (Navigation, Werbung ) Inhalt- und Sprachunanhägig von der Qualität von Root set abhängig (Google: Search engines google, Yahoo kommen nicht vor HITS : Topik drift)

Suchmethoden Hyperlink-basiert google Textbasiert AltaVista Machine-search + manuell bewerten Yahoo

Literatur S. Brin, L. Page: The anatomy of a largescale hypertextual Web search engine, 7th World Wide Web Conf., 1998 J. M. Kleinberg: Authoritative sources in a hyperlinked environment, Journal of the ACM, 1997 http://www.cs.cornell.edu/home/kleinber/auth.pdf D. Gibson, J. M. Kleinberg, P. Raghavan: Inferring Web Communities from Link Topology, HyperText98, 1998 M. Berry, M. Browne, Understanding Search Engines - Mathematical Modelling and Text Retrieval, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, 2005 L. Li, Yi Shang, Wei Zhang, Improvement of HITS-based Algorithms on Web Documents, Proceedings of the 11th international conference on World Wide Web, 2002 C. Schwarz, A Beyer PageRank & HITS. Seminarreferat 2009. http://kontext.fraunhofer.de/haenelt/kurs/referate/beyer_schwarz_infret_pagerank _HITS.pdf C. Zhang An improved weighted HITS Algorithm based on similarity and popularity http://www.paper.edu.cn/downloadpaper.php?serial_number=200709-246&type=1

Danke für Eure Aufmerksamkeit