Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval

Grundgedanken zum Link-basierten Rankingverfahren << An improved weighted HITS Algorithm based on similarity and popularity >> C. Zhang 1. Das Web ist ein großer Graph G=(V, E),mit: Knoten A, B,C,D,E V sind Webseiten, gerichtete Kante (A C) E ist ein Hyperlink(Inhalt ignoriert) 2. Links zwischen Seiten können als Empfehlung dienen.

Hypertext-Induced Topic Search 1. Von Jon Kleinberg an der Cornell University entwickelt(1998) 2. implementiert in IBM-CLEVER Suchmaschine 3. wichtige Begriffe: Hubs Authorities Hub-Gewichte & Authority-Gewichte

Authorities << An improvedhits algorithmbasedon structureanalysis>> Zhong & Jing Authorities: Seiten, auf die viele andere Seiten verlinken auch von Pagerank verwendet

Hubs << An improvedhits algorithmbasedon structureanalysis>> Zhong & Jing Seiten, die auf viele Seiten verlinken Hubs selbst müssen nicht wichtig sein, aber sie verweisen auf wichtige Webseiten(Authorities).

Hub-Gewichte(h) & Authority- Gewichte(a) << An improved weighted HITS Algorithm based on similarity and popularity >> C. Zhang Jede Webseite i im Web erhält zwei Bewertungen: h(i) & a(i) Hub-Gewichte h(i): Summe aller Authority-Gewichte der Seite, die von i verlinkt werden. h(a)=a(c)+a(d) Authority-Gewichte a(i): Summe alle Hub-Gewichte der Seiten, die auf i verlinken. a(c)=h(a)+h(b)

HITS Umsetzung(1) Anfrage in die textbasierte Suchmaschine eingeben (klassische Suchmaschine, zb Altavista) Root set(s) bekommen PageRank& HITS Schwarz& Beyer

HITS Umsetzung(2) Root Set erweitern (durch eingehende und ausgehend Links) Basis Set (T) bekommen PageRank& HITS Schwarz& Beyer

HITS Umsetzung(3) Authority-& Hub-Gewichte berechnen Variante1: Initialisierung : a(p)=1, h(p)=1 Gewichte iterativ aktualisieren durch zwei Operationen bis sie konvergieren I Operation Variante2 Entsprechende Lösung in Matrix a = A a ( A= M T M ) h = H h ( H = M M T ) O Operation

HITS Umsetzung(3)(Variante 2) 1. die Webgraphen werden als Adjazenzmatrix (Verlinkungsmatrix) M beschrieben, wobei gilt: M i,j = 1, wenn Seite i einen Link auf Seite j besitzt M i,j = 0 wenn dies nicht der Fall ist M T : die transponierte Matrix von M M= 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 PageRank & HITS Schwarz & Beyer

HITS Umsetzung(3)(Variante 2) Hub Matrix H= MM T Authority Matrix A= M T M 1 0 1 0 0 0 0 0 0 1 1 0 1 1 1 0 1 1 4 0 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 1 1 1 0 0 1 1 0 1 2 1 1 0 1 1 0 1 1 2 0 0 0 0 0 0 1 0 1 5 1 0 0 1 1 1 1 1 2 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1 0 0 0 0 1 0 0 1 0 0 0 0 0 2 0 1 1 0 0 1 0 0 1

HITS Umsetzung(3)(Variante 2) H =MM T h= Hubs 1 0 1 0 0 0 0 0 1 1.24 0 1 1 0 1 1 1 0 1 3.37 1 1 4 0 1 1 1 0 1 6.72 0 0 0 1 0 0 0 0 1 0 0 1 1 0 1 1 1 0 1 3.37 0 1 1 0 1 2 1 1 1 4.14 0 1 1 0 1 1 2 0 1 4.00 0 0 0 0 0 1 0 1 1 0.76 h n-dimensionalen Gewichtsvektoren für Hubs mit h = (h(1), h(2),,h(n)) h = H h ( gesamt Hub- und Authority-Gewichte von base set)

HITS Umsetzung(3)(Variante 2) A = M T M a= Authorities 5 1 0 0 1 1 1 1 1 18.11 1 2 0 0 1 0 0 1 1 6.67 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 1 0 0 1 1 5.63 1 0 0 0 0 1 0 0 1 3.35 1 0 0 0 0 0 2 0 1 4.11 1 1 0 0 1 0 0 1 1 5.63 a n-dimensionalen Gewichtesvektoren für Authorities mit a = (a(1), a(2),,a(n)) a =A a ( gesamt Hub- und Authority-Gewichte von base set)

HITS Umsetzung(3)(Variante 2) 2. Die Iteration von Matrix-Berechnung a = A a ( A= M T M ) h = H h ( H = M M T ) ( a = a / a 2, h = h / h 2 ) Kleinberg hat bewiesen, dass nach genügend Iterationen a und h zu den betragsgrößten Eigenvektoren der Matrixen M T M und MM T konvergieren. Nach der Konvergenz wurden die am dichtesten verlinkten Hubs und Authorities (Haupt Community) gezeigt.

Vergleich: HITS & Pagerank HITS Berechnung erfolgt nach der Eingabe der Anfrage Suchergebnisse erweitern(s T) (die nicht Anfrage beinhaltenden wichtigen Documenten auch zu finden) Authority und Hub berechnen Schwierig in Echtzeit Pagerank Berechnung erfolgt vor Eingabe der Anfrage Völlig Suchergebnisse abhängig Nur Authority berechnen Echtzeit verwendbar

gegenseitiger Verstärkungs-Effekt (zwischen Hub und Authority) Grund : nur die am besten verknüpften Hubs und Authorities in T werden zurückgegeben : 1.recall-problem: die anderen Webseiten könnten auch wichtig sein 2.Precision-problem(Topic drift): In T könnte es Webseiten geben, in denen es nicht direkt um die Anfrage geht, die aber sehr dicht miteinander verlinkt(tightly-knit Community Effect) sind. solche Webseiten werden sehr wahrscheinlich zurückgegeben.

Vor- und Nachteile von Hyperlinkbasiertes Ranking Vorteile Die Informationen von Webseiten ausnutzen (Hyperlink als Empfehlung) Nachteile Links zwischen Webseiten sind nicht immer thematisch ähnlich (Navigation, Werbung ) Inhalt- und Sprachunanhägig von der Qualität von Root set abhängig (Google: Search engines google, Yahoo kommen nicht vor HITS : Topik drift)

Suchmethoden Hyperlink-basiert google Textbasiert AltaVista Machine-search + manuell bewerten Yahoo

Literatur S. Brin, L. Page: The anatomy of a largescale hypertextual Web search engine, 7th World Wide Web Conf., 1998 J. M. Kleinberg: Authoritative sources in a hyperlinked environment, Journal of the ACM, 1997 http://www.cs.cornell.edu/home/kleinber/auth.pdf D. Gibson, J. M. Kleinberg, P. Raghavan: Inferring Web Communities from Link Topology, HyperText98, 1998 M. Berry, M. Browne, Understanding Search Engines - Mathematical Modelling and Text Retrieval, Society for Industrial and Applied Mathematics (SIAM), Philadelphia, 2005 L. Li, Yi Shang, Wei Zhang, Improvement of HITS-based Algorithms on Web Documents, Proceedings of the 11th international conference on World Wide Web, 2002 C. Schwarz, A Beyer PageRank & HITS. Seminarreferat 2009. http://kontext.fraunhofer.de/haenelt/kurs/referate/beyer_schwarz_infret_pagerank _HITS.pdf C. Zhang An improved weighted HITS Algorithm based on similarity and popularity http://www.paper.edu.cn/downloadpaper.php?serial_number=200709-246&type=1

Danke für Eure Aufmerksamkeit