Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS



Ähnliche Dokumente
Wie Google Webseiten bewertet. François Bry

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Step by Step Webserver unter Windows Server von Christian Bartl

Windows 10 > Fragen über Fragen

Erfolgreich suchen im Internet

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

Um über FTP Dateien auf Ihren Public Space Server - Zugang laden zu können benötigen Sie folgende Angaben:

Wenn keine Verbindung zwischen den Computern besteht, dann bist du offline.

Professionelle Seminare im Bereich MS-Office

SEO Erfolg mit themenrelevanten Links

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

Grundkenntnisse am PC Das Internet

Google Eine kurze Anleitung Stand: 3. August 2010

Nutzungsmöglichkeiten der interaktiven Westoverledingen Karte

Family Safety (Kinderschutz) einrichten unter Windows 8

Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Leichte-Sprache-Bilder

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

- Google als Suchmaschine richtig nutzen -

Checkliste zur Planung einer Webseite

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Besten Dank, dass Sie sich überlegen, eine Website von Daynox erstellen zu lassen!

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Was ist Sozial-Raum-Orientierung?

Optimieren Sie Ihre n2n Webseite

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Woher kommt die Idee Internet?

Hardware - Software - Net zwerke

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Multicheck Schülerumfrage 2013

Ebenenmasken Grundlagen

Tipps und Tricks zu Netop Vision und Vision Pro

Kurzanleitung zur Softwareverteilung von BitDefender Produkten...2

Einleitung: Frontend Backend

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

Zusatzmodul Lagerverwaltung

Spiel und Spaß im Freien. Arbeitsblat. Arbeitsblatt 1. Zeichnung: Gisela Specht. Diese Vorlage darf für den Unterricht fotokopiert werden.

Kommentartext Medien sinnvoll nutzen

Thema 1: Fotos im Internet verwenden

Anmerkungen zur Übergangsprüfung

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

David Mika. Donnerstag, den 15. März Verein zur Förderung der privaten Internet Nutzung e.v. Suchen und Finden im Internet.

Wordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten

Google - Wie komme ich nach oben?

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Arbeit zur Lebens-Geschichte mit Menschen mit Behinderung Ein Papier des Bundesverbands evangelische Behindertenhilfe e.v.

Fotostammtisch-Schaumburg

Linkabstrafung und Reconsideration Requests. Swiss Onlinemarketing Messe

ITT WEB-Service DEMO. Kurzbedienungsanleitung

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

WS 2013/14. Diskrete Strukturen

Umgang mit Schaubildern am Beispiel Deutschland surft

HOW TO CREATE A FACEBOOK PAGE.

Die treffende Auswahl anbieten: Im Internet (Referat 3a)

Kennen, können, beherrschen lernen was gebraucht wird

Kurzanweisung für Google Analytics

Aktuell 2014 als Startseite der PK-Website auf Firefox einstellen

Aktualisierung des Internet-Browsers

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Eine Anwendung mit InstantRails 1.7

schnell und portofrei erhältlich bei beck-shop.de DIE FACHBUCHHANDLUNG mitp/bhv

Online-Publishing mit HTML und CSS für Einsteigerinnen

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den

TeamSpeak3 Einrichten

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Unter Social SEO versteht man die klassische Suchmaschinenoptimierung mit Hilfe von sozialen Netzwerken wie Google+, Facebook und Twitter.

Diskrete Modellierung

Impulse Inklusion Selbst-bestimmtes Wohnen und Nachbarschaft

Extranet pro familia. Anleitung zur Nutzung Webseitenstatistik. Extranet pro familia Anleitung zur Nutzung Webseitenstatistik...

Also kann nur A ist roter Südler und B ist grüner Nordler gelten.

kleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

PhotoFiltre: Fotos -tauglich verkleinern

Wir machen neue Politik für Baden-Württemberg

ALEMÃO. Text 1. Lernen, lernen, lernen

Google Webmaster Tools für

Hilfe zur Urlaubsplanung und Zeiterfassung

Herzlich Willkommen zu meinem Webinar!

Was meinen die Leute eigentlich mit: Grexit?

COMPUTERIA VOM Wenn man seine Termine am Computer verwaltet hat dies gegenüber einer Agenda oder einem Wandkalender mehrere Vorteile.

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

Andreas Rühl. Investmentfonds. verstehen und richtig nutzen. Strategien für die optimale Vermögensstruktur. FinanzBuch Verlag

Pflegende Angehörige Online Ihre Plattform im Internet

Tipps und Tricks zu den Updates

Schritt 1. Anmelden. Klicken Sie auf die Schaltfläche Anmelden

Content-Qualitätscheck

Microsoft PowerPoint 2013 Folien gemeinsam nutzen

Tutorial about how to use USBView.exe and Connection Optimization for VNWA.

CTI SYSTEMS S.A. CTI SYSTEMS S.A. 12, op der Sang. Fax: +352/ L Lentzweiler. G.D.

Bedienungsanleitung Joomla 3.xx für Redakteure mit Admin-Rechten

White Paper DocCheck Search

Informationen und Richtlinien zur Einrichtung einer automatischen -Bestätigung auf Ihrer Händlerwebseite

Regeln für das Qualitäts-Siegel

Tipps und Tricks zu Netop Vision und Vision Pro

Transkript:

Hauptseminar Web Information Retrieval Quelle Thematische Verteilungen 07.05.2003 Daniel Harbig Chakrabati, Soumen; Joshi, Mukul; Punera, Kunal; Pennock, David (2002): The Structure of Broad Topics on the Web. In: Proceedings of the Seventh Intl World Wide Web Conf 2002(WWW 2002). Honululu, Hawaii. 7-11. Mai. 2 Worum geht es? Link-Analyse: Ziel ist es, Aussagen über die Struktur des WWW zu machen. "Wie sieht es aus?", also, ist alles ein einziges Netz oder sind es viele kleine autarke Netze, hat es Sternstruktur ("alle Wege führen nach Rom"), wie groß ist der Weg von "links außen" nach "rechts außen" und wo sind diese Orte? aktuelle Größe des WWW mindestens 1.3 Milliarden Seiten beläuft, evtl. sogar 2 Milliarden oder mehr) Wiederholung Link-Analyse: PageRank Link-Analyse: HITS Graphentheorie 3 4 Link-Analyse: PageRank Link-Analyse: HITS (Hypertext Induced Topic Search) Je mehr Links auf eine Seite verweisen, desto höher ist deren Autorität Je höher die Autorität einer verweisenden Seite ist, desto mehr trägt sie zur Autorität der Zielseite bei Diese Technik produziert nicht nur ein Ranking Ergebnis, sondern zwei - die sog. "authority und hub" Seiten. Die Authority Seiten sind Seiten, die am meisten zu einer Suchanfrage relevant sind. Z.B. die Microsoft Web Seite wäre die Authority Seite für eine Suchanfrage nach MICROSOFT, und nicht etwa eine Seite, wo das Wort Microsoft oft vorkommt. Die Hub Seiten sind nicht unbedingt selber Authorities, aber sie verweisen auf mehrere Authority Seiten. 5 6

Link-Analyse: HITS Graphentheorie (nach HENZINGER 2000:4f, Original: KLEINBERG 1998) Graphentheorie ist ein Gebiet der Algebra, das sich im weitesten Sinne mit Netzwerken befasst Das Internet (oder Teile davon ) kann als großer Graph betrachtet werden Für unsere Zwecke sind die Internet-Seiten Knotenund die Hypertext-Links entsprechen den Verbindungen authorities: Hubs: Inhaltsseiten Verteiler 7 8 Verteilung Link Analyse Internetseite = Knoten Link = Verbindungen Graphentheorie 9 10 Link Analyse Meist konzentriert man sich auf die Struktur der Graphen, nicht aber auf den textlichen/thematischen Inhalt Blick auf Kategorien Broad Topics Einheitliche Einteilung und Zusammenfassung von Themenfeldern Kategorien in themen-orientierten Kategorien versucht man die Hintergrundverteilung von broad topics zu messen Man untersucht Wahrscheinlichkeit, dass eine Seite einer broad topic zu einer anderen Seite mit broad topic verweist 11 12

Themenbasierte Analyse Themenbasierte Analyse Thema = Knoten Link = Verbindungen Inhalt Verzeichnisse vs. Hintergrundverteilung Linkbasierte vs. Inhaltsbasierte Communities 13 14 Vorgehensweise Dmoz.org breadth-first vs. depth-first Paare in Webseiten Crawling Random walk Dmoz.org Wachsender Umfang von Webseiten Ziel des Open Directory Projects ist es, mit Hilfe eine riesigen Anzahl von Editoren das umfassendste Verzeichnis des WWW zu erstellen. Jeder Autor kann einen kleinen Teil des WWW katalogisieren und dem Rest zur Verfügung stellen, wobei man sich die nützlichsten und besten Informationen heraussuchen kann. 15 16 Dmoz.org breadth-first vs. depth-first 17 18

Textlicher Inhalt (Davison) Textlicher Inhalt (Davison) Zufällig haben fast nie was gemeinsam Zufällig Geschwister (zwei Outlinks von der gleichen Website) Gleiche Domain (eine Seite aus einer Kategorie und ein Link vom gleichen Host) Unterschiedliche Domain (Seiten und Links von unterschiedlichen Hosts) Geschwister ähnlicher als verlinkte Seiten unterschiedlicher Domains Gleiche Domain verlinkte Seiten eher gleich, wenn von gleicher Domain Unterschiedliche Domain Nicht nur die Gleichheit in kleiner Nachbarschaft wird untersucht 19 20 Crawling Random walk Verwalten Index vom Web Ständig wechselnder Inhalt zweiten Komponente, welche sich bei bedarf automatisch durch das Internet bewegt Web Robot. (http://www.selfmad.de/suchmaschinen_glossar/crawler.html) Random Surfer Model: Stellen wir uns eine Person, die durch zufälligem anklicken von Links auf dem besuchten Seiten im Web surft. Dieses zufälliges Surfen ist äquivalent zu dem "random walk Definition Random Walk: Ein Random Walk ist ein diskreter Zufallsprozess. Jede einzelne Zufallsvariable ist gleich dem Wert der vorangegangenen Zufallsvariable plus einer zufälligen Veränderung.(http://homepage.uibk.ac.at/homepage/c434/c43405/downlo ad/random.pdf) 21 22 Background Topic Verteilung Topic Citation Distance between Shopping and Business Industries Distance between Health, Fitness and Arts, Music etc. Wahrscheinlichkeit, dass eine Seite eines Themas i eine Seite mit dem Thema j zitiert Dunkel Farben (hot colors) zeigen höhere Wahrscheinlichkeiten. Diagonale ist dominant, d.h. ziemlich viel Selbstzitierungen innerhalb der Topics Folgen dem Power Law (Potenzgesetz) 23 24

Citation:Beispiel Topic Citation /Computers and /Society http://www.garfield.library.upenn.edu/histcomp/guide.html 25 26 Topic Citation Ergebnisse Neue Topics und Communities sind fast immer Erweiterungen einer bereits existierenden Klasse Widerspruch(?): Citation vs. Background 27 28 Ziel? Anmerkungen und Anregungen In zwölf Monaten werden Suchmaschinen besser verstehen, wovon Web-Dokumente handeln und was ein Benutzer wissen will Anchor-Text Problem bei HTML-Tags? Wo seht Ihr die Verbindung zu IR? Monika Henzinger von Google (Computerzeitung Nr. 27, 1.7.2002 S. 18) 29 30

Anmerkungen und Anregungen In einer gewissen Weise ähnelt das WWW stark einem komplizierten Organismus, dessen mikroskopische Strukturen an Zellverbände erinnern, während im makroskopischen Teile wie Körper und Extremitäten beobachtet werden können, welche sich im mikroskopischen nicht unterscheiden. Vorsicht bei Pauschalisierungen Tipp Franco, Adrienne; Palladino, Richard (1999): Finding Quality Information on the World Wide Web. In: Tenth Annual Conference on the International Information Management Association. http://www.iona.edu/faculty/afranco/iima/webliog.htm Tipps für websearch: http://searchenginewatch.com/facts/index.php 31 32 Just for Fun: Fin http://searchenginewatch.com/facts/article.php/2156041 33 34