Web Information Retrieval
|
|
- Judith Sternberg
- vor 7 Jahren
- Abrufe
Transkript
1 Web Information Retrieval Informationssysteme für Ingenieure (ISI) Herbstsemester 206 R. Marti
2 Ziel des Kapitels Kenntnis einer Methode zur Gewichtung von Dokumenten bezüglich Relevanz, durch Ausnutzung der Topologie des Web-Graphen Begründung für die gewählte Gewichtung (sog. Page Rank) Analyse einiger mathematischer Grundlagen und Eigenschaften Kenntnis der ungefähren Funktionsweise eine Web Suchmaschine Crawling Indizieren von Web Seiten aufgrund ihres Inhalts Erkennen und Speichern der Graph-Topologie aufgrund von Web-Links Kenntnis einiger Grundsätze und Mechanismen des World-Wide Webs, etwa: Grundidee der Hypertext Markup Language (HTML) Remote Procedure Calls als Grundlage des Hyptertext Transfer Protocols (HTTP) 2
3 Spezialitäten von Information Retrieval im Web Schätzungen 2 0 Mia. öffentliche (oft statische) Web Pages (sog. "Open Web") [Stand ca 2005] Verdoppelung alle 8 2 Monate plus ein Vielfaches private und/oder dynamische Pages ("Hidden Web") Änderungen (auch statischer Web Pages) erstaunlich häufig Inhalt einer WebPage oft recht kurz, oft primär für Marketing Zwecke Inhalt der "Dokumentsammlung Open Web" heterogen, viel Duplikation unpräzise Recherchen keine Verwendung von Operatoren im Mittel 2.54 Terme, 80% der Anfragen 3 Terme ca. 85% der Benutzer schauen nur erste Seite der Resultate an ca. 75% der Recherchen werden nicht iterativ modifiziert (d.h. eingeengt oder erweitert) 3
4 Einige Grundlagen zum Web Das World Wide Web kann als riesiger Graph aufgefasst werden. Knoten: Web Seiten identifiziert durch eindeutige Adressen (URLs) Web Page A with some content including a link to page X. Kanten: Links Web Page X mit weiterem Inhalt (und weiteren Links) 4
5 Abstrakte Darstellung des WWW Graphen //xyz.ch/somefile.html //abc.com 5
6 Grob-Struktur des Web gemäss Broder 2000 IN: Menge von Knoten, die auf Knoten im SCC verweisen OUT: Menge von Knoten, auf die von Knoten im SCC verwiesen wird SCC: Strongly Connected Component Ein gerichteter Graph (bzw. Teil eines Graphen) G = <V, E>, wobei V die Menge der Knoten und E die Menge der Kanten ist, heisst stark zusammenhängend (strongly connected) falls jeder Knoten a Î V von jedem anderen Knoten b Î V, b ¹ a, erreicht werden kann. 6
7 HTML HyperText Markup Language (Beispiel) HTML (HyperText Markup Language): Eine Sprache zur Beschreibung von Web Pages <html> <head> <title>starbuzz Coffee</title> </head> <body> <h>starbuzz Coffee Beverages</h> <h2>house Blend, $.49</h2> <p>a smooth, mild blend of coffees from Mexico... </p> <h2>mocha Cafe Latte, $2.35</h2> <p> Espresso, steamed <font face="arial" color="#728b8">milk</font> and chocolate syrup. </p> <h2>cappuccino, $.89</h2> <p>a mixture of espresso, steamed milk and foam.</p> <h2>chai Tea, $.85</h2> <p>a <em>spicy</em> drink made with black tea, spices,... </p> </body> </html> 7
8 Repräsentation der Web Seite in Internet Explorer 8
9 Einige HTML Sprachelemente Tag Element End-Tag <html> <head> <title>starbuzz Coffee</title> </head> <body> Start- <h>starbuzz Coffee Beverages</h> Tag <h2>house Blend, $.49</h2> <p>a smooth, mild blend of coffees from Mexico...</p> <h2>mocha Cafe Latte, $2.35</h2> <p> Espresso, steamed Attribut <font face="arial" color="#728b8">milk</font> and chocolate syrup. </p> <h2>cappuccino, $.89</h2> <p>a mixture of espresso, steamed milk and foam.</p> <h2>chai Tea, $.85</h2> <p>a <em>spicy</em> drink made with black tea,...</p> </body> </html> Top-Level Element muss html heissen Elemente müssen korrekt verschachtelt sein Attribute haben Form name = value 9
10 Universal Resource Locators und Links URL = Universal Resource Locator Protokoll Host Name Page Name HTML Link: spezifiziert durch a (=Anker, engl. anchor) Tag <a href=" g Database</a> Beispiel: href Attribut: spezifiziert Ziel-URL <h2>link Example</h2> <p>some text.</p> Powered by <a href=" g Database</a> sichtbarer Text, der den Link realisiert (Anker-Text) 0
11 HTTP HyperText Transfer Protocol: Grundidee HTTP (HyperText Transfer Protocol): Vorschrift, wie Web Browsers mit Web Servers kommunizieren click on area associated with URL http Request Caller Web Browser Network HTML File ch/b4.html Callee Web Server
12 Architektur einer Internet Search Engine ("Pre-Google") World Wide Web Crawler Web Page "Docs" Parser 2 URL Queue Indexer Query Processor Ranking 5 Text Index ständig ablaufende parallele Prozesse im Hintergrund On-line Abfrage 2
13 2 Komponenten einer Search Engine ("Pre-Google") Crawler: holt Web Seite einer Start-URL ins Page Repository, danach Web Seiten, auf die von dort aus verwiesen wird, usw. Indexer: erkennt Terme auf Web Seiten im Page Repository, eliminiert Stopwörter, macht Stemming, und konstruiert Indexe (klass. IR) Collection Analysis Module: erkennt und analysiert Topologie der Web Seiten, berechnet "Wichtigkeit" von Web Seiten Crawl Control: hilft aufgrund von Topologie und Veränderung von Web Seiten bei der Auswahl der nächsten URL für das Crawling 5 Query Engine und Ranking: analysieren der Query (inkl. Elimination von Stopwörtern, Stemming), Ranking der Resultate aufgrund klassischer IR- Methoden sowie aufgrund der Wichtigkeit von Web Seiten 3
14 Web Crawling: Traversieren des Web Graphs Algorithmus (Pseudocode) procedure crawl(var queue: List<URL>); var url, newurl: URL; page: HTMLPage; begin repeat url := Lists.first(queue); queue := Lists.rest(queue); page := url.fetchwebpage(); record content information on page, including url; loop newurl := page.getnexthref(); if end of page then break end; record link information: url newurl; queue := Lists.insert(newUrl); (* according to some priority *) end; until queue = nil; end crawl; 4
15 Probleme "klassischer" Internet Suchmaschinen Internet Search Engines (Suchmaschinen) vor Google, die sich auf klassische Information Retrieval Methoden (insbesondere Term-Gewichtung mit TF-IDF) stützen, sind anfällig für sog, "Term Spam". Szenario - Anbieter X eines Produktes / einer Dienstleistung P - Populärer Suchbegriff T "Anlocken" von Interessenten am Thema T durch Term Spam: auf den Web Pages von Anbieter X wird neben der Beschreibung der Dienstleistung P der Term T in grosser Anzahl plaziert, und zwar unsichtbar (z.b. durch weissen Text auf auf weissem Hintergrund) 5
16 Grundideen zur Vermeidung von Term Spam Hypothesen. Ein Verweis (Link) von einer Web Page W auf eine andere Web Page X ist ein Hinweis auf die Qualität von X: Der Autor der Web Page W denkt, dass X nützliche Information enthält. (vgl. Zitate in akademischen Arbieten). Umgehungsmethode: Link Spam. 2. Der sog. Anchor Text des Links bzw. der Text in der unmittelbaren Umgebung des Links auf Web Page W beschreibt den Inhalt der referenzierten Web Page X. Umgehungsmethode: "Google Bombs" falscher Text zu Links. 6
17 Architektur einer Internet Search Engine ("Post-Google") World Wide Web Crawler Web Page "Docs" Parser 5 URL Queue Link Analysis Indexer Query Processor Ranking Graph Structure Utility Info Text Index ständig ablaufende parallele Prozesse im Hintergrund On-line Abfrage 7
18 2 3 4 Komponenten einer Search Engine ("Post-Google") Crawler: holt Web Seite einer Start-URL ins Page Repository, danach Web Seiten, auf die von dort aus verwiesen wird, usw. Indexer: erkennt Terme auf Web Seiten im Page Repository, eliminiert Stopwörter, macht Stemming, und konstruiert Indexe (klassisches IR) Collection Analysis Module: erkennt und analysiert Topologie der Web Seiten, berechnet "Wichtigkeit" von Web Seiten Crawl Control: hilft aufgrund von Topologie und Veränderung von Web Seiten bei der Auswahl der nächsten URL für das Crawling 5 Query Engine und Ranking: analysieren der Query (inkl. Elimination von Stopwörtern, Stemming), Ranking der Resultate aufgrund klassischer IR-Methoden sowie aufgrund der Wichtigkeit von Web Seiten 8
19 Crawl Control: Prioritäten bei Traversieren des Graphs Tiefensuche die neuen URLs werden jeweils am Anfang der queue eingefügt kann innerhalb einer "tiefen" Web site "versinken" ohne den Rest des Webs je gesehen zu haben Breitensuche die neuen URLs werden jeweils am Ende der queue eingefügt stösst von den anfänglichen URLs aus "gleichmässig" in das Web vor 4 Für Web Graph geeignet: Suche gemäss Kriterium, das folgende Eigenschaften der Pages schätzt: Qualität bzw. "Autorität" (z.b. Google PageRank, siehe nächste Slides) Erneuerungsrate (refresh rate): wie schnell ändert Inhalt 9
20 Bewertung von Web Seiten: Page Rank Intuition: Eine Web Seite ist wichtig, falls wichtige Seiten darauf verweisen P P = 6 Seien P, P 2,, P n Web Seiten, die Seite A referenzieren. Sei P die Anzahl Links, die von Seite P ausgehen (outlinks). P 2 P n A 3 Dann ist der Page Rank von Seite A wie folgt definiert: r( A) zufälliges Folgen der Links Teleport æ ( ) ( ) ö ( ) a ç r P r Pn r Pk = +! + + ( -a) = a + ( -a) ç å P P Î ( A) è Pn k B ø Pk wobei a ein Dämpfungsfaktor ist (typischer Wert: a = 0.85) und B(A) die Menge der Seiten mit einem Link zu A ( Backlink to A ) Fragen: Ist diese Definition sinnvoll? Wie wird der Page Rank berechnet? 20
21 Grundlagen von Page Rank: Web als Hyperlink-Matrix Hyperlink-Matrix H eine gewichtete Adjazenzmatrix des Web Graphs H ij : = ì fallsein Link P Pi i í î 0 sonst P j existiert P j : Anzahl outlinks von P j Einfaches Beispiel ( Mini-Web ): 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø H kann als stochastische Matrix aufgefasst werden: H ij ist Übergangswahrscheinlichkeit von Seite P i zu Seite P j 2
22 Grundlagen von Page Rank: Random Surfing Sei p T ein (Zeilen-) Vektor, dessen i-te Komponente p T i angibt, wie gross die Wahrscheinlichkeit ist, dass sich ein Surfer zufällig auf Seite P i ( i N, N die Anzahl Seiten im Web) befindet. (Superscript T steht für transponiert.) Wenn der Surfer von seinem momentanen Ort zufällig einem Outlink folgt, dann ist die Wahrscheinlichkeit p T j, dass er sich danach auf Seite P j befindet: p T j = N å k = p T k H kj r( Pk ) Vergleich mit Page Rank Formel: r( Pj ) = a å + ( -a) Pk ÎB ( P ) P j k Matrix-Notation: p T = p T H bzw. p T (k+) = p T (k) H (Superskript (k) steht für k-ten Schritt) 22
23 Beispiel: Random Walk auf dem Web "Mini-Web" Beispiel, mit N = 3 Web-Seiten: 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø Die anfängliche Wahrscheinlichkeit, auf Seite P i zu sein, sei / N, d.h. p T (0) = ( / 3, / 3, / 3 ) Mit einer iterativen Methode, der sog. Power Method, berechnen wir: p T () = p T (0) H = ( / 3 / 2 + / 3 / 2 + / 3 0, / 2, / 6 ) = ( / 3, / 2, / 6 ) p T (2) = p T () H = ( 5 / 2, / 3, 3 / 2 ) p T (59) = p T (58) H = ( 0.4, 0.4, 0.2 ) p T ist der dominante links-seitige Eigenvektor von H: p T = p T H 23
24 Fragen zur Eigenschaften der iterativen Methode Konvergiert die iterative Methode unabhängig von den Eigenschaften der Hypertext-Matrix H? unabhängig davon, wie der Startvektor p T (0) gewählt wird? Gibt es immer genau eine Lösung? Wie schnell konvergiert die Methode (Anzahl Iterationen)? Theorie der Markov-Ketten (ohne Definitionen, ohne Beweise): Wenn die Matrix P der Übergangswahrscheinlichkeiten stochastisch irreduzibel aperiodisch ist, dann existiert genau Lösung der Gleichung p T (der positive Page Rank Vektor) = p T P 24
25 Problem "Rank Sink" "Mini-Web" Beispiel, mit N = 3 Web-Seiten: 2 3 H = æ 2 ç ç 2 ç è ö 2 0 ø p T (0) = ( / 3, / 3, / 3 ) Mit der Power Method berechnen wir: p T () = ( / 3, / 6, / 6 ) p T (2) = ( / 4, / 6, / 2 ) p T (3) = ( 5 / 24, 3 / 24, / 2 ) p T (60) = ( , , 0 ) Konvergenz gegen 0-Vektor 25
26 Problem "Rank Sink" / "Spider Trap" "Mini-Web" Beispiel, mit N = 4 Web-Seiten: 2 3 æ ö ç ç H = ç ç 4 è0 0 0ø p T (0) = ( / 4, / 4, / 4, / 4 ) Mit der Power Method berechnen wir: p T () = ( / 4, / 8, 3 / 8, / 4 ) p T (2) = ( 3 / 6, / 8, 5 / 6, 3 / 8 ) p T (63) = ( 0, 0, 0.55, 0.45 ) p T (64) = ( 0, 0, 0.45, 0.55 ) p T (65) = ( 0, 0, 0.55, 0.45 ) einige Komponenten p T (k) i 0 einige Komponenten p T (k) i konvergieren nicht NB: Es existiert! Lösung von p T = p T P : p T = ( 0, 0, 0.5, 0.5 ) 26
27 Modifikationen an Hypertext-Matrix. In Zeilen, die ausschliesslich 0 enthalten, weden alle 0 durch / N ersetzt S := H + a ( / N e T ) a i = falls Seite P i keine Outlinks hat, 0 sonst e T = (,,, ) S ist (im Gegensatz zur Hyperlink-Matrix H) eine stochastische Matrix. Begründung: Wenn ein Random Surfer in eine Sackgasse gerät, dann springt er auf eine beliebige Web-Seite. (NB: Die Formel auf der Seite, auf der Page Rank informell definiert wird. enthält obige Korrektur nicht, denn sie macht keine Aussage über Web Pages P i ohne Outlinks.) 2. Es wird eine zusätzliche Teleportation Matrix hinzugezählt: G := a S + ( a) / N e e T G ist die Google-Matrix e e Begründung: Mit Wahrscheinlichkeit a folgt der Random Surfer einem Outlink, und sonst springt er auf eine beliebige Seite. T = æ ç ç! ç è!!! ö! ø 27
28 Lösung der Gleichung Der Page Rank Vektor p T ist also die Lösung der Gleichung p T = p T G der links-seitige Eigenvektor zum dominanten Eigenwert von G Es gibt verschiedene klassische Methoden zum Finden des Eigenvektors, inklusive der Power Method die allerdings i.a. eine der langsameren Methoden ist Google verwendet die Power Method trotzdem, da sie - für dünn-besiedelte Matrizen geeignet ist - weniger Speicherplatz benötigt p T = p T G = a p T H + / N (a p T a + a) e T (H die Hyperlink-Matrix) Bei a = 0.85 konvergiert die Power-Method in vernünftiger Zeit (ca. 50 Iterationen) 28
29 Zusammenfassung Es existiert nicht nur ein physisches Netzwerk von Computern (das Internet), sondern auch ein logisches Netzwerk (das World Wide Web bestehend aus Web Seiten, die durch Hypertext-Referenzen verlinkt werden. Bei der Suche nach passenden Web Seiten können die Hypertext-Referenzen (Links) ausgenutzt werden, z.b. indem Seiten, auf die öfter verwiesen wird, als wichtiger betrachtet werden. Eine mögliche Gewichtung von Web Seiten ist der Google Page Rank, der im wesentlichen die Wahrscheinlichkeit ermittelt, wie oft ein random surfer eine Web Seite besucht. Sowohl die eigentlichen Inhalte einer Web Seite wie auch die Link Struktur wird durch sogenannte Web Crawlers ermittelt, und auf Servers abgelegt. Neben der Idee des Page Rank besticht Google auch durch exzellentes Engineering: Server Farms, parallele Verarbeitung ( MapRedice) 29
5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
MehrEigenwerte und Netzwerkanalyse. Page Rank
A Google versucht die Bedeutung von Webseiten mithilfe des sogenannten zu ermitteln. Der einer Seite basiert ausschließlich auf der Verweisstruktur des Webs. Der Inhalt einer Seite hat dagegen keinen direkten
MehrDie Mathematik hinter Google
Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Neustadt, 5. Dezember 05 Elemente einer Suchmaschine WWW Crawler Module Page Repository User query independent Indexing Module 000 000 000
Mehrdie Relevanz von Webseiten bestimmt Alexander Pohl
Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:
MehrArbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute
3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.
MehrThema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst
Thema 8: Verbesserte Suchstrategien im WWW Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Inhaltsverzeichnis 1. Einleitung 2. Grundlagen 3. Google PageRank Algorithmus 4. IBM Clever HITS Algorithmus
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrDisMod-Repetitorium Tag 3
DisMod-Repetitorium Tag 3 Markov-Ketten 21. März 2018 1 Markov-Ketten Was ist eine Markov-Kette? Was gehört alles dazu? Darstellung als Graph und als Matrix Stationäre Verteilung und Grenzverteilung Ergodizität
Mehr16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87
16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor
MehrWeb Grundlagen zum Spidering
May 22, 2009 Outline Adressierung 1 Adressierung 2 3 4 Uniform Resource Locator URL Jede Seite im Internet wird eindeutig über eine URL identiziert, z.b. http://www.christianherta.de/informationretrieval/index.html
MehrDas Prinzip der Suchmaschine Google TM
/9 Das Prinzip der Suchmaschine Google TM Numerische Mathematik WS 20/2 Basieren auf dem Paper The $25,000,000,000 Eigenvector: The Linear Algebra behind Google von Kurt Bryan und Tanya Leise (SIAM Review,
MehrDie Mathematik hinter Google
Die Mathematik hinter Google Informationstag für Gymnasiastinnen und Gymnasiasten Universität Fribourg (Schweiz) georges.klein@unifr.ch Fribourg, 24. November 2010 georges.klein@unifr.ch Die Mathematik
MehrWie Google Webseiten bewertet. François Bry
Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google
MehrLineare Algebra und analytische Geometrie II
Prof. Dr. H. Brenner Osnabrück SS 206 Lineare Algebra und analytische Geometrie II Vorlesung 54 Stochastische Matrizen Definition 54.. Eine reelle quadratische Matrix M a ij i,j n heißt spaltenstochastisch,
MehrRanking Functions im Web: PageRank & HITS
im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google
MehrVorlesung Big Data Analytics in Theorie und Praxis Theorieteil
Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin Kapitel 1: PageRank:
MehrDas Pagerank-Verfahren (und Markovketten) 16. Dezember 2013
Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013 Gegeben: Eine Sammlung von N Web-Seiten, die (teilweise) { untereinander verlinkt sind. 1 wenn Seite i auf Seite j verweist Sei L ij = 0 sonst
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,
Mehr6. Suche im World Wide Web
6. Suche im World Wide Web Motivation Suche im World Wide Web ist heute eine der populärsten Anwendungen von Methoden des Information Retrievals Suchmaschinen (z.b. Altavista, Excite) in den frühen 1990ern
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
Mehr5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung
5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum
MehrRandomisierte Algorithmen
Randomisierte Algorithmen Randomisierte Algorithmen Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2018/2019 1 / 40 Überblick Überblick Grundlegendes zu Markov-Ketten
MehrSuchmaschinen und Markov-Ketten 1 / 42
Suchmaschinen und Markov-Ketten 1 / 42 Zielstellung 1 Wir geben einen kurzen Überblick über die Arbeitsweise von Suchmaschinen für das Internet. Eine Suchmaschine erwartet als Eingabe ein Stichwort oder
MehrSuchmaschinen. Anwendung RN Semester 7. Christian Koczur
Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe
Mehr7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten
7. Vorlesung Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten Seite 179 Web als ein Soziales Netzwerk Small-world Netzwerk: Niedriger (Durchschnitts) Durchmesser
MehrInformatik II, SS 2016
Informatik II - SS 2016 (Algorithmen & Datenstrukturen) Vorlesung 13 (8.6.2016) Graphenalgorithmen I Algorithmen und Komplexität Graphen Knotenmenge V, typischerweise n V Kantenmenge E, typischerweise
MehrInformationssysteme für Ingenieure
Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??
MehrRanking am Beispiel von Google (1998):
Ranking am Beispiel von Google (1998): So heute (lange) nicht mehr, aber wenigstens konkret, wie es prinzipiell gehen kann. Und Grundschema bleibt dasselbe. Zwei Komponenten (genaue Kombination unbekannt):
MehrGoogle s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.
Google s PageRank Eine Anwendung von Matrizen und Markovketten Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23. September 2009 Dr. Werner Sandmann Institut für Mathematik Technische Universität
MehrD 1 D 2 D 3 D 4 D 5... D m S S S S n
Page-Rank Wir wollte in einem Corpus von Texten, wie z.b. Bücher, Webseiten, Anleitung usw., nach bestimmten Inhalten aus einer Menge von Schlüsselworten suchen Sei S = {S,S,...,S n,s n } eine eine alphabeitsch
MehrAdvanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine
Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Hasso-Plattner-Institut Potsdam Fachgebiet Informationssysteme Markus Güntert WS 2008/2009 20.01.2009 1 The Anatomy
MehrHyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval
Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren
Mehrfür die Wahrscheinlichkeit, dass die Markov-Kette in t Schritten von Zustand i in Zustand j übergeht. Es ist also P (t) = (P t ) ij.
8 Markov-Ketten 8.1 Grundlegendes zu Markov-Ketten Eine Markov-Kette ist ein stochastischer Prozess, der in diskreten Zeitschritten abläuft. Dabei wird jeweils von einem Zustand in einen nächsten übergegangen.
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
Mehr5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen
5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Verweisstrukturen haben eine wichtige Bedeutung Spamming
MehrPageRank-Algorithmus
Proseminar Algorithms and Data Structures Gliederung Gliederung 1 Einführung 2 PageRank 3 Eziente Berechnung 4 Zusammenfassung Motivation Motivation Wir wollen eine Suchmaschine bauen, die das Web durchsucht.
Mehr15. Elementare Graphalgorithmen
Graphen sind eine der wichtigste Modellierungskonzepte der Informatik Graphalgorithmen bilden die Grundlage vieler Algorithmen in der Praxis Zunächst kurze Wiederholung von Graphen. Dann Darstellungen
MehrUNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand
Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrD-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler. Lösungen Serie 10
D-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler Lösungen Serie 10 1. Für a 1 : 1 1 0, a 2 : 1 1, a 3 : 1 1 1, b : 2 2 2 1 und A : (a 1, a 2, a 3 ) gelten welche der folgenden Aussagen? (a) det(a)
MehrData Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19
Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 4-1 4-2 Data Mining Übersicht Hochdimension.
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Closed Sets, Web Mining Katharina Morik, Claus Weihs 28.4.2015 Katharina Morik, Claus Weihs DMV 1 / 31 Gliederung 1 Closed Sets 2 Web Mining Finden von häufigen Subgraphen Ranking
Mehr8. Vorlesung, 5. April Numerische Methoden I. Eigenwerte und Eigenvektoren
8. Vorlesung, 5. April 2017 170 004 Numerische Methoden I Eigenwerte und Eigenvektoren 1 Eigenwerte und Eigenvektoren Gegeben ist eine n n-matrix A. Gesucht sind ein vom Nullvektor verschiedener Vektor
MehrTheoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst
Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst Netzwerke / Graphen verschiedene Typen von Graphen: einfache
MehrInformatik II, SS 2016
Informatik II - SS 2018 (Algorithmen & Datenstrukturen) Vorlesung 12 (4.6.2018) Graphenalgorithmen I Yannic Maus Algorithmen und Komplexität Graphen Knotenmenge V, typischerweise n V Kantenmenge E, typischerweise
Mehr1 Informationssuche im Internet
1 Informationssuche im Internet Das Internet enthält eine große Menge unterschiedlicher und sehr heterogener Daten, die in unterschiedlicher Art und Weise aufbereitet sind. Der interessante Teil des Internet
MehrHistorische Innovation der Informatik TIM BERNERS-LEE
Historische Innovation der Informatik TIM BERNERS-LEE Gliederung Biographie World Wide Web Weiterentwicklung des Webs W3C Literatur Biographie 8. Juni 1955 Geburt in einem Vorort von London 1976 Studium
MehrErstellen von Web-Seiten HTML und mehr...
Erstellen von Web-Seiten HTML und mehr... SS 2002 Duffner: Interaktive Web-Seiten 1 Themen! Was ist das WWW?! Client-Server-Konzept! URL! Protokolle und Dienste! HTML! HTML-Editoren! Ergänzungen und Alternativen
Mehr51 Numerische Berechnung von Eigenwerten und Eigenvektoren
5 Numerische Berechnung von Eigenwerten und Eigenvektoren 5. Motivation Die Berechnung der Eigenwerte einer Matrix A IR n n als Lösungen der charakteristischen Gleichung (vgl. Kapitel 45) ist für n 5 unpraktikabel,
MehrStochastische Prozesse. Woche 5
FS 2016 Stochastische Prozesse Woche 5 Aufgabe 1 PageRank-Algorithmus von Google Das Herz der Google-Suchmaschine ist ein Algorithmus, der alle Dokumente des WWW nach ihrer Wichtigkeit anordnet. Die Auflistung
Mehrverschiedenen Recheneinheiten, die miteinander kommunizieren können
Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 293 Lastbalancierung Motivation Ein paralleles System besteht aus verschiedenen Recheneinheiten, die miteinander kommunizieren können Warum parallel
MehrEine Untersuchung der Funktionen des Apache Wicket Webframeworks
Eine Untersuchung der Funktionen des Apache Wicket Webframeworks Seminararbeit von Olaf Matticzk 1 15.01.2016 (c) by synaix 2016 synaix...your business as a service. Agenda 1. Einleitung 2. Webanwendungen
MehrEigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009
Eigenwerte Vorlesung Computergestützte Mathematik zur Linearen Algebra Lehrstuhl für Angewandte Mathematik Sommersemester 2009 25. Juni + 2.+9. Juli 2009 Grundlagen Definition Ist für A C n,n, Ax = λx
MehrWeb Crawling Die Erschließung des Webs
Web Crawling Die Erschließung des Webs Ronny Harbich Otto-von-Guericke-Universität 5. Dezember 2007 1/24 Ronny Harbich Web Crawling Die Erschließung des Webs Übersicht 1 2 3 4 2/24 Ronny Harbich Web Crawling
MehrPG520 - Webpageranking
12. Oktober 2007 Webpageranking - Quellen The PageRank citation ranking: Bringing order to the Web; Page, Brin etal. Technical report, 1998. A Unified Probabilistic Framework for Web Page Scoring Systems;
MehrSysteme II 13. Woche Data Centers und Verteiltes Hashing
Systeme II 13. Woche Data Centers und Verteiltes Hashing Christian Schindelhauer Technische Fakultät Rechnernetze und Telematik Albert-Ludwigs-Universität Freiburg World Wide Web Client-Server-Architektur
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrDynaTraffic Modelle und mathematische Prognosen. Simulation der Verteilung des Verkehrs mit Hilfe von Markov-Ketten
DynaTraffic Modelle und mathematische Prognosen Simulation der Verteilung des Verkehrs mit Hilfe von Markov-Ketten Worum geht es? Modelle von Verkehrssituationen Graphen: Kanten, Knoten Matrixdarstellung
MehrIR Seminar SoSe 2012 Martin Leinberger
IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrÜbersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten
Markov-Chain Monte-Carlo Verfahren Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Übersicht 1 Einführung
MehrOnline-Publishing mit HTML und CSS für Einsteigerinnen
mit HTML und CSS für Einsteigerinnen Dipl.-Math. Eva Dyllong Universität Duisburg Dipl.-Math. Maria Oelinger spirito GmbH IF MYT 07-2002 Grundlagen Frau erfahrt, wie das Internet aufgebaut ist, aus welchen
MehrGoogle PageRank vs. HITS
Google PageRank vs. HITS Seminar Information Retrieval Ulf Schmidt Übersicht Einführung Hyperlinked Induced Topic Search Google PageRank Vergleich Weiterentwicklungen Fazit Quellen 29/01/07 Information
MehrSuchmaschinen im Internet
Michael Glöggler Suchmaschinen im Internet Funktionsweisen, Ranking Methoden, Top Positionen Mit 47 Abbildungen und 25 n Springer Inhaltsverzeichnis 1 Überblick Suchdienste im World Wide Web 1 1.1 Webkataloge
MehrKurze Einführung in Web Data Mining
Kurze Einführung in Web Data Mining Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU 17.10.2007 Kurze Einführung in Web Data Mining 1 Überblick Was ist Web? Kurze Geschichte von
MehrV by WBR1/BFH-TI 2011 by MOU2/BFH-TI
Java-Applets Unterlagen zum Modul OOP mit Java V 3.0 2007 by WBR1/BFH-TI 2011 by MOU2/BFH-TI Java-Applets V3.0 2011 by WBR1&MOU2/BFH- TI Lernziele Die Kursteilnehmer sind in der Lage: Möglichkeiten und
MehrGambler s Ruin. B ist die Bank ) 4/40
Gambler s Ruin Zwei Spieler A und B spielen ein Spiel um m Franken. Spieler A hat a Franken, Spieler B hat b = m a Franken. In jeder Runde wird um 1 Franken gespielt. A gewinnt eine Runde mit W keit p,
MehrAngewandte Informatik
Angewandte Informatik Analyse des Graphs G zur Bestimmung von Parallel- undreihenschaltung Prof. Dr. Nikolaus Wulff Gewichteter Multigraph Die Adjazenzmatrix eines Graphen eignet sich auch zur Analyse
MehrInternet: Funktionsweise und Dienste 1. Was ist das Internet?
1 1. Was ist das Internet? 2 2. Welche Funktionen können die Rechner im Netzwerk ausüben? Client-Server-Struktur Server - von engl. to serve = dienen - stellt Daten, Ressourcen und/ oder Speicherplatz
MehrMärz Leitfaden zur Einbindung von Inhalten der Berufsberatung auf Schulwebseiten
März 2018 Leitfaden zur Einbindung von Inhalten der Berufsberatung auf Schulwebseiten Impressum Bundesagentur für Arbeit Zentrale Geschäftsbereich Arbeitsmarkt Produktentwicklung Berufsberatung Regensburger
MehrLANGZEITVERHALTEN VON MARKOW-KETTEN
LANGZEITVERHALTEN VON MARKOW-KETTEN NORA LOOSE. Buchstabensalat und Definition Andrei Andreewitsch Markow berechnete Anfang des 20. Jahrhunderts die Buchstabensequenzen in russischer Literatur. 93 untersuchte
MehrWeb Services Die Definition von Web Services in der Theorie und FNT-Command als Web Service in der Praxis
Web Services Die Definition von Web Services in der Theorie und FNT-Command als Web Service in der Praxis Philipp Tendyra Web Service in kurzen Worten dient der Kommunikation zwischen verschiedenen Systemen
MehrHermann von Helmholtz-Zentrum für Kulturtechnik Übung: Multimedia-Anwendungen in den Wissenschaften. Tutorium. Web-Publishing. 15.
Tutorium Web-Publishing 15. Dezember 2003 Programm Funktionen und Nutzung eines Web-Browsers (am Beispiel des Mozilla Navigator) Web-Dokumente erstellen (mit dem Mozilla Composer) Was macht ein Web-Browser
MehrBig Data Analytics in Theorie und Praxis Theorieteil
Big Data Analytics in Theorie und Praxis Theorieteil Vorlesung entspricht 2V+1Ü SWS) Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin
MehrChapter 1 : þÿ b e t a t h o m e R o u l e t t e G r e n z e n c h a p t e r
Chapter 1 : þÿ b e t a t h o m e R o u l e t t e G r e n z e n c h a p t e r þÿ S o c c e r B e t t i n g O p t i o n. B e t R a d a r & # 3 9 ; s V i r t u a l E u r o 2 0 1 6 G i v e s S p o r t s b
MehrEin Index zur Berechnung von Prestige in Koautornetzwerken
Ein Index zur Berechnung von Prestige in Koautornetzwerken Thomas Metz, Universität Freiburg 5. März 2012 Zusammenfassung Bei der Analyse von Koautornetzwerken stellt sich oft die Frage, ob sich für ein
MehrGraphenalgorithmen und lineare Algebra Hand in Hand Prof. Dr. Henning Meyerhenke
Graphenalgorithmen und lineare Algebra Hand in Hand Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrChapter 1 : þÿ j a k u s u n k o n t o b e t a t h o m e c h a p t e r
Chapter 1 : þÿ j a k u s u n k o n t o b e t a t h o m e c h a p t e r þÿ d e n S i e g. & g t ; & g t ; S e i t e 3 7 K o n t a k t : T e l e f o n 0 6 5 0 / 6 6 0 5 2 7 0,.. N a c h d e m d u a u f P
MehrArchitektur von REST basierten Webservices
28.11.2005 Architektur von REST basierten Webservices Referent MARK ALTHOFF REST was invented by ROY T. FIELDING and RICHARD N. TAYLOR Geschichtlicher Hintergrund von REST 1994-1995 taucht der Begriff
MehrAlgorithmen I - Tutorium 28 Nr. 9
Algorithmen I - Tutorium 28 Nr. 9 29.06.2017: Spaß mit Graphen und Graphtraversierung Marc Leinweber marc.leinweber@student.kit.edu INSTITUT FÜR THEORETISCHE INFORMATIK (ITI), PROF. DR. JÖRN MÜLLER-QUADE
MehrProgramm heute. Algorithmen und Datenstrukturen (für ET/IT) Übersicht: Graphen. Definition: Ungerichteter Graph. Definition: Ungerichteter Graph
Programm heute Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 07 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München 7 Fortgeschrittene Datenstrukturen Graphen
MehrSEO Search Engine Optimization Diese Rankingfaktoren gelten für Google. Mareike Furlong & Klaudija Paunovic
SEO Search Engine Optimization Diese Rankingfaktoren gelten für Google Mareike Furlong & Klaudija Paunovic Warum Google so wichtig ist 83% der deutschen Verbraucher informieren sich vor dem Kauf eines
MehrProzesse dieser Art sind in der Informatik z.b. bei der Untersuchung der Auslastung von Servern wichtig (Warteschlangenmodelle).
77 Markowketten 77 Motivation Der Zustand eines Systems zur Zeit n N werde durch eine Zufallsvariable X n beschrieben und soll nur von X n abhängen (nicht jedoch von früheren Zuständen X n, X n 3, ) Wir
MehrGraphdurchmusterung, Breiten- und Tiefensuche
Prof. Thomas Richter 18. Mai 2017 Institut für Analysis und Numerik Otto-von-Guericke-Universität Magdeburg thomas.richter@ovgu.de Material zur Vorlesung Algorithmische Mathematik II am 18.05.2017 Graphdurchmusterung,
MehrMatchings in Graphen. Praktikum Diskrete Optimierung (Teil 5)
Praktikum Diskrete Optimierung (Teil 5) 6.05.009 Matchings in Graphen Es sei ein ungerichteter Graph G = (V, E) gegeben. Ein Matching in G ist eine Teilmenge M E, so dass keine zwei Kanten aus M einen
MehrWeb Information Retrieval. Web Information Retrieval. Informationssuche im Web Typen von Web-Suche (nach Andrei Broder) Das World Wide Web
Web Information Retrieval Web Information Retrieval Ingo Frommholz / Norbert Fuhr 30. Januar 2012 Informationssuche im Web Browsing und Suche Beispiel einer Web-Suchmaschine: Google Hypertext und Web IR
MehrMarkov-Ketten und Google s Page-Rank 1 / 70
Markov-Ketten und Google s Page-Rank 1 / 70 Zielstellung 1 Wir geben einen kurzen Überblick über die Arbeitsweise von Suchmaschinen für das Internet. Eine Suchmaschine erwartet als Eingabe ein Stichwort
MehrWebspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider
Webspider Dr. Christian Herta June 11, 2009 1 von 14 Dr. Christian Herta Webspider Referenz-Architektur: Mercator Referenz-Architektur: Webcrawler Mercator [2] modular und Komponenten-basiert, so wird
MehrAlgorithmische Methoden zur Netzwerkanalyse
Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische
MehrEinführung. Internet vs. WWW
Einführung Bernhard Plattner 1-1 Internet vs. WWW "the Internet is the entirety of all computers which are interconnected (using various physical networking technologies) and employ the Internet protocol
MehrPr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
MehrKapitel IV Minimale Spannbäume
Kapitel IV Minimale Spannbäume 1. Grundlagen Ein Graph G = (V, E) besteht aus einer Menge V von Knoten und einer Menge E von Kanten. Wir werden nur endliche Knoten- (und damit auch Kanten-) Mengen betrachten.
Mehr