PageRank und HITS. Frank Habermann 11. Februar 2007

Größe: px
Ab Seite anzeigen:

Download "PageRank und HITS. Frank Habermann 11. Februar 2007"

Transkript

1 PageRank und HITS Frank Habermann 11 Februar

2 Inhaltsverzeichnis 1 Einleitung 2 PageRank 4 21 mathematische Beschreibung Random Surfer Model Berechnung 4 21 Rechenbeispiel 5 22 Vorteile und Nachteile von PageRank 5 HITS (hypertext-induced topic search) 7 1 Konstruktion eines adäquaten Subgraphen des WWW 7 2 Berechnung der hubs und authorities 7 Rechenbeispiel 8 4 allgemeinere Sicht auf die Lösung 9 5 Vor und Nachteile von HITS 9 4 Vergleich von PageRank und HITS 11 5 Literatur 11 2

3 1 Einleitung Klassische, aus heutiger Sicht veraltete Suchmaschinen basieren auf reiner textbasierten Analyse der Internetseiten Das matchen der Suchbegriffe mit einem möglichst großen Satz indizerter Webseiten ist auch heute kaum wegzudenken und immernoch Grundlage moderner Suchalgorithmen Diese Aufgabe lässt sich zb durch eine invertierte Term-Dokumenten-Datei realisieren Dazu wird das Internet durch so genannte crawler abgesucht, die sich möglichst große Teile des Internets durchsucht und die einzelnen Dokumente tokenisiert Damit kann man diese Datei aufbauen und sie hat dann etwa die Form: Token Dokumente tok1 doc24, doc1908, doc194, doc tok2 doc2, doc2, doc9991, tok doc25, doc14, tokn docn 1, docn 2, Wenn jemand also nach dem Wort Aal sucht und dies gerade tok1 entspricht, dann liefert das Durchsuchen dieser Datei die Ergebnisse doc24, doc1908, doc194, doc Wenn jemand mehrere Suchbegriffe eingibt, bekommt man je nach Implementation alle Dokumente aller Token oder zb alle Dokumente, die in allen Token auftreten Diese Treffer sind aber meist nicht zufriedenstellend und helfen nicht sehr viel weiter, da man durch das enorme Ausmaßdes Internets oft extrem viele Treffer bekommt (oft einige Millionen), die in Qualität, Umfang usw sehr stark variieren Die gefundenen Treffer manuell entsprechend eigener Ansprüche nochmals manuell zu durchsuchen ist nicht praktikabel und wird durch das Wachstums immer schwieriger Um also überhaupt sinnvoll mit dieser Informationsflut arbeiten zu können, sind daher Algorithmen nötig, welche die Relevanz von Internetseiten für bestimmte Suchanfragen bewerten Diese Algorithmen sind bestimmten Problemen ausgesetzt, zb Polyseme, also Begriffe, die mit unterschiedlichen Bedeutungen auftreten (zb Apple, Jaguar, Bank,) und Synomyme, also verschiedene Wörter mit der gleichen Bedeutung (zb Kraftfahrzeug, Auto) Außerdem sollten diese Algorithmen möglichst unanfällig für Manipulationsversuche sein, also Eingriffe, welche über die tatsächliche Relevanz der eigenen Seite zb vermittels Bannerwerbung hinwegtäuschen Hier sollen 2 verschiedene, wenn auch ähnliche Ansätze vorgestellt werden, PageRank und HITS Beide Ansätze basieren auf der Idee, dass man Informationen über die Relevanz durch die Betrachtung der Linkstruktur des Internets erhält Man geht davon aus, dass Betreiber von Internetseiten vorwiegend andere Seiten verlinken, die sie selbst für besonders wichtig halten, es liegt deshalb der Gedanke nahe, die Anzahl der eingehenden Links als Maßstab der Relevanz zu verwenden Dieser Gedanke greift jedoch zu kurz, nicht jeder Link von jeder Seite sollte als gleichwertig betrachtet werden Bei PageRank wird der Gedanke erweitert, indem man sagt, eine Seite ist um so wichtiger, je mehr und wichtigere Seiten auf sie verlinken Bei HITS betrachtet man nur einen Kleinen Teilgraphen des Internets, der zb die Treffer in der Term-Dokument-Datei enthält und schreibt jedem Dokument darin 2 Werte zu, einen als authority und einen als hub Ein guter hub verlinkt viele wichtige Seiten mit hohem authority Wert und eine gute authority ist eine Seite, die von guten hubs verlinkt wird, diese hat im Normalfall hohen Informationsgehalt bezüglich des Suchthemas

4 2 PageRank 21 mathematische Beschreibung Wir betrachten das Internet als einen eindlichen, gerichteten Graphen G = (V, E) mit V = {v 1,, v n } und E V V, so daß (v i, v j ) E gdw Internetseite v i hat einen Link auf Internetseite v j Sei nun u eine Internetseite, F u = {w (u, w) E} die Menge der Seiten, auf die u einen link hat, B u = {w (w, u) E} die Menge der Seiten, die einen link auf u haben und N u = F u, die Anzahl der links von u und c < 1 ein Normalisierungsfaktor, so dass der gesamte Rang aller Seiten konstant bleibt Nun können wir eine vereinfachte Version des PageRank definieren: R(u) = c v B(u) Dies formalisiert schon ganz gut den Gedanken, dass die Relevanz einer Seite durch die Anzahl und Relevanz der auf Sie linkenden Seiten bestimmt wird Man kann sich den gewichteten Graphen auch als eine quadratische Matrix vorstellen, deren Zeilen und Spalten Internetseiten entsprechen, mit A u,v = 1 N u, falls (u, v) E und A u,v = 0 sonst Wenn wir R als Vektor über alle Knoten behandeln, dann erhalten wir R = car R ist hier also ein Eigenvektor von A mit Eigenwert c Das kann schnell berechnet werden Es gibt noch ein Problem mit der vereinfachten Variante, man stellt sich 2 Seiten vor, die zwar auf sich gegenseitig, aber sonst auf keine weitere Seite zeigen, wenn nun eine weitere Seite auf eine der beiden Seiten zeigt, dann wird im Laufe der Berechnung immer mehr Rang in dieser Schleife gesammelt, aber von dort nicht mehr weiter verteilt, man nennt sowas auch eine Rang-Senke Um mit diesem Problem zurecht zu kommen, definiert man sich eine Art Rang-Quelle Sei E(u) ein Faktor für alle Internetseiten (Auch als Vektor Interpretierbar), der jeder Seite einen Wert als Rang-Quelle zuweist Dann ist der PageRank R ein Vektor über alle Internetseiten, so dass c maximiert wird und gilt: 211 Random Surfer Model R(v) N v R (u) := c R (v) + ce(u) N v v B u Der gerade definierte PageRank erscheint intuitiv, wenn man das Modell des Random Surfer zugrunde legt, dieser startet bei einer Internetseite und klickt wahllos auf irgendwelche links Ein realer Surfer wird sich aber nicht in einer Schleife von wenigen Webseiten aufhalten, sondern sich irgendwann langweilen und einfach eine andere Seite aufsuchen, der hinzugenommene Faktor E simuliert genau dieses Verhalten und legt eine Zufallsverteilung zugrunde Oft macht es Sinn, E für alle Elemente mit dem gleichen Faktor α zu belegen, der Algorithmus kann aber auch mit beliebigen anderen E implementiert werden, welche zb entsprechend besser auf einzelne Benutzer und dessen Vorlieben angepasst werden können E kann insofern auch als das Vorwissen betrachtet werden Im Random Surfer Model entspricht der Rang einer Internetseite gerade der Wahrscheinlichkeit, dass sich der Random Surfer zu einem beliebigen Zeitpunkt gerade auf dieser Internetseite befindet 212 Berechnung Die Berechnung des PageRank geht recht intuitiv, wenn man mal die Skalierung ignoriert [2]: R 0 S do : while δ > ǫ R i+1 AR i d R i 1 R i+1 1 R i+1 +R i+1 + de δ R i+1 R i 1 4

5 21 Rechenbeispiel Betrachten wir den Graphen [1] G = ({1, 2, }, {(1, 2), (1, ), (2, ), (, 1)}) 1 2 und setzen einheitlich E = 02 Daraus ergeben sich Übergangswahrscheinlichkeiten von jedem Knoten zu jedem Knoten, was man sich mit folgender Matrix veranschaulichen kann: P = Also im Knoten 1 (entspricht der Zeile 1) ist die Wahrscheinlichkeit in den Knoten 1 zu wechseln gerade 0, für den Wechsel zum Knoten 2 und je 05 Das Setzt sich aus den E = 02 zusammen, die Gleichmäßig an alle anderen Knoten aufgeteilt, also je 01 und 1 E = 08, die gleichmä ßig auf alle Knoten verteilt werden, zu denen eine Kante existiert, also je 04 In Zeile 2 und funktioniert die Rechnung genauso, aber die Werte ändern sich, da keine Kante von 2 nach 1 und keine Kante von nach 2 existiert Sei nun Π i = ( ) π1 i pi i 2 pi i der Vektor, der die Aufenthaltswahrscheinlichkeiten in den jeweiligen Knoten im Schritt i darstellt Man beginnt die Iteration in einem beliebigen Knoten, also: Von dort aus gelten zu jeweils 1 Π 0 = ( 1 1 ) 1 die Übergangswahrscheinlichkeiten von Knoten 1, 2 oder, also: Π 1 = ( ) ( ) Diese Rechnung geht jetzt immer so weiter, bis die Lösung konvergiert: Π 2 ( ) Π ( ) Π ( ) 22 Vorteile und Nachteile von PageRank PageRank bietet ein globales Maßfür die allgemeine Wichtigkeit einer Seite, arbeitet also völlig unabhängig von einer Suchanfrage Dies hat erstmal überhaupt nichts mit der Relevanz der Ergebnisse für eine jeweilige Suchanfrage zu tun Dies kann natürlich zu extremen Themenabschweifungen führen Für 5

6 den Einsatz in einer Suchmaschine sind deshalb zusätzlich effiziente Algorithmen nötig, um die Relevaz zu bewerten, dieses Problem kann aber wiederum unabhängig vom PageRank Algorithmus gelöst werden PageRank ist anfällig für Manipulationen, wie zb durch Bannerwerbung Da aber PageRank auf einem Graphen arbeitet, der im Idealfall das gesamte Internet modelliert (was bereits aufgrund der ständigen Veränderungen nicht möglich ist), also extrem großist, haben lokale Veränderungen der Linksstruktur nur relativ kleinen Einfluss auf das ranking einer Seite Der Vektor E, welcher zufällige Sprünge von einer Seite zu einer beliebigen Seite im Internet simuliert, kann jedoch dazu verwendet werden, solchen Manipulationen entgegenzuwirken, also Seiten abzustrafen, die ihren Rang manipulieren wollen Da E signifikanten Einflußauf den PageRank hat, kann dieser auch für eine Personalisierung der Suche verwendet werden oder aber auch, bestimmte Seiten künstlich zu unterstützen Die Berechnung des PageRank ist aufgrund der enormen größe des Graphen (ein paar Milliarden Knoten) auf dem man arbeitet extrem Zeitaufwendig, allerdings nicht zur Zeit der Suchanfrage, sondern im Vorraus Während der Suche ist dieser also bereits ausgerechnet, weshalb zb Suchanfragen bei googlecom sehr schnell zu einem Ergebnis führen 6

7 HITS (hypertext-induced topic search) 1 Konstruktion eines adäquaten Subgraphen des WWW Die mathematische Betrachtung des Internets als Graph ist die gleiche wie beim PageRank Algorithmus, wobei man dort versucht, möglichst das gesamte Internet im Graphen zu modellieren, was ua aufgrund der ständigen Veränderungen höchstens Näherungsweise möglich ist Bei HITS reduziert man die Betrachtung auf einen aussagekräftigen Subgraphen Betrachtet man ein festes Thema, hat der grö ßte Teil des Internets normalerweise nichts mit diesem zu tun So wird nicht das gesammte gecrawlte Internet nach allgemeiner Relevanz geordnet, sondern relativ wenige Seiten werden für eine bestimmte Suchanfrage geordnet Man muss sich allerdings diesen Subgraphen ersteinmal konstruieren Dieser sollte relativ klein sein, reich an relevanten Seiten sein und viele der stärksten authorities enthalten Wir beginnen damit, die t (üblicherweise t 200) besten Treffer einer textbasierten Suche für den entsprechenden Suchstring σ in die Wurzelmenge R σ aufzunehmen Diese Menge ist bereits relativ klein und enthält viele relevante Seiten (zumindest hubs), aber nicht unbedingt viele authorities R σ kann man aber zu einer Menge S σ von Internetseiten erweitern, die zusammen mit den links zwischen all den Seiten aus S σ mit hoher Wahrscheinlichkeit einen brauchbaren Subgraphen ergeben, der die genannten Anforderungen erfüllt Da unter Umständen extrem viele Seiten eine einzelne Seite verlinken können, führen wir einen weiteren Parameter d ein S σ wird dann wie folgt berechnet: S σ R σ foreach p R σ S σ S σ F p If B p d then S σ S σ B p Else Konstruiere Menge T p mit T p = d und T p B p S σ S σ T p end return S σ Der Subgraph, der durch S σ aufgespannt wird, enthält nun mit hoher Wahrscheinlichkeit auch viele authorities, denn dazu muss es je nur einen einzelnen link aus der Wurzelmenge R σ dorthin geben 2 Berechnung der hubs und authorities Wir haben jetzt gesehen, wie wir einen geeigneten Subgraphen als Arbeitsgrundlage erhalten, damit können wir nun hubs und authorithies berechnen Wir betrachten also einen guten hub als eine Seite, die viele gute authorities verlinkt und eine gute authority wird von vielen guten hubs verlinkt Sei nun h = (h1,, h k ) ein Vektor über alle Internetseiten aus der gerade errechneten Menge S σ (mit S σ = k), der jeder Seite ein Hub-Gewicht zuordnet und entsprechend a = (a 1,, a k ) ein Vektor, der jeder Seite ein Gewicht als authority zuordnet Die Vektoren werden so normalisiert, dass die Summe der Quadrate der Komponenten jeweils 1 ergibt Jetzt können wir 2 Operationen I, O zum updaten der Gewichte definieren []: I : a i x:(x,i) E O : h i x:(i,x)) E h x, 1 i k a x, 1 i k Die eigentliche Prozedur hat nun die Aufgabe, ein gewisses Gleichgewicht zwischen den hubs und den authorities herzustellen, also Fixpunkte für diese Operationen zu approximieren Folgende Prozedur tut dies für hinreichend große k (entspricht der Anzahl der Iterationen): 7

8 Iterate(G, k) G ist eine Menge n verlinkter Seiten k N a 0 (1,, 1) R n h0 (1,, 1) R n for i = 1,, k berechne a i durch (I) angewandt auf a i 1, h i 1 berechne h i durch (O) angewandt auf a i, h i 1 normalisiere a i, h i end return ( a k, h k ) Dies kann man nun verwenden, um zb die c besten authorities und die c besten hubs herauszufiltern, indem man einfach die Seiten mit den c größten Koordinaten ausgibt Rechenbeispiel Betrachten wir den Graphen G = ({1, 2,, 4}, {(1, 2), (2, ), (2, 4), (, 4), (4, )}) und rechnen einfach mal exemplarisch Iterate({1, 2,, 4}, 2) Man beginnt mit der Initialisierung: a 0 = (1, 1, 1, 1) h0 = (1, 1, 1, 1) Nun der 1 Iterationsschritt: I : a 1 (0, 1, 1 + 1, 1 + 1) = (0, 1, 2, 2) O : h 1 (1, 2 + 2, 2, 2) = (1, 4, 2, 2) 8

9 Das muss jetzt normalisiert werden, so dass die Summe der Quadrate der Vektorkomponenten jeweils 1 ergibt: a (0, 1, 2, 2) = (0, 1, 2, 2 ) h (1, 4, 2, 2) = ( 1 5, 4 5, 2 5, 2 5 ) und das geht jetzt immer so weiter, bis die Lösung konvergiert: a 2 (0, 1 5, 6 5, 6 5 ) h2 ( 1 5, 12 5, 6 5, 6 5 ) a (0, 1 5, 6 5, 6 5 ) h ( 1 5, 12 5, 6 5, 6 5 ) Man kann im Prinzip die Berechnung bereits jetzt abbrechen, diese würde der Übersicht kaum beitragen Schon jetzt zeichnet sich ab, was passiert, Knoten 1 hat keiner authority Wert und nur geringen hub-wert, Knoten 2 bekommt nur einen geringen authority Wert zugeschrieben, dafür aber den grösten hub Wert Knoten und 4 bekommen jeweils den gleichen hub Wert und den gleichen authority Wert, da sie nur auf sich gegenseitig linken und beide zusätzlich linken das authority ranking sieht etwa so aus:,4,2,1 bzw 4,,2,1 und das hub ranking so: 2,,4,1 bzw 2,4,,1 Bei diesen einfachen Beispiel ist dies bereits nach sehr wenigen Iterationen offensichtlich HITS schreibt nicht vor, wie man das Problem der gleichwertigen Knoten und 4 umgeht, dies steht bei der Implementation frei 4 allgemeinere Sicht auf die Lösung Man kann sich den betrachteten Subgraphen des Internets natürlich auch als Adjazenzmatrix A voranschaulichen, also A i,j = 1, falls Seite i einen Link auf Seite j hat und A i,j = 0 sonst Offenbar müssen dann die zu findenden Fixpunkte folgende hinreichende Bedingungen erfüllen (sei S σ = n, δ, λ Normalisierungsfaktoren ): h i a i = δ n A ij a j j=1 = λ n (A T ) ik h k k=1 Man kann nun die Gleichungen ineinander einsetzen und erhält: h a = δλaa T h = δλa T A a h und a ergeben sich also als Eigenvektoren der Matrizen AA T bzw A T A und können prinzipiell mit allen entsprechenden mathematischen Werkzeugen berechnet werden Allerdings bietet sich das Verwenden der Prozedur Iterate aufgrund der Simplizität und der Anschaulichkeit für die Darstellung der Funktionsweise an 5 Vor und Nachteile von HITS HITS berechnet 2 Arten von Rankings, je nach Anwendungsfall kann dass eine oder andere nützlicher sein Außerdem bietet HITS die Möglichkeit, nach ähnlichen Seiten zu suchen, dabei gelten 2 Internetseiten genau dann als ähnlich, wenn sie besonders viele gleiche Vorgänger und Nachfolger im Nachberschaftsgraphen besitzen Dazu muss man im wesentlichen nur den Subgraphen anders bestimmen Man sucht zu der Webseite Vorgänger und Nachfolger, sowie Vorgänger der Nachfolger und Nachfolger der Vorgänger 9

10 und berechnet davon die authority Werte und erhält damit eine Rangliste ähnlicher Seiten HITS arbeitet grundsätzlich auf sehr kleinen Matrizen, wenn man es mal mit der Größe des gesamten Internets vergleicht, mit diesen kann man natürlich verhältnismäßig schnell rechnen Allerdings mußauch für jede Suchanfrage extra die Teilmenge der Seiten bestimmt werden, für die man je eine eigene Matrix aufstellt und dann mindestens eine Eigenvektorbestimmung durchführt Dies kostet Zeit während der Suchanfrage Ein anderes Problem ist, dass sich die hub und authority Werte relativ leicht beeinflussen lassen Das Hinzufügen ausgehender Links auf der eigenen Seite ist kein großes Problem, hierdurch kann man den hub Wert der Seite erhöhen Eingehende Links kann man, die nötigen finanziellen Mittel vorrausgesetzt, zb durch Bannerwerbung beeinflussen, hierdurch wird der authority Wert einer Seite manipuliert Da man nur auf einem sehr kleinen Subgraphen des Internets arbeitet, wirken sich derartige Eingriffe um so dramatischer aus In der Rangliste auch nur ein paar Plätze aufzusteigen kann einen erheblichen Unterschied machen, da sich ein normaler Benutzer selten die ganze Liste von Suchergebnissen anschaut (deswegen erstellt man ja die Rangliste), sondern nur die ersten Suchergebnisse, bzw nur die erste Seite der Trefferliste Ein anderes großes Problem ist das Risiko, vom Thema abzuschweifen Man stelle sich vor, der erstellte Nachberschaftsgraph für eine Suchanfrage enthält eine Seite, die generell sehr beliebt und besonders oft verlinkt ist, aber eigentlich überhaupt nichts mit dem Thema zu tun hat Einer solchen Seite wird trotzdem ein besonders großer authority Wert zugerechnet, was die Qualität der Suchergebnisse senkt 10

11 4 Vergleich von PageRank und HITS Beide Verfahren können interpretiert werden, als Methoden, die das Problem der Relevanzbestimmung von Internetseiten auf die Bestimmung von Eigenvektoren bestimmter Matrizen reduzieren (wobei andere andere Anwendungsfelder, auch wenn in diesem Schriftstück nicht weiter erwähnt, nicht ausgeschlossen sind) Die Entsprechende Matrix ist bei PageRank derart groß, dass sie praktisch nicht zur Laufzeit berechnet werden kann, was aber aufgrund der globalen Eigenschaften auch garnicht nötig ist Bei HITS beschränkt sie sich auf einen kleinen Subgraphen des Internets, welche in Abhängigkeit der Anfrage erst erstellt wird, auch das errechnen des entsprechenden Eigenvektors muss zur Laufzeit geschehen, wodurch die Laufzeit sicherlich etwas erhöht wird, dafür dürfte die Aktualität der Berechnung etwas besser sein PageRank funktioniert zu aufwändig, um ein ständig aktualisiertes Ranking zu bieten, Google updated zb nur einmal alle paar Wochen PageRank und HITS sind beide anfällig für Manipulationsversuche, zb durch Linkfarmen oder Bannerwerbung, was sich allerdings bei PageRank weniger stark auswirkt und zudem durch Festlegung des Vektors E eingedämmt werden kann Mit diesem bietet sich mit PageRank auch eine sehr einfache Methode der Personalisierung, dh die Möglichkeit, den Algorithmus für einen bestimmten Benutzer anzupassen Beide Methoden sind anfällig für Abschweifungen vom eigentlichen Thema, PageRank funktioniert sogar völlig unabhängig von der Suchanfrage, beachtet also nichteinmal Themen In gewissen Maße löst HITS auch das Problem der Polyseme und der Synonyme, sofern man davon ausgeht, dass dieses Problem durch die Linkstruktur behandelt wird Die Betreiber von Internetseiten setzen links ja nicht entsprechend bestimmter Begriffe, sondern entsprechend bestimmter Themen Auch dies muß bei PageRank gesondert behandelt werden 5 Literatur [1] C Ding, X He, P Husbands, H Zha, H D Simon PageRank, HITS and a unified framework for link analysis, Proc ACM SIGIR Conf 2001 [2] L Page, S Brin, R Motwani, T Winograd, The PageRank citation ranking: Bringing order to the Web [] Jon M Kleinberg: Authoritative Sources in a Hyperlinked Environment Stanford Digital Library Technologies Project Journal of the ACM 1999 [4] Amy N Langville, Carl D Meyer: A Survey of Eigenvector Methods for Web Information Retrieval 11

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Thema 8: Verbesserte Suchstrategien im WWW Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Inhaltsverzeichnis 1. Einleitung 2. Grundlagen 3. Google PageRank Algorithmus 4. IBM Clever HITS Algorithmus

Mehr

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute 3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Das Prinzip der Suchmaschine Google TM

Das Prinzip der Suchmaschine Google TM /9 Das Prinzip der Suchmaschine Google TM Numerische Mathematik WS 20/2 Basieren auf dem Paper The $25,000,000,000 Eigenvector: The Linear Algebra behind Google von Kurt Bryan und Tanya Leise (SIAM Review,

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Informationstag für Gymnasiastinnen und Gymnasiasten Universität Fribourg (Schweiz) georges.klein@unifr.ch Fribourg, 24. November 2010 georges.klein@unifr.ch Die Mathematik

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Neustadt, 5. Dezember 05 Elemente einer Suchmaschine WWW Crawler Module Page Repository User query independent Indexing Module 000 000 000

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

D 1 D 2 D 3 D 4 D 5... D m S S S S n

D 1 D 2 D 3 D 4 D 5... D m S S S S n Page-Rank Wir wollte in einem Corpus von Texten, wie z.b. Bücher, Webseiten, Anleitung usw., nach bestimmten Inhalten aus einer Menge von Schlüsselworten suchen Sei S = {S,S,...,S n,s n } eine eine alphabeitsch

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss

HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss INHALT 1. Einführung 2. Algorithmus 3. Demo 4. Ergebnisse 5. Zusammenfassung 18.01.2016 2

Mehr

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg PageRank & HITS Christian Schwarz Andreas Beyer 02.02.2009 Information Retrieval Uni Heidelberg Lawrence Page Sergey Brin 2 Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen Teil Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 30. Mai 0 [Letzte Aktualisierung: 0/07/0, 06:4] /

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Closed Sets, Web Mining Katharina Morik, Claus Weihs 28.4.2015 Katharina Morik, Claus Weihs DMV 1 / 31 Gliederung 1 Closed Sets 2 Web Mining Finden von häufigen Subgraphen Ranking

Mehr

Diskrete Modellierung

Diskrete Modellierung Diskrete Modellierung Wintersemester 2013/14 Prof. Dr. Isolde Adler Letzte Vorlesung: Korrespondenz zwischen der Page-Rank-Eigenschaft und Eigenvektoren zum Eigenwert 1 der Page-Rank-Matrix Markov-Ketten

Mehr

Google PageRank vs. HITS

Google PageRank vs. HITS Google PageRank vs. HITS Seminar Information Retrieval Ulf Schmidt Übersicht Einführung Hyperlinked Induced Topic Search Google PageRank Vergleich Weiterentwicklungen Fazit Quellen 29/01/07 Information

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Eigenwerte und Netzwerkanalyse. Page Rank

Eigenwerte und Netzwerkanalyse. Page Rank A Google versucht die Bedeutung von Webseiten mithilfe des sogenannten zu ermitteln. Der einer Seite basiert ausschließlich auf der Verweisstruktur des Webs. Der Inhalt einer Seite hat dagegen keinen direkten

Mehr

PG520 - Webpageranking

PG520 - Webpageranking 12. Oktober 2007 Webpageranking - Quellen The PageRank citation ranking: Bringing order to the Web; Page, Brin etal. Technical report, 1998. A Unified Probabilistic Framework for Web Page Scoring Systems;

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2018/2019 1 / 40 Überblick Überblick Grundlegendes zu Markov-Ketten

Mehr

1 Informationssuche im Internet

1 Informationssuche im Internet 1 Informationssuche im Internet Das Internet enthält eine große Menge unterschiedlicher und sehr heterogener Daten, die in unterschiedlicher Art und Weise aufbereitet sind. Der interessante Teil des Internet

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

Lineare Algebra und analytische Geometrie II

Lineare Algebra und analytische Geometrie II Prof. Dr. H. Brenner Osnabrück SS 206 Lineare Algebra und analytische Geometrie II Vorlesung 54 Stochastische Matrizen Definition 54.. Eine reelle quadratische Matrix M a ij i,j n heißt spaltenstochastisch,

Mehr

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin Kapitel 1: PageRank:

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

DisMod-Repetitorium Tag 3

DisMod-Repetitorium Tag 3 DisMod-Repetitorium Tag 3 Markov-Ketten 21. März 2018 1 Markov-Ketten Was ist eine Markov-Kette? Was gehört alles dazu? Darstellung als Graph und als Matrix Stationäre Verteilung und Grenzverteilung Ergodizität

Mehr

Grundbegriffe der Informatik Musterlösung zu Aufgabenblatt 9

Grundbegriffe der Informatik Musterlösung zu Aufgabenblatt 9 Grundbegriffe der Informatik Musterlösung zu Aufgabenblatt 9 Aufgabe 9.1 (5+ Punkte) Für Graphen mit gewichteten Kanten steht in der Adjazenzmatrix an der Stelle i,j eine 0, falls es keine Kante von i

Mehr

Suchmaschinen und Markov-Ketten 1 / 42

Suchmaschinen und Markov-Ketten 1 / 42 Suchmaschinen und Markov-Ketten 1 / 42 Zielstellung 1 Wir geben einen kurzen Überblick über die Arbeitsweise von Suchmaschinen für das Internet. Eine Suchmaschine erwartet als Eingabe ein Stichwort oder

Mehr

Web Marshals Fighting Curly Link Farms

Web Marshals Fighting Curly Link Farms Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}

Mehr

15. Elementare Graphalgorithmen

15. Elementare Graphalgorithmen Graphen sind eine der wichtigste Modellierungskonzepte der Informatik Graphalgorithmen bilden die Grundlage vieler Algorithmen in der Praxis Zunächst kurze Wiederholung von Graphen. Dann Darstellungen

Mehr

6. Vorlesung. Rechnen mit Matrizen.

6. Vorlesung. Rechnen mit Matrizen. 6. Vorlesung. Rechnen mit Matrizen. In dieser Vorlesung betrachten wir lineare Gleichungs System. Wir betrachten lineare Gleichungs Systeme wieder von zwei Gesichtspunkten her: dem angewandten Gesichtspunkt

Mehr

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45 Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009

Mehr

Effiziente Algorithmen 2

Effiziente Algorithmen 2 Effiziente Algorithmen 2 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09 Web Algorithmen Ranking Dr. Michael Brinkmeier Technische Universität Ilmenau Institut für Theoretische Informatik Wintersemester 2008/09 M.Brinkmeier (TU Ilmenau) Web Algorithmen Wintersemester 2008/09

Mehr

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an.

Ein sortiertes Feld kann in O(log n) durchsucht werden, z.b. mit Binärsuche. Der Algorithmus 1 gibt den Pseudocode der binären Suche an. 2.5 Suchen Eine Menge S will nach einem Element durchsucht werden. Die Menge S ist statisch und S = n. S ist Teilmenge eines Universums auf dem eine lineare Ordnung definiert ist und soll so gespeichert

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Eigenwerte und Eigenvektoren von Matrizen

Eigenwerte und Eigenvektoren von Matrizen Eigenwerte und Eigenvektoren von Matrizen Betrachtet wird eine (n,n)-matrix A. Eine Zahl λ heißt Eigenwert von A, wenn ein Vektor v existiert, der nicht der Nullvektor ist und für den gilt: A v = λ v.

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

47 Singulärwertzerlegung

47 Singulärwertzerlegung 47 Singulärwertzerlegung 47.1 Motivation Wir haben gesehen, dass symmetrische Matrizen vollständig mithilfe ihrer Eigenwerte und Eigenvektoren beschrieben werden können. Diese Darstellung kann unmittelbar

Mehr

Effiziente Algorithmen I

Effiziente Algorithmen I 9. Präsenzaufgabenblatt, WiSe 2013/14 Übungstunden am 13.01. & 15.01.2014 Aufgabe Q Gegeben sei ein Fluss-Netzwerk mit Digraph D = (V, A), Knotenkapazitäten c(u, v) 0, Quelle s und Senke t. Kann sich der

Mehr

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23. Google s PageRank Eine Anwendung von Matrizen und Markovketten Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23. September 2009 Dr. Werner Sandmann Institut für Mathematik Technische Universität

Mehr

Eigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009

Eigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009 Eigenwerte Vorlesung Computergestützte Mathematik zur Linearen Algebra Lehrstuhl für Angewandte Mathematik Sommersemester 2009 25. Juni + 2.+9. Juli 2009 Grundlagen Definition Ist für A C n,n, Ax = λx

Mehr

Algorithmische Bioinformatik 1

Algorithmische Bioinformatik 1 Algorithmische Bioinformatik 1 Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Sommersemester 2009 Übersicht Algorithmen

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Technische Universität München Fakultät für Informatik Lehrstuhl für Effiziente Algorithmen Dr. Hanjo Täubig Tobias Lieber Sommersemester 2011 Übungsblatt 1 16. September 2011 Grundlagen: Algorithmen und

Mehr

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen

Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen Technische Universität Wien Institut für Computergraphik und Algorithmen Arbeitsbereich für Algorithmen und Datenstrukturen 186.172 Algorithmen und Datenstrukturen 1 VL 4.0 Übungsblatt 4 für die Übung

Mehr

2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1}

2. Entsprechende Listen P i von Vorgängern von i 3. for i := 1 to n do. (ii) S i = Knoten 2 + 1} 1. Berechne für jeden Knoten i in BFS-Art eine Liste S i von von i aus erreichbaren Knoten, so dass (i) oder (ii) gilt: (i) S i < n 2 + 1 und Si enthält alle von i aus erreichbaren Knoten (ii) S i = n

Mehr

Websuche. Linkanalyse

Websuche. Linkanalyse Websuche Linkanalyse 1 Bibliometrik: Zitatanalyse Viele Dokumente enthalten Bibliographien (oder Referenzen), d.h. eindeutige Zitierungen anderer vorher veröffentlichter Dokumente. Bei Verwendung von Zitaten

Mehr

Wintersemester 2004/ Februar 2005

Wintersemester 2004/ Februar 2005 Lehrstuhl für Praktische Informatik III Norman May B6, 29, Raum C0.05 68131 Mannheim Telefon: (0621) 181 2517 Email: norman@pi3.informatik.uni-mannheim.de Matthias Brantner B6, 29, Raum C0.05 68131 Mannheim

Mehr

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48 Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009

Mehr

Einwegfunktionen. Problemseminar. Komplexitätstheorie und Kryptographie. Martin Huschenbett. 30. Oktober 2008

Einwegfunktionen. Problemseminar. Komplexitätstheorie und Kryptographie. Martin Huschenbett. 30. Oktober 2008 Problemseminar Komplexitätstheorie und Kryptographie Martin Huschenbett Student am Institut für Informatik an der Universität Leipzig 30. Oktober 2008 1 / 33 Gliederung 1 Randomisierte Algorithmen und

Mehr

Lineare Algebra und Numerische Mathematik für D-BAUG

Lineare Algebra und Numerische Mathematik für D-BAUG P. Grohs T. Welti F. Weber Herbstsemester 5 Lineare Algebra und Numerische Mathematik für D-BAUG ETH Zürich D-MATH Beispiellösung für Serie Aufgabe. Skalarprodukt und Orthogonalität.a) Bezüglich des euklidischen

Mehr

Basiswissen Matrizen

Basiswissen Matrizen Basiswissen Matrizen Mathematik GK 32 Definition (Die Matrix) Eine Matrix A mit m Zeilen und n Spalten heißt m x n Matrix: a a 2 a 4 A a 2 a 22 a 24 a 4 a 42 a 44 Definition 2 (Die Addition von Matrizen)

Mehr

Theoretische Informatik 1

Theoretische Informatik 1 Theoretische Informatik 1 Search - Beweis der Korrektheit David Kappel Institut für Grundlagen der Informationsverarbeitung TU Graz SS 2013 Algemeine Anmerkungen zur Übung 9 Aufgabenblätter, 3 Abgabetermine

Mehr

D-INFK Lineare Algebra HS 2014 Roman Glebov Marc Pollefeys. Serie 13

D-INFK Lineare Algebra HS 2014 Roman Glebov Marc Pollefeys. Serie 13 D-INFK Lineare Algebra HS 2014 Roman Glebov Marc Pollefeys Serie 13 1. Um einen Tisch sitzen 7 Zwerge. Vor jedem steht ein Becher mit Milch. Einer der Zwerge verteilt seine Milch gleichmässig auf alle

Mehr

Hyperlink Induced Topic Search (HITS)

Hyperlink Induced Topic Search (HITS) Erweiterungen des Ekaterina Tikhoncheva Seminar Information Retrieval Universität Heidelberg 19.01.2014 Agenda Einführung Erweiterungen des 1 Einführung 2 3 Schritt 1 Schritt 2 Konvergenz 4 5 Erweiterungen

Mehr

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 Prof. Dr. Gerd Stumme, Wi.-Inf. Beate Krause 15. Juli 2009 1 Bibliometrische Maße 1. Inwiefern sind Ko-Zitation und Kopplung symmetrische

Mehr

Informatik II, SS 2014

Informatik II, SS 2014 Informatik II SS 2014 (Algorithmen & Datenstrukturen) Vorlesung 20 (23.7.2014) All Pairs Shortest Paths, String Matching (Textsuche) Algorithmen und Komplexität Vorlesungsevaluation Sie sollten alle eine

Mehr

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19

Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 4-1 4-2 Data Mining Übersicht Hochdimension.

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60

Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60 Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester

Mehr

Iterative Methoden zur Lösung von linearen Gleichungssystemen

Iterative Methoden zur Lösung von linearen Gleichungssystemen Iterative Methoden zur Lösung von linearen Gleichungssystemen (13.12.2011) Ziel Können wir wir die zeitabhängige Schrödinger-Gleichung lösen? φ(t) = e iht ψ(0) Typischerweise sind die Matrizen, die das

Mehr

Gambler s Ruin. B ist die Bank ) 4/40

Gambler s Ruin. B ist die Bank ) 4/40 Gambler s Ruin Zwei Spieler A und B spielen ein Spiel um m Franken. Spieler A hat a Franken, Spieler B hat b = m a Franken. In jeder Runde wird um 1 Franken gespielt. A gewinnt eine Runde mit W keit p,

Mehr

ADS 2: Algorithmen und Datenstrukturen

ADS 2: Algorithmen und Datenstrukturen ADS : Algorithmen und Datenstrukturen Teil 3 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 7. April 09 [Letzte Aktualisierung: 3/0/09, 09:]

Mehr

c i u i. (10.2) x = i

c i u i. (10.2) x = i Kapitel 0 Von Mises Wielandt Verfahren Im Folgenden wollen wir uns ausschließlich auf reelle, symmetrischen Matrizen der Ordnung n beschränken. Wie im letzten Kapitel diskutiert, sind für solche Matrizen

Mehr

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Hauptachsentransformation: Eigenwerte und Eigenvektoren Hauptachsentransformation: Eigenwerte und Eigenvektoren die bisherigen Betrachtungen beziehen sich im Wesentlichen auf die Standardbasis des R n Nun soll aufgezeigt werden, wie man sich von dieser Einschränkung

Mehr

Ranking am Beispiel von Google (1998):

Ranking am Beispiel von Google (1998): Ranking am Beispiel von Google (1998): So heute (lange) nicht mehr, aber wenigstens konkret, wie es prinzipiell gehen kann. Und Grundschema bleibt dasselbe. Zwei Komponenten (genaue Kombination unbekannt):

Mehr

Beschleunigung von kräftebasierten Graphzeichenalgorithmen mittels wohlseparierten Paardekompositionen

Beschleunigung von kräftebasierten Graphzeichenalgorithmen mittels wohlseparierten Paardekompositionen Bachelorkolloquium Beschleunigung von kräftebasierten Graphzeichenalgorithmen mittels wohlseparierten Paardekompositionen von Johannes Zink Übersicht 1. Grundlagen 1.1 Kräftebasierte Graphzeichenalgorithmen

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Kapitel 6 Lineare Gleichungssysteme 6. Gaußalgorithmus Aufgabe 6. : Untersuchen Sie die folgenden linearen Gleichungssysteme mit dem Gaußalgorithmus auf Lösbarkeit und bestimmen Sie jeweils die Lösungsmenge.

Mehr

Algorithmen & Komplexität

Algorithmen & Komplexität Algorithmen & Komplexität Angelika Steger Institut für Theoretische Informatik steger@inf.ethz.ch Kürzeste Pfade Problem Gegeben Netzwerk: Graph G = (V, E), Gewichtsfunktion w: E N Zwei Knoten: s, t Kantenzug/Weg

Mehr

Kryptographische Protokolle

Kryptographische Protokolle Kryptographische Protokolle Lerneinheit 2: Generierung von Primzahlen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Wintersemester 2018/2019 15.11.2018 Einleitung Einleitung Diese Lerneinheit

Mehr

verschiedenen Recheneinheiten, die miteinander kommunizieren können

verschiedenen Recheneinheiten, die miteinander kommunizieren können Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 293 Lastbalancierung Motivation Ein paralleles System besteht aus verschiedenen Recheneinheiten, die miteinander kommunizieren können Warum parallel

Mehr

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten 7. Vorlesung Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten Seite 179 Web als ein Soziales Netzwerk Small-world Netzwerk: Niedriger (Durchschnitts) Durchmesser

Mehr

Heuristische Verfahren

Heuristische Verfahren Heuristische Verfahren Bei heuristischen Verfahren geht es darum in polynomieller Zeit eine Näherungslösung zu bekommen. Diese kann sehr gut oder sogar optimal sein, jedoch gibt es keine Garantie dafür.

Mehr

Eigenwerte und Eigenvektoren

Eigenwerte und Eigenvektoren Eigenwerte und Eigenvektoren Siehe Analysis (von der Hude, Folie 20: Definition 2.3. Ein Vektor x R n heißt Eigenvektor der quadratischen n n-matrix A zum Eigenwert λ R, wenn gilt Ax = λx Die Eigenwerte

Mehr

9. Vorlesung Lineare Algebra, SVD und LSI

9. Vorlesung Lineare Algebra, SVD und LSI 9. Vorlesung Lineare Algebra, SVD und LSI Grundlagen lineare Algebra Vektornorm, Matrixnorm Eigenvektoren und Werte Lineare Unabhängigkeit, Orthogonale Matrizen SVD, Singulärwerte und Matrixzerlegung LSI:Latent

Mehr

3 Konstruktion einer f.s. konvergente Folge

3 Konstruktion einer f.s. konvergente Folge 1 Einleitung Wir wollen uns mit stochastischen Gleichungen der Form R d = Q + C i R i (1.1 beschäftigen, wobei,q,(r i i 1,(C, C i i 1 stochastisch unabhängige nichtnegative Zufallsgrößen seien, (C, C i

Mehr

Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013

Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013 Das Pagerank-Verfahren (und Markovketten) 16. Dezember 2013 Gegeben: Eine Sammlung von N Web-Seiten, die (teilweise) { untereinander verlinkt sind. 1 wenn Seite i auf Seite j verweist Sei L ij = 0 sonst

Mehr

eine vom Nullvektor verschiedene Lösung hat. r heisst in diesem Fall Eigenvektor der Matrix A zum Eigenwert λ.

eine vom Nullvektor verschiedene Lösung hat. r heisst in diesem Fall Eigenvektor der Matrix A zum Eigenwert λ. Eigenwert, Eigenvektor In der Regel hat bei einer linearen Abbildung das Bild eines Vektors eine andere Richtung als das Original r. Bei der Untersuchung der geometrischen Eigenschaften von linearen Abbildungen

Mehr

3.6 Eigenwerte und Eigenvektoren

3.6 Eigenwerte und Eigenvektoren 3.6 Eigenwerte und Eigenvektoren 3.6. Einleitung Eine quadratische n n Matrix A definiert eine Abbildung eines n dimensionalen Vektors auf einen n dimensionalen Vektor. c A x c A x Von besonderem Interesse

Mehr

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand

UNABHÄNGIGER LASTEN. Vorlesung 9 BALANCIERUNG DYNAMISCHER. Graphenalgorithmen und lineare Algebra Hand in Hand Vorlesung 9 BALANCIERUNG DYNAMISCHER UNABHÄNGIGER LASTEN 266 Lastbalancierung Motivation! Ein paralleles System besteht aus! verschiedenen Recheneinheiten,! die miteinander kommunizieren können! Warum

Mehr

Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 1: Grundlagen der algorithmischen Graphentheorie

Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 1: Grundlagen der algorithmischen Graphentheorie Ferienkurs zur algorithmischen diskreten Mathematik Kapitel 1: Grundlagen der algorithmischen Graphentheorie Dipl-Math. Wolfgang Kinzner 2.4.2012 Kapitel 1: Grundlagen der algorithmischen Graphgentheorie

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Die Forschungsuniversität Meyerhenke, in der Institut für Theoretische Informatik

Mehr

Analytische Lösung algebraischer Gleichungen dritten und vierten Grades

Analytische Lösung algebraischer Gleichungen dritten und vierten Grades Analytische Lösung algebraischer Gleichungen dritten und vierten Grades Inhaltsverzeichnis 1 Einführung 1 2 Gleichungen dritten Grades 3 3 Gleichungen vierten Grades 7 1 Einführung In diesem Skript werden

Mehr

Algorithmen und Datenstrukturen 2

Algorithmen und Datenstrukturen 2 Algorithmen und Datenstrukturen Lerneinheit : Kürzeste Pfade in Graphen Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 016.6.01 Einleitung Diese Lerneinheit beschäftigt

Mehr

Lernmodul 7 Algorithmus von Dijkstra

Lernmodul 7 Algorithmus von Dijkstra Folie 1 von 30 Lernmodul 7 Algorithmus von Dijkstra Quelle: http://www.map24.de Folie 2 von 30 Algorithmus von Dijkstra Übersicht Kürzester Weg von A nach B in einem Graphen Problemstellung: Suche einer

Mehr

3.3 Optimale binäre Suchbäume

3.3 Optimale binäre Suchbäume 3.3 Optimale binäre Suchbäume Problem 3.3.1. Sei S eine Menge von Schlüsseln aus einem endlichen, linear geordneten Universum U, S = {a 1,,...,a n } U und S = n N. Wir wollen S in einem binären Suchbaum

Mehr

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8

Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 ETH Zürich Institut für Theoretische Informatik Prof. Dr. Angelika Steger Florian Meier, Ralph Keusch HS 2017 Algorithmen und Komplexität Lösungsvorschlag zu Übungsblatt 8 Lösungsvorschlag zu Aufgabe 1

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Christian Serpé Universität Münster 14. September 2011 Christian Serpé (Universität Münster) 14. September 2011 1 / 56 Gliederung 1 Motivation Beispiele Allgemeines Vorgehen 2 Der Vektorraum R n 3 Lineare

Mehr

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015 Inhalt Mathematik für Chemiker II Lineare Algebra Vorlesung im Sommersemester 5 Rostock, April Juli 5 Vektoren und Matrizen Abbildungen 3 Gleichungssysteme 4 Eigenwerte 5 Funktionen mehrerer Variabler

Mehr