Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19

Größe: px
Ab Seite anzeigen:

Download "Data Mining 4-1. Kapitel 4: Link Analysis. Johannes Zschache Wintersemester 2018/19"

Transkript

1 Data Mining Kapitel 4: Link Analysis Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig Data Mining 4-1

2 4-2 Data Mining Übersicht Hochdimension. Daten Locality sensitive hashing Clustering Dimension. reduction Graphdaten PageRank, SimRank Network Analysis Spam Detection Unbegrenzte Daten Filtering data streams Web advertising Queries on streams Maschinelles Lernen Support Vector Machines Decision Trees Nearest Neighbors Anwendung Recommen. Systems Association Rules Duplicate document detection

3 Graphdaten: World Wide Web Das Web als ein gerichteter Graph: Knoten: Webseiten Kanten: Hyperlinks I teach a class on Networks. CS224W: Classes are in the Gates building Computer Science Department at Stanford Stanford University Data Mining 4-8

4 World Wide Web Wie kann das Web organisiert werden? 1. Versuch: Webverzeichnis: Yahoo, Curlie (DMOZ) 2. Versuch: Suchmaschine Webcrawler durchlaufen Web Inverted Index für Suchanfragen Herausforderungen für Suchmaschinen 1. Welche Seiten sind vertrauenswürdig und enthalten tatsächlich die relevanten Informationen zu einer Anfrage? 2. Welches ist die beste Antwort auf eine Anfrage? Verwendung der Hyperlink-Struktur um die Bedeutung einer Webseite zu ermitteln PageRank Themenspezifischer PageRank Web Spam Detection Data Mining 4-9

5 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-10

6 PageRank Idee: Webseite ist wichtig, falls sie von vielen Nutzern besucht wird Anstatt das Verhalten direkt zu beobachten, wird angenommen, dass Nutzer den Hyperlinks zufällig folgen: Random-Surfer-Model Beginne auf einer beliebigen Seite Wiederhole: Folge einem zufällig ausgewählten Hyperlink dieser Seite PageRank einer Webseite: Wahrscheinlichkeit, dass ein Random-Surfer diese Webseite besucht Folgerungen: Webseite ist wichtig (hoher PageRank), falls viele Hyperlinks auf sie verweisen Hyperlinks von wichtigen Webseiten haben höheres Gewicht Rekursion: Gewicht einer Webseite ist aus den Gewichten der verweisenden Webseiten zusammengesetzt Data Mining

7 PageRank: Einfache Rekursion PageRank: d i : Anzahl der Hyperlinks (Outdegree) von i i j: Summe läuft über alle verweisenden Webseiten Sei n die Anzahl der Knoten (Webseiten) Lineares Gleichungssystem aus n Gleichungen und n Unbekannten r j Eindeutige Lösung falls Einschränkung auf σ j r j = 1 i j d i r j = r i 3 + r k 4 Gaußsches Eliminationsverfahren nur bei Graphen mit kleinem n möglich Alternative Berechnung für riesigen Webgraph notwendig r i Data Mining 4-12 i j r i 3 r j 3 k r k 4

8 PageRank: Matrixformulierung Stochastische Adjazenzmatrix M Hinweise: 1, M ij = d j j i 0, sonst M ij gibt die Wahrscheinlichkeit, das ein Random-Surfer den Link von j nach i wählt M ij ist unabhängig von der Anzahl der Hyperlinks von j nach i Für den PageRank-Vektor r = r 1, r 2,, r T n gilt: r = M r j r i = i. r j Data Mining 4-13

9 PageRank: Power Iteration Method Random Surfer/Random Walk Sei v = v 1, v 2,, v n T ein Vektor dessen ite Komponente die Wahrscheinlichkeit angibt, ob sich der Random Surfer zu einem gegebenen Zeitpunkt auf Seite i befindet Power Iteration: Zu Beginn: v (0) = 1, 1,, 1 n n n Iteration: v (t+1) = M v (t) Stopp, falls v (t+1) v t < ε T M t v (0) gibt Wahrscheinlichkeit, ob sich Random-Surfer zum Zeitpunkt t auf einer Seite i = 1,, n befindet Falls Algorithmus konvergiert gilt (mit r = M r): log t M t v (0) = r Data Mining 4-14

10 Beispiel: Mini-WWW Yahoo y a m y 1/2 1/2 0 a 1/2 0 1 m 0 1/2 0 Amazon M soft Data Mining 4-15

11 Beispiel: Mini-WWW Iteration v (t+1) = M v (t) mit v (t) = y (t), a (t), m (t) y (t+1) = 1 2 y(t) a(t) a (t+1) = 1 2 y(t) + m (t) m (t+1) = 1 2 a(t) y a m y 1/2 1/2 0 a 1/2 0 1 m 0 1/2 0 y a = m /2 1/2 5/4 1 3/4 9/8 11/8 1/2... 6/5 6/5 3/5 Data Mining 4-16

12 Beispiel: Mini-WWW Yahoo Amazon M soft Data Mining 4-17

13 Beispiel: Mini-WWW Yahoo Amazon M soft Data Mining 4-18

14 Beispiel: Mini-WWW Yahoo Amazon M soft Data Mining 4-19

15 Beispiel: Mini-WWW Yahoo Amazon M soft Data Mining 4-20

16 Beispiel: Mini-WWW Yahoo Amazon M soft Data Mining 4-21

17 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-22

18 PageRank: Probleme Konvergenz der Power-Iteration-Method ist nicht sicher Das reale WWW ist komplex Sackgasse Sackgassen: Webseiten ohne Hyperlinks Random-Surfer kann Sackgasse nicht verlassen Gewichtungen verschwinden über Sackgasse Spider Traps: Gruppen von Webseiten ohne ausgehende Hyperlinks Random-Surfer kann Gruppe nicht verlassen Gewichtungen konzentrieren sich auf Gruppe Data Mining 4-23

19 Problem: Sackgasse Yahoo y a m y 1/2 1/2 0 a 1/2 0 0 m 0 1/2 0 Amazon M soft Data Mining 4-24

20 Problem: Sackgasse Yahoo Amazon M soft Data Mining 4-25

21 Problem: Sackgasse Yahoo Amazon M soft Data Mining 4-26

22 Problem: Sackgasse Yahoo Amazon M soft Data Mining 4-27

23 Problem: Sackgasse Yahoo Amazon M soft Data Mining 4-28

24 Problem: Sackgasse Yahoo Amazon M soft Data Mining 4-29

25 Problem: Spider Trap Yahoo y a m y 1/2 1/2 0 a 1/2 0 0 m 0 1/2 1 Amazon M soft Data Mining 4-30

26 Problem: Spider Trap Yahoo Amazon M soft Data Mining 4-31

27 Problem: Spider Trap Yahoo Amazon M soft Data Mining 4-32

28 Problem: Spider Trap Yahoo Amazon M soft Data Mining 4-33

29 Problem: Spider Trap Yahoo Amazon M soft Data Mining 4-34

30 Lösung: Teleports PageRank [Brin & Page, 1998, r j = i j β r i d i + (1 β) 1 n Mit Wahrscheinlichkeit β, folge einem zufällig gewählten Hyperlink Mit Wahrscheinlichkeit 1 β, wechsel zu einer zufälligen Seite Ausnahme: falls Knoten eine Sackgasse, wechsel mit Wahrscheinlichkeit 1 zu einer zufälligen Seite Gewöhnlich setzt man β auf einen Wert zwischen 0.8 und 0.9 y y a m a m Data Mining 4-35

31 Lösung: Teleports ( = 0.8) y 7/15 M 1/2 1/ / /2 1 [1/n] nxn 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 a m 13/15 = y 7/15 7/15 1/15 a 7/15 1/15 1/15 m 1/15 7/15 13/15 y a = m 1/3 1/3 1/ /33 5/33 21/33 Data Mining 4-36

32 PageRank: Vollständiger Algorithmus Eingabe: Gerichteter Graph G (inkl. Sackgassen und Spider Traps) Parameter β Ausgabe: PageRank Vector r new Setze: r j old = 0, r j new = 1 N Wiederhole solange σ j r j new r j old > ε r old = r new j: r j new = σ i j β r i old S = σ j r j new j: r j new += 1 S N d i Data Mining 4-37

33 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-38

34 Effiziente Berechnung des PageRank Matrix-Vektor-Produkt über MapReduce Problem: PageRank-Vektor r old passt nicht in Hauptspeicher Mind. 1 Billion (10 12 ) Webseiten Einfache/doppelte Genauigkeit für Wert: 4 Byte/8 Byte 4TB/8TB Speicherbedarf für Vektor Unterteilung des Vektors r old in Abschnitte Ein Map-Task ist nur für einen Teil des Vektors zuständig Ein Map-Task benötigt nur einen vertikale Streifen der Matrix M Zusätzlich: 1. Effizientere Repräsentation der Matrix M möglich da spärlich besetzt und nur zwei verschiedene Werte pro Spalte 2. Unterteilung des neuen Vektors r new in Abschnitte Ein Map-Task ist nur für einen Teil des Vektors zuständig Ein Map-Task benötigt nur einen Teil der Matrix Data Mining 4-39

35 Effiziente Repräsentation der Matrix M Für jede Spalte: Speichere d i (Anzahl der Hyperlinks) und Liste der Zeilen mit einem Wert ungleich Null: dest 1,,dest di Mind. 1 Billion (10 12 ) Webseiten: 4 Byte für d i 8 Byte pro Zeilennummer Durchschnittlich 10 Hyperlinks pro Seite: = 84TB Webseite i d i dest 1,,dest di 0 3 1, 5, , 64, 113, , Data Mining 4-40

36 Effiziente Repräsentation der Matrix M Angenommen r new passt in Hauptspeicher Anpassung der Berechnung des PageRank: Initialisiere r j new = 0 Für jede Webseite i : Lese von Festplatte d i dest 1,,dest di, r i old Für j = 1 d i : r new destj += β r i old d i Für alle j: r new j += 1 S mit S = σ new N j r j r new i d i dest 1,,dest di 0 3 1, 5, , 64, 113, , r old Data Mining 4-41

37 Blocking Auch r new passt nicht vollständig in Hauptspeicher Unterteilung von sowohl r old als auch r new in k Blöcke der Länge l Unterteilung der Matrix in Quadrate der Länge l Wähle k so, dass von beiden Vektoren ein Block in Hauptspeicher passt Hinweis: Ein Quadrat der Matrix muss nicht vollständig in Hauptspeicher liegen und kommt somit mit weniger Speicher aus r new r old w 1 M 11 M 12 M 13 v 1 w 2 = M 21 M 22 M 23 v 2 w 3 M 31 M 32 M 33 v 3 Data Mining 4-42

38 Blocking: Matrixrepräsentation r new i d i dest 1,,dest di 0 4 0, r old Data Mining 4-43

39 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-44

40 Themenspezifischer PageRank PageRank misst die allgemeine Beliebtheit einer Webseite und vernachlässigt somit evtl. wichtige themenspezifische Quellen Ziel: Bewertung von Webseiten nicht nur nach Popularität, sondern auch nach Thema, z.b. Wissenschaft, Kunst, Natur, Motorsport, Berücksichtigung der Interessen eines Nutzers bei Suchanfragen Beispiel: Anfrage nach Jaguar soll, je nach Interesse des Nutzers, entweder zu Webseiten mit Tieren oder mit Autos führen Idee: Verwendung des Teleporting um eine höhere Gewichtung für themenspezifischen Seiten zu erlangen Menge S mit themenspezifischen Seiten Beim Teleporting eines Random-Surfer: Wähle zufällig eine Seite aus S Auch Webseiten in der Nähe von Elementen aus S werden höher gewichtet Einen PageRank-Vektor r (S) für jedes S Falls jεs: r j (S) = σi j β r i d i + (1 β) 1 S ; Sonst: r j (S) = σi j β r i d i Data Mining 4-45

41 Beispiel: S = {M soft} Yahoo Teleporting Amazon M soft Data Mining 4-46

42 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-47

43 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-48

44 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-49

45 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-50

46 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-51

47 Beispiel: S = {M soft} Yahoo Amazon M soft Data Mining 4-52

48 Zusammenstellen der Menge S Verwendung der Themen und gesammelten Seiten eines Webverzeichnisses, z.b. Curlie (DMOZ) Erweiterung über Jaccard-Metrik unter Verwendung typischer Worte : Wörter, die generell selten aber relative häufig in einem Dokument eines bestimmten Themas vorkommen z.b. über Tf-idf-Maß f ij : Häufigkeit des Terms i in Dokument j Relative Häufigkeit des Terms i in Dokument j: TF ij = f ij N Dokumente und n i bezeichnet die Anzahl der Dokumente, die Term i enthalten Inverse Dokumenthäufigkeit: IDF i = log 2 N TF. IDF ij = TF ij IDF i Auch die Interessen eines Nutzers können über diese Methode erschlossen werden: Wörter in vergangenen Anfragen, Wörter auf Seiten mit Bookmark, Wörter auf aktuellen Seite (von wo Anfrage gesendet) Data Mining 4-53 n i max k f kj

49 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-54

50 SimRank Konferenz Wissenschaftler Ähnlichkeit im Graph: 2 Knoten sind ähnlich, falls sie mit gleichen Knoten verbunden sind z.b. in k-partiten Graphen: k verschiedene Arten von Knoten und Kanten verlaufen ausschließlich zwischen Knoten unterschiedlicher Art, z.b. Studenten und Vorlesungen/Vereine Wissenschaftler und Konferenzen/Artikel SimRank: Themenspezifischer PageRank mit S = {u} u ist ein Knoten des Graphen Ergebnis gibt die Ähnlichkeit zwischen allen Knoten und u Problem: PageRank-Algorithmus muss für alle Knoten wiederholt werden IJCAI KDD ICDM SDM AAAI NIPS KDD SDM CIKM ECML PKDD ICDM Philip S. Yu Ning Zhong R. Ramakrishnan M. Jordan PAKDD ICML ICDE SIGMOD DMKD Data Mining 4-55

51 Beispiel: SimRank (β = 0. 8) Gus CS246 Ann CS Sue Ma55 Joe Data Mining 4-56

52 Beispiel: SimRank (β = 0. 8) Gus CS246 Ann CS Sue Ma Joe Data Mining 4-57

53 Beispiel: SimRank (β = 0. 8) Gus CS Ann CS Sue Joe Ma Data Mining 4-58

54 Beispiel: SimRank (β = 0. 8) Gus CS Ann CS Sue Joe Ma Data Mining 4-59

55 Beispiel: SimRank (β = 0. 8).019 Gus CS Ann CS Sue Ma Joe Data Mining 4-60

56 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-61

57 Web Spamming Spamming: alle Unternehmungen um eine Webseite im Ranking einer Suchmaschine zu verbessern ohne die Bedeutung der Seite für eine Suchanfrage zu erhöhen Term-Spamming: Manipulation des Inhalts einer Webseite Beispiel: ein Verkäufer von T-Shirts lässt seine Webseite so aussehen, als ob interessante Information zu Sport/Filmen zu finden sind Einfügen von relevanten Wörtern bzw. einer vollständigen Kopie einer relevanten Webseite und ändern der Textfarbe auf Hintergrundfarbe Lösung von Google: Anstelle der Textes einer Webseite, Verwendung des Textes in und um Verlinkungen zu einer Webseite PageRank verhindert den Versuch diese Lösung zu umgehen, indem man tausende irrelevante Seiten mit Verlinkungen auf Zielseite erstellt Link-Spamming: Erstellen einer Struktur von Verlinkungen um PageRank zu erhöhen Data Mining 4-62

58 Google-Bombe (2006) Data Mining 4-63

59 Link-Spamming Aus Sicht des Spammer: 3 Arten von Webseiten Unerreichbare Seiten Erreichbare/editierbare Seiten (z.b. über Kommentare auf Blogs/Nachrichtenseiten) Eigene Seiten Vorgehen: Möglichst viele Verlinkungen von erreichbaren Seiten zur Zielseite t Erstellen einer Link-Farm um PageRank weiter zu erhöhen Erreichbar Eigene Unerreichbar t 1 2 Link-Farm M Data Mining 4-64

60 Funktionsweise der Link-Farm PageRank-Gewicht aus den erreichbaren Seiten: x PageRank der Zielseite t: y Anzahl themenrelevanter Seiten: N PageRank einer der insgesamt M Farm-Seiten: βy + 1 β M N Dann: y = x + βm βy M + 1 β N + 1 β N = x + β2 y + β 1 β M N + 1 β N y = Vervielfachung von x x 1 β 2 + β 1 + β Beliebig großes y durch großes M M N + 1 (1 + β)n Vernachlässigbar Data Mining 4-65

61 TrustRank Google erkennt das klassische Design einer Link-Farm und wird die Webseiten aus dem Index entfernen Außerdem versucht Google neue Designs zu erkennen Krieg zwischen Google und Spammer Alternative: Verwendung des TrustRank: Themenspezifischer PageRank mit einer Auswahl vertrauenswürdiger Seiten als Menge S Prinzip: Vertrauenswürdige Seiten verlinken selten auf Spam Vertrauen in beliebige Seite nimmt ab mit Entfernung zu vertrauenswürdiger Seite Vertrauen wird über alle Verlinkungen aufgeteilt da viele Verlinkungen oft mit einer ungenaueren Prüfung dieser einhergeht Auswahl der vertrauenswürdigen Seiten (ohne menschliche Inspektion): Seiten mit sehr hohem PageRank Verwendung vertrauenswürdiger Domains, z.b..edu,.gov, Spam Mass = (PageRank TrustRank)/PageRank ist Indikator für Link- Spam (wieviel PageRank-Gewicht aus vertrauensunwürdigen Quellen) Data Mining 4-66

62 Inhaltsverzeichnis Graphdaten und die Organisation des World Wide Web PageRank Probleme Effiziente Berechnung Themenspezifischer PageRank SimRank Link-Spam und TrustRank HITS: Hubs and Authorities Data Mining 4-67

63 Hubs and Authorities HITS (Hypertext-Induced Topic Selection) Maße für die Relevanz von Webseiten Alternative zum PageRank Anstatt nach relevanten Webseiten direkt zu suchen: Suche nach Experten, die auf relevante Webseiten verweisen Jede Seite hat 2 Werte: Hub-Wert: Eigenschaft als Experte Authority-Wert: Maß an nützlichen Inhalt Rekursive Definition: Hub-Wert = Summe der Authority-Werte der verlinkten Seiten Authority-Wert = Summe der Hub-Werte der verlinkenden Seiten Beispiele: Authorities: Webseite einer Zeitung, Vorlesung, Unternehmen Hubs: Liste aller Zeitungen, Vorlesungsverzeichnis, Liste aller Unternehmen, Data Mining 4-68

64 Beispiel Data Mining 4-69

65 Beispiel Data Mining 4-70

66 Beispiel Data Mining 4-71

67 Beispiel Data Mining 4-72

68 Hubs and Authorities Jeder Knoten i hat zwei Werte [Kleinberg 98] j 1 j 2 j 3 j 4 Authority-Wert: a i Hub-Wert: h i HITS-Algorithmus: Initialisierung: a j (0) = 1/ N, hj (0) = 1/ N Iteration: i: a i (t+1) = σj i h j (t) i: h i (t+1) = σi j a j (t) Normalisierung: σ i a i t+1 2 = 1, σ j h j t+1 2 = 1 Auch andere Normalisierung möglich, wichtig ist die Richtung und nicht die Länge des Vektors (relative Größe der Werte) i a i = j i h j i j 1 j 2 j 3 j 4 h i = i j a j Data Mining 4-73

69 Hubs and Authorities [Kleinberg 98] Matrixnotation: Vektoren: a = (a 1,, a n ), h = (h 1,, h n ) 1, i j Adjazenzmatrix A (n n): A ij = ቊ 0, sonst Dann: h = A a und a = A T h h = A (A T h) = (A A T ) h a = A T A a = A T A a Unter angemessenen Bedingungen konvergiert HITS zu den Eigenvektoren h und a von (A A T ) bzw. (A T A) Data Mining 4-74

70 Beispiel: HITS A = A T = Yahoo Amazon M soft h(yahoo) h(amazon) h(m soft) = = = a(yahoo) =.58 a(amazon) =.58 a(m soft) = Data Mining 4-75

71 Referenzen, Beispiele, Übungen Kapitel 5 aus Mining of Massive Datasets : Übungen: PageRank: 5.1.1, Spärlich besetzte Matrix: 5.2.1, Themenspezifischer PageRank: ( = 0.8) Data Mining 4-76

72 Übung a b c a 1/3 1/2 0 b 1/3 0 1/2 c 1/3 1/2 1/2 a b = c 1/3 1/3 1/3 5/18 5/18 8/18 25/108 34/108 49/ /13 4/13 6/13 Data Mining 4-78

73 Übung ( = 0.8) M 0.8 1/3 1/2 0 1/3 0 1/ /3 1/2 1/2 [1/n] nxn 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 = 1/3 7/15 1/15 1/3 1/15 7/15 1/3 7/15 7/15 a b = c 1/3 1/3 1/3 13/45 13/45 19/45 175/ / / /81 25/81 35/81 Data Mining 4-80

74 Übung Bit-Repräsentation: n 2 Bit Speicherplatz Anzahl der Einsen: e Spärliche Repräsentation: e 2 log n e 2 log n < n 2 e n 2 < 1 2 log n Übung A 3 B B 2 A C 0 D 2 B A 3 C,D B 2 D C 0 D 2 C Data Mining 4-83

75 Übung ( = 0.8) Teil a) M 0 1/ / /2 1/ / /3 1/ = 1/5 3/5 1 1/5 4/ /5 4/ /5 4/15 2/5 0 0 A B C D 1/4 1/4 1/4 1/4 9/15 2/15 2/15 2/15 27/75 16/75 16/75 16/ /21 4/21 4/21 4/21 Data Mining 4-85

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19

Data Mining 7-1. Kapitel 7: Advertising on the Web. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 7: Advertising on the Web Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 7-1 7-2 Data Mining Übersicht Hochdimension.

Mehr

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19

Data Mining 2-1. Kapitel 2: Finding Similar Items. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 2: Finding Similar Items Johannes Zschache Wintersemester 28/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 2- WS 28/9 2-2 Data Mining WS 28/9 Übersicht

Mehr

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19

Data Mining 5-1. Kapitel 5: Frequent Itemsets. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 5: Frequent Itemsets Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 5-1 5-2 Data Mining Übersicht Hochdimension.

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19

Data Mining 8-1. Kapitel 8: Recommendation Systems. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 8: Recommendation Systems Johannes Zschache Wintersemester 08/9 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 8- 8- Data Mining Übersicht Hochdimension.

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute 3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 11: Machine Learning Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.unileipzig.de Data Mining 111 112 Data Mining Übersicht Hochdimension.

Mehr

Eigenwerte und Netzwerkanalyse. Page Rank

Eigenwerte und Netzwerkanalyse. Page Rank A Google versucht die Bedeutung von Webseiten mithilfe des sogenannten zu ermitteln. Der einer Seite basiert ausschließlich auf der Verweisstruktur des Webs. Der Inhalt einer Seite hat dagegen keinen direkten

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Informationstag für Gymnasiastinnen und Gymnasiasten Universität Fribourg (Schweiz) georges.klein@unifr.ch Fribourg, 24. November 2010 georges.klein@unifr.ch Die Mathematik

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil

Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Vorlesung Big Data Analytics in Theorie und Praxis Theorieteil Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin Kapitel 1: PageRank:

Mehr

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Thema 8: Verbesserte Suchstrategien im WWW Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Inhaltsverzeichnis 1. Einleitung 2. Grundlagen 3. Google PageRank Algorithmus 4. IBM Clever HITS Algorithmus

Mehr

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19

Data Mining 3-1. Kapitel 3: Mining Data Streams. Johannes Zschache Wintersemester 2018/19 Data Mining Kapitel 3: Mining Data Streams Johannes Zschache Wintersemester 2018/19 Abteilung Datenbanken, Universität Leipzig http://dbs.uni-leipzig.de Data Mining 3-1 3-2 Data Mining Übersicht Hochdimension.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Neustadt, 5. Dezember 05 Elemente einer Suchmaschine WWW Crawler Module Page Repository User query independent Indexing Module 000 000 000

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Uwe Dick Paul Prasse Michael Großhans World Wide Web 1990 am CERN von Tim Berners Lee

Mehr

D 1 D 2 D 3 D 4 D 5... D m S S S S n

D 1 D 2 D 3 D 4 D 5... D m S S S S n Page-Rank Wir wollte in einem Corpus von Texten, wie z.b. Bücher, Webseiten, Anleitung usw., nach bestimmten Inhalten aus einer Menge von Schlüsselworten suchen Sei S = {S,S,...,S n,s n } eine eine alphabeitsch

Mehr

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg PageRank & HITS Christian Schwarz Andreas Beyer 02.02.2009 Information Retrieval Uni Heidelberg Lawrence Page Sergey Brin 2 Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Google PageRank vs. HITS

Google PageRank vs. HITS Google PageRank vs. HITS Seminar Information Retrieval Ulf Schmidt Übersicht Einführung Hyperlinked Induced Topic Search Google PageRank Vergleich Weiterentwicklungen Fazit Quellen 29/01/07 Information

Mehr

#Backlinks: Was macht einen guten Backlink aus?

#Backlinks: Was macht einen guten Backlink aus? #Backlinks: Was macht einen guten Backlink aus? Start 1 Was ist ein Backlink? Wozu brauche ich Backlinks? Backlink: Verweis von einer anderen Webseite Wichtiger Rankingfaktor für alle großen Suchmaschinen

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

Suchmaschinen und Markov-Ketten 1 / 42

Suchmaschinen und Markov-Ketten 1 / 42 Suchmaschinen und Markov-Ketten 1 / 42 Zielstellung 1 Wir geben einen kurzen Überblick über die Arbeitsweise von Suchmaschinen für das Internet. Eine Suchmaschine erwartet als Eingabe ein Stichwort oder

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Closed Sets, Web Mining Katharina Morik, Claus Weihs 28.4.2015 Katharina Morik, Claus Weihs DMV 1 / 31 Gliederung 1 Closed Sets 2 Web Mining Finden von häufigen Subgraphen Ranking

Mehr

Das Prinzip der Suchmaschine Google TM

Das Prinzip der Suchmaschine Google TM /9 Das Prinzip der Suchmaschine Google TM Numerische Mathematik WS 20/2 Basieren auf dem Paper The $25,000,000,000 Eigenvector: The Linear Algebra behind Google von Kurt Bryan und Tanya Leise (SIAM Review,

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Juniorprof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Diskrete Modellierung

Diskrete Modellierung Diskrete Modellierung Wintersemester 2013/14 Prof. Dr. Isolde Adler Letzte Vorlesung: Korrespondenz zwischen der Page-Rank-Eigenschaft und Eigenvektoren zum Eigenwert 1 der Page-Rank-Matrix Markov-Ketten

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten

7. Vorlesung. Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten 7. Vorlesung Bipartite Kerne Das kopierende Modell Bow-tie Struktur des Web Random Sampling von Web Seiten Seite 179 Web als ein Soziales Netzwerk Small-world Netzwerk: Niedriger (Durchschnitts) Durchmesser

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Peter Haider Paul Prasse WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Paul Prasse Michael Großhans World Wide Web 1990 am CERN von Tim Berners Lee zum besseren

Mehr

PageRank und HITS. Frank Habermann 11. Februar 2007

PageRank und HITS. Frank Habermann 11. Februar 2007 PageRank und HITS Frank Habermann 11 Februar 2007 1 Inhaltsverzeichnis 1 Einleitung 2 PageRank 4 21 mathematische Beschreibung 4 211 Random Surfer Model 4 212 Berechnung 4 21 Rechenbeispiel 5 22 Vorteile

Mehr

Detecting Near Duplicates for Web Crawling

Detecting Near Duplicates for Web Crawling Detecting Near Duplicates for Web Crawling Gurmeet Singh Manku et al., WWW 2007* * 16th international conference on World Wide Web Detecting Near Duplicates for Web Crawling Finde near duplicates in großen

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer World Wide Web 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt.

Mehr

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45 Am Dienstag, den 16. Dezember, ist Eulenfest. 1/45 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009

Mehr

Eigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009

Eigenwerte. Vorlesung Computergestützte Mathematik zur Linearen Algebra. Lehrstuhl für Angewandte Mathematik Sommersemester 2009 Eigenwerte Vorlesung Computergestützte Mathematik zur Linearen Algebra Lehrstuhl für Angewandte Mathematik Sommersemester 2009 25. Juni + 2.+9. Juli 2009 Grundlagen Definition Ist für A C n,n, Ax = λx

Mehr

DisMod-Repetitorium Tag 3

DisMod-Repetitorium Tag 3 DisMod-Repetitorium Tag 3 Markov-Ketten 21. März 2018 1 Markov-Ketten Was ist eine Markov-Kette? Was gehört alles dazu? Darstellung als Graph und als Matrix Stationäre Verteilung und Grenzverteilung Ergodizität

Mehr

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48

Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48 Am Dienstag, den 16. Dezember, ist Eulenfest. 1/48 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009

Mehr

Algorithmische Methoden zur Netzwerkanalyse

Algorithmische Methoden zur Netzwerkanalyse Algorithmische Methoden zur Netzwerkanalyse Prof. Dr. Henning Meyerhenke Institut für Theoretische Informatik 1 KIT Henning Universität desmeyerhenke, Landes Baden-Württemberg Institutund für Theoretische

Mehr

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS Hauptseminar Web Information Retrieval Quelle Thematische Verteilungen 07.05.2003 Daniel Harbig Chakrabati, Soumen; Joshi, Mukul; Punera, Kunal; Pennock, David (2002): The Structure of Broad Topics on

Mehr

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Hasso-Plattner-Institut Potsdam Fachgebiet Informationssysteme Markus Güntert WS 2008/2009 20.01.2009 1 The Anatomy

Mehr

1 Bibliometrische Maße und Link-Analyse

1 Bibliometrische Maße und Link-Analyse 6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, MSc. Wi-Inf. Beate Krause 24. Januar 2008 1 Bibliometrische Maße und

Mehr

PageRank-Algorithmus

PageRank-Algorithmus Proseminar Algorithms and Data Structures Gliederung Gliederung 1 Einführung 2 PageRank 3 Eziente Berechnung 4 Zusammenfassung Motivation Motivation Wir wollen eine Suchmaschine bauen, die das Web durchsucht.

Mehr

HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss

HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss HYPERLINK-INDUCED TOPIC SEARCH (HITS) Information Retrieval (WS 15-16) ICL Universität Heidelberg Felix Krauss INHALT 1. Einführung 2. Algorithmus 3. Demo 4. Ergebnisse 5. Zusammenfassung 18.01.2016 2

Mehr

Web Information Retrieval

Web Information Retrieval Web Information Retrieval Informationssysteme für Ingenieure (ISI) Herbstsemester 206 R. Marti Ziel des Kapitels Kenntnis einer Methode zur Gewichtung von Dokumenten bezüglich Relevanz, durch Ausnutzung

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Tutorium 24-6. Sitzung Marcus Georgi tutorium@marcusgeorgi.de 04.12.2009 1 Repräsentation von Graphen im Rechner Adjazenzlisten Adjazenzmatrizen Wegematrizen 2 Erreichbarkeitsrelationen

Mehr

Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab

Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab Rückblick Vektorraum-Modell bildet Dokumente und Anfrage in gemeinsamen hochdimensionalen Vektorraum ab Vektorkomponenten werden mittels tf.idf-gewichtung unter Berücksichtigung von Häufigkeiten bestimmt

Mehr

Web Marshals Fighting Curly Link Farms

Web Marshals Fighting Curly Link Farms Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}

Mehr

Ideen und Konzepte der Informatik Websuche

Ideen und Konzepte der Informatik Websuche Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017 1/29 Suchmaschinen 1990: Archie (sehr elementar)... 1995: AltaVista 1998:

Mehr

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn Ideen und Konzepte der Informatik Maschinelles Lernen Kurt Mehlhorn Übersicht Lernen: Begriff Beispiele für den Stand der Kunst Spamerkennung Handschriftenerkennung mit und ohne Trainingsdaten Gesichts-

Mehr

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 8. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 Prof. Dr. Gerd Stumme, Wi.-Inf. Beate Krause 15. Juli 2009 1 Bibliometrische Maße 1. Inwiefern sind Ko-Zitation und Kopplung symmetrische

Mehr

5. Bäume und Minimalgerüste

5. Bäume und Minimalgerüste 5. Bäume und Minimalgerüste Charakterisierung von Minimalgerüsten 5. Bäume und Minimalgerüste Definition 5.1. Es ein G = (V, E) ein zusammenhängender Graph. H = (V,E ) heißt Gerüst von G gdw. wenn H ein

Mehr

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst

Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen. Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst Theoretische Überlegungen zur Ausbreitung von Infektionserregern auf Kontaktnetzen Hartmut Lentz, Maria Kasper, Ansgar Aschfalk und Thomas Selhorst Netzwerke / Graphen verschiedene Typen von Graphen: einfache

Mehr

Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60

Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60 Am Dienstag, den 15. Dezember, ist Eulenfest. 1/60 Grundbegriffe der Informatik Einheit 12: Erste Algorithmen in Graphen Thomas Worsch Karlsruher Institut für Technologie, Fakultät für Informatik Wintersemester

Mehr

Websuche. Linkanalyse

Websuche. Linkanalyse Websuche Linkanalyse 1 Bibliometrik: Zitatanalyse Viele Dokumente enthalten Bibliographien (oder Referenzen), d.h. eindeutige Zitierungen anderer vorher veröffentlichter Dokumente. Bei Verwendung von Zitaten

Mehr

D-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler. Lösungen Serie 10

D-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler. Lösungen Serie 10 D-MAVT Lineare Algebra I HS 2017 Prof. Dr. N. Hungerbühler Lösungen Serie 10 1. Für a 1 : 1 1 0, a 2 : 1 1, a 3 : 1 1 1, b : 2 2 2 1 und A : (a 1, a 2, a 3 ) gelten welche der folgenden Aussagen? (a) det(a)

Mehr

Kodieren Von Graphen

Kodieren Von Graphen Kodieren Von Graphen Allgemeine Anwendungen: Routenplaner Netzpläne Elektrische Schaltungen Gebäudeerkennung aus Luftaufnahmen Definitionen:? Graph Ein Graph G besteht aus einem geordneten Paar G = (V,E)

Mehr

PG520 - Webpageranking

PG520 - Webpageranking 12. Oktober 2007 Webpageranking - Quellen The PageRank citation ranking: Bringing order to the Web; Page, Brin etal. Technical report, 1998. A Unified Probabilistic Framework for Web Page Scoring Systems;

Mehr

Gambler s Ruin. B ist die Bank ) 4/40

Gambler s Ruin. B ist die Bank ) 4/40 Gambler s Ruin Zwei Spieler A und B spielen ein Spiel um m Franken. Spieler A hat a Franken, Spieler B hat b = m a Franken. In jeder Runde wird um 1 Franken gespielt. A gewinnt eine Runde mit W keit p,

Mehr

Beispiele 1. Gegeben ist das lineare System. x+4y +3z = 1 2x+5y +9z = 14 x 3y 2z = 5. Die erweiterte Matrix ist

Beispiele 1. Gegeben ist das lineare System. x+4y +3z = 1 2x+5y +9z = 14 x 3y 2z = 5. Die erweiterte Matrix ist 127 Die Schritte des Gauß-Algorithmus sind nun die Folgenden: 1. Wir bestimmen die am weitesten links stehende Spalte, die Einträge 0 enthält. 2. Ist die oberste Zahl der in Schritt 1 gefundenen Spalte

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen Teil Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 30. Mai 0 [Letzte Aktualisierung: 0/07/0, 06:4] /

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 4 Prof. Dr. Gerhard Heyer Institut für Informatik Abteilung Automatische Sprachverarbeitung Universität Leipzig 02. Mai 2017 [Letzte Aktualisierung: 10/07/2018,

Mehr

Ranking am Beispiel von Google (1998):

Ranking am Beispiel von Google (1998): Ranking am Beispiel von Google (1998): So heute (lange) nicht mehr, aber wenigstens konkret, wie es prinzipiell gehen kann. Und Grundschema bleibt dasselbe. Zwei Komponenten (genaue Kombination unbekannt):

Mehr

6. Suchen im Web Webseiten Finden. FiXme Note: Generische Einführung zur Websuche.

6. Suchen im Web Webseiten Finden. FiXme Note: Generische Einführung zur Websuche. FiXme Note: Generische Einführung zur Websuche. In diesem Kapitel behandeln wir, wie man das Internet nach Schlagworten durchsucht. Als Nutzer einer Suchmaschine geben wir ein paar Wörter wie Katzen Photos

Mehr

Big Data Analytics in Theorie und Praxis Theorieteil

Big Data Analytics in Theorie und Praxis Theorieteil Big Data Analytics in Theorie und Praxis Theorieteil Vorlesung entspricht 2V+1Ü SWS) Prof. Dr. Nicole Schweikardt Lehrstuhl Logik in der Informatik Institut für Informatik Humboldt-Universität zu Berlin

Mehr

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität

Mehr

Einführung in die Computerlinguistik Information Retrieval: tf.idf

Einführung in die Computerlinguistik Information Retrieval: tf.idf Einführung in die Computerlinguistik Information Retrieval: tf.idf Dr. Benjamin Roth & Annemarie Friedrich Centrum für Infomations- und Sprachverarbeitung LMU München WS 2016/2017 Referenzen Dan Jurafsky

Mehr

Numerik I. Universität zu Köln SS 2009 Mathematisches Institut Prof. Dr. C. Tischendorf Dr. M. Selva,

Numerik I. Universität zu Köln SS 2009 Mathematisches Institut Prof. Dr. C. Tischendorf Dr. M. Selva, Universität zu Köln SS 009 Mathematisches Institut Prof. Dr. C. Tischendorf Dr. M. Selva, mselva@math.uni-koeln.de Numerik I Musterlösung 1. praktische Aufgabe, Bandmatrizen Bei der Diskretisierung von

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos

Duplikatanalyse. Ein Vortrag von. Susanne O'Shaughnessy und Michaela Geierhos Duplikatanalyse Ein Vortrag von Susanne O'Shaughnessy und Michaela Geierhos 13.07.2005 Duplikaten Elimination Problem: Mit dem explosionsartigen Anwachsen des WWW ist eine riesige Dokumentenmenge zugänglich.

Mehr

Inhaltangabe. 1. Vektorraummodell und Latent Semantic Indexing. 2. PageRank und stochastische Matrizen

Inhaltangabe. 1. Vektorraummodell und Latent Semantic Indexing. 2. PageRank und stochastische Matrizen Inhaltangabe. Vetorraummodell und Latent Semantic Indeing. PageRan und stochastische Matrien Voraussetungen: -Vetoren, Winel wischen Vetoren, Orthonormieren -Graphen, Matrien, Matri-Vetorprodut . IR Vetrorraummodell

Mehr

Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN

Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN Vorlesung 4: DATENSTRUKTUREN UND ALGORITHMEN 107 Wiederholung zur Speicherhierarchie! EM- bzw. I/O-Modell: Übergang der Ebenen universell! Blockweise Abarbeitung unter Ausnutzung von Lokalität Chip On-/off-Chip,

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7. 2008 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Graphdurchmusterung, Breiten- und Tiefensuche

Graphdurchmusterung, Breiten- und Tiefensuche Prof. Thomas Richter 18. Mai 2017 Institut für Analysis und Numerik Otto-von-Guericke-Universität Magdeburg thomas.richter@ovgu.de Material zur Vorlesung Algorithmische Mathematik II am 18.05.2017 Graphdurchmusterung,

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen

Universität Trier. Fachbereich IV. Wintersemester 2004/2005. Wavelets made easy. Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Universität Trier Fachbereich IV Wintersemester 2004/2005 Wavelets made easy Kapitel 2 Mehrdimensionale Wavelets und Anwendungen Thomas Queckbörner 16.11.2004 Übersicht des Kapitels: 1. Einführung 2. Zweidimensionale

Mehr

1 Datenstrukturen Datenstrukturen und Algorithmen

1 Datenstrukturen Datenstrukturen und Algorithmen 1 Datenstrukturen 1.1 Abstrakte Datentypen 1.2 Lineare Strukturen 1.3 Bäume 1.4 Prioritätsschlangen 1.5 Graphen 1 1.5 Graphen Darstellung allgemeiner Beziehungen zwischen Objekten/Elementen Objekte = Knoten:

Mehr

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern

... Text Clustern. Clustern. Einführung Clustern. Einführung Clustern Clustern Tet Clustern Teile nicht kategorisierte Beispiele in disjunkte Untermengen, so genannte Cluster, ein, so daß: Beispiele innerhalb eines Clusters sich sehr ähnlich Beispiele in verschiedenen Clustern

Mehr

ADS: Algorithmen und Datenstrukturen 2

ADS: Algorithmen und Datenstrukturen 2 ADS: Algorithmen und Datenstrukturen 2 Teil 4 Prof. Peter F. Stadler & Dr. Christian Höner zu Siederdissen Bioinformatik/IZBI Institut für Informatik & Interdisziplinäres Zentrum für Bioinformatik Universität

Mehr

Hans Humenberger. Das PageRank-System von Google eine aktuelle Anwendung im MU

Hans Humenberger. Das PageRank-System von Google eine aktuelle Anwendung im MU Hans Humenberger Das PageRank-System von Google eine aktuelle Anwendung im MU Google und seine Gründer Google etwas Riesengroßes nach der unglaublichen Fülle des WWW Googol = 10^100 1938 durch E. Kasner

Mehr

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23. Google s PageRank Eine Anwendung von Matrizen und Markovketten Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23. September 2009 Dr. Werner Sandmann Institut für Mathematik Technische Universität

Mehr

Quantenrechner. Ideen der Informatik Kurt Mehlhorn

Quantenrechner. Ideen der Informatik Kurt Mehlhorn Quantenrechner Ideen der Informatik Kurt Mehlhorn Übersicht Vorteile von Quantenrechnern Qbits und Überlagerungen Quantenrechner Grovers Algorithmus Technische Realisierung Zusammenfassung Quantenrechner

Mehr

Lineare Algebra und analytische Geometrie II

Lineare Algebra und analytische Geometrie II Prof. Dr. H. Brenner Osnabrück SS 206 Lineare Algebra und analytische Geometrie II Vorlesung 54 Stochastische Matrizen Definition 54.. Eine reelle quadratische Matrix M a ij i,j n heißt spaltenstochastisch,

Mehr

Reduced-Rank Least Squares Modelle

Reduced-Rank Least Squares Modelle 16.12.2008 Wiederholung Gegeben: Matrix A m n Paar Rechter Eigenvektor x, Eigenwert λ: A x = λ x mit x R n \ 0, λ N Paar Linker Eigenvektor y, Eigenwert λ: y T A = λ y T Singulärwertzerlegung (SVD): A

Mehr