Kap. 2: Web Retrieval

Größe: px
Ab Seite anzeigen:

Download "Kap. 2: Web Retrieval"

Transkript

1 Kap. 2: Web Retrieval Motivation: Probleme des Web Retrievals Grösse des Internets und Abdeckung durch Suchmaschinen Ordnen der gefundenen Dokumente Einbezug von Kontext Hubs and Authorities What s Related Kontextsensitive Anfrageerweiterung Focused Crawling Aufbau einer Suchmaschine Übersicht Kap.2-2. Motivation: Probleme des Web Retrievals Typische Seiten im Web enthalten nicht nur Text sondern auch sehr viel Grafik evtl. sogar Musik- oder Video-Ströme Kap.2-2

2 Suchen im Web Direktes Eingeben der URL (bekannt aus Werbung oder wegen Standardform: z.b. Ford -> Falls man die URL (Web-Adresse) einer Seite nicht kennt, so muss man sich an ein Portal oder eine Suchmaschine wenden. Dabei gibt es einige Unterschiede, wie man relevante Information (Seiten) finden kann: Browsing: Yahoo! hat als eines der ersten Portale Browsing eingeführt. Die Web- Seiten werden von Personen bewertet und in einem Verzeichnisbaum eingegliedert. Der Suchende kann dann leicht durch den Baum zu den relevanten Seiten navigieren; z.b. Tiere -> Fische -> Barsch typischer Ansatz Keyword-Suche: Das übliche Vorgehen ist es, bei einer der grossen Suchmaschinen ein paar Schlagwörter einzutippen und sich durch die Resultatslisten durchzukämpfen Meta-Suche: Ähnlich wie Keyword-Suche, aber es werden mehrere Suchmaschinen parallel angefragt. Die einzelnen Resultatslisten werden vereint; Seiten die von allen Suchmaschinen zurückgegeben werden erscheinen dann zuoberst; ebenso können Dokumente nachträglich gruppiert werden (Grouper) Kap.2-3 Spezial-Suche: Einige Suchdienst sind auf Spezialanfragen optimiert (z.b. HomePage suchen [Ahoy], wissenschaftliche Papiere/Zitate [CiteSeer]) Ähnlichkeitssuche: Die Suche nach multimedialen Inhalten (Bilder, Audio) wird häufig nur mittels Browsing oder Keyword-Suche angeboten. Zunehmend aber können auch multimediale Objekte direkt als Anfrage mitgegeben werden ( suche Bilder wie dieses hier ) Feedbacksuche: Das Hauptproblem bei jeder Suche ist es, die richtigen Keywords/Merkmale zu finden, so dass die gewünschten Dokumente zuoberst erscheinen. Mit Feedbacksuche übernimmt das System die Verfeinerung der Anfrage aufgrund von relevant / nicht relevant Bewertungen des Benutzers. Kap.2-4

3 Anfragen im Web Web-Retrieval heisst... Text-Retrieval -> Kap. Bild-Retrieval -> Kap. 3 Audio-Retrieval (Sprache, Musik) -> Kap. 4 Video-Retrieval -> Kap. 4 Feedback Auswertung -> Kap. 5 Strukturauswertung / Vernetzung im Web -> Kap. 2 Zur Zeit unterstützen die gängigen Suchmaschinen nur Text-Retrieval und Keyword- Suche für multimediale Inhalte. In Zukunft ist aber zu erwarten, dass auch vermehrt nach multimedialen Inhalten mit Referenzobjekten gesucht werden kann (Ähnlichkeitssuche). Im Folgenden wollen wir uns auf die Keyword-Suche konzentrieren. Im Vergleich zum klassischen Text-Retrieval, wie in Kapitel vorgestellt, ergeben sich dabei einige Unterschiede: Kap.2-5 Vergleich Text Retrieval vs. Web-Retrieval Kollektion Datenmenge Dokumente, Multimedia Struktur der Dokumente Dokumentenbeziehungen Qualität des Dokumenteninhalts Anfragen Klassisches Text Retrieval Kontrollierter Bestand; z.b. assortierte Bücher in einer Bibliothek; klein bis gross (MB - 20 GB [TREC]); Zusammentragen der Daten ist einfach homogene Dokumente (z.b. nur Text, alle Daten in einer Datenbank) homogen (jedes Buch in Bibliothek hat Titel, Autor, Verlag, etc.) häufig keine; bei Artikeln und Bücher findet man Referenzen auf andere Werke; Qualität der Referenzen ist gut meistens gut bis sehr gut meist präzise und länger Web-Retrieval Unkontrollierter Bestand; jeder kann publizieren was er will ( my hompage,..., Schiller s Gedichte) sehr gross (alleine Textdokumente: >200GB); Zusammentragen der Daten ist ein grosses Problem (WebCrawler) und häufig unvollständig heterogene Dokumente; selbst Textdokumente kommen in verschiedenen Formaten daher (HTML, PDF, ASCII) heterogene Inhalte; der Inhalt eines Dokumentes kann beliebig präsentiert werden Dokumente enthalten viele eingehende und ausgehende Links (das Erfolgskonzept des Webs). Qualität der Links ist variabel variabel; Dokumente können fehlerhaft, grammatikalisch nicht korrekt oder unvollständig sein; zudem versuchen einige Leute Suchmaschinen mit (z.t. versteckten) Fehlinformationen auf ihre Seiten zu locken. kurze, z.t. unpräzise Angaben Antworten häufig wenige aber gute Treffer (<00) sehr viele Treffer (>00,000) Kap.2-6

4 Problem des Ordnens Wegen der enormen Anzahl von Dokumenten und den relativ kurzen Anfragen (2-5 Wörter) erhält man häufig mehr als 00,000 Dokumente mit einem RSV>0 (auch mit Booleschem Retrieval). Aber nicht alle Treffer sind gleich relevant: z.b. liefert die Anfrage ford 5,480,000 Treffer in Google. Einige dieser Treffer sind offizielle Seiten von Ford, andere Seiten aber verunglimpfen die Marke. Google liefert aber trotzdem nur offizielle Seiten des Autoherstellers Ford. Der erste Eintrag ist aber nicht irgendeine Seite von Ford, sondern die Einstiegsseite Wie geht das? Google macht doch nur boolesche Suche! Die Suchmaschinen ordnen die Treffer nicht nur oder gar nicht nach dem RSV-Wert des Retrievals. Je nach RSV-Funktion würden sonst nur die Seiten oben erscheinen, welche genau die gleiche Häufigkeit der Terme haben wie die Anfrage (Kosinus- Mass), bei welchen die Anfrageterme am häufigsten auftreten (inneres Vektorprodukt), oder welche alle Anfrageterme enthalten (Boolesches Retrieval, Probabilistisches Retrieval [BIR]) Das Resultat wäre in allen Fällen inakzeptabel, da nicht unbedingt die relevanten Einstiegsseiten gefunden werden. Zudem kann man sich mit Spaming auf gewisse Wörter abonnieren (d.h. die entsprechend präparierten Seiten erscheinen stets zuoberst im Resultat). Kap Grösse des Internets und Abdeckung durch Suchmaschinen Wie gross ist eigentlich das Internet? Wieviele Server gibt es, wieviele Seiten, und wie viele Tera-Bytes belegen alle Seiten? Und: wie kann man die Grösse des Internets überhaupt schätzen, zumal ja keine der grossen Suchmaschinen wirklich alle Seiten kennt? Schätzen der Anzahl Server [Giles99]: Annahme: Die IP-Adressen der Web-Server sind gleichförmig über den ganzen 32-Bit Adressraum verteilt Vorgehen: Wähle N zufällige IP-Adressen und überprüfe, ob ein Web-Server mit dieser IP-Adresse läuft. M sei die Anzahl gefundener Web-Server. Dann ist M/N die Dichte der Belegeung der IP-Adressen; Giles hat 999 folgenden Wert ermittelt: M/N /269 Damit gibt es ungefähr 2 32 *M/N 6.0 Millionen [Stand: Juli 999] Problem: Diese Schätzung enthält auch nicht öffentliche Server, z.b. Drucker, welche via HTML wartbar sind, oder private Server mit Zugangskontrolle Kap.2-8

5 Schätzen der Anzahl Web-Seiten overlap analysis [Bharat98] : Annahme: Suchmaschinen arbeiten unabhängig voneinander und haben eine zufällige Teilmenge des Internets indexiert. Idee: Suchmaschine B Suchmaschine A A A B Web B Sei N= Web die Grösse des Webs. Ferner sei p(a), p(b) und p(a B) die Wahrscheinlichkeit, dass eine zufällig gewählte Seite von Suchmaschine A, B, resp. A und B gefunden wird. Wegen der Unabhängigkeit gilt: p(a B)=p(A)*p(B) Ferner ist: A =N*p(A), B =N*p(B), A B =N*p(A B) Falls man A, B und A B bestimmen kann, so kann man mit den obigen vier Gleichung auch N berechnen: N = A * B / A B Bemerkung: Da die Suchmaschinen im allgemeinen keine zufällige Teilmenge des Internets indexieren und häufig dieselben Ausgangspunkte haben, ist die obige Abschätzung eine untere Schranke für die effektive Anzahl Seiten Kap.2-9 Schätzen der Anzahl Web-Seiten (2) Vorgehen: A und B können bei den meisten Suchmaschinen angefragt werden Ermittle die Auftretenswahrscheinlichkeiten von Termen in einer genügend grossen Menge von Web-Seiten Stelle eine Anfrage an Suchmaschine A resp. B und wähle zufällig eine Seite im Resultat. Erzeuge eine Anfrage für diese Seite mit den seltensten Termen, die auf der Seite vorkommen. Suche mit Hilfe dieser Terme in der anderen Suchmaschine (B resp. A). Wegen der Wahl der Terme erhält man höchstens ein paar Seiten. Erhöhe A B falls die Seite mit Suchmaschine A und B gefunden werden kann. Wiederhole die letzten drei Schritte genügend oft. Bestimme dann N AB = A * B / A B Berechne N AB für verschiedene Kombinationen von Suchmaschinen A, B und schätze die Anzahl Seiten mit dem Mittelwert der erhaltenen N AB -Werte Kap.2-0

6 Entwicklung und aktuelle Kennzahlen Dez. 997: > 320 Mio. Seiten Einzelne Suchmaschinen haben /3 des Webs indexiert; alle 6 grossen zusammen ca. 60% Feb. 999: ca. 800 Mio. Seiten, Einzelne Suchmaschinen haben maximal 6% des Webs indexiert; die grossen Suchmaschinen zusammen 42% 2.8 Mio. öffentliche WWW-Server, 6 Mio. Web-Server insgesamt durchschnittlich 8,7 kb/seite (ohne Bilder); 4 TByte Daten Jan. 2000: > Mrd.Seiten Einzelne Suchmaschinen haben zwischen 0%-5% des Webs indexiert 6.4 Mio. öffentliche WWW-Server (wovon 2.2 Mio. Mirrors oder nicht erreichbar); davon sind 60% Apache Server, 25% MS-IIS Anzahl Links auf Ende 2000: 3-5 Mrd. Seiten Suchmaschinen haben zwischen 0%-5% des Webs indexiert; Google hat eine Abdeckung von gut 30% (enthält aber auch nicht besuchte Seiten) 9 TByte Daten (HTML-Format) BrightPlanet: unterscheidet zwischen surface und deep web;surface Web sind alle öffentlich zugänglichen Seiten; deep web enthält auch alle privaten Seiten (Dokus) und Seiten, die mit Skripten erzeugt werden (Telefonbuch, e-banking, etc.) 550 Mrd. Seiten im deep Web, ca TByte Daten Kap.2- Gegenwärtige Indexgrössen im Vergleich GG: FAST: WT: INK: AV: NL: EX: Go: Google Fast WebTop.com Inktomi AltaVista NorthernLight Excite Go (Infoseek) [Quelle: SearchEngineWatch, Stand:..2000] Kap.2-2

7 Entwicklung der Suchmaschinengrössen GG: FAST: WT: INK: AV: NL: EX: Go: Google Fast WebTop.com Inktomi AltaVista NorthernLight Excite Go (Infoseek) [Quelle: SearchEngineWatch, Stand:..2000] Kap Ordnen der gefundenen Dokumente Im Folgenden betrachten wir das Ranking von Google (soweit dokumentiert), welches trotz boolescher Suche sehr gute Präzision vorweisen kann. Die anderen Suchmaschinen verwenden z.t. ähnliche Konzepte (die genauen Rankingfunktionen sind aber Betriebsgeheimnis) Das Ranking beginnt bereits beim Extrahieren der Terme: zu jedem gefundenen Term wird die Position im Dokument, die relative Fontgrösse, Fontattribute (bold, italic) und der Kontext (Term ist in URL, Titel, Meta-Tag, Linktext oder im restlichen Dokument) gespeichert (sog. hit list ) der Linktext (text zwischen <A>...</A>) wird auch dem Zieldokument zugewiesen. Damit können auch Dokumente indexiert werden, welche der Crawler nicht gesehen hat, oder welche nicht indexierbar sind (z.b. Bilder, Video, Audio). Daher kann Google in über,346,966,000 (Stand:.5.200) Dokumenten suchen, obwohl der Crawler nicht mal die Hälfte davon gesehen hat. Das eigentliche Ranking setzt sich aus mehreren Faktoren zusammen: Proximitiy der Terme, d.h. die Entfernung der Anfrageterme im Dokument Position im Dokument (URL, Linktext, Titel, Meta-Tag, restliches Dokument), Fontgrösse und Fontattribute PageRank Andere Ordnungskriterien ( gekaufter Ranglistenplatz) Kap.2-4

8 2.3. Proximity von Termen Anfragen wie White House implizieren, dass die gesuchten Wörter direkt nacheinander im Dokument stehen sollten. Mit anderen Worten, ein Dokument welches das Fragment white house enthält ist höher zu bewerten als ein Dokument, das z.b. die Fragmente white car am Anfang und red house am Ende des Dokumentes enthält. Das Boolesche Retrieval (und auch das Vektorraumretrieval) würde aber beide Dokumente als gleich gut betrachten. Umsetzung in Google (am Bsp. white house ) die Positionen der beiden Terme wird ermittelt (mit hit list ). für jedes Positionenpaar wir ein Proximity -Wert berechnet. Google benutzt 0 verschiedene Werte von nebeneinander bis zu sehr weit entfernt. Die Häufigkeiten dieser Proximity -Werte ergiben einen 0-dimensionalen Vektor. Der Proximity -Vektor wird mit einem Gewichtsvektor multipliziert; dies ergibt dann den Proximity -Wert für das Dokument für die gegebene Anfrage (der Gewichtsvektor wird aufgrund von Benutzerstudien und Feedback bestimmt) Kap.2-5 Bsp: hit list [ white ] = {, 8, 56 }, hit list [ house ] = { 2, 82, 5, 57 } Abbildung jedes Positionpaars {(,2), (,82), (,5), (,57), (8,2), (8,82), (8,5),...} auf Proximity -Vektor Pos Term white house white house house white house (,2) (8,82) (,57) Proximity (nebeneinander) 2 (nahe) 3 (...) 4 (...) 5 (weitere Umgebung) 6 (...) 7 (...) 8 (entfernt) 9 (...) 0 (sehr weit entfernt) Häufigkeit dies ergibt z.b. den folgenden Vektor: p=[3,0,0,,,0,0,,2, 3] Proximity des Dokumentes : z.b. w = [.0, 0.9, 0.8, 0.7,..., 0.] dann p T w = 5.6 Kap.2-6

9 2.3.2 Position im Dokument, Fontgrösse, Fontattribute Die Wichtigkeit der Terme hängt von ihrere Position im Dokument ab: Die meisten Anfragen an Suchmaschinen zielen mehr auf den Titel des Dokumentes als auf den Inhalt. Z.B. sind Anfragen der Form Hauptsitz des amerikanischen Präsidenten seltener (würde auch nicht zum Ziel führen!) als Anfragen der Form White House. Häufig werden auch Markenname, Personennamen oder Firmennamen für die Suche verwendet. Ferner enthalten Linktexte sehr präzise und prägnante Beschreibungen des Inhalts der Zielseite oder beschreiben gewisse allgemein bekannte Aspekte der Seite (z.t. auch in verschiedenen Sprachen), welche dort selber nicht zu finden sind. Bsp.: die Suche eth lausanne führt mit Google sofort zur Hauptseite der EPFL. Auf dieser aber, kann man die Wörter ETH und Lausanne nicht finden (nur EPFL ) Schlussfolgerung: Dokumente bei denen Suchterme im Titel auftauchen, oder speziell hervorgehoben sind (grosser Font, fettgeschrieben), oder in einem Linktext zu diesem Dokument auftreten scheinen wichtiger zu sein als Dokumente bei denen die Terme nur irgendwo im Text auftreten (z.b. in der Form ich arbeite an der ETH Lausanne ) Kap.2-7 Umsetzung in Google Google zählt die Häufigkeit der Auftreten der Terme in den oben genannten Formen, multipliziert diese Häufigkeiten mit speziellen Gewichten und summiert sie zu einem zweiten Relevanzwert für das Dokument. Die Häufigkeitswerte sind ferner nach oben limitiert (z.b. <00). Damit ist Spaming oder die Beeinflussung der Relevanzberechnung schwieriger. Pos <TITLE> <META> <P> <B> <I> <H> <H2>... linktext Häufigkeit lim. Häufigkeit Gewicht Konsequenz: Google kann Namen und Begriffe recht gut mit den relevanten Seiten in Verbindung bringen. Kap.2-8

10 2.3.3 PageRank Trotz der beiden vorangegangen Kriterien kann es immer noch passieren, dass unwichtige Seiten ganz oben sind. Z.B. würde die Anfrage ETH Zurich nicht nur die Einstiegsseite ( hoch bewerten sondern auch die Seite ( da letztere auch die Terme ETH und Zurich im Titel und im Text gross geschrieben enthält. Ebenso sollte die Home Page eines frustrierten Studenten mit dem Titel Ich hasse die ETH Zurich nicht zuoberst erscheinen. Die Idee von PageRank (Google) ist es, die objektive Wichtigkeit der Seiten zu messen und bei der Relevanzzuweisung zu berücksichtigen. Z.B. wird die Einstiegseite der ETH von sehr vielen Surfern benutzt und wird von Tausenden von Stellen im Netz referenziert. Die Seite des frustrierten Studenten hingegen wird kaum besucht und nur einige, wenige Links zeigen darauf. Im Wesentlichen bestimmt PageRank, mit welcher Wahrscheinlichkeit ein sogenannter random surfer eine bestimmte Web-Seite im Netz besucht. Je höher die W keit, desto relevanter (objektiv, nicht query abhängig) scheint die Web Seite zu sein. Im Beispiel würde die ETH Einstiegsseite bestimmt mit grösserer W keit besucht als die Seite des frustrierten Studenten. Kap.2-9 Einfaches Modell (noch nicht PageRank) Idee man zählt die Anzahl eingehender Links einer Seite; je grösser diese Zahl, desto eher wird eine Surferin auf der Seite landen: z.b. A C 6 C ist die wichtigste Seite, gefolgt von D, A und B B D 3 Probleme: nicht jede Seite ist gleich wichtig. Falls eine Seite z.b. von Yahoo! referenziert wird, so ist die Seite wohl relevanter (bessere Qualität) als eine Seite die von irgend einer obskuren Seite referenziert wird. Spamming: Um das Ranking einer Seite zu Erhöhen kann man Dutzende von Web-Seiten im Netz platzieren, welche die eigene Seite referenzieren (wird z.t. auch mit Domain-Namen gemacht) Kap.2-20

11 Berechnung des PageRank einer Seite Neue Idee: ein random surfer klickt auf einer Seite A mit Wahrscheinlichkeit p einen der N ausgehenden Links. Mit Wahrscheinlichkeit (-p) hüpft er zufällig auf eine beliebige Seite (z.b. durch Eintippen einer URL; Bookmarks; Suchmaschine) der PageRank einer Seite ist dann die Wahrscheinlichkeit, dass der random surfer nach unendlich vielen Sprüngen auf dieser Seite landet. Umsetzung: Es werden die eingehenden Links einer Seite betrachtet; aber auch die Wichtigkeit der Linkquelle wird beim Zählen berücksichtigt Notationen: A eine beliebige Webseite L(A) Menge der Seiten, welche einen Link auf A haben N(A) Anzahl der ausgehender Links der Seite A PR(A) PageRank der Seite A p W keit, dass Surfer einen ausgehenden Link benutzt ( [0,] ) Definition des PageRanks: PR( A) = ( p) + p PR( B) B L ( A) N ( B) Kap.2-2 Intuitive Erklärung der Formel Der Wert eines Links ist gegeben durch den PageRank der Ursprungsseite und der Anzahl ausgehender Links von dieser Seite (d.h. jeder Link wird mit gleicher Wahrscheinlichkeit von einem random surfer verfolgt) (-p) + p*... entspricht im random surfer Modell der Annahme, dass der Surfer mit W keit -p auf eine beliebige Seite wechselt und mit W keit p einen Link der Seite verfolgt. Beispiel: A B 0.2 C A und C haben gleichen PageRank, obwohl A nur einen eingehenden Link aufweist (C hat zwei) PR(C) Kap.2-22

12 Berechnung Die Formel ist rekursiv! Die PR()-Werte lassen sich aber via Fixpunktiteration berechnen (der Aufwand ist minimal im Vergleich zum Aufbau des Indexes für das boolesche Retrieval) Vorgehen:. Wähle zufällige Initialwerte für PR(A) für alle Dokumente A 2. Berechne PR (A) gemäss obiger Formel für alle Dokumente A 3. Falls PR (A)-PR(A) genügend klein ist, dann ist PR(A)=PR (A) die Lösung andernfalls setze PR(A)=PR (A) und gehe zu Schritt 2 Die Lösung der Fixpunktiteration erfordert nur wenige (<00) Schritte und kann in relativ kurzer Zeit (mehrere Stunden) berechnet werden Kap.2-23 Anwendung PageRank liefert eine totale Ordnung der gefundenen Dokumente im Web. Diese Ordnung hängt nicht von den Suchtermen ab, d.h. bei allen Anfragen werden die Dokumente in der gleichen Reihenfolge geordnet Google verwendet PageRank zusammen mit allen anderen Kriterien. PageRank kann nicht leicht von aussen manipuliert werden, z.b. um eine gewisse Seite wichtiger erscheinen zu lassen als sie ist. Auch wenn sehr viele Links auf eine Seite zeigen, muss dies noch lange nicht bedeuten, dass die Seite einen hohen PageRank hat. Damit wird spaming fast unmöglich. Das Ordnen von Dokumenten nur mit PageRank wäre fatal. Sei A das Dokument mit dem grössten PageRank Anfragen mit Termen, welche alle in A vorkommen, hätten A als bestes Resultat, obwohl es noch relevantere Dokumente geben könnte. Kap.2-24

13 2.3.4 Andere Ordnungskriterien Gekaufter Ranglistenplatz Viele Suchmaschinen verkaufen Ranglistenplätze für gewisse Suchbegriffe z.b. Google/AltaVista: Werbung RealName Kap.2-25 Länge der URL Eine Anfrage wie ford könnte z.b. folgende Seiten zurückliefern ces&level2=rentalsfromdealers Suchmaschinen bewerten kurze URLs besser als lange URLs, in der Annahme, dass eine kurze URL eher auf eine Einstiegsseite verweist. User Feedback direct hit verwendet Feedback von Benutzern, um Seiten zu ordnen. Falls ein Dokument kontinuierlich ignoriert wird (d.h. die Suchenden klicken nicht auf dessen Link, obwohl es in der Antwort erscheint), so wird das Dokument bzgl. der Suchterme nicht relevant sein (ist evtl. sogar junk oder spam). In darauffolgenden Suchen wird das Dokument weiter hinten eingereiht. Intern wird dies ähnlich wie PageRank mit einem zusätzlichen Relevanzwert verwaltet. Falls ein Dokument in der Antwort angeklickt wird, so wir der Relevanzwert (bzgl. der Suchterme) erhöht, andernfalls verkleinert. Kap.2-26

14 2.3.5 Overall Ranking Alle Suchmaschinen verwenden mehrere Ordnungskriterien. Google z.b. verwendet Proximity der Wörter Relevanzwert für die Position und Fontgrössen der Auftreten der Terme PageRank Die totale Relevanz ergibt sich aus einer gewichteten Summe der Einzelwerte. Die Gewichte und Zusammensetzung der Relevanzwerte ist das eigentliche Erfolgsrezept der Suchmaschinen. Kap Einbezug von Kontext Beobachtung: Im Web findet man viele Seiten zu demselben Thema (z.b. Star Wars); häufig sind diese Seiten eng miteinander verknüpft, d.h. sie referenzieren sich gegenseitig. Zudem findet man in Übersichtsseiten viele Links zu ähnlichen Seiten, welche dasselbe Thema diskutieren oder welche verwandte Seiten (related sites) auflisten z.b.: listet viele Internetseiten rund um die Star Wars Filme auf (alle zum gleichen Thema) z.b.: listet Internetseiten für verschiedene Automarken auf (d.h. Zusammenstellung von verwandten Seiten) What s Related Ebenso: Falls viele Seiten, welche zu einem Thema T relevant sind, eine Seite A referenzieren, dann ist mit hoher W keit auch Seite A relevant für Thema T. Hubs and Authorities Folglich: Verbesserung der Suche durch explizite Benutzung von Kontextinformation über die Seiten (wie in den obigen Beispielen) Analog: Bereits bei der Anfrage den Kontext ermitteln (oder nachfragen beim Benutzer) (Grouper, AskJeeves, metacrawler) Kap.2-28

Kap. 2: Web Retrieval. 2.1 Motivation: Problem des Web Retrievals

Kap. 2: Web Retrieval. 2.1 Motivation: Problem des Web Retrievals Kap. 2: Web Retrieval Motivation: Problem des Web Retrievals Grösse des Internets und Abdeckung durch Suchmaschinen Ordnen der gefundenen Dokumente Einbezug von Kontext Hubs and Authorities What s Related

Mehr

Multimedia Retrieval. Kapitel 3: Web Retrieval. Dr. Roger Weber, weber@inf.ethz.ch. Informatik / CS342 / WS06/07

Multimedia Retrieval. Kapitel 3: Web Retrieval. Dr. Roger Weber, weber@inf.ethz.ch. Informatik / CS342 / WS06/07 Informatik / CS342 / WS06/07 Multimedia Retrieval Kapitel 3: Web Retrieval Dr. Roger Weber, weber@inf.ethz.ch 3.1 Motivation: Problem des Web Retrievals 3.2 Grösse des Internets und Abdeckung durch Suchmaschinen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

die Relevanz von Webseiten bestimmt Alexander Pohl

die Relevanz von Webseiten bestimmt Alexander Pohl Wie die Relevanz von Webseiten bestimmt Alexander Pohl Gliederung 1. Einleitung 2. Das Web als Graph 3. Das Random Surfer Modell 4. Gleichgewicht im Random Surfer Modell (?) 5. Vervollständigung des Modells:

Mehr

IR Seminar SoSe 2012 Martin Leinberger

IR Seminar SoSe 2012 Martin Leinberger IR Seminar SoSe 2012 Martin Leinberger Suchmaschinen stellen Ergebnisse häppchenweise dar Google: 10 Ergebnisse auf der ersten Seite Mehr Ergebnisse gibt es nur auf Nachfrage Nutzer geht selten auf zweite

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Wolfram Decker TU Kaiserslautern Neustadt, 5. Dezember 05 Elemente einer Suchmaschine WWW Crawler Module Page Repository User query independent Indexing Module 000 000 000

Mehr

Multimedia Retrieval SS02

Multimedia Retrieval SS02 Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich 37-342 Multimedia Retrieval SS02 Vorlesung:

Mehr

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst

Thema 8: Verbesserte Suchstrategien im WWW. Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Thema 8: Verbesserte Suchstrategien im WWW Bearbeiter: Robert Barsch Betreuer: Dr. Oliver Ernst Inhaltsverzeichnis 1. Einleitung 2. Grundlagen 3. Google PageRank Algorithmus 4. IBM Clever HITS Algorithmus

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

#Backlinks: Was macht einen guten Backlink aus?

#Backlinks: Was macht einen guten Backlink aus? #Backlinks: Was macht einen guten Backlink aus? Start 1 Was ist ein Backlink? Wozu brauche ich Backlinks? Backlink: Verweis von einer anderen Webseite Wichtiger Rankingfaktor für alle großen Suchmaschinen

Mehr

2.4.1 Hubs und Authorities. Authority. Hub

2.4.1 Hubs und Authorities. Authority. Hub 2.4.1 Hubs und Authorities Eine Seite ist ein Hub für eine Anfrage Q, falls sie viele Links auf Seiten enthält, welche für Q relevant sind. Eine Seite ist eine Authority für Anfrage Q, falls sie für Q

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Suchen mit der Suchmaschine

Suchen mit der Suchmaschine Suchen mit der Suchmaschine Links einiger Suchmaschinen http://www.google.ch/ http://search.bluewin.ch http://www.altavista.de http://www.fireball.de http://www.metacrawler.de/ http://www.msn.ch Lexikon:

Mehr

Satz 16 (Multiplikationssatz)

Satz 16 (Multiplikationssatz) Häufig verwendet man die Definition der bedingten Wahrscheinlichkeit in der Form Damit: Pr[A B] = Pr[B A] Pr[A] = Pr[A B] Pr[B]. (1) Satz 16 (Multiplikationssatz) Seien die Ereignisse A 1,..., A n gegeben.

Mehr

Rangierungsprizipien 1bei Suchsystemen

Rangierungsprizipien 1bei Suchsystemen Rangierungsprizipien 1bei Suchsystemen Rangierungsprinzip 1 Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant. Rangierungsprinzip 2 Je häufiger ein Suchbegriff

Mehr

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute 3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.

Mehr

Recherchieren im Internet

Recherchieren im Internet Recherchieren im Internet Proseminar 1 Physik für Studierende des Lehramts Übersicht 1. Allgemeines zur Lage 2. google und mehr 3. Kataloge und Metasuchmaschinen 4. Fachspezifische Suchdienste 1. Allgemeines

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Vorlesung Information Retrieval Wintersemester 04/05

Vorlesung Information Retrieval Wintersemester 04/05 Vorlesung Information Retrieval Wintersemester 04/05 9. Dezember 2004 Institut für Informatik III Universität Bonn Tel. 02 28 / 73-45 31 Fax 02 28 / 73-43 82 jw@informatik.uni-bonn.de 0 Themenübersicht

Mehr

Suchmaschinenoptimierung in der Praxis

Suchmaschinenoptimierung in der Praxis Suchmaschinenoptimierung in der Praxis So steigern Sie die Zugriffe auf Ihre Webseite. Frank Jäger, Präsentation am 11. Juni 2010, 1 Überblick Suchmaschinenoptimierung in der Theorie Aufbau der Google-Suchergebnisseite

Mehr

6. Probabilistische Retrievalmodelle. Norbert Fuhr

6. Probabilistische Retrievalmodelle. Norbert Fuhr 6. Probabilistische Retrievalmodelle Norbert Fuhr Notationen Q α Q Q β Q Q D R rel. judg. D α D D β D D D ρ IR q Q Anfrage d D Dokument q k Q: d m D: Anfragerepräsentation Dokumentrepräsentation qk D QD

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Unabhängigkeit KAPITEL 4

Unabhängigkeit KAPITEL 4 KAPITEL 4 Unabhängigkeit 4.1. Unabhängigkeit von Ereignissen Wir stellen uns vor, dass zwei Personen jeweils eine Münze werfen. In vielen Fällen kann man annehmen, dass die eine Münze die andere nicht

Mehr

handbuch zum besseren Verständnis des Webalizers Eine Orientierungshilfe von der NetzWerkstatt

handbuch zum besseren Verständnis des Webalizers Eine Orientierungshilfe von der NetzWerkstatt handbuch zum besseren Verständnis des Webalizers Eine Orientierungshilfe von der NetzWerkstatt Inhaltsverzeichnis Vorwort 2 Anmeldung 3 Einstiegsseite 4 Die Optionen 5 Tages-Statistik 6 Stunden-Statistik

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEM = Search Engine Marketing SEA SEO Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Title-Tag. Titel des HTML-Dokuments. Keywordhäufigkeit im Titel. Keyworddichte im Titel. Position des Keywords im Titel 1/9

Title-Tag. Titel des HTML-Dokuments. Keywordhäufigkeit im Titel. Keyworddichte im Titel. Position des Keywords im Titel 1/9 URL: http://www.schmela-angelshop.de/...line-fliegenruten/ Primäres Keyword/Phrase: Fliegenruten Keywords: Fliegenruten, Fliegenrute, Flyrod, Fliegenfischen Title-Tag Titel des HTML-Dokuments Gibt es einen

Mehr

Web Marshals Fighting Curly Link Farms

Web Marshals Fighting Curly Link Farms Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}

Mehr

Das Prinzip der Suchmaschine Google TM

Das Prinzip der Suchmaschine Google TM /9 Das Prinzip der Suchmaschine Google TM Numerische Mathematik WS 20/2 Basieren auf dem Paper The $25,000,000,000 Eigenvector: The Linear Algebra behind Google von Kurt Bryan und Tanya Leise (SIAM Review,

Mehr

Whitepaper. Die 5 besten Profi-Tipps für Suchmaschinenoptimierung. So wirst Du für Google & Co. zum Treffer

Whitepaper. Die 5 besten Profi-Tipps für Suchmaschinenoptimierung. So wirst Du für Google & Co. zum Treffer Die 5 besten Profi-Tipps für Suchmaschinenoptimierung So wirst Du für Google & Co. zum Treffer S 2 / 11 Bring Deine Webseite mit Suchmaschinenoptimierung in der Trefferliste nach oben. Tobias Fischer ist

Mehr

Verlinkung von Webseiten

Verlinkung von Webseiten Verlinkung von Webseiten Search Engine Strategies Conference & Expo, München 2007 Alan Webb CEO, ABAKUS Internet Marketing Warum ist Linkaufbau so wichtig? > Folgende Suchmaschinen bewerten Linkpopularität

Mehr

Vektoren - Die Basis

Vektoren - Die Basis Vektoren - Die Basis Motivation (Als Vereinfachung - der Schreibarbeit - wählen wir meistens Vektoren in R 2.) Eigentlich ist ja Alles klar! Für einen Vektor a gilt a = ( a x a y )! Am Ende werden wir

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Informationstag für Gymnasiastinnen und Gymnasiasten Universität Fribourg (Schweiz) georges.klein@unifr.ch Fribourg, 24. November 2010 georges.klein@unifr.ch Die Mathematik

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr

. Die obige Beschreibung der Laufzeit für ein bestimmtes k können wir also erweitern und erhalten die folgende Gleichung für den mittleren Fall:

. Die obige Beschreibung der Laufzeit für ein bestimmtes k können wir also erweitern und erhalten die folgende Gleichung für den mittleren Fall: Laufzeit von Quicksort im Mittel. Wir wollen die erwartete Effizienz von Quicksort ermitteln. Wir nehmen an, die Wahrscheinlichkeit, dass das gewählte Pivot-Element a j das k-t kleinste Element der Folge

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEA SEM = Search Engine Marketing Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Willkommen Suchmaschinenoptimierung Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Übersicht Einleitung & Begriffe Geschichte Pagerank Tools On-Page Optimierung Off-Page Optimierung

Mehr

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN

SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN SPRACHTECHNOLOGIE IN SUCHMASCHINEN IR-GRUNDLAGEN HAUPTSEMINAR SUCHMASCHINEN COMPUTERLINGUISTIK SOMMERSEMESTER 2016 STEFAN LANGER STEFAN.LANGER@CIS.UNI -MUENCHEN.DE Übung (Gruppenarbeit, 10-15 min.) Sie

Mehr

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein.

a) (A B) tritt ein = A tritt ein oder B tritt ein. = Mindestens eines der Ereignisse A, B tritt ein. Lösungsvorschläge zu den Aufgaben von Blatt 6: 43) 7 Telefonzellen ( 7 Kugeln in der Urne); 3 davon sind von je einem Benutzer besetzt ( 3 Kugeln in die Stichprobe). Die Telefonzellen werden nicht mehrfach

Mehr

Was bedeutet der Begriff:

Was bedeutet der Begriff: Wie gewinnen Sie mit Ihrer Internetseite neue Gäste? THEMA : Sichtbarkeit schaffen durch SUCHMASCHINEN-OPTIMIERUNG (SEO) Was bedeutet der Begriff: SEO? Die Kunst der Suchmaschinen-Optimierung oder Wie

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26) Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26 Ein Wahrscheinlichkeitsraum (Ω, P ist eine Menge Ω (Menge aller möglichen Ausgänge eines Zufallsexperiments: Ergebnismenge versehen mit einer Abbildung

Mehr

Information Retrieval, Vektorraummodell

Information Retrieval, Vektorraummodell Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Information Retrieval, Vektorraummodell Tobias Scheffer Paul Prasse Michael Großhans Uwe Dick Information Retrieval Konstruktion

Mehr

Suchmaschinen Hakan Erci. Threeway

Suchmaschinen Hakan Erci. Threeway Suchmaschinen Hakan Erci Threeway Threeway seit 1996 als SpinOff der HTL Brugg Windisch Webshop Webapplikationen Newsletter Barrierefreiheit Hauptaspekte Werden meine Inhalte von der Suchmaschine gefunden,

Mehr

Satz 18 (Satz von der totalen Wahrscheinlichkeit)

Satz 18 (Satz von der totalen Wahrscheinlichkeit) Ausgehend von der Darstellung der bedingten Wahrscheinlichkeit in Gleichung 1 zeigen wir: Satz 18 (Satz von der totalen Wahrscheinlichkeit) Die Ereignisse A 1,..., A n seien paarweise disjunkt und es gelte

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

Diese Anleitung ist ausschließlich nur für das Woltlab Burning Board der Version 3 geschrieben wurden!

Diese Anleitung ist ausschließlich nur für das Woltlab Burning Board der Version 3 geschrieben wurden! Einleitung Diese Anleitung ist ausschließlich nur für das Woltlab Burning Board der Version 3 geschrieben wurden! Alle darin enthaltene Texte sowie Grafiken und sonstigen Elementen unterliegen dem Verfasser

Mehr

Wer suchet, der findet

Wer suchet, der findet Wer suchet, der findet - Über die Kunst des Suchens - 1 Maik Hetmank W W W as möchte ich wissen? omit soll ich suchen? ie soll ich suchen? 2 Maik Hetmank Was genau möchte ich wissen? Offen Welche Gefahren

Mehr

Bezeichnung bestimmen, mit der Domänen in Google erscheinen

Bezeichnung bestimmen, mit der Domänen in Google erscheinen Bezeichnung bestimmen, mit der Domänen in Google erscheinen Jürgen Eckert - Domplatz 2-96049 Bamberg Tel (09 51) 5 02 2 75, Fax (09 51) 5 02 2 71 Mobil (01 79) 3 22 09 33, privat (09 51) 9 68 58 34 E-Mail:

Mehr

Satz 16 (Multiplikationssatz)

Satz 16 (Multiplikationssatz) Haug verwendet man die Denition der bedingten Wahrscheinlichkeit in der Form Damit: Pr[A \ B] = Pr[BjA] Pr[A] = Pr[AjB] Pr[B] : (1) Satz 16 (Multiplikationssatz) Seien die Ereignisse A 1 ; : : : ; A n

Mehr

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor Allgemeines zu Suchmaschinen Was ist eine Suchmaschine? Ein Programm das die Suche nach Dokumenten/Webseiten im Internet durch die Eingabe

Mehr

[Arbeiten mit dem Nvu Composer]

[Arbeiten mit dem Nvu Composer] Eine neue Seite erstellen Beim Start des Composers steht automatisch eine neue Composer-Seite zur Verfügung, die direkt verwendet werden kann. Über Datei > Neu > Composer-Seite kann jederzeit eine neue

Mehr

1. Musterlösung. Problem 1: Average-case-Laufzeit vs. Worst-case-Laufzeit ** i=1

1. Musterlösung. Problem 1: Average-case-Laufzeit vs. Worst-case-Laufzeit ** i=1 Universität Karlsruhe Algorithmentechnik Fakultät für Informatik WS 05/06 ITI Wagner. Musterlösung Problem : Average-case-Laufzeit vs. Worst-case-Laufzeit ** (a) Im schlimmsten Fall werden für jedes Element

Mehr

Suchmaschinen im Internet

Suchmaschinen im Internet Michael Glöggler Suchmaschinen im Internet Funktionsweisen, Ranking Methoden, Top Positionen Mit 47 Abbildungen und 25 n Springer Inhaltsverzeichnis 1 Überblick Suchdienste im World Wide Web 1 1.1 Webkataloge

Mehr

1 Informationssuche im Internet

1 Informationssuche im Internet 1 Informationssuche im Internet Das Internet enthält eine große Menge unterschiedlicher und sehr heterogener Daten, die in unterschiedlicher Art und Weise aufbereitet sind. Der interessante Teil des Internet

Mehr

D 1 D 2 D 3 D 4 D 5... D m S S S S n

D 1 D 2 D 3 D 4 D 5... D m S S S S n Page-Rank Wir wollte in einem Corpus von Texten, wie z.b. Bücher, Webseiten, Anleitung usw., nach bestimmten Inhalten aus einer Menge von Schlüsselworten suchen Sei S = {S,S,...,S n,s n } eine eine alphabeitsch

Mehr

Die Statistiken von SiMedia

Die Statistiken von SiMedia Die Statistiken von SiMedia Unsere Statistiken sind unter folgender Adresse erreichbar: http://stats.simedia.info Kategorie Titel Einfach Erweitert Übersicht Datum und Zeit Inhalt Besucher-Demographie

Mehr

Lineare Algebra und Numerische Mathematik für D-BAUG

Lineare Algebra und Numerische Mathematik für D-BAUG P Grohs T Welti F Weber Herbstsemester 25 Lineare Algebra und Numerische Mathematik für D-BAUG ETH Zürich D-MATH Beispiellösung für Serie 8 Aufgabe 8 Basen für Bild und Kern Gegeben sind die beiden 2 Matrizen:

Mehr

Bibliothekssysteme / Verbundsysteme / Netze

Bibliothekssysteme / Verbundsysteme / Netze Bibliothekssysteme / Verbundsysteme / Netze Teil 2: Systemkonzeptionen / Neue Tendenzen Kaderkurs für Diplombibliothekarinnen und Diplombibliothekare 2002-03-27 Programm 2002-03-27 1105-1120 Systemarchitektur

Mehr

Auswertung von Systematikdaten für die maschinelle Indexierung Das virtuelle Bücherregal NRW

Auswertung von Systematikdaten für die maschinelle Indexierung Das virtuelle Bücherregal NRW Auswertung von Systematikdaten für die maschinelle Indexierung Das virtuelle Bücherregal NRW Florian Seiffert, HBZ 09.03.2004 Dortmund 28. Jahrestagung der Gesellschaft für Klassifikation Virtuelles Bücherregal

Mehr

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Stochastik Musterlösung 3

Stochastik Musterlösung 3 ETH Zürich HS 2018 RW, D-MATL, D-MAVT Prof. Marloes H. Maathuis Koordinator Dr. Marvin S. Müller Stochastik Musterlösung 3 1. Wir betrachten eine Krankheit, zu der es einen Test beim Arzt gibt. Wir wissen,

Mehr

Vorgehen bei der Informationssuche

Vorgehen bei der Informationssuche Vorgehen bei der Informationssuche Hüseyin Colak April 25, 2007 Hüseyin Colak () Vorgehen bei der Informationssuche April 25, 2007 1 / 15 Inhaltsverzeichnis 1 Einleitung 2 Projekt IKommHelp 3 Hilfestellung

Mehr

Erfolg in Suchmaschinen Spickzettel

Erfolg in Suchmaschinen Spickzettel Erfolg in Suchmaschinen Spickzettel Die wichtigsten Begriffe bei Suchmaschinen Einleitung Eigentlich ist es ganz einfach Das Marketing in Suchmaschinen wimmelt von Abkürzungen. SEM, SEO, SERP, CPC lassen

Mehr

Lineares Gleichungssystem - Vertiefung

Lineares Gleichungssystem - Vertiefung Lineares Gleichungssystem - Vertiefung Die Lösung Linearer Gleichungssysteme ist das "Gauß'sche Eliminationsverfahren" gut geeignet - schon erklärt unter Z02. Alternativ kann mit einem Matrixformalismus

Mehr

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Hasso-Plattner-Institut Potsdam Fachgebiet Informationssysteme Markus Güntert WS 2008/2009 20.01.2009 1 The Anatomy

Mehr

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen 11. Juni 2009 Gliederung 1 Problemstellung 2 Vektorprodukt Approximationen Samplesammlung 3 Schritte Lokalität und Nachrichtenkomplexität

Mehr

Unser Problem lässt sich relativ leicht lösen, indem wir eine so genannte Internet Suchmaschine benutzen.

Unser Problem lässt sich relativ leicht lösen, indem wir eine so genannte Internet Suchmaschine benutzen. Internet Suche 1 Ein Problem Für unsere Gruppenarbeit in Geographie wollen wir wissen, wie viel Einwohner die Stadt Moskau hat. Auch hätten wir gern eine Karte Russlands, welche die Lage der Hauptstadt

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 8 18. Mai 2010 Kapitel 8. Vektoren (Fortsetzung) Lineare Unabhängigkeit (Fortsetzung) Basis und Dimension Definition 80. (Lineare (Un-)Abhängigkeit)

Mehr

Erfolgreiche Internetsuche

Erfolgreiche Internetsuche Rainer Kolbeck Erfolgreiche Internetsuche Informationen weltweit gezielt suchen und finden Markt&Technik Buch- und Software-Verlag GmbH i J Inhaltsverzeichnis Inhaltsverzeichnis Vorwort 11 Teil I: Grundlagen

Mehr

Gambler s Ruin. B ist die Bank ) 4/40

Gambler s Ruin. B ist die Bank ) 4/40 Gambler s Ruin Zwei Spieler A und B spielen ein Spiel um m Franken. Spieler A hat a Franken, Spieler B hat b = m a Franken. In jeder Runde wird um 1 Franken gespielt. A gewinnt eine Runde mit W keit p,

Mehr

ArenaSchweiz AG. CMS Concrete5 Erste Schritte

ArenaSchweiz AG. CMS Concrete5 Erste Schritte CMS Concrete5 Erste Schritte Anmelden Öffnen Sie Ihren Browser und geben Sie Ihre Website-Adresse ein, dazu «/login» Beispiel: http://www.domainname.ch/login Geben Sie Benutzername und Passwort ein und

Mehr

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Verweisstrukturen haben eine wichtige Bedeutung Spamming

Mehr

Verteiltes Information Retrieval

Verteiltes Information Retrieval Seminar Experimentielle Evaluierung im IR Verteiltes Information Retrieval Sascha Brink Sebastian Ruiling 20.12.2005 Universität Duisburg-Essen Agenda Motivation / Grundlagen CORI DTF Diskussion der Verfahren

Mehr

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06. Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht

Mehr

Im Web gefunden werden

Im Web gefunden werden Existenz 2013 Bad Tölz Im Web gefunden werden Suchmaschinen-Marketing von SEA bis SEO Franz-Rudolf Borsch 1 Die kommenden 45min 1. 2. Sie sind nicht alleine Herkunft der Besucher 3. Suchmaschinen locken

Mehr

SEO Search Engine Optimization Diese Rankingfaktoren gelten für Google. Mareike Furlong & Klaudija Paunovic

SEO Search Engine Optimization Diese Rankingfaktoren gelten für Google. Mareike Furlong & Klaudija Paunovic SEO Search Engine Optimization Diese Rankingfaktoren gelten für Google Mareike Furlong & Klaudija Paunovic Warum Google so wichtig ist 83% der deutschen Verbraucher informieren sich vor dem Kauf eines

Mehr

Dokumentation Webalizer

Dokumentation Webalizer Dokumentation Webalizer Webalizer In unseren greenhosting Linux und Windows Abonnementen kann eine Webstatistik eingesehen werden. In folgendem Dokument wird eine Erläuterung der Webstatistik gegeben.

Mehr

2 Kombinatorik. 56 W.Kössler, Humboldt-Universität zu Berlin

2 Kombinatorik. 56 W.Kössler, Humboldt-Universität zu Berlin 2 Kombinatorik Aufgabenstellung: Anzahl der verschiedenen Zusammenstellungen von Objekten. Je nach Art der zusätzlichen Forderungen, ist zu unterscheiden, welche Zusammenstellungen als gleich, und welche

Mehr

Alan Webb CEO, ABAKUS Internet Marketing

Alan Webb CEO, ABAKUS Internet Marketing Suchmaschinenoptimierung - aktuelle Trends und Erfolgsfaktoren E-Business-Tag: Online-Marketing - neue Wege zum Kunden Alan Webb CEO, ABAKUS Internet Marketing ABAKUS Internet Marketing > Über 5 Jahre

Mehr

Federated Search: Integration von FAST DataSearch und Lucene

Federated Search: Integration von FAST DataSearch und Lucene Federated Search: Integration von FAST DataSearch und Lucene Christian Kohlschütter L3S Research Center BSZ/KOBV-Workshop, Stuttgart 24. Januar 2006 Christian Kohlschütter, 24. Januar 2006 p 1 Motivation

Mehr

Extranet pro familia. Anleitung zur Nutzung Webseitenstatistik. Extranet pro familia... 1. Anleitung zur Nutzung Webseitenstatistik...

Extranet pro familia. Anleitung zur Nutzung Webseitenstatistik. Extranet pro familia... 1. Anleitung zur Nutzung Webseitenstatistik... Extranet pro familia Anleitung zur Nutzung Webseitenstatistik Extranet pro familia.... 1 Anleitung zur Nutzung Webseitenstatistik.... 1 Erklärung und Anleitung Ihrer Webseitenstatistik (Awstats)... 2 1.

Mehr

Mathematik 1 für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler) Musterprüfung mit Lösungen

Mathematik 1 für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler) Musterprüfung mit Lösungen Mathematik für Informatiker und Wirtschaftsinformatiker Wintersemester 07/08 (Winkler Musterprüfung mit Lösungen. Sei T N. (a Unter welchen beiden Voraussetzungen an T garantiert das Induktionsaxiom (nach

Mehr

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06

Evaluierung und Retrievalmaße. Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Evaluierung und Retrievalmaße Seminar experimentelle Evaluierung In Information Retrieval WS05/06 Einleitung - Evaluierung Wichtig für IR Zusammenhang zwischen einer Suchanfrage und den zurückgegebenen

Mehr

I.1.3 b. (I.7a) I.1 Grundbegriffe der Newton schen Mechanik 9

I.1.3 b. (I.7a) I.1 Grundbegriffe der Newton schen Mechanik 9 I. Grundbegriffe der Newton schen Mechanik 9 I..3 b Arbeit einer Kraft Wird die Wirkung einer Kraft über ein Zeitintervall oder genauer über die Strecke, welche das mechanische System in diesem Zeitintervall

Mehr

Ideen und Konzepte der Informatik Websuche

Ideen und Konzepte der Informatik Websuche Ideen und Konzepte der Informatik Websuche Antonios Antoniadis (Basierend auf Folien von Kurt Mehlhorn) 13. Nov. 2017 13. Nov. 2017 1/29 Suchmaschinen 1990: Archie (sehr elementar)... 1995: AltaVista 1998:

Mehr

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten

15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten 15. Algorithmus der Woche Das Rucksackproblem Die Qual der Wahl bei zu vielen Möglichkeiten Autoren Rene Beier, MPI Saarbrücken Berthold Vöcking, RWTH Aachen In zwei Monaten startet die nächste Rakete

Mehr

Stichwortsuche Themenhefte Bedienungsanleitung

Stichwortsuche Themenhefte Bedienungsanleitung Stichwortsuche Themenhefte Bedienungsanleitung Die in den Themenheften seit 2010 abgedruckten Vorträge und Fragebeantwortungen können online durchsucht werden. Die Stichwortsuche ist erreichbar unter https://www.glzh.ch/index.php/de/zeitschrift-geistige-welt/stichwortsuche.

Mehr

8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten

8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten www.namics.com 8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten Zürich, 30. März 2007 Jürg Stuker, CEO & Partner Bern, Frankfurt, Hamburg, München, St. Gallen, Zug, Zürich Fehler

Mehr

Exkurs Suchmaschinen Grundlagen

Exkurs Suchmaschinen Grundlagen Exkurs Suchmaschinen Grundlagen Suchmaschinen = Google Rund 93% der deutschen Nutzer verwenden Google als Suchmaschine Suchmaschinen / Google Wie kommt die Zielgruppe auf die Webseite? 2 Möglichkeiten:

Mehr

Ausgangsfrage: gegeben Vektorraum, wieviele Komponenten hat. allgemein: ein Vektorraum mit, heisst 'Unterraum' von. ist ein Unterraum von V.

Ausgangsfrage: gegeben Vektorraum, wieviele Komponenten hat. allgemein: ein Vektorraum mit, heisst 'Unterraum' von. ist ein Unterraum von V. L2.3 Basis und Dimension Ausgangsfrage: gegeben Vektorraum, wieviele Komponenten hat Formaler: was ist die 'Dimension' von Sei Definition: 'Span' 'lineare Hülle' = alle möglichen Linearkombination der

Mehr

Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern

Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern Gerd Graßhoff Bern Inhaltsverzeichnis 1 Ziel 1 2 Technische Realisierung 4 3 Digital Document Library for the History

Mehr