LEHRSTUHL FÜR DATENBANKEN

Größe: px
Ab Seite anzeigen:

Download "LEHRSTUHL FÜR DATENBANKEN"

Transkript

1 LEHRSTUHL FÜR DATENBANKEN Informa4on Retrieval - Web Crawler / PageRank Prof. Dr.- Ing. Wolfgang Lehner

2 >! WEB CRAWLER! Funk4onsweise! Robots Exclusion Standard! Indexierung von HTML- Seiten! Indexierung andere DokumenPypen! Prioritätsgeführtes Crawling! Übungsaufgabe! PAGERANK- ALGORITHMUS! BerechnungsvorschriW! Beispiele! Random- Surfer Modell Dr. Dirk Habich R7 Web Crawler 2

3 > Funk*onsweise Start Beim Start eines Crawlers wird diesem eine nicht- leere Menge von Start- URLs vorgegeben Crawler fordert diese Dokumente von den entsprechenden Servern an und analysiert sie Analyse Bei dieser Analyse extrahiert der Crawler alle in dem aktuellen Dokument enthaltenen Hyperlinks Diese Links nimmt der Crawler in eine persis4erbare Warteschlange auf, in der alle bisher gefundenen, aber noch nicht besuchten Links/URLs verwaltet werden Zusätzlich indexiert der Crawler in aller Regel die besuchten Dokumente und baut aus diesen Informa4onen einen Index auf, der später von einer Suchmaschine genutzt werden kann Dr. Dirk Habich R7 Web Crawler 3

4 > Funk*onsweise (2) Eigenscha1en Durch das Verhalten durchsucht der Crawler also jedenfalls in der Theorie das gesamte WWW und indexiert alle Dokumente. In regelmäßigen (etwa alle vier Wochen) oder unregelmäßigen (etwa nach einer bes4mmten Anzahl indexierter Dokumente) Abständen wird der Crawler angehalten. Der bis dahin erstellte Index wird zur Suchmaschine kopiert und ersetzt oder aktualisiert den dort vorhandenen Index Ab diesem Zeitpunkt können Benutzer der Suchmaschine auf den neuen Index zurückgreifen und auf den neu indexierten Dokumenten suchen Schlussfolgerung Aus diesem Grund hinken Suchmaschinen dem aktuellen Stand des WWW immer mit einer gewissen Verzögerung (einige Tage bis einige Monate) hinterher. Nach der Übertragung des Index wird der Crawler von neuem gestartet. Dr. Dirk Habich R7 Web Crawler 4

5 > Webseiten- Regis*erung Anmeldung beim Crawler Betreiber von Websites können ihre Website bei einem Crawler anmelden Google- Link hpp:// Webseiten werden indexiert bevor der Crawler sie über Hyperlinks von anderen Websites erreicht Auch Websites, auf die noch gar nicht verwiesen wird, können so indexiert werden. Die Liste der neu angemeldeten Websites wird üblicherweise an den Crawler übertragen, wenn dieser angehalten wurde einige Crawler können auch während eines Crawls neue URLs in ihre Warteschlangen aufnehmen Zwischen der Anmeldung einer Website und ihrer erstmaligen Indexierung durch einen Crawler können daher von einigen Tage bis zu einigen Monaten vergehen Dr. Dirk Habich R7 Web Crawler 5

6 > Robots Exclusion Standard Dr. Dirk Habich R7 Web Crawler 6

7 > Gründe Crawler besuchen standardmäßig alle über Hyperlinks erreichbaren Dokumente einer Website. Aus verschiedenen Gründen ist dies nicht immer erwünscht: Hoher Datenverkehr Manche Crawler haben/hapen die schlechte Angewohnheit, während der Indexierung einen Server zu hammern, also alle paar Zehntel- oder gar Hundertstelsekunden ein weiteres Dokument von diesem Server anzufordern (Denial- of- Service APacke) Wünschenswert ist manchmal auch, dass vor allem die Eins4egsseiten einer Website indexiert werden, damit Besucher, welche über eine Suchmaschine die Website finden, auch auf der Eins4egsseite einsteigen und nicht 4ef unten in der Hierarchie Manche Bereiche einer Website werden zudem zwar nicht als geheim eingestuw, sollen aber dennoch nicht per Suchmaschine gefunden werden Dr. Dirk Habich R7 Web Crawler 7

8 > Einschränkung Crawler Robot Exclusion Standard Durch eine Datei namens robots.txt im Hauptverzeichnis des WWW- Servers kann das Verhalten der Crawler beeinflusst werden # Alle Crawler sollen von bestimmten Bereichen der Website ausgeschlossen werden : User agent : Disallow : /cgi bin/ Disallow : /tmp/ Disallow : /private/ # Ein einzelner Crawler soll ausgeschlossen werden : User agent : Disallow : / BadBot User- agent à Auswahl Crawler Disallow à Einschränkung vornehmen, Dr. Dirk Habich R7 Web Crawler 8

9 > Einschränkung Crawler AlternaHve Vorgehensweise Alterna4v können diese Angaben auch als meta- Tag im Header eines HTML- Dokuments enthalten sein <html> <head> <title>lehrstuhl fü r Medieninformatik</title> <META NAME="ROBOTS" CONTENT=" NOINDEX, NOFOLLOW"> </ head> <body> <p>h e r z l i c h willkommen a u f den S e i t e n d e s Lehrstuhls fü r Medieninformatik an der Universität Bamberg. </ body> </ html> Indizierung der HTML- Seite INDEX, NOINDEX Verfolgen von Hyperlinks FOLLOW, NOFOLLOW Dr. Dirk Habich R7 Web Crawler 9

10 > Indexierung von HTML- Seiten Dr. Dirk Habich R7 Web Crawler 10

11 > Einführung Hypertext- Dokumente unterscheiden sich von normalen Dokumenten vor allem durch die folgenden beiden CharakterisHka: Hypertext- Dokumente können eingebepete Dokumente wie etwa Bilder, Sound, interak4ve Inhalte oder auch andere Textdokumente enthalten. Dadurch werden Hypertext- Dokumente zu Verbunddokumenten. Hypertext- Dokumente können Hyperlinks zu anderen Dokumenten enthalten. Auf einem Hyperlink ist eine Naviga4ons- Opera4on definiert, die den Benutzer im Allgemeinen zu einem anderen Dokument führt. Hierdurch ist die Vernetzung von Dokumenten möglich. Dr. Dirk Habich R7 Web Crawler 11

12 > Hypertext Hypertextstrukturen wie die hier abgebildete bestehen aus einer Reihe von Hypertextdokumenten, welche ihrerseits aus dem enthaltenen Text, aber auch aus eingebetteten Bildern, Sound und ähnlichem mehr bestehen. Hypertextdokumente können durch so genannte Hyperlinks auf andere Hypertextdokumente verweisen und dadurch mit ihnen verbunden sein. Hierdurch wird das so genannte Surfen durch die Hypertextstruktur (z.b. im WWW) ermöglicht. Abbildung 9.2 Aufbau einer Hypertextstruktur. Dr. Dirk Habich R7 Web Crawler 12

13 > HTML WWW Das WWW enthält vornehmlich Hypertext- Dokumente in Form von HTML- (Hypertext Markup Language)- Dokumenten. HTML bietet Möglichkeiten zur FormaHerung von Dokumenten So können ÜberschriWen, Listen und Tabellen erstellt werden, Dokumente können Meta- Informa4onen (etwa Angaben zu Autor, Erstellungs- und Verfalls- datum, Schlüsselwörter,...) enthalten. Es exis4eren Konstrukte zur Erstellung von Hyperlinks zu anderen Dokumenten und schließlich können HTML- Dokumente andere (HTML- )Dokumente als eingebepete Dokumente enthalten. HTML stellt somit den Quasi- Standard zur Publika4on im Internet dar. HTML- Dokumente sind dabei per se sta4sche Dokumente, können also keine dynamischen Elemente enthalten. Dr. Dirk Habich R7 Web Crawler 13

14 > Indexierung Feststellung Für die Indexierung eines HTML- Dokuments ist es nun vorteilhaw, wenn man die gramma4sche Struktur des Dokuments analysiert. So möchte man im Allgemeinen nur diejenigen Teile des Dokuments in den Index aufnehmen, welche der Nutzer am Bildschirm auch sehen kann, also keine Steuerbefehle, Kommentare,... HTML- Parser Spezifischer HTML- Parser, der ein HTML- Dokument einliest und intern die Struktur des Dokuments repräsen4ert Danach kann man daran gehen, gezielt die Teile des Dokuments zu indexieren, an denen man interessiert ist. So kann man beispielsweise nur die ÜberschriWen und den normalen Fließtext eines Dokuments indexieren, nicht aber den in Tabellen und Kommentaren enthaltenen Text. Nebeneffekt des Einsatzes eines HTML- Parsers ist, dass der Parser das HTML- Dokument automa4sch auch auf die darin enthaltenen Hyperlinks untersucht Dr. Dirk Habich R7 Web Crawler 14

15 > Implemen*erung / Link Extrak*on Vorgehensweise ImplemenHerung Zur Implemen4erung eines solchen Crawlers mit integriertem HTML- Parser kann man auf eine Reihe frei verfügbarer HTML- Parser zurückgreifen. HTML- Parse für C++, Java, Perl etc. exis4eren Link ExtrakHon Link Extrak4on von besonderem Interesse Die Hyperlinks eines Dokuments sind nach der eigentlichen Extrak4on durch den Parser eventuell noch nicht in ihrer einfachsten, kanonischen Form. Darüber hinaus muss vermieden werden, dass sich der Crawler in unendlichen virtuellen Hierarchien verfängt wie sie z.b. von Content Management Systemen erzeugt werden Dr. Dirk Habich R7 Web Crawler 15

16 > Kanonische Form Beispiel hpp:// Die Überführung einer solchen URL in ihre kanonische Form ist ein verhältnismäßig einfaches Problem:./ verweist auf das aktuelle Verzeichnis auf dem Webserver und kann daher ersatzlos gestrichen werden.../ verweist hingegen auf das dem aktuellen Verzeichnis übergeordnete Verzeichnis. Dies führt dazu, dass neben../ auch das vorhergehende Element der URL gestrichen wird. Java In der Standardbibliothek der Programmiersprache Java gibt es die Klasse java.net.url, die eine URL repräsen4ert und eine kanonische Form dieser URL erzeugen kann. Dr. Dirk Habich R7 Web Crawler 16

17 > Unendlich virtuelle Hierarchien Beobachtung Insbesondere bei dynamisch erstellten Dokumenten kann es vorkommen, dass der erzeugte URL- Raum unendlich ist. So kann beispielsweise an die URL jeder dynamisch erzeugten Seite ein Zeitstempel angehängt werden, etwa?date= Damit exis4eren zu jedem solcherart dynamisch erzeugten Dokument unendlich viele Varianten und jede Sekunde kommt eine weitere Variante hinzu. Lösungsansätze Problem wesentlich schwieriger als das vorherige Dr. Dirk Habich R7 Web Crawler 17

18 > Indexierung anderer Dokumente Dr. Dirk Habich R7 Web Crawler 18

19 > Andere Dokumente Für die Indexierung eines Dokuments, welches einem gewissen DokumenZyp entspricht und dessen Syntax und GrammaHk folgt, gibt es grundsätzlich zwei verschiedene Ansätze: Spezifischer Parser Transforma4on in Plain Text Dokumententypen Besonders wünschenswert für einen Crawler ist es, wenn er neben HTML auch XML, PDF, PS, diverse Office- Formate und Plain Text indexieren kann. Dabei ist die Indexierung von Plain Text am simpelsten: Plain Text muss nicht geparst werden, sondern kann direkt indexiert werden. Daher werden komplexere Formate vor der Indexierung auch häufig in Plain Text überführt; dabei geht zwar die Struktur- Informa4on (ÜberschriWen, FePdruck, Tabellen,...) des Originalformats verloren allerdings ist man meist ohnehin eher an den im Dokument verwendeten Begriffen und nicht so sehr an der logischen Struktur interessiert. Dr. Dirk Habich R7 Web Crawler 19

20 > Prioritätsgeführtes Crawling Dr. Dirk Habich R7 Web Crawler 20

21 > Prioritätsgeführtes Crawling Einige Websites sind für Benutzer besonders interessant. Hierzu gehören neben Online- Magazinen auch die Online- Ausgaben von Printmedien, WirtschaWsdienste u.ä. Diese Websites zeichnen sich üblicherweise durch eine hohe Aktualisierungsrate aus. Sie ändern ihren Inhalt sehr häufig, teilweise sogar minütlich oder stündlich. Einfluss auf Crawler Daher ist solchen Websites auch seitens eines Crawlers erhöhte Aufmerksamkeit zu schenken. Der Crawler überprüw in bes4mmten Intervallen, ob sich ein bereits indexiertes Dokument seit dem letzten Besuch geändert hat. Falls dies so ist, wird das Intervall zwischen zwei Besuchen für dieses Dokument verringert (außer es unterschreitet bereits ein Mindestmaß). Hat sich das Dokument hingegen nicht verändert, so wird das Besuchsintervall für dieses Dokument belassen oder sogar erhöht. Dr. Dirk Habich R7 Web Crawler 21

22 > Prioritätsgeführtes Crawling (2) Schlussfolgerung Durch dieses Vorgehen kann erreicht werden, dass ein Crawler Seiten auch in Abhängigkeit ihrer Aktualisierungsrate wiederholt besucht und indexiert. Durch die Einstellung des Besuchsintervalls bleibt der Index also auch für solche Seiten aktuell, die sich häufig ändern Dr. Dirk Habich R7 Web Crawler 22

23 > Übungsaufgabe Dr. Dirk Habich R7 Web Crawler 23

24 > Dr. Dirk Habich R7 Web Crawler 24

25 > PageRank- Algorithmus Dr. Dirk Habich R7 Web Crawler 25

26 > Spezielle Methoden Klassische Methoden Eine alleinige Anwendung klassischer Techniken des Informa4on Retrieval (also z.b. des Vektoraummodells oder des Booleschen Retrieval) erscheint im Kontext des WWW und der Suche im WWW aus verschiedenen Gründen nicht sinnvoll Umfang der Dokumentenkollek4on Unterschiedliche Qualität der Webseiten à Einbeziehung in das Ranking Typische Anfragen an eine Suchmaschine für das Web bestehen nur aus ein bis drei Begriffen. Selbst wenn man nur Dokumente betrachtet, die alle Anfragebegriffe enthalten, erhält man sehr viele Treffer. Unter diesen erscheint ein Ranking allein aufgrund der Vorkommenshäufigkeit bzw. z.idf- Werte von Begriffen recht problema4sch Unterschiedliche Nutzergruppen Etc. Dr. Dirk Habich R7 Web Crawler 26

27 > PageRank Einführung Grundidee des PageRank- Algorithmus ist es, die Hyperlink- Struktur des WWW zu nutzen, um die Qualität und Relevanz der Dokumente im WWW besser einschätzen zu können. PageRank geht dabei davon aus, dass es für ein bes4mmtes Dokument im WWW zwei Arten von Hyperlinks gibt: die forward links (out- links), die von diesem Dokument aus auf andere Dokumente zeigen, und die back links (in- links), welche von anderen Dokumenten auf das gerade betrachtete Dokument zeigen. Eine erste Arbeitshypothese ist dabei, dass die Qualität eines Dokuments umso höher ist, je mehr Backlinks es aufzuweisen hat. Die bedeutet nämlich im Allgemeinen, dass eine Reihe von Autoren im WWW das Dokument für so gut halten, dass sie von ihren Dokumenten aus auf dieses Dokument verlinken. Die Anzahl der Backlinks auf ein Dokument kann also als ein grobes Maß für die Qualität dieses Dokuments dienen. Dr. Dirk Habich R7 Web Crawler 27

28 > PageRank Einschränkung / Verfeinerung Allerdings sind nicht alle Backlinks gleich zu bewerten. Kommt ein Backlink von einer qualita4v hochwer4gen Seite, ist ihm sicherlich mehr Gewicht beizumessen als einem Backlink aus den Niederungen des WWW. Daher berücksich4gt PageRank auch die Qualität der Dokumente, von denen aus die Backlinks auf das gerade zu bewertende Dokument zeigen. ProblemaHsch Problema4sch an der Verwendung von Backlinks zur Bewertung von Dokumenten ist die Tatsache, dass nicht sichergestellt werden kann, dass alle Backlinks eines Dokuments bekannt sind; um dies zu erreichen, müssten der Suchmaschine bzw. ihrem Crawler alle Dokumente im WWW bekannt sein. Dr. Dirk Habich R7 Web Crawler 28

29 > BerechnungsvorschriW Formel der ursprüngliche PageRank- Algorithmus wurde von Lawrence Page und Sergey Brin mehrfach beschrieben PR(A) =(1 d)+d n i=1 PR(T i ) C(T i ) Dr. Dirk Habich R7 Web Crawler 29

30 > BerechnungsvorschriW (2) Eigenscha1 Das PageRank- Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bes4mmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Der PageRank der Seiten Ti, die auf eine Seite A verlinken, fließt nicht gleichmäßig in den PageRank von Seite A ein. Der PageRank einer Seite Ti wird stets anhand der Anzahl C(Ti) der von Seite Ti ausgehenden Links gewichtet. Das bedeutet, je mehr ausgehende Links eine Seite Ti hat, umso weniger PageRank gibt sie an Seite A weiter. Eine Seite Ti verteilt ihren PageRank PR(Ti) damit quasi über ihre ausgehenden Links. Dr. Dirk Habich R7 Web Crawler 30

31 > Beispiele Dr. Dirk Habich R7 Web Crawler 31

32 > Grundlage Random Surfer Modell sehr einfache, intui4ve Begründung des PageRank- Algorithmus Einführung eines Zufalls- Surfers, der von einer Webseite zur nächsten jeweils beliebige Links verfolgt, ohne dabei auf die Inhalte zu achten. Der Zufalls- Surfer befindet sich mit einer bes4mmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. Die Wahrscheinlichkeit, dass der Zufalls- Surfer nun einem bes4mmten Link folgt, ergibt sich einzig und allein daraus, aus wie vielen Links er die Auswahl hat. Aus diesem Grund fließt der PageRank einer verlinkenden Seite stets nach der Anzahl ihrer ausgehenden Links gewichtet in die PageRank Berechnung der verlinkten Seiten ein. Die Wahrscheinlichkeit, dass der Zufalls- Surfer auf eine Seite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verlinkenden Seite den entsprechenden Link verfolgt. Dr. Dirk Habich R7 Web Crawler 32

33 > Grundlage (2) Random Surfer Modell Nun wird allerdings die Wahrscheinlichkeit, mit der der Zufalls- Surfer auf eine Seite gelangt, mit dem Faktor d gedämpw. Dies hat im Rahmen des Random Surfer Modells den Hintergrund, dass der Zufalls- Surfer nicht unendlich viele Links verfolgt. Nach einer bes4mmten Zeit wird er gelangweilt und ruw eine beliebige andere Webseite auf. Dr. Dirk Habich R7 Web Crawler 33

34 > Probleme Dangling Links eine gewisse Anzahl von in Dokumenten gefundenen Hyperlinks zeigen immer ins»leere«zeigen (oder alle WWW- Dokumente sind indexiert, was in der Praxis nicht funk4oniert) alle Hyperlinks im Index, die auf nicht im Index enthaltene Dokumente verweisen, werden für die Berechnung des PageRank ignoriert eventuell werden sie sogar aus dem Index gelöscht. Rank Sinks Es kann Fälle geben, in denen eine Reihe von Dokumenten im WWW zyklisch aufeinander verweisen, von diesen Dokumenten aber keinerlei Links auf andere Dokumente ausgehen. Dr. Dirk Habich R7 Web Crawler 34

35 > Manipula*on Erfahrungen Das Konzept des PageRank hat in den ersten Jahren seiner Verwendung auch deshalb so gut funk4oniert, weil der Anbieter einer Seite nur mit sehr hohem Aufwand den PageRank seiner Seite manipulieren konnte. Durch»Link- Farmen«und das gegensei4ge Verlinken von Webseiten unter befreundeten Ins4tu4onen ergeben sich aber auch hier Möglichkeiten der Manipula4on. So sind z.b. ausgehende Links von universitären Seiten recht begehrt, weil diese durch die Regeln von Google leicht einen hohen PageRank erreichen können, der dann über den ausgehenden Link weitergeleitet werden kann. Nachteile Finanziell Starke können sich Backlinks erkaufen, und werden in Suchergebnissen höher posi4oniert. Gezielte Manipula4on wird seit geraumer Zeit betrieben. StaP qualita4v hochwer4gem Inhalt entscheiden ow die finanziellen Möglichkeiten über die Reihenfolge der Suchergebnisse. Webmaster sehen ow im PageRank das einzige Bewertungskriterium für den Linktausch. Der Inhalt der verlinkten Seiten gerät in den Hintergrund, entscheidend ist nur noch der PageRank. Dr. Dirk Habich R7 Web Crawler 35

36 > Ergebnisranking Anfrageverarbeitung 1) Die Einschätzung der inhaltlichen Ähnlichkeit z.b. auf Basis des Booleschen Retrievals oder des Vektorraummodells und 2) der PageRank der Seiten als Maß für ihre Popularität. Gesamtranking Verrechnung der beiden Werte Einschränkung des Ergebnisses mipels 1.) und Sor4erung des Ergebnisses mipels 2.) Suchmaschinen Geheime Informa4on Dr. Dirk Habich R7 Web Crawler 36

Rangierungsprizipien 1bei Suchsystemen

Rangierungsprizipien 1bei Suchsystemen Rangierungsprizipien 1bei Suchsystemen Rangierungsprinzip 1 Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant. Rangierungsprinzip 2 Je häufiger ein Suchbegriff

Mehr

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06. Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht

Mehr

Die Mathematik hinter Google

Die Mathematik hinter Google Die Mathematik hinter Google Informationstag für Gymnasiastinnen und Gymnasiasten Universität Fribourg (Schweiz) georges.klein@unifr.ch Fribourg, 24. November 2010 georges.klein@unifr.ch Die Mathematik

Mehr

Suchmaschinen-Optimierung

Suchmaschinen-Optimierung Suchmaschinen, Google & Co. Suchroboter der Suchmaschinen suchen das Web ab von Link zu Link Inhalte der Seiten werden registriert bzw. indexiert riesengrosse Datenbanken 11.10.2016 2 Search Engine Optimization,

Mehr

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008

Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Veranstalter: Lehrstuhl DBIS - Prof. Georg Lausen Betreuer: Thomas Hornung, Michael Schmidt 21.10.2008 Laut Studienordnung Master/Diplom: 16ECTS/15KP Entspricht: 480 Semesterstunden = 34h/Woche pp p.p.

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Webcrawler Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Inhalt Einführung: Definition Verwendung von Web Crawlers Probleme von Crawling Robots Exclusion: Robots.txt Robots

Mehr

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Themen der

Mehr

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche Spiders (Roboters/Bots/Crawlers) Websuche Spidering Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Erfolgreich suchen im Internet

Erfolgreich suchen im Internet Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Black-Hat Search Engine Optimization (SEO) Practices for Websites

Black-Hat Search Engine Optimization (SEO) Practices for Websites Beispielbild Black-Hat Search Engine Optimization (SEO) Practices for Websites Damla Durmaz - 29. Januar. 2009 Proseminar Technisch Informatik Leitung: Georg Wittenburg Betreuer: Norman Dziengel Fachbereich

Mehr

Mein Internetauftritt auf dem Prüfstand

Mein Internetauftritt auf dem Prüfstand Mein Internetauftritt auf dem Prüfstand Praxisseminar am 13.03.2008 Dr. Wolfgang Krauß Krauß-Marketing Unternehmensberatung Chemnitz www.krauss-marketing.de Das Marketing befindet sich im Umbruch These:

Mehr

Was Google nicht findet gibt es nicht

Was Google nicht findet gibt es nicht Was Google nicht findet gibt es nicht Zur (Un-)Zulässigkeit der Treffer-Optimierung bei Suchmaschinen im Web 3.0 Dr. Hans Peter Wiesemann 5. Dialog Camp München, 19. Februar 2016 A. Einleitung A. Einleitung

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

Die wich)gsten SEO Ranking Faktoren bei Google. A;erbuy BBQ 2014 Dominik Wojcik

Die wich)gsten SEO Ranking Faktoren bei Google. A;erbuy BBQ 2014 Dominik Wojcik Die wich)gsten SEO Ranking Faktoren bei Google A;erbuy BBQ 2014 Dominik Wojcik Krefeld, den 20.09.2014 1 Intro: Dominik Wojcik Dominik Wojcik Geschä;sführer bei Trust Agents Ex- Head of SEO bei Zalando.de

Mehr

#Backlinks: Was macht einen guten Backlink aus?

#Backlinks: Was macht einen guten Backlink aus? #Backlinks: Was macht einen guten Backlink aus? Start 1 Was ist ein Backlink? Wozu brauche ich Backlinks? Backlink: Verweis von einer anderen Webseite Wichtiger Rankingfaktor für alle großen Suchmaschinen

Mehr

Vom Suchen und Finden - Google und andere Ansätze

Vom Suchen und Finden - Google und andere Ansätze Vom Suchen und Finden - Google und andere Ansätze Norbert Fuhr Universität Duisburg Essen FB Ingenieurwissenschaften Abteilung Informatik 12. Mai 2005 Gliederung 1 Einführung 2 Grundlagen 3 Erweiterte

Mehr

Suchmaschinenoptimierung in der Praxis

Suchmaschinenoptimierung in der Praxis Suchmaschinenoptimierung in der Praxis So steigern Sie die Zugriffe auf Ihre Webseite. Frank Jäger, Präsentation am 11. Juni 2010, 1 Überblick Suchmaschinenoptimierung in der Theorie Aufbau der Google-Suchergebnisseite

Mehr

2. Die Analysewerkzeuge des SEO Traffic-Booster, um mehr Besucher zu bekommen

2. Die Analysewerkzeuge des SEO Traffic-Booster, um mehr Besucher zu bekommen 2.1 Textdichte wie häufig benutzen Sie Ihre wichtigsten Keywords? 2. Die Analysewerkzeuge des SEO Traffic-Booster, um mehr Besucher zu bekommen Der SEO Traffic-Booster stellt Ihnen gleich eine ganze Werkzeugkiste

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

SEO - SUCHMASCHINENOPTIMIERUNG. OnPage auf Ihrer Website

SEO - SUCHMASCHINENOPTIMIERUNG. OnPage auf Ihrer Website SEO - SUCHMASCHINENOPTIMIERUNG OnPage auf Ihrer Website SUCHMASCHINENOPTIMIERUNG SEO ON-PAGE Alle Maßnahmen, zur besseren Auffindbarkeit Ihrer Website in den Suchmaschinen, die Sie selbst auf Ihrer Website

Mehr

SEO WORKSHOP. Thomas Kloos

SEO WORKSHOP. Thomas Kloos SEO WORKSHOP Thomas Kloos .WASSERFALL PROJEKTPLAN .WASSERFALL PROJEKTPLAN KONZEPT .WASSERFALL PROJEKTPLAN KONZEPT DESIGN .WASSERFALL PROJEKTPLAN KONZEPT DESIGN DEVELOPEMENT .WASSERFALL PROJEKTPLAN KONZEPT

Mehr

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Willkommen Suchmaschinenoptimierung Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Übersicht Einleitung & Begriffe Geschichte Pagerank Tools On-Page Optimierung Off-Page Optimierung

Mehr

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEM = Search Engine Marketing SEA SEO Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Erstellen von Web-Seiten HTML und mehr...

Erstellen von Web-Seiten HTML und mehr... Erstellen von Web-Seiten HTML und mehr... SS 2002 Duffner: Interaktive Web-Seiten 1 Themen! Was ist das WWW?! Client-Server-Konzept! URL! Protokolle und Dienste! HTML! HTML-Editoren! Ergänzungen und Alternativen

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Recherchieren im Internet

Recherchieren im Internet Recherchieren im Internet Proseminar 1 Physik für Studierende des Lehramts Übersicht 1. Allgemeines zur Lage 2. google und mehr 3. Kataloge und Metasuchmaschinen 4. Fachspezifische Suchdienste 1. Allgemeines

Mehr

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking

Geschichte des Internets Suchmaschinen Fachinformationszentren. Institute for Science Networking Geschichte des Internets Suchmaschinen Fachinformationszentren Kurze Geschichte des Internets Internet: Geschichte beginnt mit der Entwicklung paketvermittelter Netze. Bei der Paketvermittlung werden Nachrichten

Mehr

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten?

Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Suchmaschinenoptimierung (SEO) Die Grundlagen was Sie wissen sollten? Search Engine Marketing SEA SEM = Search Engine Marketing Suchmaschinen-Marketing umfasst alle Maßnahmen zur Gewinnung von qualifizierten

Mehr

Ranking Functions im Web: PageRank & HITS

Ranking Functions im Web: PageRank & HITS im Web: PageRank & HITS 28. Januar 2013 Universität Heidelberg Institut für Computerlinguistik Information Retrieval 4 / 30 Idee PageRank Entstehung: Larry Page & Sergey Brin, 1998, genutzt von Google

Mehr

Tipps und Tricks der Suchmaschinenoptimierung

Tipps und Tricks der Suchmaschinenoptimierung Tipps und Tricks der Suchmaschinenoptimierung Thomas Kleinert Institut für Wirtschaftsinformatik (IWi) im DFKI 16. Juli 2014 Agenda Was ist Suchmaschinenmarketing? Wie arbeiten Suchmaschinen? On-Page Optimierung

Mehr

FACHBEITRAG. 15 Tipps für die Generierung von Backlinks

FACHBEITRAG. 15 Tipps für die Generierung von Backlinks 15 Tipps für die Generierung von Backlinks Backlinks sind Verweise von anderen Websites zurück auf die eigene Website. Suchmaschinen bewerten diese sogenannten Backlinks von anderen Websites wie Empfehlungen.

Mehr

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden IR im Web 9. IR im Web bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden müssen Einführung in Information Retrieval 394 Probleme verteilte Daten: Daten sind auf vielen

Mehr

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP Redirect Management SEO-Unterstützung beim IF 6-Umzug durch SFP 1 Warum Redirect Management (URL-Matching) bei einem Relaunch? Allgemeine Betrachtung 09.05.2016 Seite 3 Grundsätzliches: Die IF im Google-Index

Mehr

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg

PageRank & HITS. Christian Schwarz Andreas Beyer Information Retrieval Uni Heidelberg PageRank & HITS Christian Schwarz Andreas Beyer 02.02.2009 Information Retrieval Uni Heidelberg Lawrence Page Sergey Brin 2 Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine

Mehr

Ohne Mathematik undenkbar!

Ohne Mathematik undenkbar! Die tägliche - Suche: Ohne Mathematik undenkbar! Dipl.-Wirt.Math. Jan Maruhn FB IV - Mathematik Universität Trier 29. März 2006 29. März 2006 Seite 1 Gliederung Einleitung und Motivation Das Internet als

Mehr

Erfolgreiche Internetsuche

Erfolgreiche Internetsuche Rainer Kolbeck Erfolgreiche Internetsuche Informationen weltweit gezielt suchen und finden Markt&Technik Buch- und Software-Verlag GmbH i J Inhaltsverzeichnis Inhaltsverzeichnis Vorwort 11 Teil I: Grundlagen

Mehr

Google PageRank vs. HITS

Google PageRank vs. HITS Google PageRank vs. HITS Seminar Information Retrieval Ulf Schmidt Übersicht Einführung Hyperlinked Induced Topic Search Google PageRank Vergleich Weiterentwicklungen Fazit Quellen 29/01/07 Information

Mehr

Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern

Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern Dokumente mit WWW-Verweisen auf Dokumente der Digital Document Library (DDL) in Bern Gerd Graßhoff Bern Inhaltsverzeichnis 1 Ziel 1 2 Technische Realisierung 4 3 Digital Document Library for the History

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015

Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Online-Recherche: Web-Recherche WS 2015/2016 4. Veranstaltung 5. November 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung 5. Vorlesung Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung Seite 120 The Ranking Problem Eingabe: D: Dokumentkollektion Q: Anfrageraum

Mehr

Übungsaufgaben mit Lösungsvorschlägen

Übungsaufgaben mit Lösungsvorschlägen Otto-Friedrich-Universität Bamberg Lehrstuhl für Medieninformatik Prof. Dr. Andreas Henrich Dipl. Wirtsch.Inf. Daniel Blank Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie

Mehr

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval 5. Suchmaschinen 5. Suchmaschinen Herausforderungen beim Web Information Retrieval Verweisstrukturen haben eine wichtige Bedeutung Spamming

Mehr

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....

Mehr

Pagerank Sculpting Der Mythos nofollow richtig angewandt

Pagerank Sculpting Der Mythos nofollow richtig angewandt Pagerank Sculpting Der Mythos nofollow richtig angewandt Florian Stelzner Berlin, 08.03.2009 Content 1. Das Linkjuice Märchen 2. Pagerank Sculpting 3. Siloing 4. Technische Umsetzung und Alternativen 5.

Mehr

Web Marshals Fighting Curly Link Farms

Web Marshals Fighting Curly Link Farms Web Marshals Fighting Curly Link Farms Evgeny Anisiforov Freie Universität Berlin 03.06.2009 1 Pagerank Algorithm Ermöglicht die Gewichtung verlinkter Dokumente (z.b. im Web) PR i = (1 d) + d j {(j,i)}

Mehr

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87

16. November 2011 Zentralitätsmaße. H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 16. November 2011 Zentralitätsmaße H. Meyerhenke: Algorithmische Methoden zur Netzwerkanalyse 87 Darstellung in spektraler Form Zentralität genügt Ax = κ 1 x (Herleitung s. Tafel), daher ist x der Eigenvektor

Mehr

Suchmaschinen-Optimierung. SEO-Praxistipps für bessere Rankings

Suchmaschinen-Optimierung. SEO-Praxistipps für bessere Rankings Suchmaschinen-Optimierung SEO-Praxistipps für bessere Rankings SEO-Praxistipps Crawlbarkeit & Indexierung pistoor@mindshape.de 2 #1 Crawler-Steuerung durch robots.txt Crawler schaut in robots.txt-datei,

Mehr

Im Internet gefunden werden

Im Internet gefunden werden Im Internet gefunden werden Wie Ihre Webseite bei Suchmaschinen Eindruck macht Vortrag bei der Wirtschaftsförderung Rüsselsheim 01. Oktober 2014 Dr. Sabine Holicki, cki.kommunikationsmanagement Ihre Webseite

Mehr

Industrie- und Handelskammer Stuttgart

Industrie- und Handelskammer Stuttgart Industrie- und Handelskammer Stuttgart SUCHMASCHINEN-OPTIMIERUNG die vorderen Plätze bei Google, Yahoo & Co 1. Über Beyond Media 2. Erste Schritte 3. freundliche 4. Arbeitsweise 5. Bewertungsmethoden 6.

Mehr

Inhaltsverzeichnis. Inhaltsverzeichnis

Inhaltsverzeichnis. Inhaltsverzeichnis Vorwort Vorwort Im Rahmen der Studie mindex 2015. Welche SEO-Potenziale schlummern in Deutschlands Unternehmenswebsites? wurde der mindex entwickelt, ein Index, der den Optimierungsstand deutscher Unternehmen

Mehr

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Wie Web 2.0 und Suche zusammenwachsen Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Web search: Always different, always the same AltaVista 1996 1 http://web.archive.org/web/19961023234631/http://altavista.digital.com/

Mehr

Einführung Internet Geschichte, Dienste, Intra /Extranet, Browser/Server, Website Upload. Dipl. Ing. Dr. Alexander Berzler

Einführung Internet Geschichte, Dienste, Intra /Extranet, Browser/Server, Website Upload. Dipl. Ing. Dr. Alexander Berzler Einführung Internet Geschichte, Dienste, Intra /Extranet, Browser/Server, Website Upload Dipl. Ing. Dr. Alexander Berzler Die Geschichte des Internets Im Kalten Krieg (1960er Jahre) zwischen den beiden

Mehr

Dipl.-Ing. Martin Vogel Büro: A2-18 b Telefon: Sprechzeit: dienstags & donnerstags, 13:30-15:30 Uhr

Dipl.-Ing. Martin Vogel Büro: A2-18 b Telefon: Sprechzeit: dienstags & donnerstags, 13:30-15:30 Uhr Vorstellung Prof. Dr.-Ing. Gudrun Breitzke Lehrgebiete im Bachelor-Studiengang: Ingenieurinformatik (1. Semester) Mathematik (1. und 2. Semester) CAD (2. Semester) Büro: A2-18 a Telefon: 0234 32-10206

Mehr

Grundlagen Internet-Technologien INF3171

Grundlagen Internet-Technologien INF3171 Fachbereich Informatik Informationsdienste Grundlagen Internet-Technologien INF3171 Cookies & Sessions Version 1.0 20.06.2016 aktuelles 2 Erweiterungen wir betrachten zwei Erweiterungen: Personalisierung

Mehr

8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten

8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten www.namics.com 8. Suchmaschinen Marketing Kongress SEO/SEM-Fehler welche Sie meiden sollten Zürich, 30. März 2007 Jürg Stuker, CEO & Partner Bern, Frankfurt, Hamburg, München, St. Gallen, Zug, Zürich Fehler

Mehr

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008

SUCHMASCHINEN XAPIAN. Michael Strzempek FH Wiesbaden, 5. Juni 2008 SUCHMASCHINEN XAPIAN Michael Strzempek FH Wiesbaden, 5. Juni 2008 INHALT 1. Motivation 2. Prinzip / Vokabular 3. Xapian 4. Omega 5. Datenbank Indizierung 6. Levenshtein Distanz 7. Boolesche Suche 8. Probabilistische

Mehr

Online-Recherche: Web-Recherche WS 2015/2016 7. Veranstaltung 3. Dezember 2015

Online-Recherche: Web-Recherche WS 2015/2016 7. Veranstaltung 3. Dezember 2015 Online-Recherche: Web-Recherche WS 2015/2016 7. Veranstaltung 3. Dezember 2015 Philipp Schaer - philipp.schaer@gesis.org Philipp Mayr - philipp.mayr@gesis.org GESIS Leibniz-InsJtut für SozialwissenschaNen

Mehr

TYPO3 Slide 1 www.lightwerk.com 2005 Lightwerk GmbH

TYPO3 Slide 1 www.lightwerk.com 2005 Lightwerk GmbH TYPO3 Slide 1 Inhaltsverzeichnis Was ist ein CMS Was ist TYPO3 Editier-Möglichkeiten / Frontend-Editieren Slide 2 Was ist ein CMS (WCMS) Ein Web Content Management System (WCMS) ist ein Content-Management-System,

Mehr

Einfache Freebie Erstellung

Einfache Freebie Erstellung Einfache Freebie Erstellung Willkommen, In diesem PDF lernst Du, wie Du ein gratis Geschenk für deine Zielgruppe erstellst, ( auch Freebie genannt). Dank diesem gratis Geschenk werden sich Leute in deinen

Mehr

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den 18.06.2012

Vortrag. Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung. Stuttgart, den 18.06.2012 Vortrag Zur Bedeutung des Linkaufbaus bei der Suchmaschinenoptimierung Stuttgart, den 18.06.2012 1 Vorstellung: Christian Seifert Alter: 35 Beruf: Vorstandsvorsitzender avenit AG Geschäftsführer MSD GmbH

Mehr

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39 1 Einführung.......................................................... 11 1.1 Eine kurze Geschichte von fast allem.................................. 12 1.2 Die Bedeutung von Suchmaschinen gestern, heute

Mehr

Suchmaschinenoptimierung

Suchmaschinenoptimierung Suchmaschinen übernehmen Gatekeeper-Funktion Hohe Platzierung in den Trefferlisten ist wichtig, da nur 75% der Nutzer die 1. Seite beachten Seiten sollten für Google optimiert sein (ca. 80% Marktanteil)

Mehr

SEO - Optimierung von Websites für Suchmaschinen

SEO - Optimierung von Websites für Suchmaschinen WWW-Workshop 2005: Suchtechnologien & Web-CD SEO - Optimierung von Websites für Suchmaschinen Universität Zürich, 18.10.2005 Sandra Gubler, unicommunication Agenda 1. Einleitung 2. Verbindliche Regeln

Mehr

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute 3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.

Mehr

Themenschwerpunkt Social SEO

Themenschwerpunkt Social SEO Themenschwerpunkt Social SEO Der soziale Einfluss in die Ergebnisse der Google- Suche Definition Social SEO Social SEO bezeichnet Maßnahmen zur Steigerung der persönlichen bzw. emotionalen Ansprache der

Mehr

Praxisforum Internet: Im WWW gut gefunden werden

Praxisforum Internet: Im WWW gut gefunden werden Praxisforum Internet: Im WWW gut gefunden werden Suchmaschinenmarketing und Webpositioning Teil II Inhalte Die Suchmaschine als Zielgruppe/Kunde Den Kunden einlassen Den Kunden nicht behindern Es dem Kunden

Mehr

Systeme II 13. Woche Data Centers und Verteiltes Hashing

Systeme II 13. Woche Data Centers und Verteiltes Hashing Systeme II 13. Woche Data Centers und Verteiltes Hashing Christian Schindelhauer Technische Fakultät Rechnernetze und Telematik Albert-Ludwigs-Universität Freiburg World Wide Web Client-Server-Architektur

Mehr

Wie Google Webseiten bewertet. François Bry

Wie Google Webseiten bewertet. François Bry Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google

Mehr

wurde 2007 weltweit mal aufgerufen!

wurde 2007 weltweit mal aufgerufen! Abb. 2008-1/431 44 Ausgaben der Pressglas-Korrespondenz von 1998-1 bis 2007-4, mit insgesamt 17.724 Seiten (9.306 Seiten + 8.418 Seiten Musterbücher und Anhänge) - ohne jede Reklame - 13.034 Abbildungen,

Mehr

6. Suchen im Web Webseiten Finden. FiXme Note: Generische Einführung zur Websuche.

6. Suchen im Web Webseiten Finden. FiXme Note: Generische Einführung zur Websuche. FiXme Note: Generische Einführung zur Websuche. In diesem Kapitel behandeln wir, wie man das Internet nach Schlagworten durchsucht. Als Nutzer einer Suchmaschine geben wir ein paar Wörter wie Katzen Photos

Mehr

BILDUNG. FREUDE INKLUSIVE. Webkonzeption III - Der Internetauftritt. Suchmaschinenoptimierung. BFI Wien, 03.06.2014

BILDUNG. FREUDE INKLUSIVE. Webkonzeption III - Der Internetauftritt. Suchmaschinenoptimierung. BFI Wien, 03.06.2014 BILDUNG. FREUDE INKLUSIVE. Webkonzeption III - Der Internetauftritt Suchmaschinenoptimierung BFI Wien, 03.06.2014 1 Zeitplan Das haben wir heute vor 08:30h bis 9:45h Grundlagen der Suchmaschinenoptimierung

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters Suche, Suchmaschinen, Suchmaschinenoptimierung Workshop TYPO3 17.04.2012 Sybille Peters Sybille Peters Mitarbeiterin TYPO3 Team RRZN seit 4/2011 vorher im Suchmaschinenlabor des RRZN Seite 2 Überblick

Mehr

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters

Suche, Suchmaschinen, Suchmaschinenoptimierung. Workshop TYPO3 17.04.2012 Sybille Peters Suche, Suchmaschinen, Suchmaschinenoptimierung Workshop TYPO3 17.04.2012 Sybille Peters Sybille Peters Mitarbeiterin TYPO3 Team RRZN seit 4/2011 vorher im Suchmaschinenlabor des RRZN Seite 2 Überblick

Mehr

Oliver Lehmann Antje Lehmann. in Suchmaschinen. An imprint of Pearson Education

Oliver Lehmann Antje Lehmann. in Suchmaschinen. An imprint of Pearson Education Oliver Lehmann Antje Lehmann Top-Platzierungen in Suchmaschinen An imprint of Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario Sydney Mexico City Madrid Amsterdam Das Beste

Mehr

Suchmaschinenoptimierungen / SEO

Suchmaschinenoptimierungen / SEO Für starkes Marketing Suchmaschinenoptimierungen / SEO Kostenlose Erstberatung Umfassende Lösungen Hohe Funktionalität Optimale Suchergebnisse Professionelle Betreuung Wir machen Ihre Webseite für Suchmaschinen

Mehr

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Suchmaschinen und ihre Architektur Seminar: Angewandtes Information Retrieval Referat von Michael Wirz Ziel Rudimentäre Grundkenntnisse über die Funktionsweise von Suchmaschinen und Trends Einführung in

Mehr

TimeMachine. Time CGI. Version 1.5. Stand 04.12.2013. Dokument: time.odt. Berger EDV Service Tulbeckstr. 33 80339 München

TimeMachine. Time CGI. Version 1.5. Stand 04.12.2013. Dokument: time.odt. Berger EDV Service Tulbeckstr. 33 80339 München Time CGI Version 1.5 Stand 04.12.2013 TimeMachine Dokument: time.odt Berger EDV Service Tulbeckstr. 33 80339 München Fon +49 89 13945642 Mail rb@bergertime.de Versionsangaben Autor Version Datum Kommentar

Mehr

Volltextsuche im Archiv mit Windows-Index-Service

Volltextsuche im Archiv mit Windows-Index-Service Volltextsuche im Archiv mit Windows-Index-Service Erklärung Der Unterschied zur normalen Volltextsuche liegt darin, dass durch das Betriebssystem die Volltextsuche nicht erst bei Anfrage durch BMDNTCS

Mehr

Einführung in die Internetrecherche

Einführung in die Internetrecherche Hellmut Riediger Recherchieren: Grundsätze und Grundbegriffe Einführung in die Internetrecherche Geschichte, Struktur und Allgemeines Zürcher Fachhochschule 1 Geschichte: Internet, WWW, Google 1969 Gründung

Mehr

PG520 - Webpageranking

PG520 - Webpageranking 12. Oktober 2007 Webpageranking - Quellen The PageRank citation ranking: Bringing order to the Web; Page, Brin etal. Technical report, 1998. A Unified Probabilistic Framework for Web Page Scoring Systems;

Mehr

Für starkes Marketing.

Für starkes Marketing. Für starkes Marketing Mit SEO Concept machen wir Webseiten für Suchmaschinen sichtbar und bringen diese bei den organischen Suchresultaten nach ganz vorne Für die Suchmaschinenoptimierung braucht es viele

Mehr

Besuchergewinnung über generische Suchergebnisse

Besuchergewinnung über generische Suchergebnisse 1 Besuchergewinnung über generische Suchergebnisse Ziele und Nebenbedingungen Janus Strategie Relevanz Prinzip Potenzial Ermittlung Sofortfrage? Sofortantwort. Search Engine Optimization (SEO) 2 Die Suche

Mehr

Seite 0

Seite 0 Bibliotheken @ 23.11.2010 Seite 0 Google Index Google indexiert das sogenannte Visible Web (= frei zugängliche Webseiten, die über einen Link erreichbar sind) nicht jedoch das Invisible Web (= Webseiten,

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

Suchmaschinen Grundlagen. Thomas Grabowski

Suchmaschinen Grundlagen. Thomas Grabowski Suchmaschinen Grundlagen Thomas Grabowski 1 / 45 Überblick 1. Einleitung 2. Suchmaschinen Architektur 3. Crawling-Prozess 4. Storage 5. Indexing 6. Ranking 2 / 45 1. Einleitung Der Webgraph unterliegt

Mehr

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire

Google Search Appliance Feed Indizierung mit Mindbreeze InSpire Google Search Appliance Feed Indizierung mit Mindbreeze InSpire Konfiguration und Indizierung Version 2016 Fall Release Status: 23. September 2016 Copyright Mindbreeze GmbH, A-4020 Linz, 2017. Alle Rechte

Mehr

Web-Content- Management-Systeme

Web-Content- Management-Systeme Web-Content- Management-Systeme 9.1.2001 Wolfgang Wiese Wolfgang.Wiese@rrze.uni-erlangen.de Einführung Einführung Grundkonzepte XML Auswahlkriterien Zusammenfassung Web-Content-Management-Systeme 2 Einführung

Mehr

Administratives. Modul WEB Info. Übersetzungs- oder Lokalisierungsübersicht

Administratives. Modul WEB Info. Übersetzungs- oder Lokalisierungsübersicht Administratives Neben den Standardfunktionen für das Erstellen und Bearbeiten von Webseiten und die Manipulation von diversen Bildern oder Dateien, die zum Download angeboten werden sollen, gibt es noch

Mehr

Optimieren Sie Ihre n2n Webseite

Optimieren Sie Ihre n2n Webseite N2N Autor: Bert Hofmänner 5.10.2011 Optimieren Sie Ihre n2n Webseite Einer der wichtigsten Faktoren für den Erfolg Ihrer Webseite in Suchmaschinen sind deren Inhalte. Diese können Sie mit einem Content

Mehr

Perl-Praxis. CGI-Skripte. Madis Rumming, Jan Krüger.

Perl-Praxis. CGI-Skripte. Madis Rumming, Jan Krüger. Perl-Praxis CGI-Skripte Madis Rumming, Jan Krüger {mrumming,jkrueger}@cebitec.uni-bielefeld.de Übersicht WWW, Web-Server CGI-Skripte Parameterübergabe Web-Formulare CGI.pm Perl-Praxis CGI-Skripte 2/16

Mehr

SEO Campixx 2010. Interne Verlinkung

SEO Campixx 2010. Interne Verlinkung SEO Campixx 2010 Interne Verlinkung Zur Person Thomas Zeithaml Nickname JR-Ewing SEO seit 2003 2007 Head of SEO bei Certo 2008-2010 SEO bei Explido Gliederung 1. Keywordtargeting 2. Linkverteilung auf

Mehr

Nachteile Boolesches Retrieval

Nachteile Boolesches Retrieval Nachteile Boolesches Retrieval Komplizierte Anfragen Häufigkeit bzw. Relevanz der Terme in den Dokumenten nicht berücksichtigt 2 von 3 UND-verknüpften Termen im Dokument so schlecht wie 0 Terme Keine Rangfolge

Mehr