Information-Retrieval: Web-Retrieval

Größe: px
Ab Seite anzeigen:

Download "Information-Retrieval: Web-Retrieval"

Transkript

1 Information-Retrieval: Web-Retrieval Claes Neuefeind Fabian Steeg 21. Januar 2010

2 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell (IIR 6) Evaluation (IIR 8) Web-Retrieval (IIR 19-21)

3 Ein vollständiges IR-System Abbildung:

4 Klassisches IR Korpus als feststehende Sammlung von Dokumenten Ziel: Rückgabe relevanter Dokumente Bewertung der von Anfrage-Dokument-Paaren hinsichtlich der Erfüllung eines Informationsbedarfs Spezifischer Suchkontext ist vorgegeben Spezifischer Benutzer wird ignoriert

5 Web-Retrieval Das Web: Riesig, chaotisch, verlinkt, ändert sich ständig Inhaltserstellung und Suche sind eng verknüpft mit vielfältigen kommerziellen Interessen Größter Unterschied: Mangelnde Kooperation (Spam) Anforderungen: Ein Interface für viele Zwecke und Bedürfnisse (Anfragen, Straßenkarten, Börsenkurse, etc.) Kontextualisierung (IP-Adresse, Geo-Tagging) Personalisierung durch Suchprofile

6 Web-Retrieval Abbildung:

7 Web-Retrieval Das Web als Korpus Crawling Literatur

8 Historisches Ca rein keywordbasierte Suche (Altavista, Excite, Infoseek, lnktomi) oder Taxonomien (Yahoo) Paid Placement: Ranking gegen Bezahlung (goto.com/overture) Ab 1998: Linkbasiertes Ranking (Google) Verdrängt keywordbasierte Suche Link-Analyse heute Standard Ab ca. 2000: Google-Ads Trennung von algorithmischem Ergebnis und Werbung ist quasi das Verdienst von google Yahoo folgt dem Beispiel, kauft Overture (für paid placement) und lnktomi (für Suche)

9 Anfragen: Informationsbedarf vs. Nutzerbedürfnis Information: Wissen befriedigen (klassischer Informationsbedarf) Navigation: Zu einer bestimmten Seite gehen Transaktion: Etwas bestimmtes tun Services (Wetter, Staus, etc) Downloads Shops Grauzonen: Explorative Suche Surfen

10 Nutzerverhalten Oft fehlerhafte Anfragen: Kurz (Ø 2-3 Terme, 80% aller Anfragen 3 Wörter) Unpräzise (keine Operatoren) Große Varianz: Bedürfnisse / Erwartungen / Vorwissen Faktor Bandbreite (historisch) Spezielles Verhalten: 85% schauen nur auf die erste Ergebnisseite 78% deranfragen werden nicht nachjustiert Links verfolgen statt Suchen

11 Nutzerbedürfnisse Qualität von Webseiten variiert erheblich Relevanz im bisherigen Sinne reicht für Bewertung nicht aus Erwünschte Qualitäten (auch über IR-Kontext hinaus): Inhalt: Vertrauenswürdig, gepflegt, aktuell, nicht redundant Web-Lesbarkeit: Saubere und schnelle Anzeige Frei von Ärgernissen (pop-ups etc.) Precision vs. Recall: Precision wovon? Der ersten 10? 100? Recall spielt im Web meist geringe Rolle

12 Nutzerbedürfnisse Einfaches und fehlertolerantes Interface Gültigkeit und Relevanz der Ergebnisse Objektivität der Resultate (Faktor Vertrauen) Tools für Vor- und Nachbereitung: Ausgleich von Eingabefehlern (Spell checking, Syntax) Feedback: Suche in Ergebnissen, Spracheinstellungen, etc. Antizipation: Ähnliche Suchen Web-spezifisches Vokabular (Smileys, URLs) Auswirkungen auf ling. Tools (Stemming, etc.)

13 Web-Retrieval Abbildung:

14 Das Web als Korpus Demokratisierung der VÖ (verteilte Erstellung, Verlinkung) Keine Designrichtlinien, keine Koordination Stark heterogene Inhalte: Wahr/falsch, überflüssig, widersprüchlich... Strukturiert (DBs) Semi-strukturiert (XML, annotierte Bilddateien, etc.) Unstrukturiert (Text, HTML,... ) Dynamisch Spam: Cloaking, doorway pages, link spam, bombs Web als größtes denkbares Korpus

15 Größe des Web? Anzahl Hosts? Netcraft: Monatlicher Bericht über Anzahl Hosts & Server survey.html Anzahl (statischer) HTML-Seiten? SS/ir/sizeoftheweb.html Größe des Datenvolumens? All diese Zahlen ändern sich permanent!

16 Größe des Web? Schwierigkeiten: Im Schnitt mehr als 8 Links/Seite Duplikate, Mirror-Sites ( 30%) Server z.t. nur zeitweise online Das Web ist de facto unendlich: Dynamische Inhalte 404er Problem für Suchmaschinendesign Auswirkung auf Crawling: Recall

17 Dynamische Inhalte Seiten ohne statische HTML-Version z.b. aktueller Status von Flug Nr. AB1234 Werden ad hoc auf Server erstellt Erkennbar am? in der URL (vgl. Wikipedia) Abbildung:

18 Dynamische Inhalte Großteil dynamischer Inhalte wird ignoriert u.a. wg. sog. spider traps Zu viel zu indexieren Statische Inhalte in der Regel wichtiger Aber: De facto werden auch viele statische Inhalte ad hoc erstellt (php u.ä.: Header, Datum, Ads, etc.)

19 Crawling: Grundidee Beginne irgendwo ( URL seeds ) Seite holen, parsen Text indexieren URLs extrahieren URLs zu Queue hinzufügen ( URL frontier ) Gehe zu nächster URL und beginne von vorn Grundannahme: Das Web ist ordentlich verlinkt

20 Schwierigkeiten Skalierung: Crawling muss verteilt erfolgen 20,000,000,000 Seiten/Monat 8000/Sek Es kann und soll nicht alles gecrawlt werden Schwankungen in Sichtbarkeit und Bandbreite Tiefe der Seitenhierarchie Mirrors und Duplikate Spam Spider Traps

21 Grundregeln Pflicht Höflichkeit: Nur erlaubte Seiten, nicht permanent blockieren Explizit: Robots exclusion protocol (robots.txt) Robustheit: spider traps, dynamische Seiten, große Sites Kür Verteilt operieren Effizienz & Skalierbarkeit (Rechenleistung/Bandbreite) Qualität & Aktualität Erweiterbarkeit (neue Formate, Protokolle)

22 robots.txt Protokoll zur Einschränkung des Zugriffs durch bots (seit 1994) robots.txt legt fest, was (nicht) gecrawled werden darf Bsp.: Kein Zugriff auf URLs mit lehre/temp, außer durch bot searchengine : User-agent: * Disallow: /lehre/temp/ User-agent: searchengine Disallow: / Crawler muss zu allen besuchten Seiten die robots.txt speichern

23 Verarbeitungsschritte beim Crawling URL aus frontier auswählen Dokument zur URL holen (IP über DNS) Prüfen, ob bereits bekannt ( fingerprints, shingles ) Falls nicht: Dokument zu Index hinzufügen Links extrahieren (relative URLs beachten) Für jede extrahierte URL URL filter tests (regex, robots.txt) Prüfen, ob bereits in der frontier Hinzufügen (Priorisierung)

24 Grundarchitektur www DNS fetch parse doc robots FPs templates content seen? URL filter URL set dup URL elim URL frontier

25 Verteilter Crawler www DNS fetch parse doc FPs to other nodes content URL host seen? filter splitter URL set dup URL elim URL frontier from other nodes

26 Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. Zum Nachlesen: [Manning et al., 2008], Kapitel (siehe

Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider

Webspider. Dr. Christian Herta. June 11, von 14 Dr. Christian Herta Webspider Webspider Dr. Christian Herta June 11, 2009 1 von 14 Dr. Christian Herta Webspider Referenz-Architektur: Mercator Referenz-Architektur: Webcrawler Mercator [2] modular und Komponenten-basiert, so wird

Mehr

Information-Retrieval: Evaluation

Information-Retrieval: Evaluation Information-Retrieval: Evaluation Claes Neuefeind Fabian Steeg 17. Dezember 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur Suchmaschinen Anwendung RN Semester 7 Christian Koczur Inhaltsverzeichnis 1. Historischer Hintergrund 2. Information Retrieval 3. Architektur einer Suchmaschine 4. Ranking von Webseiten 5. Quellenangabe

Mehr

Rangierungsprizipien 1bei Suchsystemen

Rangierungsprizipien 1bei Suchsystemen Rangierungsprizipien 1bei Suchsystemen Rangierungsprinzip 1 Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant. Rangierungsprinzip 2 Je häufiger ein Suchbegriff

Mehr

Information-Retrieval: Unscharfe Suche

Information-Retrieval: Unscharfe Suche Information-Retrieval: Unscharfe Suche Claes Neuefeind Fabian Steeg 19. November 2009 Themen des Seminars Boolesches Retrieval-Modell (IIR 1) Datenstrukturen (IIR 2) Tolerantes Retrieval (IIR 3) Vektorraum-Modell

Mehr

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015

Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Web-Recherche WS 2015/2016 3. Veranstaltung 29. Oktober 2015 Philipp Mayr - philipp.mayr@gesis.org Philipp Schaer - philipp.schaer@gesis.org GESIS Leibniz-Institut für Sozialwissenschaften 2 Themen der

Mehr

6. Suche im World Wide Web

6. Suche im World Wide Web 6. Suche im World Wide Web Motivation Suche im World Wide Web ist heute eine der populärsten Anwendungen von Methoden des Information Retrievals Suchmaschinen (z.b. Altavista, Excite) in den frühen 1990ern

Mehr

Mobile SEO: Prepping für den Mobile First Index

Mobile SEO: Prepping für den Mobile First Index Mobile SEO: Prepping für den Mobile First Index Start 1 Wie wichtig ist Mobile Traffic in 2017? Deutschland: 29,2% (US: 37%). +51% zum Vorjahr. Conversion Rate auf Mobile derzeit noch ca. 1/3 vom Desktop

Mehr

Text-Mining: Einführung

Text-Mining: Einführung Text-Mining: Einführung Claes Neuefeind Fabian Steeg 22. April 2010 Organisatorisches Was ist Text-Mining? Definitionen Anwendungsbeispiele Textuelle Daten Aufgaben u. Teilbereiche Literatur Kontakt Sprechstunde:

Mehr

Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page

Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page Web-Page Crawler auf der Basis von Konzepten von Cho, Molina, Page Heinrich-Heine Universität Düsseldorf Informationswissenschaft Professor Stock Sommersemster 2004 Daniel Ritter Übersicht 1. Was ist ein

Mehr

Suchen im WWW. Einführung

Suchen im WWW. Einführung Suchen im WWW Einführung 1 Das World Wide Web 1990 von Tim Berners-Lee in CERN entwickelt, um im Internet verfügbare Forschungsdokumente zu organisieren. Verbindet zur Verlinkung von Dokumenten die Idee

Mehr

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Web Data Mining. Alexander Hinneburg Sommersemester 2007 Web Data Mining Alexander Hinneburg Sommersemester 2007 Termine Vorlesung Mi. 10:00-11:30 Raum?? Übung Mi. 11:45-13:15 Raum?? Klausuren Mittwoch, 23. Mai Donnerstag, 12. Juli Buch Bing Liu: Web Data Mining

Mehr

Suchmaschinenoptimierung in der Praxis

Suchmaschinenoptimierung in der Praxis Suchmaschinenoptimierung in der Praxis So steigern Sie die Zugriffe auf Ihre Webseite. Frank Jäger, Präsentation am 11. Juni 2010, 1 Überblick Suchmaschinenoptimierung in der Theorie Aufbau der Google-Suchergebnisseite

Mehr

Was Google nicht findet gibt es nicht

Was Google nicht findet gibt es nicht Was Google nicht findet gibt es nicht Zur (Un-)Zulässigkeit der Treffer-Optimierung bei Suchmaschinen im Web 3.0 Dr. Hans Peter Wiesemann 5. Dialog Camp München, 19. Februar 2016 A. Einleitung A. Einleitung

Mehr

Suchmaschinen im Internet

Suchmaschinen im Internet Michael Glöggler Suchmaschinen im Internet Funktionsweisen, Ranking Methoden, Top Positionen Mit 47 Abbildungen und 25 n Springer Inhaltsverzeichnis 1 Überblick Suchdienste im World Wide Web 1 1.1 Webkataloge

Mehr

Web Crawling Die Erschließung des Webs

Web Crawling Die Erschließung des Webs Web Crawling Die Erschließung des Webs Ronny Harbich Otto-von-Guericke-Universität 5. Dezember 2007 1/24 Ronny Harbich Web Crawling Die Erschließung des Webs Übersicht 1 2 3 4 2/24 Ronny Harbich Web Crawling

Mehr

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung

Webcrawler. Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Webcrawler Tetiana Teplynska LMU München Centrum für Informations- und Sprachverarbeitung Inhalt Einführung: Definition Verwendung von Web Crawlers Probleme von Crawling Robots Exclusion: Robots.txt Robots

Mehr

SEO WORKSHOP. Thomas Kloos

SEO WORKSHOP. Thomas Kloos SEO WORKSHOP Thomas Kloos .WASSERFALL PROJEKTPLAN .WASSERFALL PROJEKTPLAN KONZEPT .WASSERFALL PROJEKTPLAN KONZEPT DESIGN .WASSERFALL PROJEKTPLAN KONZEPT DESIGN DEVELOPEMENT .WASSERFALL PROJEKTPLAN KONZEPT

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Suche im Web. Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web Tobias Scheffer WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt. HTTP, URLs, HTML,

Mehr

Information Retrieval. Peter Kolb

Information Retrieval. Peter Kolb Information Retrieval Peter Kolb Semesterplan Einführung Boolesches Retrievalmodell Volltextsuche, invertierter Index Boolesche Logik und Mengen Vektorraummodell Evaluation im IR Term- und Dokumentrepräsentation

Mehr

6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen

6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen 6. Übung zur Vorlesung Internet-Suchmaschinen im Wintersemester 2007/2008 mit Musterlösungen Dr. Andreas Hotho, Prof. Dr. Gerd Stumme, MSc. Wi-Inf. Beate Krause 10. Januar 2008 1 Metasuchmaschinen Eine

Mehr

7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009

7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 7. Übung zur Vorlesung Internet-Suchmaschinen im Sommersemester 2009 Prof. Dr. Gerd Stumme, Wi.-Inf. Beate Krause 08. Juli 2009 1 Metasuchmaschinen Eine Metasuchmaschine ist eine Suchmaschine, die die

Mehr

LEHRSTUHL FÜR DATENBANKEN

LEHRSTUHL FÜR DATENBANKEN LEHRSTUHL FÜR DATENBANKEN Informa4on Retrieval - Web Crawler / PageRank Prof. Dr.- Ing. Wolfgang Lehner >! WEB CRAWLER! Funk4onsweise! Robots Exclusion Standard! Indexierung von HTML- Seiten! Indexierung

Mehr

Ihr SEO-Paket im Überblick

Ihr SEO-Paket im Überblick Ihr SEO-Paket im Überblick Wir prüfen Ihre Website (Website Audit): Search Engine Friendly Analysis Der erste Schritt vor der Suchmaschinenoptimierung: Wir prüfen, ob Ihre Website benutzerfreundlich ist.

Mehr

Text-Mining: Clustering

Text-Mining: Clustering Text-Mining: Clustering Claes Neuefeind Fabian Steeg 15. Juli 2010 Themen heute Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, Labeling Literatur Cluster-Hypothese Documents

Mehr

Tipps und Tricks der Suchmaschinenoptimierung

Tipps und Tricks der Suchmaschinenoptimierung Tipps und Tricks der Suchmaschinenoptimierung Thomas Kleinert Institut für Wirtschaftsinformatik (IWi) im DFKI 16. Juli 2014 Agenda Was ist Suchmaschinenmarketing? Wie arbeiten Suchmaschinen? On-Page Optimierung

Mehr

Kompendium der Web-Programmierung

Kompendium der Web-Programmierung . Thomas Walter Kompendium der Web-Programmierung Dynamische Web-Sites Mit 510 Abbildungen und 22 Tabellen 4ü Springer OOM- Hinweise zum Gebrauch des Buches XIII Teil I Grundlagen der Web-Programmierung

Mehr

Sichere Programmierung. Klaus Kusche

Sichere Programmierung. Klaus Kusche Sichere Programmierung Klaus Kusche Typische Ursachen für Lücken Große Mehrheit aller Lücken: Speicherüberschreiber Fehlende Input-Filterung ==> Jeweils eigener Foliensatz Restliche Lücken: Mehrere verschiedene

Mehr

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org Apache Lucene Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org 1 Apache Apache Software Foundation Software free of charge Apache Software

Mehr

Suchen mit der Suchmaschine

Suchen mit der Suchmaschine Suchen mit der Suchmaschine Links einiger Suchmaschinen http://www.google.ch/ http://search.bluewin.ch http://www.altavista.de http://www.fireball.de http://www.metacrawler.de/ http://www.msn.ch Lexikon:

Mehr

WordPress SEO Basics. WordPress fit machen für Google

WordPress SEO Basics. WordPress fit machen für Google WordPress fit machen für Google SEO Plugin Yoast SEO Etablierter Allrounder auf sämtlichen RegioHelden Webseiten Simon s Tipp: The SEO Framework Funktionalität wie Yoast schlanker für Entwickler leichter

Mehr

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen

Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen Geschichte der Suchmaschinen und heutige Vernetzungsstrukturen Seminar Web Suchmaschinen - WS0304 I. Was gab es vor den WWW Suchmaschinen II. Die Geschichte der WWW Suchmaschinen III. Zusammenfassung und

Mehr

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH

Suchmaschinenoptimierung. Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Willkommen Suchmaschinenoptimierung Stephan Winter (MSc) Google Qualified Individual LEONEX Internet GmbH Übersicht Einleitung & Begriffe Geschichte Pagerank Tools On-Page Optimierung Off-Page Optimierung

Mehr

HS Information Retrieval

HS Information Retrieval HS Information Retrieval Vergleichende Implementierung der grundlegenden IR-Modelle für eine Desktop-Suche Inhalt 1. Überblick 2. Recap: Modelle 3. Implementierung 4. Demo 5. Evaluation Überblick Ziele:

Mehr

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden IR im Web 9. IR im Web bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden müssen Einführung in Information Retrieval 394 Probleme verteilte Daten: Daten sind auf vielen

Mehr

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Rückblick Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen Vektorraummodell stellt Anfrage und Dokumente als Vektoren in gemeinsamen Vektorraum dar

Mehr

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval

Hyperlink Induced Topic Search- HITS. Ying Ren Universität Heidelberg, Seminar Infomation Retrieval Hyperlink Induced Topic Search- HITS Hyperlink-basiertes Ranking Ying Ren 25.01.2010 Universität Heidelberg, Seminar Infomation Retrieval Grundgedanken zum Link-basierten Rankingverfahren

Mehr

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion Web Information Retrieval Hauptseminar Sommersemester 2003 Thomas Mandl Überblick Mehrsprachigkeit Multimedialität Heterogenität Qualität, semantisch, technisch Struktur Links HTML Struktur Technologische

Mehr

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio

Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Text-Mining: Klassifikation I - Naive Bayes vs. Rocchio Claes Neuefeind Fabian Steeg 17. Juni 2010 Klassifikation im Text-Mining Klassifikation Textkategorisierung Naive Bayes Beispielrechnung Rocchio

Mehr

Einführung in Apache Solr

Einführung in Apache Solr Einführung in Apache Solr Markus Klose & Daniel Wrigley O'REILLY Beijing Cambridge Farnham Köln Sebastopol Tokyo Inhalt Vorwort IX Einleitung XI 1 Schnelleinstieg in Solr 1 Was ist Solr? 1 Was ist Lucene?

Mehr

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006

Lucene eine Demo. Sebastian Marius Kirsch 9. Februar 2006 Lucene eine Demo Sebastian Marius Kirsch skirsch@luusa.org 9. Februar 2006 Text Retrieval wie funktioniert das? Aufgabe: Finde zu Stichwörtern die passenden Dokumente Sortiere sie nach Relevanz zur Suchanfrage.

Mehr

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP

Redirect Management. SEO-Unterstützung beim IF 6-Umzug durch SFP Redirect Management SEO-Unterstützung beim IF 6-Umzug durch SFP 1 Warum Redirect Management (URL-Matching) bei einem Relaunch? Allgemeine Betrachtung 09.05.2016 Seite 3 Grundsätzliches: Die IF im Google-Index

Mehr

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39

Inhalt. 1 Einführung... 11. 2 Funktionsweise von Suchmaschinen... 21. 3 So werden Suchergebnisse gewichtet... 39 1 Einführung.......................................................... 11 1.1 Eine kurze Geschichte von fast allem.................................. 12 1.2 Die Bedeutung von Suchmaschinen gestern, heute

Mehr

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7}

Dirk Lewandowski. Web Information Retrieval Technologien zur Informationssuche im Internet. DGI-Schrift (Informationswissenschaft 7} Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet DGI-Schrift (Informationswissenschaft 7} Inhalt Vorwort 9 Suchmaschinen im Internet - informationswissenschaftlich

Mehr

SEO KURZ-CHECK WHEELSANDMORE.DE

SEO KURZ-CHECK WHEELSANDMORE.DE SEO KURZ-CHECK WHEELSANDMORE.DE ORGANISCHE SICHTBARKEIT Die organische Sichtbarkeit entspricht der Präsenz einer Webseite in der organischen Google-Suche und setzt sich aus unterschiedlichen Faktoren wie

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer World Wide Web 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf Papers entwickelt.

Mehr

Suchmaschinen und das Web 2.0

Suchmaschinen und das Web 2.0 Suchmaschinen und das Web 2.0 Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Rechercheverhalten der Suchmaschinennutzer Qualität der Web-Suchmaschinen Web 2.0 Dienste für die Suche Fazit

Mehr

Technische Erläuterungen zum Betrieb Ihrer TOHA-Webseite

Technische Erläuterungen zum Betrieb Ihrer TOHA-Webseite Technische Erläuterungen zum Betrieb Ihrer TOHA-Webseite INHALTSVERZEICHNIS PERSONENBEZOGENE DATEN:... 2 WERDEN COOKIES EINGESETZT:... 2 WERDEN GOOGLE WEB-FONTS EINGESETZT:... 2 ANALYSE/TRACKING TOOLS

Mehr

Informationssysteme für Ingenieure

Informationssysteme für Ingenieure Informationssysteme für Ingenieure Vorlesung Herbstsemester 2016 Überblick und Organisation R. Marti Organisation Web Site: http://isi.inf.ethz.ch Dozent: Robert Marti, martir ethz.ch Assistenz:??

Mehr

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche

Websuche. Spiders (Roboters/Bots/Crawlers) Suchstrategien. Forts. Suchstrategien. Spidering. Tiefensuche. Breitensuche Spiders (Roboters/Bots/Crawlers) Websuche Spidering Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Recherchieren im Internet

Recherchieren im Internet Recherchieren im Internet Proseminar 1 Physik für Studierende des Lehramts Übersicht 1. Allgemeines zur Lage 2. google und mehr 3. Kataloge und Metasuchmaschinen 4. Fachspezifische Suchdienste 1. Allgemeines

Mehr

Websuche Spidering 1

Websuche Spidering 1 Websuche Spidering 1 Spiders (Roboters/Bots/Crawlers) Beginne mit einer umfassenden Menge von Start- URLs, von denen aus die Suche zu beginnen ist. Folge rekursiv allen Links auf diesen Seiten, um weitere

Mehr

Information Retrieval im Internet

Information Retrieval im Internet Information Retrieval im Internet Kursfolien Karin Haenelt 25.11.01 1 Besonderheiten der Daten (1) Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets

Mehr

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany

BIW Wahlpflichtmodul. Einführung in Solr, Pipeline und REST. Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany BIW Wahlpflichtmodul Einführung in Solr, Pipeline und REST Philipp Schaer, TH Köln (University of Applied Sciences), Cologne, Germany Version: 2018-05-29 Überblick über gängige Lösungen 2 3 in a nutshell

Mehr

Swoogle. Patrice Matthias Brend amour

Swoogle. Patrice Matthias Brend amour Swoogle Finding and Ranking Knowledge on the Semantic Web Patrice Matthias Brend amour Fachbereich Informatik und Informationswissenschaft Universität Konstanz Kurs: Web Services and Semantic Web Datum:

Mehr

Information Retrieval oder: wie Suchmaschinen funktionieren

Information Retrieval oder: wie Suchmaschinen funktionieren Information Retrieval oder: wie Suchmaschinen funktionieren Prof. Dr. Andreas Henrich Angewandte Informatik I Softwaretechnik und Informationssysteme Fakultät für Mathematik und Physik Universität Bayreuth

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Paul Prasse Michael Großhans Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Paul Prasse Michael Großhans Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. 6 Leistungspunkte

Mehr

SharePoint 2013 als Wissensplattform

SharePoint 2013 als Wissensplattform SharePoint 2013 als Wissensplattform Daniel Dobrich & Darius Kaczmarczyk 29.11.2012 7. SharePoint UserGroup Hamburg Treffen 1 Themen Verwaltete Metadaten in SharePoint 2013 Was sind verwaltete Metadaten

Mehr

IHK regional Suchmaschinenoptimierung und -marketing

IHK regional Suchmaschinenoptimierung und -marketing IHK regional Suchmaschinenoptimierung und -marketing Thomas Kleinert Institut für Wirtschaftsinformatik (IWi) im DFKI 27. August 2013 ebusiness-lotse Saar KEG-Saar Projekt ist beendet ebusiness-lotse Saar

Mehr

Text-Mining: Datenaufbereitung und -repräsentation

Text-Mining: Datenaufbereitung und -repräsentation Text-Mining: Datenaufbereitung und -repräsentation Claes Neuefeind Fabian Steeg 20. Mai 2010 Wiederholung: Leitfragen Aufgabe: Unstrukturierte Daten aufbereiten, so dass das enthaltene Wissen extrahiert

Mehr

Suchmaschinen Hakan Erci. Threeway

Suchmaschinen Hakan Erci. Threeway Suchmaschinen Hakan Erci Threeway Threeway seit 1996 als SpinOff der HTL Brugg Windisch Webshop Webapplikationen Newsletter Barrierefreiheit Hauptaspekte Werden meine Inhalte von der Suchmaschine gefunden,

Mehr

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17

Prof. Dr. Udo Hahn. Seminar im Modul M-GSW-09 WiSe 2016/17 Seminar im Modul M-GSW-09 WiSe 2016/17 Prof. Dr. Udo Hahn Lehrstuhl für Angewandte Germanistische Sprachwissenschaft / Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität

Mehr

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting

Einführung in die Künstliche Intelligenz SS 18 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting Einführung in die Künstliche Intelligenz SS 8 Prof. Dr. J. Fürnkranz, Prof. Dr. K. Kersting Beispiellösung für das. Übungsblatt (5.05.208) Aufgabe Agenten-Umgebung a) Eine beispielhafte PEAS-Beschreibung

Mehr

Top Ranking im Web. (c) 2000 Prof. Dr. Mario Fischer 1. Erschließen neuer Kundensegmente durch Suchmaschinenoptimierung. nichts, nada nothing, nö..

Top Ranking im Web. (c) 2000 Prof. Dr. Mario Fischer 1. Erschließen neuer Kundensegmente durch Suchmaschinenoptimierung. nichts, nada nothing, nö.. Top Ranking im Web Erschließen neuer Kundensegmente durch Suchmaschinenoptimierung Friedrich-Alexander Alexander-Universität Erlangen 12. April 2005 Prof. Dr. Mario Fischer tms Institut Spittlertorgraben

Mehr

customweb Einleitende Informationen Multishop Erstmals Herzlichen Dank für den Kauf dieses Moduls und Ihr entgegengebrachtes Vertrauen.

customweb Einleitende Informationen Multishop Erstmals Herzlichen Dank für den Kauf dieses Moduls und Ihr entgegengebrachtes Vertrauen. Einleitende Informationen Multishop Erstmals Herzlichen Dank für den Kauf dieses Moduls und Ihr entgegengebrachtes Vertrauen. Dieses Modul ermöglicht Ihnen über einen PSP-Account mehrere Shops gleichzeitig

Mehr

FRANZIS PROFESSIONAL SERIES. Das Praxisbuch FRANZIS. Maik Caro / Christoph Lindemann. Mit 252 Abbildungen

FRANZIS PROFESSIONAL SERIES. Das Praxisbuch FRANZIS. Maik Caro / Christoph Lindemann. Mit 252 Abbildungen FRANZIS PROFESSIONAL SERIES Maik Caro / Christoph Lindemann Das Praxisbuch Mit 252 Abbildungen FRANZIS Inhaltsverzeichnis 1 Installation & Konfiguration 11 1.1 Windows ТуроЗ Server-Installation 11 1.2

Mehr

Checkliste Google Analytics Einrichtung

Checkliste Google Analytics Einrichtung Checkliste Google Analytics Einrichtung Den Anfang macht die Verknüpfung der Website mit dem Google Analytics Account. Hierfür muss das Google Analytics Code-Snippet in den Website-Quelltext eingefügt

Mehr

Webarchiv Schweiz. Ausbildung, Teil 1: Sammeln. 8. und 14. März 2007 Silvia Hofmann / Jean-Philippe Accart

Webarchiv Schweiz. Ausbildung, Teil 1: Sammeln. 8. und 14. März 2007 Silvia Hofmann / Jean-Philippe Accart Webarchiv Schweiz Ausbildung, Teil 1: Sammeln 8. und 14. März 2007 Einige Fragen vorweg: 1. Was ist das Internet? 2. Was findet man im WWW? 3. Wie wird das WWW genutzt? 4. Wie findet man die gesucht Information?

Mehr

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Alternativen zu Google. Prof. Dr. Dirk Lewandowski Alternativen zu Google Prof. Dr. Dirk Lewandowski dirk.lewandowski@haw-hamburg.de Agenda Situation / warum Alternativen zu Google? Lohnt sich die Recherche in anderen Universalsuchmaschinen? Alternative

Mehr

Web Scraping. Seminar Aktuelle Software-Engineering Praktiken für das World Wide Web JK 19.05.2010

Web Scraping. Seminar Aktuelle Software-Engineering Praktiken für das World Wide Web JK 19.05.2010 Web Scraping Seminar Aktuelle Software-Engineering Praktiken für das World Wide Web JK 19.05.2010 Inhalt Einführung Motivation Dokumente herunterladen Scraping Document Object Model Regular Expressions

Mehr

When your browser turns against you Stealing local files

When your browser turns against you Stealing local files Information Security When your browser turns against you Stealing local files Eine Präsentation von Alexander Inführ whoami Alexander Inführ Information Security FH. St Pölten Internet Explorer Tester

Mehr

Erfolgreiche Internetsuche

Erfolgreiche Internetsuche Rainer Kolbeck Erfolgreiche Internetsuche Informationen weltweit gezielt suchen und finden Markt&Technik Buch- und Software-Verlag GmbH i J Inhaltsverzeichnis Inhaltsverzeichnis Vorwort 11 Teil I: Grundlagen

Mehr

#Backlinks: Was macht einen guten Backlink aus?

#Backlinks: Was macht einen guten Backlink aus? #Backlinks: Was macht einen guten Backlink aus? Start 1 Was ist ein Backlink? Wozu brauche ich Backlinks? Backlink: Verweis von einer anderen Webseite Wichtiger Rankingfaktor für alle großen Suchmaschinen

Mehr

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH Technische Aspekte einer Videosuchmaschine Björn Wilmsmann, CEO - MetaSieve GmbH 1 Über MetaSieve http://www.metasieve.com Softwareentwicklung Internet Software Spezialisiert auf Suchmaschinentechnologie

Mehr

IPv6 für mehr Datenschutz

IPv6 für mehr Datenschutz IPv6 für mehr Datenschutz Lutz Donnerhacke IKS GmbH db089309: 1c1c 6311 ef09 d819 e029 65be bfb6 c9cb 1 Historische Einordnung 197x: Entwicklung des Protokolls IPv4 198x: Ausbreitung des Internets an den

Mehr

Volltextsuche und Text Mining

Volltextsuche und Text Mining Volltextsuche und Text Mining Seminar: Einfuehrung in die Computerlinguistik Dozentin: Wiebke Petersen by Rafael Cieslik 2oo5-Jan-2o 1 Gliederung 1. Volltextsuche 1. Zweck 2. Prinzip 1. Index 2. Retrieval

Mehr

Wissenschaftliche Suchmaschinen

Wissenschaftliche Suchmaschinen Wissenschaftliche Suchmaschinen Beatrice Altorfer 14.5.2013 1 Überblick 1. Grundlagen des Internet 2. Allgemeine Suchmaschinen 3. Metasuchmaschinen 4. Wissenschaftliche Suchmaschinen 5. Google Scholar

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Paul Prasse Michael Großhans World Wide Web 1990 am CERN von Tim Berners Lee zum besseren

Mehr

Suchen im WWW. Web-Vorgeschichte. Das World Wide Web. Web-Browser-Geschichte. Einführung

Suchen im WWW. Web-Vorgeschichte. Das World Wide Web. Web-Browser-Geschichte. Einführung Web-Vorgeschichte Ted Nelson entwickelte 1965 die Idee des Hypertexts. Suchen im WWW Einführung Doug Engelbart erfand die Maus und bildete die erste Implementierung von Hypertext in den späten 60igern

Mehr

Suche im Web und Ranking

Suche im Web und Ranking Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Suche im Web und Ranking Tobias Scheffer Peter Haider Paul Prasse WWW 1990 am CERN von Tim Berners Lee zum besseren Zugriff auf

Mehr

Webseiten-Bericht für sitekur.bbs.tr

Webseiten-Bericht für sitekur.bbs.tr Webseiten-Bericht für sitekur.bbs.tr Generiert am 19 Januar 2017 07:20 AM Der Wert ist 40/100 SEO Inhalte Seitentitel Site Kur / Bedava Web Sitesi Kur ve Aç Länge : 38 Perfekt, denn Ihr Seitentitel enthält

Mehr

Implementierung des Vektor Modells

Implementierung des Vektor Modells Implementierung des Vektor Modells Alex Judea Jens Burkhardt Titel des Seminars Information Retrieval WS 07/08 Seminar für Computerlinguistik Institut für Allgemeine und Angewandte Sprachwissenschaft Universität

Mehr

Auf diese Inhalte sollten Sie nicht verzichten

Auf diese Inhalte sollten Sie nicht verzichten IHR SEO SEMINAR Auf diese Inhalte sollten Sie nicht verzichten AGENTURVORSTELLUNG Kernkompetenzen SEO Content / Technik / Linkaufbau SEA Display / Social Ads / Remarketing / Media-Planung Preissuchmaschinen

Mehr

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06.

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen: 24.06. Suchen, um zu finden Sta,s,k BRD (Quelle: Comscore, 2013) Steffen- Peter Ballstaedt 24.6.2015 etwa 6 Milliarden Suchanfragen pro Monat etwa 2.500 Anfragen pro Sekunde 96% der Suchanfragen über Google Beziehungsgeflecht

Mehr

limlhaidftswgirzälhimds

limlhaidftswgirzälhimds limlhaidftswgirzälhimds 1 Einführung 1 1.1 Die Bedeutung der Suchmaschinen 2 1.2 Ein Buch über Google? 6 1.3 Ziel dieses Buchs 7 1.4 Über Suchmaschinen sprechen 8 1.5 Aufbau des Buchs 8 1.6 Aufbau der

Mehr

VSA e.v. SEO NEXT LEVEL. Frankfurt, 27. November Seite

VSA e.v. SEO NEXT LEVEL. Frankfurt, 27. November Seite VSA e.v. SEO NEXT LEVEL Frankfurt, 27. November 2018 Seite WAS SIE ÜBER UNS WISSEN SOLLTEN.» Digitale Lead Agentur mit Fokus Performance Marketing» 220 Mitarbeiter» 3 Standorte: München, Hamburg, Frankfurt»

Mehr

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine

Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Advanced Topics in Databases The Anatomy of a Large-Scale Hypertextual Web Search Engine Hasso-Plattner-Institut Potsdam Fachgebiet Informationssysteme Markus Güntert WS 2008/2009 20.01.2009 1 The Anatomy

Mehr

SEO & Relaunch: Chancen und Risiken. Jens Fauldrath Relaunch Konferenz 2016, Hamburg

SEO & Relaunch: Chancen und Risiken. Jens Fauldrath Relaunch Konferenz 2016, Hamburg SEO & Relaunch: Chancen und Risiken Jens Fauldrath Relaunch Konferenz 2016, Hamburg Komme aus Darmstadt, in Hessen 2 Wohne in Berlin, wo die Sons of Anarchy nur ein Motorroller-Club sind! 3 2006 2012:

Mehr

(Bamberg)

(Bamberg) Konzeption eines Frameworks für die Evaluation von Tag-Suggestion-Algorithmen Martin Garbe Steffen Oldenburg Lukas Zielinski Prof. Dr. Clemens Cap (Universität Rostock) 08.05.2008 (Bamberg) Übersicht Tags

Mehr

HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart

HTTrack2WARC. Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart HTTrack2WARC Dr. Barbara Löhle Bibliotheksservice-Zentrum Baden-Württemberg Mittwoch, 17.4.2013 Stuttgart 1 Inhalt Datenformat von Webarchiven WARC (Webarchive File Format) Konzept HTTrack to - WARC Erste

Mehr

Praktikum Information Retrieval Wochen 12: Suchmaschine

Praktikum Information Retrieval Wochen 12: Suchmaschine Praktikum Information Retrieval Wochen 12: Suchmaschine Matthias Jordan 7. November 18. November 2011 Lösungen: Upload bis 18. November 2011 Aktuelle Informationen, Ansprechpartner, Material und Upload

Mehr