Information Retrieval im Internet



Ähnliche Dokumente
Information Retrieval im Internet

Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2)

9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden

Suchmaschinen. Anwendung RN Semester 7. Christian Koczur

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Wie Google Webseiten bewertet. François Bry

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Grundkonzepte der Vernetzung

Erfolgreich suchen im Internet

Technische Aspekte einer Videosuchmaschine. Björn Wilmsmann, CEO - MetaSieve GmbH

Diskrete Modellierung

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Das Komplexe einfach machen

Web-Recherche WS 2015/ Veranstaltung 29. Oktober 2015

Lizenzverwaltung Installation nachträglich erworbener Zusatzmodule

Web Grundlagen zum Spidering

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Apache Lucene. Mach s wie Google! Bernd Fondermann freier Software Architekt bernd.fondermann@brainlounge.de berndf@apache.org

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Torben Weber. Datensammlung nach den Boarderline Engineering Essentials by systemtrading24 Fachverlag

SolarWinds Engineer s Toolset

Website-Suche mit OpenText Web Site Management. Frank Steffen - Senior Product Manager

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Seminar C02 - Praxisvergleich OLAP Tools

Suchmaschinen und ihre Architektur. Seminar: Angewandtes Information Retrieval Referat von Michael Wirz

TYPO3-Suchmaschinenoptimierung für Redakteure

Web Crawling Die Erschließung des Webs

Der»Journalist Desktop«

Erstellen eines Formulars

Webentwicklung mit Mozilla Composer I.

Apps, die Menschen lieben!

Quelle. Thematische Verteilungen. Worum geht es? Wiederholung. Link-Analyse: HITS. Link-Analyse: PageRank. Link-Analyse: PageRank. Link-Analyse: HITS

Maschinelle Übersetzung

Web Data Management Systeme

Indexstrukturen in XML

Contents. Interaction Flow / Process Flow. Structure Maps. Reference Zone. Wireframes / Mock-Up

easywan Spam-Mail-Blocker

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

SEODisc: Ansatz zur Erkennung von SEO-Attacken

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Kommunikation. Sitzung /11. Dezember 2015

Installationsanleitung SSL Zertifikat

Die Statistiken von SiMedia

Torben Weber. Datensammlung nach den Boarderline Engineering Essentials by systemtrading24 Fachverlag

END USER GUIDE IBS TICKET SYSTEM HOW-TO. Dokumenten Kontrolle. Version 1.1. Datum IBS Ticket System End User How-To D.doc.

Konfigurationsbeispiel USG

Scheduling Mechanisms for the Grid

Überblick. Netzprogrammierung 7b. Zustand in Web Anwendungen. Zustand in HTTP HTTP ist zustandslos Zwei Interaktionen sind unabhängig voneinander

Aktuelles, Mitteilungen und Veranstaltungen verwalten

Better Backlinking Semantische Kategorisierung von Websites

Web Interface für Anwender

e-business - Patterns Stefan Brauch (sb058) -- Julian Stoltmann (js057)

How to do? Projekte - Zeiterfassung

Suchmaschinen I Suchmaschinenoptimierung I Besucher werden Kunden. Wie werde ich im Internet gefunden!

Informationsflut bewältigen - Textmining in der Praxis

NuVinci Harmony Software und Firmware. Anleitung in deutscher Sprache

Business Breakfast. Collaboration and more - Wie Windows 10 die IT-Landschaft in Ihrem Unternehmen beeinflussen wird. Ludwigshafen, 11.

Installation des GeoShop Redirector für Apache (Stand ) ================================================================

EMC SourceOne TM für Microsoft SharePoint 7.1 Archivsuche Kurzreferenz

Fotoserien/Fotoalben

Was ist ein digitaler Archivbesuch? Die Interpretation von Zugriffszahlen

SemTalk Services Stand: Februar 2015

Anleitung zur Einrichtung von Outbound und Inbound Filtern Für DWR-512 (Stand August 2012)

Migration Howto. Inhaltsverzeichnis

LOAD BALANCING LASTVERTEILUNG BEI INTERNETANWENDUNGEN

Proton Tankmesssystem per SMS und Webserver Dokumentation V1.4

Thematische Abfrage mit Computerlinguistik

Maßgeschneiderte Suchmaschinen

Was Sie erwartet. Blitzseminar: Social Network-Marketing Frankfurter Buchmesse 2009 Andrea Mühl, M. A.

WDS: Windows Deployment Service

Business Application Framework für SharePoint Der Kern aller PSC-Lösungen

Optimieren Sie Ihre n2n Webseite

Wann benötigen Sie eine neue Lizenz-Datei mit der Endung.pkg?

Preise und Leistungen. Stand

Klicken Sie, um das Titelformat zu bearbeiten. Games Convention 2007 Special CHIP Online

Vitaminkapseln.ch - SEO Check

Freebase Eine Datenbank mit RDF-Tripeln zu Personen, Orten, Dingen( )

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Anleitung Redmine. Inhalt. Seite 1 von 11. Anleitung Redmine

Konfigurationsanleitung IGMP Multicast - Video Streaming Funkwerk / Bintec. Copyright 5. September 2008 Neo-One Stefan Dahler Version 1.

Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen

Integration von XPhone Virtual Directory auf OpenStage 60/80 Telefonen

HP Software Support Maximieren Sie den Wert Ihrer Software Lösung

Step by Step Remotedesktopfreigabe unter Windows Server von Christian Bartl


Themenschwerpunkt Social SEO

Textdokument-Suche auf dem Rechner Implementierungsprojekt

Algorithmen und Datenstrukturen

Anleitung zum Einrichten eines -Accounts im Outlook Express 6

crm-now/ps Webforms Webdesigner Handbuch Erste Ausgabe

Modellgestütztes Consulting für die Windenergie Ein neuer Ansatz für die Entwicklung

Da sein, wo der Kunde Sie sucht: Marketing in Suchmaschinen. Innocel November 2006

Wie werde ich bei Google gefunden?

Datenbank-basierte Webserver

Ein + vor dem Ordnernamen zeigt an, dass der Ordner weitere Unterordner enthält. Diese lassen sich mit einem Klick (linke Maustaste) anzeigen.

Web Mining und Farming

Transkript:

Information Retrieval im Internet Kursfolien Karin Haenelt 25.11.01 1

Besonderheiten der Daten (1) Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets verändert sich monatlich Große Datenmengen Exponentielles Wachstum (Terrabytes) 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 368 2

Besonderheiten der Daten (2) Unstrukturierte und redundante Daten Schätzung: 30% der Daten MirrorSeiten, Kopien, ähnliche Seiten Semantische Ähnlichkeit höher Qualitätsunterschiede Falsch, veraltet Scanfehler, Tippfehler, grammatikalische Fehler, unpräzise Ausdrucksweise Heterogene Daten Exponentielles Wachstum (Terrabytes) 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 368/369 3

Suchmaschinen: Zentralisierte Architektur Crawlers, robots, spiders, wanderers, walkers, knowbots Traversieren das Netz Senden neue oder veränderte Seiten an ihren Server Indexer Indexiert Seiten Aktualisiert seinen zentralen Index 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 373 4

Suchmaschinen: Zentralisierte Architektur Crawler-Indexer-Architektur Query Engine Index Interface Indexer Users Crawler 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 374 5 Web

Suchmaschinen: Zentralisierte Architektur Probleme Datensammlung (Dynamik des Web) Gesättigte Kommunikationsverbindungen Hohe Belastung des Web-Servers 25.11.01 6 Baeza-Yates/Ribeiro-Neto, 1999, 374

Suchmaschinen: Verteilte Architektur Harvest System Verteilte Architektur zur Sammlung und Verteilung von Daten Hauptkomponenten: Gatherer Broker 25.11.01 7 Baeza-Yates/Ribeiro-Neto, 1999, 375

Gatherer 25.11.01 8 Suchmaschinen: Verteilte Architektur Sammelt und extrahiert Indexing Information von einem oder mehreren Web-Servern Festgelegte harvesting times Kann Information an verschiedene Brokers senden Kann auf einem eigenen Web-Server laufen Baeza-Yates/Ribeiro-Neto, 1999, 375

Broker Stellt Suchmaschinen: Verteilte Architektur Indexing Mechanismus Query Interface Kann Information filtern und an andere Brokers senden 25.11.01 9 Baeza-Yates/Ribeiro-Neto, 1999, 375/376

Suchmaschinen: Verteilte Architektur Harvest-Architektur Replication Manager Broker User Broker Gatherer Object Cache Web Site 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 376 10

Suchmaschinen: Harvest-Architektur Replikator, z.b. für Verteilung der Registration auf verschiedene geographische Regionen Aufteilung des gathering-prozesses auf mehrere Web-Server Object Cache Reduziert Netz- und Serverbelastung 25.11.01 11 Baeza-Yates/Ribeiro-Neto, 1999, 376

Crawling Gute Crawler: bis zu 10 Mio. Webseiten pro Tag Suche: depth-first, breadth-first Nach Ordnungsschemata (z.b. PageRank) Richtlinien für Crawlers Zur Vermeidung der Überschüttung von Servern durch Anfragen 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381/382 12

Indizes Meist invertierte Files: (Liste sortierter Wörter mit Zeiger auf Seiten des Vorkommens) Kurzbeschreibung Datum, Größe, Titel, erste Zeile Gewöhnlich gesamte Antwort auf eine Anfrage im Speicher gehalten Bei Anfrage binäre Suche über invertierte Files 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381/382 13

Systemanfragen Unterschiedliche Syntax und Semantik Wortmengen Teils UND-verknüpft Teils ODER-verknüpft Textrepräsentation Wortformen, stemming, Stopwörter Zusatzbedingungen Ort, Zeit Baeza-Yates/Ribeiro-Neto, 1999, 377 25.11.01 14

Probleme kontextfreier 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 390 15 Suchtermini Sprachübergreifende Polysemie Go (im Sinne von Japanisches Brettspiel ) Go (englisches Verb) Sprachinterne Polysemie Jaguar - Auto - Atari Videospiel - US-Football-Team - lokaler Netzwerkserver - Tier

Webverzeichnisse Taxonomien zur Klassifizierung des Wissens Gerichtete azyklische Graphen (Hierarchien mit Querverweisen) Arts & Humanities Automotives Business & Economy Computers & Internet Education Employment Entertainment & Leisure 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 385/386 16 Games Government Health & Fitness Hobbies & Interests Home Investing Kids & Family...

Webverzeichnisse Vorteile Antworten meist nützlich Nachteile Klassifikation nicht spezialisiert genug Nicht alle Webseiten klassifiziert Aufwändig: Zuordnung intellektuell durch Menschen Begutachtung eingesandter Seiten (Mehrfach-)Klassifizierung Variation unter den Bearbeitenden 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 385/386 17

Ranking Meist Boolesches Modell oder Vektormodell Hyperlink-Information Anzahl der Links, die auf eine Seite zeigen als Maß für Popularität oder Qualität Clusterbildung durch wechselseitige Verweisstruktur Modellierung der Wahrscheinlichkeit des Besuchs einer Seite und der Besuchsfolge mit einer Markov-Kette (p berechnet aus eingehenden und ausgehenden Links) (PageRank) Titel, Metainformation 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381 18

Gegenwärtiger Stand 1. Search Engines still return too much hay together with the needle 2. Web Directories do not have enough depth to find the needle It is easier and more effective to teach the user how to profit from search engines and Web directories, rather than trying to guess what the user really wants 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 391 19

Trends und Forschungsaufgaben Modellierung Pull/push-Dichotomie: Information suchen/information bekommen Bessere Suchparadigmen Bessere Informationsfilter Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 20

Trends und Forschungsaufgaben Querying Kombination von Struktur und Inhalt Visualisierungen Konzeptbasierte Suche Sprachverarbeitung Searching by example Dokumentclustering und Kategorisierung im Web Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 21

Trends und Forschungsaufgaben Verteilte Architekturen Ranking Verwendung von Inhalt, Struktur, Vernetzung Indexing Bessere Textrepräsentation Bessere Textkompression Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 22

Trends und Forschungsaufgaben Dynamische Seiten Einbeziehung des hidden web (auf Anfrage generierte Seiten) Duplikation von Daten Mechanismen zur Entdeckung und Eliminierung von Wiederholungen Multimedia Benutzungsschnittstellen Baeza-Yates/Ribeiro-Neto, 1999, 394 25.11.01 23

Trends und Forschungsaufgaben Browsing Links, Popularität von Web-Seiten Inhaltliche Ähnlichkeiten Kollaboration 3D Virtual reality Baeza-Yates/Ribeiro-Neto, 1999, 394 25.11.01 24

Literatur Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Essex: Addison Wesley Longman Limited, 1999 25.11.01 25