Information Retrieval im Internet Kursfolien Karin Haenelt 25.11.01 1
Besonderheiten der Daten (1) Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets verändert sich monatlich Große Datenmengen Exponentielles Wachstum (Terrabytes) 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 368 2
Besonderheiten der Daten (2) Unstrukturierte und redundante Daten Schätzung: 30% der Daten MirrorSeiten, Kopien, ähnliche Seiten Semantische Ähnlichkeit höher Qualitätsunterschiede Falsch, veraltet Scanfehler, Tippfehler, grammatikalische Fehler, unpräzise Ausdrucksweise Heterogene Daten Exponentielles Wachstum (Terrabytes) 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 368/369 3
Suchmaschinen: Zentralisierte Architektur Crawlers, robots, spiders, wanderers, walkers, knowbots Traversieren das Netz Senden neue oder veränderte Seiten an ihren Server Indexer Indexiert Seiten Aktualisiert seinen zentralen Index 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 373 4
Suchmaschinen: Zentralisierte Architektur Crawler-Indexer-Architektur Query Engine Index Interface Indexer Users Crawler 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 374 5 Web
Suchmaschinen: Zentralisierte Architektur Probleme Datensammlung (Dynamik des Web) Gesättigte Kommunikationsverbindungen Hohe Belastung des Web-Servers 25.11.01 6 Baeza-Yates/Ribeiro-Neto, 1999, 374
Suchmaschinen: Verteilte Architektur Harvest System Verteilte Architektur zur Sammlung und Verteilung von Daten Hauptkomponenten: Gatherer Broker 25.11.01 7 Baeza-Yates/Ribeiro-Neto, 1999, 375
Gatherer 25.11.01 8 Suchmaschinen: Verteilte Architektur Sammelt und extrahiert Indexing Information von einem oder mehreren Web-Servern Festgelegte harvesting times Kann Information an verschiedene Brokers senden Kann auf einem eigenen Web-Server laufen Baeza-Yates/Ribeiro-Neto, 1999, 375
Broker Stellt Suchmaschinen: Verteilte Architektur Indexing Mechanismus Query Interface Kann Information filtern und an andere Brokers senden 25.11.01 9 Baeza-Yates/Ribeiro-Neto, 1999, 375/376
Suchmaschinen: Verteilte Architektur Harvest-Architektur Replication Manager Broker User Broker Gatherer Object Cache Web Site 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 376 10
Suchmaschinen: Harvest-Architektur Replikator, z.b. für Verteilung der Registration auf verschiedene geographische Regionen Aufteilung des gathering-prozesses auf mehrere Web-Server Object Cache Reduziert Netz- und Serverbelastung 25.11.01 11 Baeza-Yates/Ribeiro-Neto, 1999, 376
Crawling Gute Crawler: bis zu 10 Mio. Webseiten pro Tag Suche: depth-first, breadth-first Nach Ordnungsschemata (z.b. PageRank) Richtlinien für Crawlers Zur Vermeidung der Überschüttung von Servern durch Anfragen 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381/382 12
Indizes Meist invertierte Files: (Liste sortierter Wörter mit Zeiger auf Seiten des Vorkommens) Kurzbeschreibung Datum, Größe, Titel, erste Zeile Gewöhnlich gesamte Antwort auf eine Anfrage im Speicher gehalten Bei Anfrage binäre Suche über invertierte Files 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381/382 13
Systemanfragen Unterschiedliche Syntax und Semantik Wortmengen Teils UND-verknüpft Teils ODER-verknüpft Textrepräsentation Wortformen, stemming, Stopwörter Zusatzbedingungen Ort, Zeit Baeza-Yates/Ribeiro-Neto, 1999, 377 25.11.01 14
Probleme kontextfreier 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 390 15 Suchtermini Sprachübergreifende Polysemie Go (im Sinne von Japanisches Brettspiel ) Go (englisches Verb) Sprachinterne Polysemie Jaguar - Auto - Atari Videospiel - US-Football-Team - lokaler Netzwerkserver - Tier
Webverzeichnisse Taxonomien zur Klassifizierung des Wissens Gerichtete azyklische Graphen (Hierarchien mit Querverweisen) Arts & Humanities Automotives Business & Economy Computers & Internet Education Employment Entertainment & Leisure 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 385/386 16 Games Government Health & Fitness Hobbies & Interests Home Investing Kids & Family...
Webverzeichnisse Vorteile Antworten meist nützlich Nachteile Klassifikation nicht spezialisiert genug Nicht alle Webseiten klassifiziert Aufwändig: Zuordnung intellektuell durch Menschen Begutachtung eingesandter Seiten (Mehrfach-)Klassifizierung Variation unter den Bearbeitenden 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 385/386 17
Ranking Meist Boolesches Modell oder Vektormodell Hyperlink-Information Anzahl der Links, die auf eine Seite zeigen als Maß für Popularität oder Qualität Clusterbildung durch wechselseitige Verweisstruktur Modellierung der Wahrscheinlichkeit des Besuchs einer Seite und der Besuchsfolge mit einer Markov-Kette (p berechnet aus eingehenden und ausgehenden Links) (PageRank) Titel, Metainformation 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 381 18
Gegenwärtiger Stand 1. Search Engines still return too much hay together with the needle 2. Web Directories do not have enough depth to find the needle It is easier and more effective to teach the user how to profit from search engines and Web directories, rather than trying to guess what the user really wants 25.11.01 Baeza-Yates/Ribeiro-Neto, 1999, 391 19
Trends und Forschungsaufgaben Modellierung Pull/push-Dichotomie: Information suchen/information bekommen Bessere Suchparadigmen Bessere Informationsfilter Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 20
Trends und Forschungsaufgaben Querying Kombination von Struktur und Inhalt Visualisierungen Konzeptbasierte Suche Sprachverarbeitung Searching by example Dokumentclustering und Kategorisierung im Web Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 21
Trends und Forschungsaufgaben Verteilte Architekturen Ranking Verwendung von Inhalt, Struktur, Vernetzung Indexing Bessere Textrepräsentation Bessere Textkompression Baeza-Yates/Ribeiro-Neto, 1999, 393 25.11.01 22
Trends und Forschungsaufgaben Dynamische Seiten Einbeziehung des hidden web (auf Anfrage generierte Seiten) Duplikation von Daten Mechanismen zur Entdeckung und Eliminierung von Wiederholungen Multimedia Benutzungsschnittstellen Baeza-Yates/Ribeiro-Neto, 1999, 394 25.11.01 23
Trends und Forschungsaufgaben Browsing Links, Popularität von Web-Seiten Inhaltliche Ähnlichkeiten Kollaboration 3D Virtual reality Baeza-Yates/Ribeiro-Neto, 1999, 394 25.11.01 24
Literatur Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Essex: Addison Wesley Longman Limited, 1999 25.11.01 25