Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2)

Größe: px

Ab Seite anzeigen:

Download "Besonderheiten der Daten (1) Information Retrieval im Internet. Suchmaschinen: Zentralisierte Architektur. Besonderheiten der Daten (2)"

Christin Möller
vor 5 Jahren
Abrufe

1 Besonderheiten der Daten (1) Information Retrieval im Internet Kursfolien Karin Haenelt Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets verändert sich monatlich Große Datenmengen Exponentielles Wachstum (Terrabytes) Baeza-Yates/Ribeiro-Neto, 1999, Besonderheiten der Daten (2) Unstrukturierte und redundante Daten Schätzung: 30% der Daten MirrorSeiten, Kopien, ähnliche Seiten Semantische Ähnlichkeit höher Qualitätsunterschiede Falsch, veraltet Scanfehler, Tippfehler, grammatikalische Fehler, unpräzise Ausdrucksweise Heterogene Daten Exponentielles Wachstum (Terrabytes) Crawlers, robots, spiders, wanderers, walkers, knowbots Traversierendas Netz Senden neue oder veränderte Seiten an ihren Server Indexer Indexiert Seiten Aktualisiert seinen zentralen Index Baeza-Yates/Ribeiro-Neto, 1999, 368/ Baeza-Yates/Ribeiro-Neto, 1999, Crawler-Indexer-Architektur Users Interface Query Engine Crawler Index Indexer Probleme Datensammlung (Dynamik des Web) Gesättigte Kommunikationsverbindungen Hohe Belastung des Web-Servers Web Baeza-Yates/Ribeiro-Neto, 1999, Baeza-Yates/Ribeiro-Neto, 1999,

2 Harvest System zur Sammlung und Verteilung von Daten Hauptkomponenten: Gatherer Baeza-Yates/Ribeiro-Neto, 1999, 375 Gatherer Sammelt und extrahiert Indexing Information von einem oder mehreren Web-Servern Festgelegte harvesting times Kann Information an verschiedene s senden Kann auf einem eigenen Web-Server laufen Baeza-Yates/Ribeiro-Neto, 1999, Stellt Indexing Mechanismus Query Interface Kann Information filtern und an andere s senden Baeza-Yates/Ribeiro-Neto, 1999, 375/376 Harvest-Architektur User Replication Manager Object Cache Gatherer Web Site Baeza-Yates/Ribeiro-Neto, 1999, Harvest-Architektur Replikator, z.b. für Verteilung der Registration auf verschiedene geographische Regionen Aufteilung des gathering-prozesses auf mehrere Web-Server Object Cache Reduziert Netz- und Serverbelastung Baeza-Yates/Ribeiro-Neto, 1999, Baeza-Yates/Ribeiro-Neto, 1999, 381/ Crawling Gute Crawler: bis zu 10 Mio. Webseiten pro Tag Suche: depth-first, breadth-first Nach Ordnungsschemata (z.b. PageRank) Richtlinien für Crawlers Zur Vermeidung der Überschüttung von Servern durch Anfragen

3 Indizes Meist invertierte Files: (Liste sortierter Wörter mit Zeiger auf Seiten des Vorkommens) Kurzbeschreibung Datum, Größe, Titel, erste Zeile Gewöhnlich gesamte Antwort auf eine Anfrage im Speicher gehalten Bei Anfrage binäre Suche über invertierte Files Systemanfragen Unterschiedliche Syntax und Semantik Wortmengen Teils UND-verknüpft Teils ODER-verknüpft Textrepräsentation Wortformen, stemming, Stopwörter Zusatzbedingungen Ort, Zeit Baeza-Yates/Ribeiro-Neto, 1999, Baeza-Yates/Ribeiro-Neto, 1999, 381/ Probleme kontextfreier Suchtermini Sprachübergreifende Polysemie Go (im Sinne von Japanisches Brettspiel ) Go (englisches Verb) Sprachinterne Polysemie Webverzeichnisse Taxonomien zur Klassifizierung des Wissens Gerichtete azyklische Graphen (Hierarchien mit Querverweisen) Arts & Humanities Games Automotives Government... Jaguar - Auto Business & Economy Health & Fitness - Atari Videospiel Computers & Internet Hobbies & Interests - US-Football-Team Education Home - lokaler Netzwerkserver Employment Investing - Tier Entertainment & Leisure Kids & Family Baeza-Yates/Ribeiro-Neto, 1999, Baeza-Yates/Ribeiro-Neto, 1999, 385/ Webverzeichnisse Vorteile Antworten meist nützlich Nachteile Klassifikation nicht spezialisiert genug Nicht alle Webseiten klassifiziert Aufwändig: Zuordnung intellektuell durch Menschen Begutachtung eingesandter Seiten (Mehrfach-)Klassifizierung Variation unter den Bearbeitenden Ranking Meist Boolesches Modell oder Vektormodell Hyperlink-Information Anzahl der Links, die auf eine Seite zeigen als Maß für Popularität oder Qualität Clusterbildung durch wechselseitige Verweisstruktur Modellierung der Wahrscheinlichkeit des Besuchs einer Seite und der Besuchsfolge mit einer Markov-Kette (p berechnet aus eingehenden und ausgehenden Links) (PageRank) Baeza-Yates/Ribeiro-Neto, 1999, 385/ Titel, Metainformation Baeza-Yates/Ribeiro-Neto, 1999, 381

4 Gegenwärtiger Stand 1. Search Engines still return too much hay together with the needle 2. Web Directories do not have enough depth to find theneedle It is easier and more effective to teach the user how to profitfrom search engines and Web directories, rather than trying to guess what the user really wants Baeza-Yates/Ribeiro-Neto, 1999, Modellierung Pull/push-Dichotomie: Information suchen/information bekommen Bessere Suchparadigmen Bessere Informationsfilter Querying Kombination von Struktur und Inhalt Visualisierungen Konzeptbasierte Suche Sprachverarbeitung Searching by example Dokumentclustering und Kategorisierung im Web en Ranking Verwendung von Inhalt, Struktur, Vernetzung Indexing Bessere Textrepräsentation Bessere Textkompression Dynamische Seiten Einbeziehung des hidden web (auf Anfrage generierte Seiten) Duplikation von Daten Mechanismen zur Entdeckung und Eliminierung von Wiederholungen Multimedia Benutzungsschnittstellen Baeza-Yates/Ribeiro-Neto, 1999, Browsing Links, Popularität von Web-Seiten Inhaltliche Ähnlichkeiten Kollaboration 3D Virtual reality Baeza-Yates/Ribeiro-Neto, 1999,

5 Literatur Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Essex: Addison Wesley Longman Limited,

Ähnliche Dokumente

Information Retrieval im Internet

Information Retrieval im Internet Kursfolien Karin Haenelt 25.11.01 1 Besonderheiten der Daten (1) Verteilte Daten Viele Rechner Verschiedene Plattformen Hohe Volatilitätsrate Schätzung: 40% des Internets