9. IR im Web. bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden



Ähnliche Dokumente
Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Wie Google Webseiten bewertet. François Bry

Professionelle Seminare im Bereich MS-Office

Speicher in der Cloud

Kleines Handbuch zur Fotogalerie der Pixel AG

! " # $ " % & Nicki Wruck worldwidewruck

Fotos verkleinern mit Paint

Eine Einführung in die Installation und Nutzung von cygwin

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Was meinen die Leute eigentlich mit: Grexit?

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Anleitung über den Umgang mit Schildern

Step by Step Webserver unter Windows Server von Christian Bartl

1. Einführung. 2. Archivierung alter Datensätze

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

2 Evaluierung von Retrievalsystemen

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Die Statistiken von SiMedia

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Eine Anwendung mit InstantRails 1.7

mysql - Clients MySQL - Abfragen eine serverbasierenden Datenbank

1 topologisches Sortieren

Grundlagen der Theoretischen Informatik, SoSe 2008

Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender FHNW, Services, ICT

icloud nicht neu, aber doch irgendwie anders

OPERATIONEN AUF EINER DATENBANK

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Grafstat Checkliste Internetbefragung

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

pro4controlling - Whitepaper [DEU] Whitepaper zur CfMD-Lösung pro4controlling Seite 1 von 9

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Arbeiten mit dem neuen WU Fileshare unter Windows 7

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

INDEX. Öffentliche Ordner erstellen Seite 2. Offline verfügbar einrichten Seite 3. Berechtigungen setzen Seite 7. Öffentliche Ordner Offline

Outlook-Daten komplett sichern

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Tutorial -

Suchmaschinenoptimierung

Guide DynDNS und Portforwarding

Primzahlen und RSA-Verschlüsselung

Artikel Schnittstelle über CSV

Abschlussprüfung Realschule Bayern II / III: 2009 Haupttermin B 1.0 B 1.1

Internet online Update (Internet Explorer)

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

Step by Step Remotedesktopfreigabe unter Windows Server von Christian Bartl

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

2 Die Terminaldienste Prüfungsanforderungen von Microsoft: Lernziele:

Multicheck Schülerumfrage 2013

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Was ist Sozial-Raum-Orientierung?

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Software zur Anbindung Ihrer Maschinen über Wireless- (GPRS/EDGE) und Breitbandanbindungen (DSL, LAN)

Leichte-Sprache-Bilder

SEO Erfolg mit themenrelevanten Links

Lizenzen auschecken. Was ist zu tun?

Seite Wo finde ich die Landingpage Auswahl? Seite Wie aktiviere ich eine Landingpage? Seite

Informatik 2 Labor 2 Programmieren in MATLAB Georg Richter

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Einfügen von Bildern innerhalb eines Beitrages

Die Post hat eine Umfrage gemacht

Neue Schriftarten installieren

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Urlaubsregel in David

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss

Informatik-Sommercamp Mastermind mit dem Android SDK

Informationsblatt Induktionsbeweis

Nicht über uns ohne uns

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

50 Fragen, um Dir das Rauchen abzugewöhnen 1/6

Netzlaufwerke mit WebDAV einbinden

Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

WLAN Konfiguration. Michael Bukreus Seite 1

EINFACHES HAUSHALT- KASSABUCH

Erstellen von x-y-diagrammen in OpenOffice.calc

Die Invaliden-Versicherung ändert sich

Zusammenführen mehrerer Dokumente zu einem PDF In drei Abschnitten erstellen Sie ein Dokument aus mehreren Einzeldokumenten:

Wie Sie mit Mastern arbeiten

GEVITAS Farben-Reaktionstest

DNS-325/-320 und FXP

Wir machen neue Politik für Baden-Württemberg

Kulturelle Evolution 12

Verwendung des IDS Backup Systems unter Windows 2000

Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.

SharePoint Demonstration

Webalizer HOWTO. Stand:

Transkript:

IR im Web 9. IR im Web bei Anfragen im Web gibt es eine Reihe von zusätzlichen Problemen, die gelöst werden müssen Einführung in Information Retrieval 394

Probleme verteilte Daten: Daten sind auf vielen verschiedenen Rechnern verteilt, die durch keine feste Topologie verbunden sind die Zuverlässigkeit und Geschwindigkeiten der Verbindungen untereinander variieren stark hochgradig unbeständige Daten hohe Dynamik (Rechner und Webseiten können schnell gelöscht, geändert und dazugefügt werden), man schätzt, daß sich pro Monat 40% des Webs ändert viele tote Links Einführung in Information Retrieval 395

Probleme sehr große Datenmengen das (noch) exponentielle Wachstum des Webs bringt große Skalierungsprobleme mit sich unstrukturierte und redundante Daten das Web ist nicht einfach verteilter Hypertext (Hypertext ist normalerweise gut strukturiert und organisiert) man schätzt, daß ca. 30% aller Webseiten fast gleichen Inhalt haben (semantische Redundanz ist wahrscheinlich noch viel höher) Einführung in Information Retrieval 396

Probleme schlechte Datenqualität Daten können veraltet, schlecht geschrieben, fehlerbehaftet oder ganz einfach völlig falsch sein Untersuchungen zeigen, daß ca. 0,5% aller einfachen Worte und ca. 33% aller (ausländischen) Namen falsch geschrieben sind sehr heterogene Daten viele verschiedene Dateiformate viele verschiedene Sprachen Einführung in Information Retrieval 397

Unterschied zu herkömmlichen IR-Systemen größter Unterschied: alle Anfragen in einem Web-IR-System müssen nur mit Hilfe eines Index ohne Zugriff auf eigentlichen Text beantwortet werden komplettes Speichern des Texts braucht zuviel Platz Zugriff über das Netz ist zu langsam Einführung in Information Retrieval 398

Architektur 9.1. Architekturen von Web-IR-Systemen Web-IR-Systeme sind bekannter unter dem Namen Suchmaschinen (Search Engines) prinzipiell zwei verschiedenen Architekturen: zentralisierte Architektur verteilte Architektur Einführung in Information Retrieval 399

Zentralisierte Architektur 9.1.1. Zentralisierte Architektur die meisten Suchmaschinen benutzen eine zentralisierte Crawler-Indexierer Architektur Crawler besorgt Information, legt sie im Index ab, auf den während der Anfragebearbeitung zugegriffen wird Crawler werden auch Robots, Spiders, Wanderers, Walkers oder Knowbots genannt trotz ihres Namens bewegen sich diese Programme nicht auf fremde Rechner und laufen dort, sie laufen auf dem lokalen Rechner der Suchmaschine und schicken Anfragen an entfernte Web-Server Einführung in Information Retrieval 400

Graphische Veranschaulichung Einführung in Information Retrieval 401

Crawling man fängt mit einer Menge von URLs an und extrahiert aus diesen weiterführende URLs diese URLs werden nun rekursiv mit Breitenoder Tiefensuche weiterverfolgt manche Suchmaschinen erlauben den Benutzern URLs zu der Startmenge hinzuzufügen oder fangen mit vielbesuchten Seiten an diese Techniken funktionieren für einen einzelnen Crawler gut, verhindern aber nicht, daß verschiedene Crawler Seiten mehrfach besuchen Einführung in Information Retrieval 402

weitere Probleme Suchmaschinen haben veraltete Daten im Index, bei denen die zugehörige Seite vielleicht schon gar nicht mehr existiert beim Zugriff des Benutzers wird aber die Seite selbst geholt die Daten in der Suchmaschine über diese Seite können zwischen 1 Tag und 2 Monate alt sein (aus diesem Grund geben Suchmaschinen meist das Datum der Indexierung an) Einführung in Information Retrieval 403

weitere Probleme vom Benutzer eingeschickte URLs werden normalerweise nach wenigen Tagen oder Wochen besucht andere Seiten warten Wochen bis Monate bis sie in der Suchmaschine auftauchen manche Suchmaschinen erkennen Updatehäufigkeiten von Seiten und besuchen sie entsprechend oft oder besuchten populäre Seiten häufiger Einführung in Information Retrieval 404

weitere Probleme die Reihenfolge in der URLs durchlaufen werden ist wichtig Breitensuche: weite, aber flache Abdeckung Tiefensuche: tiefe, aber schmale Abdeckung man kann Qualität steigern, indem man (im Sinne eines Rankingschemas) gute Seiten zuerst besucht Einführung in Information Retrieval 405

Verhaltensregeln um Webserver nicht unnötig zu belasten, gibt es gewisse Verhaltensregeln für Crawler es existiert normalerweise spezielle Datei (robots.txt) auf einem Webserver, die angibt, welche Daten nicht indexiert werden sollen (dynamische Seiten, passwortgeschützte Seiten) außerdem darf nur eine bestimmte Anzahl von Anfragen an einen Webserver in einem Zeitabschnitt gestellt werden Einführung in Information Retrieval 406

Daten und Fakten 1998 lief das AltaVista System auf 20 Multi- Prozessor Maschinen, die insgesamt 130 GByte Hauptspeicher und 500 GByte Plattenplatz zur Verfügung hatten es ist allerdings fraglich, wie bei dem rapiden Wachstum des Webs das Sammeln von Informationen durch Crawler noch aufrechtzuerhalten ist selbst von den größten Suchmaschinen wird lediglich noch ca. ein Drittel des Webs abgedeckt Einführung in Information Retrieval 407

Verteilte Architektur 9.1.2. Verteilte Architektur es gibt verschiedene Varianten verteilter Architekturen, davon ist Harvest die wichtigste diese Lösung ist effizienter als der zentralisierte Ansatz hat aber den Nachteil, daß es die Mitarbeit und Koordination von mehreren Web- Servern benötigt Einführung in Information Retrieval 408

Probleme des zentralisierten Ansatzes Harvest berücksichtigt die folgenden Probleme zentralisierter Architekturen: Web-Server bekommen Anfragen von unzähligen Crawlern, was ihre Last erhöht die Datenmengen auf dem Netz sind unnötig hoch, Crawler holen immer ganze Objekte, von denen sie nachher das meiste wieder wegwerfen jeder Crawler sammelt seine Information unabhängig von den anderen Crawlern, es gibt keinerlei Koordination zwischen den Suchmaschinen Einführung in Information Retrieval 409

Harvest um diese Probleme zu lösen, führt Harvest zwei Elemente ein: Sammler: sammelt und extrahiert Information von einem oder mehreren Web- Servern zu festgelegten Zeiten ( Erntezeit ) Broker: stellt den Indexierungsmechanismus und das Anfrageinterface zur Verfügung, dabei stützt er sich auf einen oder mehrere Sammler oder Broker Einführung in Information Retrieval 410

Architektur Einführung in Information Retrieval 411

Vorteile je nach Konfiguration der Sammler und Broker kann man die Performance steigern z.b. kann ein Sammler auf der Maschine eines Web-Server laufen, der Server muß also nicht ständig Anfragen von Crawlern beantworten, d.h. die Netzlast sinkt ein Sammler kann seine Informationen an mehrere Broker verschicken, so wird redundante Arbeit vermieden ein Broker kann Informationen filtern und anderen Brokern zur Verfügung stellen ein Ziel ist es, themenspezifische Broker zu implementieren Einführung in Information Retrieval 412

Ranking 9.2. Ranking die meisten Suchmaschinen verwenden Varianten des klassischen Booleschen oder Vektormodells über die genauen Algorithmen der meisten kommerziellen Suchmaschinen ist leider nicht viel bekannt viele der Rankingalgorithmen nutzen Informationen über Vernetzung der Seiten aus Bewertung der Rankingalgorithmen gestaltet sich auch schwierig: wie bestimmt man Recall im Web? Einführung in Information Retrieval 413

Boolean/Vector spread 9.2.1. Boolean/Vector spread sind die klassischen Rankingverfahren, allerdings erweitert um eine Komponente und zwar werden zur herkömmlichen Antwortmenge die Seiten dazugenommen auf die eine Seite in der Antwortmenge zeigt die auf eine Seite in der Antwortmenge zeigen die Relevanz einer solchen hinzugefügten Seite ist allerdings niedriger als wenn sie selbst den Suchterm enthält Einführung in Information Retrieval 414

9.2.2. Most-Cited 9.2.2. Most-Cited große Ähnlichkeit mit Boolean spread es wird allerdings mehr Wert auf die Seiten gelegt, auf die gezeigt wird jede Seite bekommt einen Rankingwert zugewiesen, der proportional zur Anzahl von Suchtermen ist, die auf Seiten vorkommen, die auf diese Seite zeigen Einführung in Information Retrieval 415

HITS 9.2.3. HITS (Hypertext Induced Topic Search) man bestimmt eine Antwortmenge (mit konventionellen Rankingalgorithmen) und eine Menge W von Seiten die direkte Verbindungen (Links) zu Seiten in Antwortmenge haben die Seiten in W und der Antwortmenge werden jetzt klassifiziert nach ihren Links Einführung in Information Retrieval 416

Authorities und Hubs Seiten auf die viele andere Seiten zeigen, werden authorities (Autoritäten) genannt man nimmt an, daß authorities relevanten Inhalt haben Seiten mit vielen ausgehenden Links heißen hubs (Naben) man nimmt an, daß hubs auf Seiten mit ähnlichem Inhalt zeigen Einführung in Information Retrieval 417

Auswirkungen jetzt gibt es eine positive Rückkopplung authority Seiten sind gut, wenn gute hubs auf sie zeigen hub Seiten sind wiederum gut, wenn sie auf gute authorities zeigen Einführung in Information Retrieval 418

Formal seien H(p) und A(p) die hub- bzw. authority- Rangwerte einer Seite p dann gilt H(p) = A(p) = A(u) u W p u H(v) v W v p diese Werte werden normalisiert und durch einen iterativen Algorithmus bestimmt Einführung in Information Retrieval 419

Probleme W kann ziemlich groß werden Antwort kann diffus ausfallen, wenn eine Anfrage um W erweitert wird und sich danach auf ein Oberthema der eigentlichen Anfrage bezieht mögliche Lösungen: man kann Seiten zusätzlich noch mit traditionellen IR-Verfahren einstufen außerdem können die Seiten in Untergruppen eingeteilt werden, auf diese Untergruppen wird dann HITS angewendet Einführung in Information Retrieval 420

PageRank 9.2.4. PageRank wird von Google benutzt modelliert zufälligen Surfer bekommt eine zufällige URL klickt zufällig auf Link nach einer Weile wird es langweilig, bekommt neue zufällige URL die Anzahl der Besuche auf jeder Seite bestimmt Ranking Einführung in Information Retrieval 421

Veranschaulichung Einführung in Information Retrieval 422

Ideales Modell mit l i,j werden Links zwischen Seiten angegeben: l i,j = 1, wenn Link von Seite p i nach p j l i,j = 0, wenn kein Link von Seite p i nach p j Anzahl von p i ausgehender Links: n i = N j=1,i j l i,j Ranking einer Seite p j : R(p j ) = N i=1,i j l i,j R(p i ) n i Einführung in Information Retrieval 423

Ideale Berechnung Einführung in Information Retrieval 424

Problem was passiert, wenn man in eine Endlosschleife gerät? Einführung in Information Retrieval 425

Anpassung Einführung in Information Retrieval 426

Anpassung das Ranking wird folgendermaßen angepaßt: man kann jetzt nicht nur die Links der Seite benutzen auf der man sich befindet, sondern auf eine beliebige Seite springen R(p j ) = (1 d) + d N i=1,i j l i,j R(p i ) n i mit der Wahrscheinlichkeit d läuft man einen der Links ab, mit der Wahrscheinlichkeit 1 d springt man auf eine beliebige andere Seite (1 d) ist eine Art Minimalranking, das jede Seite bekommt Einführung in Information Retrieval 427

Weitere Punkte diese Formel wird iterativ berechnet wird auch schon beim Crawlen eingesetzt, um die Links nach Wichtigkeit abzulaufen Einführung in Information Retrieval 428

Metasuchmaschinen 9.3 Metasuchmaschinen Metasuchmaschinen sind Web-Server, die eine Anfrage an mehrere andere Suchmaschinen, Datenbanken, etc. schicken, die Ergebnisse einsammeln und ordnen der Hauptvorteil liegt darin, daß über ein Interface mehrere Quellen gleichzeitig angesprochen werden können Einführung in Information Retrieval 429

Übereinstimmung zwischen Suchmaschinen Studien zeigen, daß nur ein kleiner Prozentsatz des Webs in allen Suchmaschinen zu finden ist so ist z.b. die Schnittmenge der von AltaVista, Hotbot, Excite und Infoseek indexierten Seiten kleiner als 1% aller dieser indexierten Seiten Einführung in Information Retrieval 430

Ranking Ranking ist problematisch in Metasuchmaschinen beim Zusammenfügen des Endergebnisses manche Metasuchmaschinen machen deswegen überhaupt kein eigenes Ranking Metasuchmaschine Inquirus von NEC greift auf Web-Seiten in den Antwortmengen zu, um eigenes Ranking vorzunehmen Einführung in Information Retrieval 431