Rangierungsprizipien 1bei Suchsystemen
Rangierungsprinzip 1 Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant.
Rangierungsprinzip 2 Je häufiger ein Suchbegriff in einem Dokument vorkommt, desto wahrscheinlicher ist das Dokument relevant.
Rangierungsprinzip 3 Dokumente, die seltene Suchbegriffe enthalten, sind mit einer höheren Wahrscheinlichkeit relevant als Dokumente, die häufige Suchbegriffe enthalten.
Rangierungsprinzip 4 Ein kurzes Dokument ist mit einer höheren Wahrscheinlichkeit relevant als ein langes Dokument, welches die gleichen Suchbegriffe gleich häufig enthält.
Rangierungsprinzip 5 Je näher die Suchbegriffe beieinander liegen, desto wahrscheinlicher ist das Dokument relevant.
Rangierungsprinzip 6 Je früher die Suchbegriffe in einem Dokument vorkommen, desto höher ist seine Relevanz.
Indexierung von 2Dokumenten
Da der Rote Sumpfkrebs mit Raubfischen bekämpft werden kann, ist diese Massnahme dem Gifteinsatz gegen Sumpfkrebse vorzuziehen. Buchstabenumwandlung Da der Rote Sumpfkrebs mit Raubfischen bekaempft werden kann, ist diese Massnahme dem Gifteinsatz gegen Sumpfkrebse vorzuziehen.
Da der Rote Sumpfkrebs mit Raubfischen bekämpft werden kann, ist diese Massnahme dem Gifteinsatz gegen Sumpfkrebse vorzuziehen. Stoppwortelimination Rote Sumpfkrebs Raubfischen bekaempft Massnahme Gifteinsatz Sumpfkrebse vorzuziehen
Rote Sumpfkrebs Raubfischen bekaempft Massnahme Gifteinsatz Sumpfkrebse vorzuziehen Gross- und Kleinschreibung rote sumpfkrebs raubfischen bekaempft massnahme gifteinsatz sumpfkrebse vorzuziehen
rote sumpfkrebs raubfischen bekaempft massnahme gifteinsatz sumpfkrebse vorzuziehen Wortzerlegung rot sumpf krebs raub fisch kaempf massnehm gift einsetz sumpf krebs vorzieh
Funktionsweise von 3Suchsystemen
Vollständigkeit Keine Suchmaschine hält sämtliche Seiten des WWW im Index bereit! Schätzungen über die Vollständigkeit variieren. Für die grössten Suchmaschinen liegen sie um die 20%. Unterschiede im Angebot verschiedener Suchdienste möglich.
Inhaltsunabhängige Rangierung von Dokumenten Je mehr Hyper Links auf ein Dokument verweisen, desto relevanter das Dokument. Je mehr Benutzer auf ein Dokument zugreifen, desto relevanter ein Dokument. Je mehr ein Anbieter für einen Suchbegriff zahlt, desto relevanter wird seine Webseite bei einer Suche nach diesem Begriff gemeldet.
Zusätzliche Dokumenteigenschaften und -strukturen Adresse des Dokuments (www.firma.com) Dokumenttitel (<title>firma</title>) Überschriften (<h1>die Firma</h1>) Schlüsselwörter im Text Schlüsselwörter im alt -Text Hyper Links Modifikationsdatum Meta-Tags
Metadaten Metadaten sind Daten über Daten, Beschreibung von Daten, Beziehungen zwischen Daten. Metadokumente können sowohl Daten aus dem Dokument wie auch zusätzliche Daten enthalten.
Beispiele von Metadaten: <meta http-equiv="content-type" content="text/html; charset=iso-8859-1"> <meta name="description" content="dies ist die Beschreibung"> <meta name="keywords" content="webpublisher, webmaster, profi"> <meta name="robots" content="noindex"> Aktuelle Seite wird nicht indexiert <meta name="robots" content="index"> Aktuelle Seite wird indexiert <meta name="robots" content="follow"> Links werden verfolgt <meta name="robots" content="nofollow"> Links werden nicht verfolgt <meta name="revisit-after" content="20 days"> <meta name="author" content="hans Muster">
Wie kommt eine Seite in den Index einer Suchmaschine? 1. Hyperlink von bereits indexiertem Dokument auf die neue Seite existiert: Neue Seite aufschalten, Web-Roboter findet sie automatisch. (Dauer: mehrere Tage bis 6 Monate) 2. Direkte Anmeldung der neuen Seite bei der Suchmaschine: Seite aufschalten und anmelden (Add URL) (Dauer: einige Tage bis 2 Monate)
Wieso ist eine Seite nicht im Index? Isolierte Seiten (ohne Links) Dynamisch generierte Seiten (z.b. CGI) Bestimmte Qualitätsmerkmale nicht erfüllt (Anzahl Besucher, kein Inhalt, Aktualität etc.) Zugriff auf Seite durch Web-Server untersagt (sog. Robot Exclusion) Beschränkungen durch Suchdienst (Spam, Filter etc.)
Kein Inhalt auf der Seite Seiten ohne Text im Code Frames werden ignoriert (noframe-bereich nutzen) Flash-Seiten haben keinen Inhalt
Aktualität Seiten im Index werden regelmässig besucht und im Index aktualisiert. AltaVista: Aktualisierungen ca. einmal monatlich Probleme: Seiteninhalt im Index anders als im WWW Seite im Index vorhanden, nicht aber im WWW
Wieso ist eine Seite nicht im Index? Isolierte Seiten (ohne Links) Dynamisch generierte Seiten (z.b. CGI) Bestimmte Qualitätsmerkmale nicht erfüllt (Anzahl Besucher, kein Inhalt, Aktualität etc.) Zugriff auf Seite durch Web-Server untersagt (sog. Robot Exclusion) Beschränkungen durch Suchdienst (Spam, Filter etc.)
Draussen bleiben! Regeln für den Web-Roboter (robots.txt) User-agent: Spider Disallow: / User-agent: * Disallow:/temp/ Disallow: /cgi-bin/ Disallow: /logfiles/ Disallow:/testpages/ User-agent: * Disallow: /privat/sehrprivat.html Disallow: /testpages/version5.html
Wieso ist eine Seite nicht im Index? Isolierte Seiten (ohne Links) Dynamisch generierte Seiten (z.b. CGI) Bestimmte Qualitätsmerkmale nicht erfüllt (Anzahl Besucher, kein Inhalt, Aktualität etc.) Zugriff auf Seite durch Web-Server untersagt (sog. Robot Exclusion) Beschränkungen durch Suchdienst (Spam, Filter etc.)
Spamming Trick mit dem Titel Keywords haben keinen Bezug zum Site-Inhalt zu oftes Wiederholen von Schlüsselwörtern Refresh-Tag verweist auf eigentliche Seite blinder Text Text in Kommentaren