Ranking: Google und CiteSeer
|
|
- Gitta Richter
- vor 8 Jahren
- Abrufe
Transkript
1 Konrad-Zuse-Zentrum für Informationstechnik Berlin Takustraße 7 D Berlin-Dahlem Germany ZARA KANAEVA Ranking: Google und CiteSeer ZIB-Report (Dezember 2004)
2 Zusammenfassung Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt, dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht-vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Ranking-Verfahren, die auf den von Google genutzten Verfahren basieren. 1 Einführung Das Internet ist zu einem viel genutzten Informationsmedium geworden. Dabei haben die Informationssuchenden unterschiedliche Motivationen, Bedürfnisse und Ansprüche. Man kann die Nutzer des Internets in mehrere Klassen unterteilen. Für diesen Artikel ist eine einfache Unterteilung, die aus zwei Internetnutzer-Gruppen besteht, von Bedeutung: Benutzer, die nach allgemeinen Informationen im Internet suchen, und Benutzer, die nach wissenschaftlicher Information wie zum Beispiel Veröffentlichungen zu einem eng abgegrenzten Themenbereich suchen. Die Suchergebnisse der ersten Benutzergruppe sind hauptsächlich Webseiten, die meistens eine wohldefinierte Hypertext-Struktur (xml-, html- usw.) haben, und, die sich mit der Zeit ändern. Dagegen sind die Suchergebnisse der zweiten Gruppe meistens wissenschaftliche Dokumente in einem Container-Format wie PDF, die keine solche Struktur aufweisen und sich mit der Zeit auch nicht mehr ändern. Sowohl die erste als auch die zweite Gruppe der Internetbenutzer wird heutzutage im Internet, trotz seiner enormen Größe, mit Hilfe von verschiedenen Suchmaschinen fündig. D.h. die gesuchten Dokumente 1 gehören zu den ersten zehn Treffern. Die erfahrenen Internetbenutzer wissen, dass sie abhängig von der gesuchten Information mit verschiedenen Suchmaschinen suchen müssen. So sucht ein Benutzer der ersten Gruppe im Internet meistens mit der Suchmaschine Google. Der Benutzer der zweiten Gruppe sucht abhängig vom Fachgebiet mit einer wissenschaftlichen Suchmaschine. Die Notwendigkeit dieser Differenzierung ist in den verschiedenen Bewertungsverfahren der Suchmaschinen begründet, welche am Beispiel zweier Suchmaschinen - Google und CiteSeer - in diesem Artikel erläutert werden sollen. Die Internet-Suchmaschine Google, die es seit 1999 gibt, bearbeitet heute über 50% aller Suchanfragen 2 und ist dank seiner hervorragenden Gewichtung der Suchergebnisse die wohl bekannteste Suchmaschine der Welt. CiteSeer ist eine wissenschaftliche Suchmaschine, die frei zugängliche wissenschaftliche Literatur hauptsächlich aus dem Informatik-Gebiet in Form von Artikeln, Konferenzbeiträgen, Reviews usw. im Internet findet und indexiert, also suchbar macht. Die Gegenüberstellung beider Suchmaschinen ist deswegen interessant, weil die Entwicklung ihrer Ranking-Methoden trotz verschiedener Voraussetzungen eng zusammenhängt. 1 Also Dokumente, die die vom Benutzer gesuchte Information enthalten 2 Quelle: pressbox29.html, aufgerufen im Oktober 2004
3 Die Suchmaschinen vor Google bewerteten die Webseiten selbst und benutzten dabei die inhaltsspezifischen Bewertungskriterien des Information Retrieval. Die Suchmaschine Google hat eine Wende geschaffen, indem sie zusätzlich zu den erwähnten Bewertungskriterien die Popularität einer Webseite berücksichtigt. Für die Bestimmung der Popularität einer Webseite benutzt Google andere Webseiten, die gut extrahierbare Verweise (Links) auf die zu bewertende Webseite haben. Die Idee dieses menschlichen Ranking ist allerdings nicht neu, sie ist angelehnt an die Bewertung wissenschaftlicher Publikationen mittels Analyse der bibliographischen Angaben (Zitate-Analyse), mit welcher in den 50-er Jahren begonnen wurde 3. Die rasante Entwicklung der Computertechnologie und die wachsende Anzahl wissenschaftlicher Veröffentlichungen, von denen viele elektronisch durch das Internet frei zugänglich waren (und sind), motivierten das Entstehen wissenschaftlicher Suchmaschinen wie CiteSeer. Das Ranking stellte für CiteSeer kein schwer lösbares Problem mehr dar, da die technische Umsetzung des Ranking von den Google-Entwicklern übernommen werden konnte. Das größte Problem, dem die CiteSeer-Entwickler gegenüberstehen, war und ist die Extraktion von Literaturangaben sowie Metainformation, die unentbehrlich für das Ranking sind. Dem gegenüber ist es für die Google-Entwickler momentan am problematischsten, die Grenze zwischen manipulierten und nichtmanipulierten Webseiten zu ziehen. 2 Ranking Wenn eine Suchmaschine eine rangfolgesortierte Liste von Dokumenten zurückgibt, bedeutet das, dass eine Relevanzbeurteilung (Ranking) der Dokumente seitens der Suchmaschine stattgefunden hat. Das Ranking des Benutzers weicht im allgemeinen hiervon ab. Eine Suchmaschine benutzt immer das gleiche Beurteilungsverfahren, wohingegen die Beurteilung verschiedener Benutzer verschieden ausfällt. Da Suchmaschinen die menschliche Intelligenz nicht besitzen, werden ihre Relevanzbeurteilungen auf mathematische Modelle und Heuristiken reduziert. Die bekanntesten der mathematischen Modelle stammen aus dem Information Retrieval: das Boolesche, das Vektorraum- und das probabilistische Modell (s. dazu z.b. [Fuhr2004]). Die bekanntesten Heuristiken, die von Internet-Suchmaschinen für das Ranking verwendet werden, basieren auf der Information, die implizit durch die Hypertext-Eigenschaft der Webdokumente gegeben ist. Die Relevanzbeurteilung (und somit der Ranking-Algorithmus) ist oftmals entscheidend für die Akzeptanz und den Erfolg einer Suchmaschine. Zu Eigenschaften guter Ranking-Algorithmen zählen unbedingt: ˆ Geschwindigkeit. ˆ Skalierbarkeit. Die Datenmenge des Internets verdoppelt sich etwa alle 3 Monate 4, deswegen müssen alle Algorithmen einer Suchmaschine insbesondere auch Ranking- Algorithmen gut skalieren. ˆ Spamresistenz. Viele Online-Anbieter verdienen ihr Geld dank hoher Google-Platzierungen. Deswegen versuchen sie unbedingt die Ranking-Algorithmen der großen Suchmaschinen sehr gut kennen zu lernen und ihre Webseiten darauf zu optimieren. Sie bauen hunderte 3 Quelle: aufgerufen im September Quelle: web server survey.html, aufgerufen im November
4 von Brücken-Seiten, die auf ihre Webseite verweisen, bauen zyklisch verlinkte Webseiten und bringen in ihre Webseiten versteckten Text ein. Die Folge dieser Methoden ist ein Index-Spamming, welches die inhaltliche Qualität der Suchergebnisse der betroffenen Internet-Suchmaschinen rapide verschlechtert. Ein guter Ranking-Algorithmus muss daher spamresistent sein, d.h. nicht aufgrund einfacher Testverfahren leicht zu verstehen und daher leicht zu manipulieren sein. 3 Google In der letzten Zeit hat sich Google weltweit zur am meisten benutzten Suchmaschine entwickelt. Die besondere Merkmale von Google sind: ˆ Benutzerfreundlichkeit: einfache Bedienung, übersichtliche Präsentation der Suchergebnisse. ˆ Über vier Milliarden indizierte Webseiten. 5 ˆ Eine gute Qualität der Suchergebnisse, die auf dem entwickelten Ranking-Verfahren beruht. ˆ Index plus Cache: zusätzlich zu den indexierten Seiten verwaltet Google die eigenen Kopien von besuchten und indexierten Webseiten. ˆ Ähnliche Seiten finden. Die überlegene Qualität der Suchergebnisse spielt angesichts der Größe und Inhomogenität des Internets eine große Rolle. Wie in vielen anderen Suchmaschinen für das Internet wurde in Google versucht, das Problem der Relevanzbeurteilung der Suchergebnisse mit Heuristiken, die zum Teil aus dem Information Retrieval kommen, zu lösen. Einige dieser Heuristiken sind: ˆ Je mehr Begriffe aus der Suchanfrage im Titel einer Seite auftauchen, desto relevanter scheint die Seite für die jeweilige Anfrage zu sein. Diese Annahme kann analog für bestimmte Meta-Tags wie description und keywords gemacht werden. ˆ Je häufiger ein Suchbegriff innerhalb einer Seite auftritt, desto relevanter scheint diese Seite für die gestellte Anfrage zu sein. Dabei werden in der Regel die Stellen (Titel, Überschrift, Meta-Tag), an denen das gesuchte Wort vorkommt, unterschiedlich gewichtet. ˆ Mitindexierung der Terme, die den Link auf die zu indexierende Seite beschriften (Anchor Text Indexierung). 6 ˆ Je mehr Webseiten auf eine Webseite verweisen, desto bedeutsamer ist diese Webseite. Die zwei ersten Heuristiken sind für Webseiten anfällig, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden. Die Verwendung der letzten Heuristik als einziges Bewertungskriterium hat für jede Anfrage die gleiche Ergebnisliste zu Folge. Kombiniert man die letzte Heuristik mit den zwei erwähnten, vermeidet man das Auftreten von automatisch generierten suchmaschinenoptimierten Webseiten ohne jegliche Einbindung in 5 Quelle: aufgerufen im September Die Entwicklung der letzten Jahre (s.g. Google-Bombing) zeigt deutlich, dass es eine Heuristik ist. Man denke hier an das bekannte Beispiel, die Suche nach miserable failure. 2
5 das Internet oben in Suchergebnislisten. Die einzige Schwierigkeit hierbei ist die Gewichtung der einzelnen Faktoren. Die letzte Heuristik stellt die Grundidee des von Google benutzten Ranking-Verfahrens namens PageRank dar. 3.1 PageRank-Verfahren Die Idee für das PageRank-Verfahren stammt ursprünglich aus der Analyse der bibliographischen Angaben wissenschaftlicher Literatur. Die Analyse und Indexierung der Literaturangaben nutzen die Tatsache, dass Verfasser von Dokumenten andere Dokumente zitieren. Mit jedem neu analysierten und gespeicherten Dokument werden auch die bibliographischen Angaben aller von ihm zitierten Dokumente gespeichert. Dadurch sind neue und ältere Publikationen miteinander verlinkt. Die Link-Struktur, die dabei entsteht, kann man als gerichteten Graphen auffassen. Dabei enthält dieser Graph wertvolle und objektive Informationen über die Bedeutung einer einzelnen Publikation. Analog der Zitat-Analyse geht man bei der Analyse von Webseitenlinks vor, obwohl die Übertragung der Konzepte aus der wissenschaftlichen Zitat-Analyse auf das Internet nicht trivial ist. Zum Beispiel sollte man nicht vergessen, dass sich das Internet als Sammlung von Webseiten grundsätzlich von der wissenschaftlichen Literatur unterscheidet. Insbesondere gibt es für viele Webseiten keinen übergreifenden thematischen Kontext. Darüber hinaus sind Veröffentlichungen im Internet meistens kostenlos und unkontrollierbar. Das PageRank-Verfahren betrachtet und bewertet Webseiten nicht einzeln, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt. Vereinfacht lässt sich der Algorithmus wie folgt beschreiben [Page98]: 1. Jeder Knoten (Webseite) wird mit einem Startwert initialisiert. Aus verschiedenen Gründen initialisiert man die Knoten mit 1 Anzahl der Knoten. 2. Aus den Gewichten der Knoten werden die Gewichte der ausgehenden Kanten (Forwardlinks) bestimmt als Gewicht des Knotens Anzahl Links. 3. Aus den Gewichten der eingehenden Kanten (Backlinks) werden die Knotengewichte neu berechnet als ΣKantengewichte. 4. Die Schritte 2 bis 4 werden so oft wiederholt, bis die Knotengewichte konvergiert sind bzw. bis eine hinreichende Stabilität der Rank-Werte der Seiten erreicht ist. PageRank mathematisch und vereinfacht: Aus der obigen vereinfachten verbalen Beschreibung lässt sich eine mathematische Beschreibung ableiten: Hierbei ist: P R(A) = c P R(X) N(X) X B A ˆ P R(A) der PageRank einer Seite A, 3
6 Seite A: 1/3 Seite A : 0,4 1/6 0,2 1/6 1/3 Seite C: 1/3 0,2 0,4 Seite C: 0,4 1/3 0,2 Seite B: 1/3 Seite B: 0,2 Abbildung 1: Beispiel-Graph vor der Berechnung und nach der Berechnung des Page- Rank ˆ P R(X) der PageRank der Seite X, von der ein Link auf die Seite A zeigt, ˆ B A die Menge der Seiten, die Links auf A enthalten ˆ N(X) die Gesamtanzahl der ForwardLinks auf der Seite X und ˆ c ein Faktor, der in zweierlei Hinsicht wichtig ist. Der erste Grund sind Seiten, die Backlinks aber keine Forwardlinks haben, der zweite Grund wird im Abschnitt 3.2 erläutert. Der Faktor c wird zwischen 0 und 1 gewählt. Rank Sinks und Rank Sources: Das vereinfachte PageRank-Verfahren hat einen Nachteil, den man nicht sofort sieht. Es kann eine Ansammlung des Ranks in zyklisch verlinkten Seiten auftreten, die sich selbst gegenseitig verlinken und sonst keine Forwardlinks haben. So fließt der Rank bei jeder Iteration in den Seitenzyklus, jedoch fließt kein Rank heraus. Der gesamte Rank kumuliert über mehrere Iterationen in diesem Zyklus. Solche zyklisch verlinkte Seiten nennen die Entwickler des PageRank-Verfahrens Rank Sinks [Page98]. Um den Verlust von Rank in Rank Sinks zu kompensieren, werden von den Entwicklern Rank Sources eingeführt. Eine Rank Source ist eine Wahrscheinlichkeitsverteilung (E) über alle betrachteten Webseiten, die jeder Seite bei jeder Iteration einen gewissen konstanten Bonus gibt. Trotzdem werden die Seiten in einer Rank Sink realistisch gesehen einen höheren Rank erhalten. Das kann natürlich von den Betreibern von Internetseiten zur Manipulation der Suchergebnisse verwendet werden. PageRank vollständig: 3.2 Random Surfer Modell P R(A) = ce(a) + c P R(X) N(X) X B A Page et al. ziehen zur Erläuterung und Begründung ihres Ansatzes des PageRank-Verfahrens das Random Surfer Modell heran. Sie betrachten das PageRank-Verfahren als Modell des Verhaltens eines Benutzers, der unabhängig von seiner Anfrage und mit einer bestimmten Wahrscheinlichkeit Webseiten besucht. Dabei wird die Wahrscheinlichkeit vom Rank der Seite bestimmt. Entsprechend dem Modell verfolgt der Benutzer zufällig die Verweise der verlinkten Webseiten (also er klickt sich von Seite zu Seite). Entsprechend dem Modell beendet der 4
7 Benutzer mit einer durch Faktor c gegebenen Wahrscheinlichkeit sein durch die Verweise gelenktes Surfen 7 und fängt das gelenkte Surfen mit einer zufällig gewählten Webseite an, die er mit der durch den Faktor ce(a) gegebenen Wahrscheinlichkeit besucht. 3.3 Manipulation der Suchmaschinen und Google Für viele Betreiber der Internetseiten ist es wünschenswert und sogar lebenswichtig möglichst zu Beginn der Trefferliste aufgelistet zu werden. Viele Anbieter versuchen deswegen die Suchmaschinen zu manipulieren. Voraussetzung für eine erfolgreiche Google-Manipulation sind viele Backlinks sowie ein hoher PageRank der verlinkten Seiten. Es ist kein Problem beliebig viele verlinkte Seiten zu erstellen, in der Vergangenheit legten clevere Webmaster Tausende von Seiten unter verschiedenen Adressen an, die auf das eigene Angebot verwiesen. Ein Problem ist unter den verlinkten Seiten ein Paar Seiten mit hohem PageRank zu haben. Eine mögliche Lösung hierfür wäre zum Beispiel die Verlinkung mit einem Newsportal, dessen Seiten hochbewertet sind. Newsportale bieten aktuelle Nachrichten zu Geschehen im In- und Ausland, neben den Nachrichten finden sich jedoch auf den Newsportalseiten viele Verweise auf kommerzielle Angebote. Die Anbieter dieser Online-Angebote profitieren dabei in zweierlei Hinsicht: erstens durch die Werbung auf einer bekannten Seite und zweitens durch den hohen PageRank dieser Seite, der an ihre Seiten weitergegeben wird. Eine weitere Methode für die Google-Manipulation wäre die Erstellung von Seiten-Zyklen, die zu einer PageRank- Konzentration führen. Google reagiert auf die Suchmaschinenmanipulierer mit zahlreichen Updates ihrer Software (Cassandra-, Esmeralda-, Florida-Update) 8. Manche Suchmaschinenexperten zweifeln allerdings daran, dass Google tatsächlich seine Software so wesentlich verbessert hat, dass sie die Arbeit der Suchmaschinenmanipulierer wie z.b. Linkfarmen-Betreiber automatisch erkennt. Es wird auch vermutet, dass im Hintergrund viel von Hand aussortiert wird, und dass man die penetranten Suchmaschinenmanipulierer auf eine Art schwarze Liste setzt. Das manuelle Aussortieren steht allerdings im Widerspruch zu der Einstellung von Google alle Suchgeschäftsvorgänge voll automatisch zu betreiben. 4 CiteSeer CiteSeer ist eine digitale Bibliothek freizugänglicher wissenschaftlicher Literatur im Internet mit über indexierten Dokumenten 9. Sie wurde an dem NEC Research Institut in Princeton entwickelt. Die Motivation für das Projekt CiteSeer war die Verbesserung der Verbreitung, des Auffindens (retrieval) und der Zugänglichkeit wissenschaftlicher Literatur. Der Aufgabenbereich der digitalen Bibliothek umfasst folgende Punkte (s. [Lawrence99CIKM]): ˆ Lokalisierung wissenschaftlicher Artikel: hierbei spielt die Effizienz eine entscheidende Rolle. ˆ Volltextindexierung der Artikel (Artikel im PDF- und Postscript-Format werden auch bearbeitet und indexiert). ˆ Automatische Indexierung von Literaturangaben (analog zum Science Citation Index). 7 Je größer c, desto größer die Wahrscheinlichkeit, dass der Benutzer weiterklickt. 8 Quelle: aufgerufen im Oktober Quelle: aufgerufen im Oktober
8 ˆ Extraktion von Metainformation wie Artikeltitel und Autorennamen aus den Artikeln bzw. Literaturangaben (dabei werden auch Mittel des Maschinellen Lernens angewandt). ˆ Entwicklung von Algorithmen, die auf der Analyse der bibliographischen Angaben beruhen, und mit denen man die Lokalisierung verwandter Artikel durchführt. ˆ Eliminierung von Duplikaten: das Internet enthält verschiedene Versionen eines Artikels, die auch in bibliographischen Angaben vorkommen. Hier ist wichtig verschiedene Angaben zu einem Artikel zu erkennen. ˆ Analyse des Graphen bzw. der Vernetzung wissenschaftlicher Artikel: analog zum Vorgehen von Page et al. versuchen die CiteSeer-Entwickler die hubs 10 und die authorities 11 der wissenschaftlichen Literatur zu bestimmen. ˆ Verteilte Fehler-Korrektur: jeder Benutzer ist berechtigt, die gefundenen Fehler zu korrigieren. ˆ Externe Verweise auf andere Datenbanken, die den gesuchten Artikel enthalten. Neben der Volltextindexierung von wissenschaftlichen Arbeiten bietet CiteSeer die automatische Erkennung und Indexierung von Literaturangaben. Die indexierten bibliographischen Angaben werden für die Bewertung der indexierten Dokumente und für das Finden der zitierten Dokumente verwendet. So basiert das Ranking in CiteSeer (wie auch in Google) auf der Beziehung einzelner Dokumente zueinander. 4.1 Automatische Indexierung bibliographischer Angaben Die automatische Indexierung bibliographischer Angaben hat gegenüber der klassischen Indexierung von Literaturangaben mehrere Vorteile. Die klassische Indexierung von Literaturangaben wird manuell gemacht. Sie hat deswegen hohe Kosten. Die automatische Indexierung bei CiteSeer hat geringere Kosten und ermöglicht darüber hinaus einen umfassenderen und aktuelleren Index, weil CiteSeer außer Zeitschriftenartikeln auch Konferenzbeiträge, technische Berichte, Vordrucke (preprints) usw. indexiert. Die wissenschaftlichen Arbeiten, die von CiteSeer indexiert werden, zeichnen sich durch folgende Merkmale aus: sie sind frei zugänglich und haben einen für die computergestützte Bearbeitung geeignetes Format. Die automatische Bearbeitung der Dokumente schließt unter anderem ein: Lokalisierung bibliographischer Angaben (Zitate) im Dokument Zitatbezeichner wie z.b. [9], [Giles97], Marr1982 werden benutzt, um den Abschnitt mit Literaturangaben in einem Dokument zu lokalisieren. Diese Bezeichner sind ein gutes Beispiel für die Felder einer Literaturangabe, die relativ einheitliche Schreibweise und Position haben: Zitatbezeichner stehen immer am Anfang einer Literaturangabe, und sie behalten das gleiche Format über alle Verweise im Dokument. Extrahierung des Kontextes der Zitate Für jede Literaturangabe extrahiert CiteSeer mittels regulärer Ausdrücke die Textstellen mit dem Literaturhinweis. 10 Eine Webseite, die viele gute Links für ein bestimmtes Thema bietet. Gute Hubs zeichnen sich durch eine große Anzahl ausgehender Kanten (Links) zu guten Authorities aus. 11 Eine Webseite, die kompetente, aktuelle und verlässliche Information zu einem bestimmten Thema enthält. 6
9 Parsen und Bearbeiten der Zitate Es existiert eine große Vielfalt von Formaten der Literaturangaben. Ein ACI-System 12 wie CiteSeer muss in der Lage sein, einen Artikel, der in unterschiedlichen Arbeiten in mehreren Formaten angegeben wird, als eine Literaturquelle zu erkennen. Ein Beispiel aus [Lawrence99] zeigt wie komplex die Aufgabe ist: Aha,D.W.(1991), Instance-based learning algorithms, Machine Learning 6(1), D.W. Aha, D. Kibler and M.K. Albert,Instance-Based Learning Algorithms. Machine Learning , Kluwer Academic Publishers, Aha, D. W., Kibler, D. & Albert, M.K. (1990). Instance-based learning algorithms. Draft submission to Machine Learning. Wie man dem Beispiel entnehmen kann, beinhalten fast alle Felder (Titel, Autorenname, Jahr) Fehler. Das Beispiel zeigt auch deutlich, dass es kein einheitliches Trennsymbol gibt: das Komma z.b wird oft benutzt um Felder zu trennen, das Komma kann aber auch im Artikeltitel vorkommen. Um Felder einer Literaturangabe trotzdem erfolgreich bestimmen zu können, benutzt CiteSeer neben den zahlreichen Heuristiken, die in den Veröffentlichungen nur kurz beschrieben werden, angelegte Datenbanken mit Autorennamen und Zeitschriftentiteln. Obwohl das Parsen der bibliographischen Angaben sehr kompliziert ist, erreichten die CiteSeer- Entwickler mit den benutzten Heuristiken gute Ergebnisse. Für eine Testmenge von Dokumenten über Neuronale Netze (insgesamt 5093 Dokumente) war das System in der Lage, Literaturangaben zu finden, von denen 80,2% der Titel, 82,1% der Autorennamen und 44,2% der Seitenangaben erfolgreich extrahiert werden konnten (s. [Giles98]). Die Algorithmen, die von CiteSeer bei der Identifizierung und Gruppierung der bibliographischen Angaben der gleichen Artikel benutzt werden, können in drei große Klassen unterteilt werden (für mehr Information s. [Giles98]): ˆ Algorithmen, die auf der Berechnung der Editing-Distanz beruhen. ˆ Algorithmen, die die aus dem Information Retrieval stammenden Statistiken über Wortfrequenzen benutzen. ˆ Algorithmen, die auf probabilistischen Modellen basieren. 4.2 Analyse des Zitate-Graphen Der Zitate-Graph ist ein Netz mit wissenschaftlichen Dokumenten, die durch Literaturangaben zusammenhängen. Jeder Verweis auf ein Dokument kann als Indikator seines Einflusses gesehen werden. Wenn Dokument X auf Dokument Y verweist, sagt der Autor des Dokumentes X, dass Dokument Y wichtig ist und dass Dokument Y in einem inhaltlichen Zusammenhang zu dem Dokument X steht. Die Analyse des Zitate-Graphen in CiteSeer beruht auf den Verfahren, die von Kleinberg [Kleinberg98] und Page et al.[page98] für das Ranking von Webseiten entwickelt wurden. Auf der Basis dieser Algorithmen wurden von Lawrence et al. mögliche Erweiterungen untersucht und in die Suchmaschine implementiert. Das Ranking in CiteSeer basiert auf der Analyse des Zitate-Graphen. Bei dieser Analyse werden die Selbstzitierungen erkannt und aus der Berechnung ausgeschlossen 13. Die Analyse 12 engl. Autonomous Citation Indexing System 13 So vermeidet man eine der denkbaren Manipulationen der Suchergebnisse. 7
10 des Zitate-Graphen ermöglicht das Ranking der Suchergebnisse nach folgenden frei wählbaren Kriterien (s. [Lawrence99 CIKM]): Zitateanzahl Es wird die Anzahl von Literaturangaben zu jedem Artikel berücksichtigt. Je höher die Anzahl der Zitierungen eines Artikels desto höher ist seine Wichtigkeit. Erwartete Zitateanzahl Es wird die Anzahl von Literaturangaben zu einem Artikel und das Veröffentlichungsjahr des zitierten Artikels berücksichtigt. Hier findet eine Normierung der Literaturangaben durch Veröffentlichungsjahre statt. Dabei geht man davon aus, dass ein neuerer Artikel, der z. B. genau so oft wie ein älterer Artikel zitiert wurde, wegen der kürzeren Zitierungszeit höher zu bewerten ist. Hubs Entsprechend dem Verfahren von Kleinberg werden für den Zitate-Graphen hubs und authorities bestimmt. Dabei werden hubs im Kontext wissenschaftlicher Artikel als eine Einführung (Review, Resumee/Überblick, Tutorial) in ein Themenbereich interpretiert und höher bewertet, wenn der Benutzer das Kriterium Hubs für das Ranking gewählt hat. Die Graphanalyse macht es darüber hinaus möglich, ausgehend von einem bekannten Dokument weitere Dokumente zum selben Thema zu finden, die entweder früher oder später verfasst wurden. Die Statistiken, die mittels der Analyse des Zitate-Graphen erstellt werden können, die früher manuell erstellt werden mussten, erlauben unter anderem die Feststellung von Trends und Mustern des Veröffentlichungs- und Zitierverhaltens in einzelnen wissenschaftlichen Gebieten (s. zum Beispiel [Goodrum2001]). 5 Ranking: Google und CiteSeer Obwohl Google wie auch CiteSeer die wissenschaftlichen frei zugänglichen Dokumente indexiert (wenn auch nicht in dem Umfang), ist es nicht empfehlenswert nach wissenschaftlicher Literatur im Netz mit Google zu suchen. Als Beispiel einer Google-Suche, die offensichtlich nicht die erwünschten Ergebnisse bringt, ist die Suche nach Arbeiten eines Autors namens Bollacker mit dem Suchwort Bollacker. In der Abbildung 2 sind die Ergebnisse der Suche dargestellt. Die ersten Treffer sind wie erwartet Home-Seiten verschiedener Menschen, mit dem Namen Bollacker, und keine wissenschaftlichen Dokumente. Die erweiterte Google-Suche mit der Einschränkung des Dateityps liefert zwei bzw. zehn Treffer; je nachdem ob nur nach PDFoder nur nach PostSkript-Dokumenten gesucht wurde. Die CiteSeer-Suche mit dem Suchwort Bollacker liefert dagegen eine Liste von wissenschaftlichen Veröffentlichungen, die man nach verschiedenen Kriterien anordnen kann: nach Zitatanzahl, nach Datum, nach Gebrauchshäufigkeit usw. In der Abbildung 3 ist die nach Zitatanzahl geordnete Ergebnisliste dargestellt. Wie bereits beschrieben (s. Abschnitte 3.1 und 4.2), basiert das Ranking sowohl bei CiteSeer als auch bei Google unter anderem auf der Beziehung einzelner Dokumente zueinander. Sie wird bei Google in Form der Linking-Struktur und bei CiteSeer in Form der Literaturangaben- Struktur abgebildet. Der Vergleich von Ergebnissen mehrerer Suchen nach wissenschaftlicher Literatur mit Google und CiteSeer zeigt deutlich, dass die Linking-Struktur in Google nicht die Information über Literaturangaben enthält. Es ist anzunehmen, dass auf diese Information bei Google bewusst verzichtet wird. Folgende Überlegungen würden dafür sprechen: ˆ Die Bearbeitung von strukturlosen Dokumenten - die korrekte und vollständige Extrakti- 8
11 Abbildung 2: Die ersten Ergebnisse der Google-Suche nach Bollacker, aufgerufen am on von Literaturangaben und Metainformation - ist zu kompliziert und sehr umfangreich. ˆ Die Link-Information des Webgraphen muss anders als die des Zitate-Graphen bewertet bzw. gewichtet werden 14. Die Zahlen, die bei der Analyse des Webgraphen berechnet werden, haben eine andere Größenordnung als die Zahlen, die die Analyse des Zitate- Graphen hervorbringt. Der Webgraph enthält über vier Milliarden Seiten als Knoten, der Zitate-Graph hat nur ca Dokumente als Knoten. ˆ Das Random Surfer Modell des PageRank-Verfahrens hat bei der Analyse des Zitate- Graphen keine Rechtfertigung. In dem Zitate-Graphen gibt es keine Rank Sinks, also sind auch keine Rank Sources nötig. Das Ranking bei CiteSeer basiert zwar auf den von Page et al. entwickelten Verfahren, liefert aber im Gegensatz zu Google mehrere Ranking-Möglichkeiten (s. Abschnitt 4.2). Für keine dieser Ranking-Möglichkeiten, die auf der Analyse des Zitate-Graphen basieren, geben die CiteSeer-Entwickler an, dass die Bewertung einzelner Veröffentlichungen an die zitierende Arbeiten weitergegeben wird. Der Grund dafür liegt in der Natur des Zitate-Graphen: er enthält keine Zyklen. In diesem Artikel wurde gezeigt, wie die Entwicklung der Ranking-Algorithmen für zwei Suchmaschinen zusammenhängt. Die eine Suchmaschine ist die Internet-Suchmaschine Google und die zweite Suchmaschine ist die wissenschaftliche Suchmaschine CiteSeer. Dabei wurde gezeigt, 14 Hier ergibt sich die Frage: gewichten oder gänzlich trennen? Die Antwort auf die Frage hat Google bereits mit seiner wissenschaftlichen Suchmaschine ( die am an den Start ging, geliefert. 9
12 Abbildung 3: Die ersten Ergebnisse der CiteSeer-Suche nach Bollacker, aufgerufen am dass das PageRank-Verfahren an die Idee der Zitate-Analyse angelehnt wurde. Diese Idee wurde mit dem Ranking-Algorithmus in Google umgesetzt und mit dem Ranking-Verfahren in CiteSeer für die Suche nach wissenschaftlichen Dokumenten weiterentwickelt. 10
13 Literatur [Fuhr2004] [Giles98] Fuhr, N., (2004): Information Retrieval, Skriptum zur Vorlesung. Fachbereich Informatik, Universität Duisburg. Giles, C.L., Bollacker, K., Lawrence, S., (1998): CiteSeer: An Automatic Citation Indexing System. In Digital Libraries 98 - The Third ACM Conference on Digital Libraries, Pittsburgh, PA, ACM Press, S [Goodrum2001] Goodrum, A., A., McCain, K., W., Lawrence, S., Giles, C., L., (2001): Computer Science Literature and the World Wide Web., Preprint. [Kleinberg98] [Lawrence99] Kleinberg, J., (1998): Authoritative sources in a hyperlinked environment., In Proceedings ACM-SIAM Symposium on Diskrete Algorithms, S Lawrence, S., Giles, C.L., Bollacker, K., (1999): Digital Libraries and Autonomous Citation Indexing. In IEEE Computer 32(6), S [Lawrence99CIKM] Lawrence, S., Giles, C.L., Bollacker, K., (1999): Indexing and Retrieval of Scientific Literature. Eighth International Conference on Information and Knowledge Management, CIKM 99, Kansas City, Missouri, November 2-6, S [Page98] Page, L., Brin, S., Motwani, R., Winograd, T., (1998): The pagerank citation ranking: Bringing order to the web. Technical Report. 11
Erfolgreich suchen im Internet
Erfolgreich suchen im Internet Steffen-Peter Ballstaedt 05.10.2015 Statistik Weltweit: etwa 1 Milliarde Websites BRD: 15 Millionen Websites Das Internet verdoppelt sich alle 5,32 Jahre Die häufigste Aktivität
Mehr1 topologisches Sortieren
Wolfgang Hönig / Andreas Ecke WS 09/0 topologisches Sortieren. Überblick. Solange noch Knoten vorhanden: a) Suche Knoten v, zu dem keine Kante führt (Falls nicht vorhanden keine topologische Sortierung
MehrIhr Weg in die Suchmaschinen
Ihr Weg in die Suchmaschinen Suchmaschinenoptimierung Durch Suchmaschinenoptimierung kann man eine höhere Platzierung von Homepages in den Ergebnislisten von Suchmaschinen erreichen und somit mehr Besucher
MehrSEO Erfolg mit themenrelevanten Links
Hinweis für Leser Dieser Leitfaden soll Ihnen einen Überblick über wichtige Faktoren beim Ranking und Linkaufbau liefern. Die Informationen richten sich insbesondere an Website-Betreiber, die noch keine
MehrSuchmaschinenoptimierung
Suchmaschinenoptimierung Oliver Hallmann SEO - Search Engine Optimization Plan B Unternehmer Stammtisch 31. August 2006 http://www.oliverhallmann.de http://www.planb-stammtisch.de Wie arbeitet Google?
MehrSuchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor
Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor Allgemeines zu Suchmaschinen Was ist eine Suchmaschine? Ein Programm das die Suche nach Dokumenten/Webseiten im Internet durch die Eingabe
MehrWie Google Webseiten bewertet. François Bry
Wie Google Webseiten bewertet François Bry Heu6ge Vorlesung 1. Einleitung 2. Graphen und Matrizen 3. Erste Idee: Ranking als Eigenvektor 4. Fragen: Exisi6ert der Eigenvektor? Usw. 5. Zweite Idee: Die Google
Mehrkleines keyword brevier Keywords sind das Salz in der Suppe des Online Marketing Gordian Hense
Keywords sind das Salz in der Suppe des Online Marketing Keywords - Das Salz in der Suppe des Online Marketing Keyword Arten Weitgehend passende Keywords, passende Wortgruppe, genau passende Wortgruppe
MehrThematische Abfrage mit Computerlinguistik
Thematische Abfrage mit Computerlinguistik Autor: Dr. Klaus Loth (ETH-Bibliothek Zürich) Zusammenfassung Der Beitrag befasst sich mit dem Einsatz der Computerlinguistik bei der thematischen Abfrage einer
MehrMit suchmaschinenoptimierten Übersetzungen erfolgreich mit fremdsprachigen Webseiten
1 Mit suchmaschinenoptimierten Übersetzungen erfolgreich mit fremdsprachigen Webseiten 2 Für das Auffinden im Internet spielt die Suchmaschinenoptimierung eine wichtige Rolle. Je besser die Texte auf der
MehrDiskrete Modellierung
Diskrete Modellierung Wintersemester 2013/14 Prof. Dr. Isolde Adler Letzte Vorlesung: Korrespondenz zwischen der Page-Rank-Eigenschaft und Eigenvektoren zum Eigenwert 1 der Page-Rank-Matrix Markov-Ketten
MehrHMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing? www.webindex.hmc-germany.com.
21.11.2013 HMC WEB INDEX Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing? www.webindex.hmc-germany.com Ansprechpartner Dirk Kemmerling Geschäftsführer HMC Germany HMC Health
MehrUnterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis
Unterrichtsmaterialien in digitaler und in gedruckter Form Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis Das komplette Material finden Sie hier: Download bei School-Scout.de
MehrSuchmaschinenalgorithmen. Vortrag von: Thomas Müller
Suchmaschinenalgorithmen Vortrag von: Thomas Müller Kurze Geschichte Erste Suchmaschine für Hypertexte am CERN Erste www-suchmaschine World Wide Web Wanderer 1993 Bis 1996: 2 mal jährlich Durchlauf 1994:
MehrMORE Profile. Pass- und Lizenzverwaltungssystem. Stand: 19.02.2014 MORE Projects GmbH
MORE Profile Pass- und Lizenzverwaltungssystem erstellt von: Thorsten Schumann erreichbar unter: thorsten.schumann@more-projects.de Stand: MORE Projects GmbH Einführung Die in More Profile integrierte
MehrSuchmaschinenoptimierung SEO
Mai 2013 Bei der Suchmaschinenoptimierung (search engine optimization SEO) wird der Internetauftritt im Hinblick auf Suchmaschinen optimiert. Im Folgenden geben wir Ihnen einige Tipps, die Sie bei der
MehrLinguLab GmbH. Bedienungsanleitung Allgemeine Definition
LinguLab GmbH Bedienungsanleitung Allgemeine Definition LinguLab GmbH T: +49.711.49030.370 Maybachstr. 50 F: +49.711.49030.22.370 70469 Stuttgart E: mba@lingulab.de I: www.lingulab.de Inhaltsverzeichnis
MehrZeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
MehrBedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof
Bedienungsanleitung für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof Matthias Haasler Version 0.4 Webadministrator, email: webadmin@rundkirche.de Inhaltsverzeichnis 1 Einführung
MehrGesucht und Gefunden: Die Funktionsweise einer Suchmaschine
Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine Prof. Dr. Peter Becker FH Bonn-Rhein-Sieg Fachbereich Informatik peter.becker@fh-bonn-rhein-sieg.de Vortrag im Rahmen des Studieninformationstags
MehrSoftware Engineering. Sommersemester 2012, Dr. Andreas Metzger
Software Engineering (Übungsblatt 2) Sommersemester 2012, Dr. Andreas Metzger Übungsblatt-Themen: Prinzip, Technik, Methode und Werkzeug; Arten von Wartung; Modularität (Kohäsion/ Kopplung); Inkrementelle
MehrStrategie & Kommunikation. Trainingsunterlagen TYPO3 Version 4.3: News Stand 27.04.2011
Trainingsunterlagen TYPO3 Version 4.3: News Stand 27.04.2011 Seite 1 / Maud Mergard / 27.04.2011 TYPO3-Schulung für Redakteure Stand: 23.08.2010 Um sich in TYPO3 einzuloggen, rufen Sie bitte im Internet
MehrKonzepte der Informatik
Konzepte der Informatik Vorkurs Informatik zum WS 2011/2012 26.09. - 30.09.2011 17.10. - 21.10.2011 Dr. Werner Struckmann / Christoph Peltz Stark angelehnt an Kapitel 1 aus "Abenteuer Informatik" von Jens
MehrBereich METIS (Texte im Internet) Zählmarkenrecherche
Bereich METIS (Texte im Internet) Zählmarkenrecherche Über die Zählmarkenrecherche kann man nach der Eingabe des Privaten Identifikationscodes einer bestimmten Zählmarke, 1. Informationen zu dieser Zählmarke
Mehr- Google als Suchmaschine richtig nutzen -
- Google als Suchmaschine richtig nutzen - Google ist die wohl weltweit bekannteste und genutzte Suchmaschine der Welt. Google indexiert und aktualisiert eingetragene Seiten in bestimmten Intervallen um
MehrSemestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7.
Semestralklausur zur Vorlesung Web Mining Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin: 22. 7. 2004 Name: Vorname: Matrikelnummer: Fachrichtung: Punkte: (1).... (2)....
MehrBeschreibung des MAP-Tools
1. Funktionen des MAP-Tool 2. Aufbau des MAP-Tools 3. Arbeiten mit dem MAP-Tool Beschreibung MAP-Tool.doc Erstellt von Thomas Paral 1 Funktionen des MAP-Tool Die Hauptfunktion des MAP-Tools besteht darin,
MehrLeichte-Sprache-Bilder
Leichte-Sprache-Bilder Reinhild Kassing Information - So geht es 1. Bilder gucken 2. anmelden für Probe-Bilder 3. Bilder bestellen 4. Rechnung bezahlen 5. Bilder runterladen 6. neue Bilder vorschlagen
MehrDie treffende Auswahl anbieten: Im Internet (Referat 3a)
www.zeix.com Die treffende Auswahl anbieten: Im Internet (Referat 3a) Fachtagung: Suchfunktionen im Web Zürich, 26. Oktober 2006 Jürg Stuker, namics Gregor Urech, Zeix Bern, Frankfurt, Hamburg, München,
MehrLineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
MehrKapiteltests zum Leitprogramm Binäre Suchbäume
Kapiteltests zum Leitprogramm Binäre Suchbäume Björn Steffen Timur Erdag überarbeitet von Christina Class Binäre Suchbäume Kapiteltests für das ETH-Leitprogramm Adressaten und Institutionen Das Leitprogramm
MehrGrundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
MehrSuche schlecht beschriftete Bilder mit Eigenen Abfragen
Suche schlecht beschriftete Bilder mit Eigenen Abfragen Ist die Bilderdatenbank über einen längeren Zeitraum in Benutzung, so steigt die Wahrscheinlichkeit für schlecht beschriftete Bilder 1. Insbesondere
MehrOutlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang
sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche
MehrNutzung dieser Internetseite
Nutzung dieser Internetseite Wenn Sie unseren Internetauftritt besuchen, dann erheben wir nur statistische Daten über unsere Besucher. In einer statistischen Zusammenfassung erfahren wir lediglich, welcher
MehrWelche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?
Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung? BAF ist die Abkürzung von Bundes-Aufsichtsamt für Flugsicherung. Auf der Internetseite gibt es 4 Haupt-Bereiche:
Mehr2 Evaluierung von Retrievalsystemen
2. Evaluierung von Retrievalsystemen Relevanz 2 Evaluierung von Retrievalsystemen Die Evaluierung von Verfahren und Systemen spielt im IR eine wichtige Rolle. Gemäß der Richtlinien für IR der GI gilt es,...
MehrEntladen und Aufladen eines Kondensators über einen ohmschen Widerstand
Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand Vorüberlegung In einem seriellen Stromkreis addieren sich die Teilspannungen zur Gesamtspannung Bei einer Gesamtspannung U ges, der
Mehr4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.
Binäre Bäume Definition: Ein binärer Baum T besteht aus einer Menge von Knoten, die durch eine Vater-Kind-Beziehung wie folgt strukturiert ist: 1. Es gibt genau einen hervorgehobenen Knoten r T, die Wurzel
MehrAbamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER
Abamsoft Finos im Zusammenspiel mit shop to date von DATA BECKER Abamsoft Finos in Verbindung mit der Webshopanbindung wurde speziell auf die Shop-Software shop to date von DATA BECKER abgestimmt. Mit
MehrEine Logikschaltung zur Addition zweier Zahlen
Eine Logikschaltung zur Addition zweier Zahlen Grundlegender Ansatz für die Umsetzung arithmetischer Operationen als elektronische Schaltung ist die Darstellung von Zahlen im Binärsystem. Eine Logikschaltung
MehrHilfe Bearbeitung von Rahmenleistungsverzeichnissen
Hilfe Bearbeitung von Rahmenleistungsverzeichnissen Allgemeine Hinweise Inhaltsverzeichnis 1 Allgemeine Hinweise... 3 1.1 Grundlagen...3 1.2 Erstellen und Bearbeiten eines Rahmen-Leistungsverzeichnisses...
MehrTangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:
Tangentengleichung Wie Sie wissen, gibt die erste Ableitung einer Funktion deren Steigung an. Betrachtet man eine fest vorgegebene Stelle, gibt f ( ) also die Steigung der Kurve und somit auch die Steigung
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
MehrHandbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken
Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken Dateiname: ecdl5_01_00_documentation_standard.doc Speicherdatum: 14.02.2005 ECDL 2003 Basic Modul 5 Datenbank - Grundlagen
Mehrgeben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen
geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Vollständigkeit halber aufgeführt. Gehen wir einmal davon aus, dass die von uns angenommenen 70% im Beispiel exakt berechnet sind. Was würde
MehrÜbersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.
Webalizer Statistik Bedeutung der Begriffe Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten. Anfragen Gesamtheit aller Anfragen an Ihren Account. Jede Anfrage auf eine Grafik, eine
MehrDie Statistiken von SiMedia
Die Statistiken von SiMedia Unsere Statistiken sind unter folgender Adresse erreichbar: http://stats.simedia.info Kategorie Titel Einfach Erweitert Übersicht Datum und Zeit Inhalt Besucher-Demographie
MehrAGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom 21.10.2013b
AGROPLUS Buchhaltung Daten-Server und Sicherheitskopie Version vom 21.10.2013b 3a) Der Daten-Server Modus und der Tresor Der Daten-Server ist eine Betriebsart welche dem Nutzer eine grosse Flexibilität
MehrWeb Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen
9 3 Web Services 3.1 Überblick Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen mit Hilfe von XML über das Internet ermöglicht (siehe Abb.
MehrInternet Kurs. Suchmaschinen
Internet Kurs Suchmaschinen M. Stalder Internetkurs M. Stalder 1 / 6 Suchmaschinen Suchmaschinen haben sich in letzter Zeit immer mehr zu einem unverzichtbaren Hilfsmittel entwickelt. Das Internet bietet
MehrAktuell 2014 als Startseite der PK-Website auf Firefox einstellen
SG April 2014 Aktuell 2014 als Startseite der PK-Website auf Firefox einstellen Stand 21.04.2014 PK 2014-1/58 Seite 1 von 5 Seiten Von den Besuchern der PK-Website verwenden inzwischen 54 % die Browser
MehrHandbuch zum Excel Formular Editor
Handbuch zum Excel Formular Editor Mit diesem Programm können Sie die Zellen von ihrer Excel Datei automatisch befüllen lassen. Die Daten können aus der Coffee Datenbank, oder einer weiteren Excel Datendatei
MehrUser Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?
User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten? Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de
MehrOECD Programme for International Student Assessment PISA 2000. Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland
OECD Programme for International Student Assessment Deutschland PISA 2000 Lösungen der Beispielaufgaben aus dem Mathematiktest Beispielaufgaben PISA-Hauptstudie 2000 Seite 3 UNIT ÄPFEL Beispielaufgaben
MehrWissenswertes über Suchmaschinenoptimierung
Mit dem Begriff ist die Optimierung einer Webseite gemeint, so dass sie unter entsprechend themenrelevanten Suchbegriffen möglichst weit oben in der Trefferliste der Suchmaschinen angezeigt wird. Es gibt
MehrAllgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte
Allgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte Wir von Textprovider, Anbieter von produktbeschreibung.eu möchten Ihnen mit diesem Infoblatt Basisinformationen an die Hand geben, wie
MehrTYPO3-Suchmaschinenoptimierung für Redakteure
TYPO3-Suchmaschinenoptimierung für Redakteure TYPO3 Version 7.6 LTS Allgemeines Dieses Dokument beschreibt redaktionelle Maßnahmen zur Verbesserung des Suchmaschinen- Rankings. Diese Maßnahmen sind Teil
MehrProfessionelle Seminare im Bereich MS-Office
Der Name BEREICH.VERSCHIEBEN() ist etwas unglücklich gewählt. Man kann mit der Funktion Bereiche zwar verschieben, man kann Bereiche aber auch verkleinern oder vergrößern. Besser wäre es, die Funktion
MehrStep by Step Webserver unter Windows Server 2003. von Christian Bartl
Step by Step Webserver unter Windows Server 2003 von Webserver unter Windows Server 2003 Um den WWW-Server-Dienst IIS (Internet Information Service) zu nutzen muss dieser zunächst installiert werden (wird
MehrNach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht:
Beiträge erstellen in Joomla Nach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht: Abbildung 1 - Kontrollzentrum Von hier aus kann man zu verschiedene Einstellungen
MehrMehr Umsatz durch Übersetzungen? Geht das?
1 Mehr Umsatz durch Übersetzungen? Geht das? 2 Wozu sollen wir unsere Homepage übersetzen lassen? Unsere Geschäftspartner finden auch so alles, was sie wissen müssen. Diese und ähnliche Aussagen sind nicht
MehrUrheberrecht im Internet
Wissensmanagement mit Neuen Medien Übung Geltungsbereich im Internet Grundsätzlich gilt für das Internet deutsches (Bundes-)Recht im Hoheitsgebiet der Bundesrepublik Deutschland. Dies ergibt sich aus dem
MehrUm zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:
Ergebnisreport: mehrere Lehrveranstaltungen zusammenfassen 1 1. Ordner anlegen In der Rolle des Berichterstellers (siehe EvaSys-Editor links oben) können zusammenfassende Ergebnisberichte über mehrere
MehrKommission für Jugendmedienschutz - Stand vom 09.10.09 (Kurzfassung vom 29.06.2012) -
Kriterien der KJM für technische Mittel als Jugendschutzmaßnahme für entwicklungsbeeinträchtigende Inhalte im Bereich des World Wide Web: Stichwort Personalausweiskennziffernprüfung / Persocheckverfahren
MehrGeoPilot (Android) die App
GeoPilot (Android) die App Mit der neuen Rademacher GeoPilot App machen Sie Ihr Android Smartphone zum Sensor und steuern beliebige Szenen über den HomePilot. Die App beinhaltet zwei Funktionen, zum einen
MehrHomepage-Leitfaden. So werden Sie bei Google gefunden
Homepage-Leitfaden So werden Sie bei Google gefunden SÜDKURIER Medienhaus Max-Stromeyer-Str. 178 78467 Konstanz Tel.: +49 (07531) 999-1839 Fax: +49 (07531) 999-77-1839 E-Mail: info@profi-homepage.de www.profi-homepage.de
MehrWindows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1
Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1 Wenn der Name nicht gerade www.buch.de oder www.bmw.de heißt, sind Internetadressen oft schwer zu merken Deshalb ist es sinnvoll, die Adressen
MehrAgile Vorgehensmodelle in der Softwareentwicklung: Scrum
C A R L V O N O S S I E T Z K Y Agile Vorgehensmodelle in der Softwareentwicklung: Scrum Johannes Diemke Vortrag im Rahmen der Projektgruppe Oldenburger Robot Soccer Team im Wintersemester 2009/2010 Was
MehrProzessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am 14.08.08
Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements von Stephanie Wilke am 14.08.08 Überblick Einleitung Was ist ITIL? Gegenüberstellung der Prozesse Neuer
MehrAnmerkungen zur Übergangsprüfung
DM11 Slide 1 Anmerkungen zur Übergangsprüfung Aufgabeneingrenzung Aufgaben des folgenden Typs werden wegen ihres Schwierigkeitsgrads oder wegen eines ungeeigneten fachlichen Schwerpunkts in der Übergangsprüfung
MehrFORUM HANDREICHUNG (STAND: AUGUST 2013)
FORUM HANDREICHUNG (STAND: AUGUST 2013) Seite 2, Forum Inhalt Ein Forum anlegen... 3 Forumstypen... 4 Beiträge im Forum schreiben... 5 Beiträge im Forum beantworten... 6 Besondere Rechte der Leitung...
MehrWeb-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter
Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter 2 Inhaltsverzeichnis 1 Web-Kürzel 4 1.1 Einführung.......................................... 4 1.2 Web-Kürzel.........................................
MehrWordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten
Wordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten Version 1.0 Wordpress: Blogbeiträge richtig löschen, archivieren und weiterleiten In unserer Anleitung zeigen wir Dir, wie Du Blogbeiträge
MehrKommunikations-Management
Tutorial: Wie kann ich E-Mails schreiben? Im vorliegenden Tutorial lernen Sie, wie Sie in myfactory E-Mails schreiben können. In myfactory können Sie jederzeit schnell und einfach E-Mails verfassen egal
Mehre LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen
Kurz-Anleitung zum Erstellen eines Wikis Die Aktivität Wiki verschafft Ihnen die Möglichkeit, Wissen zu sammeln und zu strukturieren. Dabei können Sie die Teilnehmer Ihres Kurses an der Erstellung des
MehrTYPO3-Schulung für Redakteure Stand: 12.5.2009
TYPO3-Schulung für Redakteure Stand: 12.5.2009 Um sich in TYPO3 einzuloggen, rufen Sie bitte im Internet die Seite http://www.vdi.de/typo3 auf, geben Sie dort Ihren Benutzernamen und Ihr Passwort ein und
MehrDie Pressglas-Korrespondenz und die Suchmaschinen GOOGLE und YAHOO
Abb. 2008-1/436, Websites / Domains, von denen Besucher auf die Pressglas-Korrespondenz verwiesen wurden (Ausschnitt) SG Januar 2008 Die Pressglas-Korrespondenz und die Suchmaschinen GOOGLE und YAHOO Die
MehrGrundbegriffe der Informatik
Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen
MehrIst Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers
Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers Ist Excel das richtige Tool für FMEA? Einleitung Wenn in einem Unternehmen FMEA eingeführt wird, fangen die meisten sofort damit an,
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
MehrUniversitätsbibliothek. Technische Universität München. Internetsuche. Wissenswertes und Wissenschaftliches
Internetsuche Wissenswertes und Wissenschaftliches 1. Allgemeine Suchmaschinen 2 Gezielter Suchen in Google Bestimmt nutzen Sie allgemeine Suchmaschinen (beinahe) täglich. Allerdings ist die Menge und
MehrErfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!
Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen! www.wee24.de. info@wee24.de. 08382 / 6040561 1 Experten sprechen Ihre Sprache. 2 Unternehmenswebseiten
Mehrecaros2 - Accountmanager
ecaros2 - Accountmanager procar informatik AG 1 Stand: FS 09/2012 Inhaltsverzeichnis 1 Aufruf des ecaros2-accountmanager...3 2 Bedienung Accountmanager...4 procar informatik AG 2 Stand: FS 09/2012 1 Aufruf
MehrAustausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen
Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:
MehrJeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint
Bilingual konkret Jeopardy and andere Quizformate im bilingualen Sachfachunterricht Tipps zur Erstellung mit Powerpoint Moderner Unterricht ist ohne die Unterstützung durch Computer und das Internet fast
Mehr2.1 Grundlagen: Anmelden am TYPO3-Backend
1 Grundlagen: Anmelden am TYPO3-Backend Zum Anmelden am TYPO3-Backend (dem Content Management System) tippen Sie in der Adresszeile Ihres Browsers (wir empfehlen Mozilla Firefox) hinter uni-bremen.de /typo3
MehrAktivierung der digitalen Signatur in Outlook Express 6
Aktivierung der digitalen Signatur in Outlook Express 6 Version 1.0 4. April 2007 Voraussetzung Damit die digitale Signatur in Outlook Express aktiviert werden kann müssen die entsprechenden Treiber und
Mehr1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
MehrReferenzen Typo3. Blog der Internetagentur Irma Berscheid-Kimeridze Stand: Juni 2015
der Internetagentur Irma Berscheid-Kimeridze Stand: Juni 2015 Aktuelle Entwicklungen der Internetagentur Irma Berscheid-Kimeridze sollten auf der Webseite der Agentur dargestellt werden. Werkzeug der Wahl
MehrPrimzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
MehrMit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken.
Seite erstellen Mit der Maus im Menü links auf den Menüpunkt 'Seiten' gehen und auf 'Erstellen klicken. Es öffnet sich die Eingabe Seite um eine neue Seite zu erstellen. Seiten Titel festlegen Den neuen
MehrV 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
Mehretutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche
etutor Benutzerhandbuch Benutzerhandbuch XQuery Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 06.03.2006 Fertigstellung der ersten Version Inhaltsverzeichnis:
MehrInformationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
MehrBüroWARE Exchange Synchronisation Grundlagen und Voraussetzungen
BüroWARE Exchange Synchronisation Grundlagen und Voraussetzungen Stand: 13.12.2010 Die BüroWARE SoftENGINE ist ab Version 5.42.000-060 in der Lage mit einem Microsoft Exchange Server ab Version 2007 SP1
Mehr«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen
18 «Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen teilnimmt und teilhat.» 3Das Konzept der Funktionalen
MehrSEO. Web-Popularität mit Hilfe von Suchmaschinenoptimierung. Seitwert GmbH Benzenbergstraße 39-47 D-40219 Düsseldorf Telefon: +49 (0)211-749505 - 50
SEO Web-Popularität mit Hilfe von Suchmaschinenoptimierung Seitwert GmbH Benzenbergstraße 39-47 D-40219 Düsseldorf Telefon: +49 (0)211-749505 - 50 SEO: Web-Popularität mit Hilfe von Suchmaschinenoptimierung
MehrAZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"
AZK 1- Freistil Nur bei Bedarf werden dafür gekennzeichnete Lohnbestandteile (Stundenzahl und Stundensatz) zwischen dem aktuellen Bruttolohnjournal und dem AZK ausgetauscht. Das Ansparen und das Auszahlen
Mehr