Deep Web Suchen wir was man finden könnte?

Ähnliche Dokumente
Zugang zum Academic Invisible Web

Wissenschaftssuchmaschinen

Google, Deep Web und Fachdatenbanken. Dirk Lewandowski

Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends. Prof. Dr. Dirk Lewandowski

Alternativen zu Google. Prof. Dr. Dirk Lewandowski

Möglichkeiten und Grenzen der Wissenschaftssuchmaschine Google Scholar. Prof. Dr. Dirk Lewandowski

Internetsuchmaschinen - Kritische Betrachtung von Funktionalität und Leistungsfähigkeit im Vergleich

Suchmaschinen und das Web 2.0

Möglichkeiten und Grenzen der Wissenschaftssuchmaschine Google Scholar

Warum Suche (trotzdem) bedeutend ist

Was Bibliotheken von Suchmaschinen lernen können. Prof. Dr. Dirk Lewandowski

Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski

Homepage-Leitfaden. So werden Sie bei Google gefunden

Themenschwerpunkt Social SEO

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

White Paper DocCheck Search

Datenbanken Microsoft Access 2010

Wir machen neue Politik für Baden-Württemberg

Suchmaschinenoptimierung. Grundlagen zur Optimierung der eigenen Internetseite

Wissenschaftliche Suchmaschinen

Erfolgreich suchen im Internet

Schülerarbeiten per Computer präsentieren & umzu

Informationsmittel der Universitätsbibliothek Würzburg.

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

Kundengewinnung mit Internet-Videos. Falk Kähny

Die Zukunft der Arbeit ist dabei. Your time, our technologies

Anmeldung zu Seminaren und Lehrgängen

Der Input zum Output: Designliteratur finden. Links und Datenbanken in der DigiBib. Dipl.-Bibl. Eva-Maria Horita

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Arbeiten mit Datenbanken

Geld Verdienen im Internet leicht gemacht

Blog Camp Onlinekurs

Maschinelle Übersetzung

Natural Realtime, Universal & Blended Search SEO Sorgen Sie dafür, dass Ihr Content schneller und besser gefunden wird!

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

Fit für die Recherche?! Literatursuche für die Seminar- oder Projektarbeit in den Ingenieurwissenschaften. April 2015

User Experience vs. Retrievaltests Wie lässt sich die Relevanz von Suchergebnissen bewerten?

MEDIADATEN. +++ BREAKING NEWS 2015/ Ab September 2016: Mountains4U als App und Web-Magazin

Leit-Bild der Sonnenhofschule

Mister Wong Eine Community schafft eine Ergänzung zu klassischen Suchmaschinen

Urbacher-Computer-Forum. Herzlich Willkommen!

Suchen, um zu finden. Sta,s,k BRD (Quelle: Comscore, 2013) Beziehungsgeflecht der Suchmaschinen. Antworten auf folgende Fragen:

Freunde, Fans und Faszinationen: Das Potenzial von Social Media

Zeitschriftenartikel in Datenbanken suchen und bestellen

Google ist der Marktführer unter den Internet-Suchmaschinen. Über 90% aller Suchanfragen laufen über Google.

Statuten in leichter Sprache

David Mika. Donnerstag, den 15. März Verein zur Förderung der privaten Internet Nutzung e.v. Suchen und Finden im Internet.

Traditionelle Suchmaschinenoptimierung (SEO)

beck-online Inhalt: Literatur

Gesucht und Gefunden: Die Funktionsweise einer Suchmaschine

Der personalisierte Recommendation-Service für Ihre Website

SEO. am Beispiel von. Jürgen Schlott

Arbeit mit dem Reportgenerator

Suchmaschinenoptimierung (SEO) und Suchmaschinenmarketing (SEM)

Aktuell 2014 als Startseite der PK-Website auf Firefox einstellen

2 Skype zum ersten Mal öffnen und einrichten

Wie recherchiere ich Fachinformationen zur Berufsbildung im Internet? Die Literaturdatenbank Berufliche Bildung (LDBB)

Torben Weber. Datensammlung nach den Boarderline Engineering Essentials by systemtrading24 Fachverlag

Wie Google Webseiten bewertet. François Bry

Simon die linke Hand des Handwerks

Emnid-Umfrage zur Bürger-Energiewende

Entwicklung und Stärkung der persönlichen Kompetenzen!

Screening for Illustrator. Benutzerhandbuch

IT-SICHERHEIT IM UNTERNEHMEN Mehr Sicherheit für Ihre Entscheidung

Das Recht auf gesundheitliche Versorgung ein Menschenrecht!

Fit für die Recherche?! Literatursuche für die Seminar- oder Abschlussarbeit in den Sozialwissenschaften

Angebot. UVV-Prüfungen und Wartungen von mobilen Abfallpressen

medi lang + medilang dialog Die Fremdsprachen- Kommunikationslösung für die Medizin Damit Sie die Sprache Ihrer Patienten verstehen

Erstellung von Reports mit Anwender-Dokumentation und System-Dokumentation in der ArtemiS SUITE (ab Version 5.0)

Apache HBase. A BigTable Column Store on top of Hadoop

RECHERCHE IM DIGIBIB-PORTAL DER UNIVERSITÄTSBIBLIOTHEK DER DONAU-UNIVERSITÄT KREMS

Transaktionsempfehlungen im ebase Online nutzen

Metadateneditoren für ArcGIS

Gliederung des Vortrags

Datei Erweiterungen Anzeigen!

Lassen Sie sich entdecken!

Kirkpatrick s Four Levels of Evaluation

Thematische Abfrage mit Computerlinguistik

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

ipunkt Studie Digital Publishing: Was Leser wollen und sie hinter die Paywall lockt.!

)XQNWLRQVWDVWH8PEXFKHQ

ebook edition

Ergebnisse. Umfrage Kurz-Statistiken Umfrage 'Feedback und Entertain 2.0'

Professionelle Seminare im Bereich MS-Office

Media Teil III. Begriffe, Definitionen, Übungen

Dazu stellen Sie den Cursor in die Zeile, aus der eine Überschrift werden soll, und klicken auf die gewünschte Überschrift.

Familienunternehmer-Umfrage: Note 4 für Energiepolitik der Bundesregierung 47 Prozent der Unternehmer sehen Energiewende als Chance

Sie haben die Wahl: Werbung für Sie auf drei verschiedene Arten

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Jetzt Sonne kaufen und für die Zukunft vorsorgen!

ECM und Zusammenarbeit

Discovery Service. Evolution oder Revolution?

Journalistische Arbeit im Zeichen von Google, Wikipedia und Facebook: Internet erleichtert die Arbeit und erhöht den Aktualitätsdruck.

Kapital und Know-how Die ideale Kombination für Start-ups

mit attraktiven visuellen Inhalten

Dokumentation. Black- und Whitelists. Absenderadressen auf eine Blacklist oder eine Whitelist setzen. Zugriff per Webbrowser

Zur Person. Alexander Balow. Branchenschwerpunkt Tourismus Spezialthema Onlinemarketing. PLANET IC GmbH Alexander Balow

Transkript:

Deep Web Suchen wir was man finden könnte? Dr. Dirk Lewandowski dirk.lewandowski@uni-duesseldorf.de www.durchdenken.de/lewandowski

Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien der Erschließung Fazit 1 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien der Erschließung Fazit 2 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Surface Web vs. Invisible Web Definitionen des Invisible/Deep Web Text pages, files, or other often high-quality authoritative information available via the World Wide Web that general-purpose search engines cannot, due to technical limitations, or will not, due to deliberate choice, add to their indices of Web pages" (Sherman u. Price 2001). The deep Web - those pages do not exist until they are created dynamically as the result of a specific search (Bergman 2001). 3 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Bereiche des Web (Stock 2003) 4 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Inhalte des Deep/Invisible Web Type of Invisible Web Content Disconnected page Pages consisting primarily of images, audio, or video Pages consisting primarily of PDF or Postscript, Flash, Shockwave, Executables (programs) or Compressed files (.zip,.tar, etc.) Content in relational databases Real-time content Dynamically generated content Why It's Invisible No links for crawlers to find the page Insufficient text for the search engine to "understand" what the page is about Technically indexable, but usually ignored, primarily for business or policy reasons Crawlers can't fill out required fields in interactive forms Ephemeral data; huge quantities; rapidly changing information Customized content is irrelevant for most searchers; fear of "spider traps" (Sherman/Price 2001) 5 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Inhalte des Deep/Invisible Web Disconnected page Problem bleibt grundsätzlich bestehen, im Ausmaß aber zu vernachlässigen. Pages consisting primarily of images, audio, or video Problem besteht weiterhin, schwierig auch für Bilder-Suchmaschinen. Pages consisting primarily of PDF or Postscript, Flash, Shockwave, Executables (programs) or Compressed files (.zip,.tar, etc.) teils gelöst, Flash weiterhin problematisch Problem bei Programmen,.zip, usw. vernachlässigbar. Content in relational databases wichtigstes Thema, Lösungsansätze vorhanden, keine umfassende Lösung. Real-time content Problem besteht weiterhin, Lösungsansätze vorhanden (Bsp. Einbindung von News). Dynamically generated content Problem weitgehend gelöst. 6 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Bedeutung des Themas für Suchmaschinen/Portale Nutzer wünschen... Vollständigkeit Quellen, die von Suchmaschinen nicht erschlossen werden können. Quellen, deren vollständige Erschließung nicht/schwer möglich ist. Aktualität Quellen können nicht schnell genug erschlossen werden. Recherche über einen einzigen Einstiegspunkt Nutzer wollen über eine Rechercheoberfläche suchen. 7 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Beispiele für Deep-Web-Datenbanken Lexis-Nexis (kostenpflichtig) Wirtschafts- und Rechtsinformationen. ca. 32.000 Quellen (Zeitungen, Zeitschriften, usw.). mehr als fünf Milliarden Dokumente. Europäisches Patentamt (kostenlos) mehr als 50 Millionen Patente im Volltext. POLDOK - Die Politik der 80er Jahre (kostenlos) ca. 40.000 Literaturnachweise. HörDat (kostenlos) Informationen zu ca. 30.000 Hörspielen. 8 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien der Erschließung Fazit 9 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Die Größe des Deep Web Größe des Deep Web nach Bergman (2001): 550 Milliarden Dokumente; mehr als 500 mal so groß als das Surface Web. Berechnung: Durchschnittliche Größe der bekannten (großen) IW-Datenbanken * geschätzte Gesamtzahl der IW-Datenbanken. Problem: Verteilung der Datenbank-Größen stark linksschief (Median: 4.950 Dokumente je Datenbank). Wenige Datenbanken enthalten viele Dokumente (>100 Millionen), viele Datenbanken nur einige Tausend. Tatsächliche Größe des IW dürfte bei <100 Milliarden Dokumenten liegen (Lewandowski&Mayr, 2006). Gesamtgröße aller Datenbanken im Gale Directory of Databases: 18,92 Milliarden Dokumente. Verzeichnis von ca. 16.000 Datenbanken. Manche der in Bergmans Liste aufgeführten Datenbanken fehlen. 10 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Größenverteilung der Deep-Web-Datenbanken (Bergman Top 60) (Lewandowski/Mayr 2006) 11 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Größenverteilung in Dialog (Lewandowski/Mayr 2006) 12 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Inhalte des Deep Web Basis:Top60 größte IW-Datenbanken aus Bergman (2001) Größenanteile auf Basis der Dateigrößen; nicht Zahl der Dokumente! (Lewandowski/Mayr 2006) 13 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Fazit: Größe des Deep Web Bergmans Hochrechnung ist stark übertrieben. Auf der Grundlage von Bergmans Top60 lässt sich keine gute Schätzung ableiten. Die Hochrechung von Gale ist wahrscheinlich zu niedrig. Im Gale Directory sind auch Datenbanken enthalten, die nicht über das Web erreichbar sind. Andererseits fehlen Web-Datenbanken. 14 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien der Erschließung Fazit 15 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Drei Strategien Verwandlung von Deep-Web-Inhalten in Surface-Web-Inhalte Spezielle Deep-Web-Suchmaschinen Einbindung von Deep-Web-Inhalten über Shortcuts 16 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Drei Strategien Verwandlung von Deep-Web-Inhalten in Surface-Web-Inhalte Datenbank-Einträge werden in HTML umgesetzt. Vorteil: Aufnahme in den regulären Index der Suchmaschinen. Nachteil: Keine garantierte Vollständigkeit, Suchmöglichkeit über Felder geht verloren. Beispiel: Internet Movie Database (imdb.com) 17 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

18 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

19 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Drei Strategien Spezielle Deep-Web-Suchmaschinen Mehrere DW-Datenbanken können gleichzeitig durchsucht werden. Vorteil: Auswahl der Datenbanken, Kombination der Datenbanken. Nachteil: Beschränkte Anzahl von Datenbanken, Suchmöglichkeiten gehen (teils) verloren. Beispiele: Yahoo Search Subscriptions, Google News Archive Search, Turbo10.com 20 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

21 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

22 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

23 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

24 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

25 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

26 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Drei Strategien Einbindung von Deep-Web-Inhalten über Shortcuts Anzeige von Deep-Web-Quellen/Treffern oberhalb der regulären Trefferlisten in Suchmaschinen/Portalen. Datenbank-Inhalte Real time content Vorteil: Einbindung in die reguläre Suchmaschinen/ins Portal, relativ leicht zu implementieren. Nachteil: Auswahl der geeigneten Quelle aus der Suchanfrage kann schwierig sein. 27 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

28 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

29 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

30 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

31 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Gliederung Die Bedeutung des Deep Web Die Größe des Deep Web Strategien der Erschließung Fazit 32 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Fazit Die Einbindung von Deep-Web-Inhalten kann den Nutzer schnell zu hochwertigen Ergebnissen leiten. Deep-Web-Inhalte können helfen, das eigene Produkt gegenüber anderen Suchlösungen zu positionieren. Entscheidend ist die Auswahl und geschickte Einbindung der Quellen. Gary Price als Director of Online Information Resources bei Ask.com. 33 Dr. Dirk Lewandowski: Deep Web 23. Februar 2007

Vielen Dank für Ihre Aufmerksamkeit. www.durchdenken.de/lewandowski Buch: Web Information Retrieval online kostenlos; gedruckt: 25 Artikel: Exploring the Academic Invisible Web (gemeinsam mit Philipp Mayr) Library Hi Tech 24(2006)4, 529-539. Preprint online. E-Mail: dirk.lewandowski@uni-duesseldorf.de