Data Mining im Internet



Ähnliche Dokumente
Wie Web 2.0 und Suche zusammenwachsen. Prof. Dr. Dirk Lewandowski

Urbacher-Computer-Forum. Herzlich Willkommen!

Suche konfigurieren, Type-Ahead Begriffe festlegen, Tags und Suche webbank+ Handbuch Basic, Kapitel 8 Version Januar 2015

Vereinfachte Ticketerfassung oxando GmbH

Die Einfache Suche finden Sie auf den Onleihen in der linken oder in der rechten Spalte oder im Headerbereich bzw. im Kopf der Homepage.

Suchmaschinenoptimierung SEO

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

GE Capital Equipment Financing. GE Capital Leasing-Tool Schulungsunterlagen

Volltextsuche im Service Desk

Themenschwerpunkt Social SEO

Erfolgreich suchen im Internet

Geben Sie in dem offenen Suchfeld den Namen Ihrer Einrichtung ein und klicken Sie auf Suchen.

Suchmaschinenoptimierung. Grundlagen zur Optimierung der eigenen Internetseite

FIS: Projektdaten auf den Internetseiten ausgeben

1. Allgemeines. Mit der Vertragsverwaltung können u.a.

Nutzungshinweise zum Ebook- und Ejournal Portal Content-Select

ELEKTRONISCHE RESSOURCEN DER MEDIATHEK

7 Schritte durch. Think out of the box. Think Auditor.

2. Psychologische Fragen. Nicht genannt.

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Die Software für Visualisierung und Analyse von Strukturinformationen aus EDM- und PDM-Systemen.

[SUCHMACHINE DER HELFER IM DATENNETZ]

Bedienungsanleitung für Mitglieder von Oberstdorf Aktiv e.v. zur Verwaltung Ihres Benutzeraccounts auf

Hilfe. Hilfe. Allgemeine Erklärung der Schaltflächen

Universitätsbibliothek. Technische Universität München. Internetsuche. Wissenswertes und Wissenschaftliches

Blumen-bienen-Bären Academy. Kurzanleitung für Google Keyword Planer + Google Trends

Navigation. Drucken Klicken Sie auf ein Symbol, um nähere Informationen zu erhalten. Papierhandhabung Anzeigen der Online-Informationen

Kampagnen. mit Scopevisio und CleverReach

Tutorial. Wie kann ich meinen Kontostand von meinen Tauschpartnern in. übernehmen? Zoe.works - Ihre neue Ladungsträgerverwaltung

Suchmaschinenoptimierung in Typo 3

LinguLab GmbH. Bedienungsanleitung Allgemeine Definition

Suchmaschinenoptimierung

Wissenschaftliche Suchmaschinen

Brainloop Secure Client für ios Version 1.5 Schnellstartanleitung

Informationen zur Nutzung der Ebook Library (EBL)

HMC WEB INDEX. Erste große Deutschland Studie. Wie fit sind die Clubs im online marketing?

Anleitung für Kunden zum Umgang mit verschlüsselten s von der LASA Brandenburg GmbH

malistor Phone ist für Kunden mit gültigem Servicevertrag kostenlos.

Abenteuer e-commerce Erfolgreich mit dem eigenen Onlineshop.

Arbeitsschritte EAÜ Leistungserbringer Einnahmen erfassen

Anleitung zur ONLINE BEWERBUNG

Benutzeranleitung zur Bilddatenbank

GSD-Radionik iradionics Android-App

Einrichten des Elektronischen Postfachs

Educase. Release Notes 1.7: Neue Funktionen und Verbesserungen. Base-Net Informatik AG Wassergrabe 14 CH-6210 Sursee

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

Suchmaschinenalgorithmen. Vortrag von: Thomas Müller

Neuerungen in ReviPS Version 12g

easysales Neuheiten in Version 4.4

Hinweise zum neuen Buchungssystem

BILDDATENBANK. Bedienungsanleitung für Benutzer. Agentur: assenmacher network gmbh Oberländer Ufer Köln

Hilfe zur Benutzung der Online-Rechtssammlung

Insight aus der Webseite!

Das neue Tech Data Software Download Portal

Infotag 2012: Projektmanagement mit Microsoft SharePoint. Thomas Marhöfer / Hagen Schellewald

FULFILLMENT VON ALLYOUNEED

Programm. Literaturrecherche in der Hochschulbibliothek

Thematische Abfrage mit Computerlinguistik

Willkommen. Benutzerhandbuch für die OECD Online-Bibliothek

TYPO3-Suchmaschinenoptimierung für Redakteure

Microsoft Access 2013 Navigationsformular (Musterlösung)

Die ersten Schritte in BITE

Ihr Weg in die Suchmaschinen

Kurzanweisung für Google Analytics

Datenübernahme easyjob 3.0 zu easyjob 4.0

IAWWeb PDFManager. - Kurzanleitung -

Web-Kürzel. Krishna Tateneni Yves Arrouye Deutsche Übersetzung: Stefan Winter

TeamSphere. Die Geo-Wissensdatenbank. Entwickelt von

White Paper DocCheck Search

Auswertung von Flächen in bestehenden 2D- AutoCAD Zeichnungen

DIE SUCHFUNKTION VON WINDOWS 7

Easy DB und Prometheus

Dr. Klaus Körmeier BlueBridge Technologies AG

Kleines Handbuch zur Fotogalerie der Pixel AG

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

Suchergebnisdarstellung in Google, Bing, Cuil, etc. Christina Ficsor

Internet- und Literaturrecherche für Ingenieurwissenschaften

eduvote Ein Umfragesystem für Lehrveranstaltungen - PowerPoint Add-In -

Virtueller Seminarordner Anleitung für die Dozentinnen und Dozenten

Benutzerhandbuch für Betriebe Lehrbetriebsübersicht - Betriebserkundungsangebot

Hilfe zur Dokumentenverwaltung

Suchmaschinenoptimierung (SEO) für Ihren Shop. Mario Rieß Chief Technology Officer

Bibliography of Recent Publications on Specialized Communication

Antolin-Titel jetzt automatisch in WinBIAP kennzeichnen

TYPO3 Slide Lightwerk GmbH

NTT DATA Helpdesk Benutzerhandbuch

Bilder im Internet finden, kopieren und auf der Festplatte speichern

Lehrer: Einschreibemethoden

Quick-Guide Web Shop. Kurzanleitung für die Benutzer des Bernd Kraft Webshops

Einrichtung Ihres 3 accounts unter MAC OS X

Einstieg in Exact Online Buchungen erfassen. Stand 05/2014

Onlinesuche nach Rechnungen

First Steps. Online Medienbeobachtung so einfach wie s verwalten

Hilfe und Support. Statische Hilfe. Inhaltsverzeichnis der Hilfetexte. Reihe TextGrid-Tutorials

Transkript:

Data Mining im Internet Dipl.-Dok. Helga Walter Bayer HealthCare, Wuppertal PH-R-EU Scientific Information and Documentation 1

Arten / Quellen wissenschaftlicher Information Strukturierte Informationen: z.b. Bibliographische Datenbanken (Medline,...) Dokumente sind logisch aufgebaut Felder: Autor/Titel/Quelle/Abstract/... Jedes Dokument recherchierbar (Suchfunktion) Thesaurus Nicht-strukturierte Informationen: z.b. Text- / Multimediadateien, Webdokumente Formate: Word, PDF, HTML,... Keine Suche nach logischen Merkmalen Volltextsuche Problem: Auffinden relevanter Informationen aus nicht-strukturierten Quellen 2

Data Mining im Internet Bedeutung für die Informationsbeschaffung Data Mining im Internet als nicht-strukturierte Informationsquelle Frühe Hinweise auf Forschungsergebnisse Noch nicht publizierte Ideen Expertenforen / Meinungsbildner Aktuelle Übersichten / Vorträge Internet als Informationsquelle immer bedeutender 3

Data Mining im Internet Recherche-Hilfsmittel Internet-Suchmaschinen: Allgemein: Google, AltaVista, Metasuchmaschinen Spezialisiert:Northern Light, ChemGuide, MedPharmGuide Prinzip: Eingabe von Suchbegriffen Suche in indizierten Seiten Nachteile: Manuelle Suche Bei komplexen Suchanfragen Bei Speicher- und Editierfunktion für Suchstrategie Fehlende SDI-Funktion Große Treffermengen - überwiegend irrelevant Funktionalität herkömmlicher Internet-Suchmaschinen begrenzt 4

Data Mining im Internet InsumaScout - Intelligente Suchmaschine GmbH, Tübingen Prinzip: Gewichtete Suche über lernfähigen Crawler Vorteile: Automatisierte Suche Für komplexe Suchen geeignet Lernfähigkeit Signifikante Reduktion irrelevanter Links Vorsortierung relevanter Informationen Suchbare Kollektionen Individualisierte Suchprozeduren, verbesserte Selektion relevanter Ergebnisse 5

InsumaScout Arbeitsweise des intelligenten Crawlers Internet Themenspezifischer, lernfähiger Filter / Crawler Ausgewählte Hits Vorsortierung Relevante Internetseiten durch intelligenten, lernfähigen Crawler 6

Arbeitszyklen Fokussiert Verändert Internetsuche (Crawler) Filter Rating (Nutzer) Primärhits Selektierte Hits Relevant Irrelevant Nutzerzugang über Intranet Themenspez. Kollektion 7

Aufbauphase Aufbau des Filters und Start des Crawlers FILTER = Schlagwortliste mit dazugehöriger Gewichtung Ausgangsinformation zur Generierung eines Filters: Liste relevanter URLs (Startadressen) Schlagwortliste Textblöcke aus Präsentationen, Publikationen, etc. Textblöcke aus Internetseiten Art und Menge der Startinformation beeinflußt Ausgangs-Qualität des Filters 8

Aufbau einer themenspezifischen Kollektion Crawler durchsucht das Internet im ersten Durchlauf Auffinden themenspezifischer Dokumente (Selektionsprozeß) Eliminieren von Duplikaten Aufbau einer Kollektion (Trefferliste) Sortieren der Treffer in Ähnlichkeits-Clustern (nach Relevanz) bzw. nach URLs Suchergebnis (Kollektion) wird dem Nutzer im sog. Control Center angezeigt 9

Routinephase Kontinuierliches Lernen des Filters Verändern des Filters durch: Beurteilen der Treffer (Rating) Hinzufügen / Entfernen von URLs, Schlagwörtern, Textblöcken Je mehr Dokumente als relevant beurteilt werden, desto höher die Filterqualität und die Qualität der Treffer im nächsten Durchlauf 5 Relevanzstufen: +2 Sehr relevant +1 Relevant 0 Keine Meinung -1 Nicht sehr relevant -2 Irrelevant Bewerten der Dokumente durch Nutzer, entsprechendes Anpassen des Filters 10

InsumaScout Recherchethemen Pilotprojekt: Alzheimer sche Erkrankung Terminologie eindeutig Kardiovaskuläre Erkrankungen Terminologie nicht immer eindeutig Naturstoffe Terminologie nicht eindeutig Hohe Bandbreite an Fragestellungen möglich 11

InsumaScout Qualität der Ergebnisse Alzheimer sche Erkrankung / Naturstoffe: 2600 Dokumente / Thema (100 Dokumente / Woche) Auswertung: Status Dokumente Alzheimer Naturstoffe Relevant (Relevanz +1 / +2) 19% 28% Herkömmliche Suchmaschinen: <= 5% Suchergebnisse enthalten hohe Relevanz und Qualität 12

InsumaScout Schwierigkeiten / Grenzen Relevante, jedoch bereits bekannte Informationen Links mit wissenschaftlich niedrigem Anspruch Publikationen aus Zeitschriften Patientenforen Veraltete Informationen Ersetzt nicht die gesamte intellektuelle Arbeit des Nutzers 13

InsumaScout Vorteile der intelligenten Suchmaschine Lernfähiger Crawler Hohe Aktualität durch erhöhte Suchfrequenz Relevante Informationen durch aufwendige Selektion Weitere Aufbereitung für Endnutzer Bildung suchbarer Hit-Kollektionen Automatische Dubletteneliminierung Einfacher / schneller durchführbar als manuelle Suche InsumaScout ist konventionellen Suchmaschinen deutlich überlegen 14