Web Mining und Farming



Ähnliche Dokumente
Web Mining und Farming

Seminar Informationsintegration und Informationsqualität. Dragan Sunjka. 30. Juni 2006

Web Data Mining. Alexander Hinneburg Sommersemester 2007

Ressourcen-Beschreibung im Semantic Web

Linked Samian Ware: Potentiale von Linked Data in der Archäologie. Florian Thiery M.Sc.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Migration von statischen HTML Seiten

Themenschwerpunkt Social SEO

Web Information Retrieval. Zwischendiskussion. Überblick. Meta-Suchmaschinen und Fusion (auch Rank Aggregation) Fusion

Informationsflut bewältigen - Textmining in der Praxis

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Hyperlink-Erstellung in InDesign für

2. Psychologische Fragen. Nicht genannt.

Das Metamodell der UML und in FUJABA. Vortrag von Alexander Geburzi

Data/Information Quality Management

!!!!T!!! Systems!() Multimedia Solutions

Semantic Web Services

Regelbasiertes Routing unstrukturierter Daten

Großunternehmen vs. Kleinunternehmen

4 Aufzählungen und Listen erstellen

CAD Warehouse- Verbindungen. Plattformspezifische Darstellung

Monitoring - Vorher Wissen was passieren wird

Rückverfolgbarkeit von Lebensmitteln Erfahrungen aus den Ländern

RDF und RDF Schema. Einführung in die Problematik Von HTML über XML zu RDF

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Norton Internet Security

Statistikreport für Sozialabteilungen von Zürcher Gemeinden Atelierbeitrag Statistiktage 2013

APTs: Sind gezielte Angriffe normal? Jürgen Eckel Helene Hochrieser

Grundlagenschulung. Zweck und Ziel der Marktforschung. grundsätzliche Abgrenzung zum Direktvertrieb. Schulungsprototyp

Advance Steel Nachverfolgung von Änderungen während der Revisionsphasen im Projekt

Grundlagen der Künstlichen Intelligenz

ÜBUNG. Einführung in das IT- Projektmanagement WS 2012/13. Dr. The Anh Vuong

Konzeption und Realisierung eines Web- Content-Management-Systems. Wolfgang Wiese

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Interessant? Dann besuchen Sie unseren Entwicklungsworkshop!

Konzepte der Informatik

Informatik (G8) Sek I - Differenzierung 8/9

Webseiten sind keine Gemälde. Webstandards für ein besseres Web. Webstandards für ein besseres Web

Was ist das Tekla Warehouse

ASVZweb_08/ Schreibhilfe

Informatik (G9) Sek I - Differenzierung 8/9/10

Artenkataster. Hinweise zur Datenbereitstellung. Freie und Hansestadt Hamburg. IT Solutions GmbH. V e r s i o n

Dokumentation Data Dictionary (SIP)

Integration, Migration und Evolution

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

HTML5. Wie funktioniert HTML5? Tags: Attribute:

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Kooperatives Verhalten in Schulinformationssystemen. Arne Hendrik Schulz, Andreas Breiter Institut für Informationsmanagement Bremen (ifib)

Marketing Intelligence Vorstellung der Übungsaufgabe. Josef Kolbitsch Manuela Reinisch

Barrierefreie Webseiten erstellen mit TYPO3

Mit Papier, Münzen und Streichhölzern rechnen kreative Aufgaben zum Umgang mit Größen. Von Florian Raith, Fürstenzell VORANSICHT

Data Mining-Modelle und -Algorithmen

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Ein Tool für automatische Performancetests von Java3D Applikationen

Umstellung von Inlandssammelaufträgen in SEPA-Sammelaufträge

Vorwort zur schwedischen Ausgabe Vorwort zur US-Ausgabe Danksagung Eine persönliche Einleitung... 25

RMeasy das SAP IS U Add On für Versorgungsunternehmen. Optimieren Sie Ihre Prozesse in Kundengewinnung und Kundenbindung.

Energieverbrauchsermittlung von Android-Applikationen

B12-TOUCH VERSION 3.5

Datenqualitätsmodelle

Corporate Actions in epoca

Data Cube. Aggregation in SQL. Beispiel: Autoverkäufe. On-line Analytical Processing (OLAP) 1. Einführung. 2. Aggregation in SQL, GROUP BY

Qualitätsmanagement an beruflichen Schulen in Deutschland: Stand der Implementierung. Diplomarbeit

tentoinfinity Apps 1.0 EINFÜHRUNG

Reklamations- und Beschwerde-Management. Web-basiert. Workflow-orientiert. Mobil. Praxisnah.

Integration verteilter Datenquellen in GIS-Datenbanken

Metadateneditoren für ArcGIS

Einrichtung Ihres 3 Konto unter MAC OS

Effiziente Administration Ihrer Netzwerkumgebung

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Workshop Vorgehensmodelle. Beschreibung und Analyse von Vorgehensmodellen zur Entwicklung von betrieblichen Workflow-Anwendungen

Allgemeines zu Datenbanken

VARONIS DATADVANTAGE. für UNIX/Linux

Virtual Roundtable: Business Intelligence - Trends

Softwareentwicklungspraktikum Sommersemester Grobentwurf

Vorlesung Computerphilologie. Ontologien und Ontologie-Sprachen

CASCADING STYLE SHEETS WEBSEITEN-GESTALTUNG MIT CSS

Bedienungsanleitung für BackupMotion

Funktionaler Zusammenhang. Lehrplan Realschule

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Voraussetzung wieder: Datenraum mit Instanzen, mehrere Attribute - kein ausgezeichnetes Zielattribut, keine vorgegebenen Klassen

Predictive Modeling Markup Language. Thomas Morandell

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

1. DAS PRAKTIKUM IM UNTERNEHMEN: ein Leitfaden.

Transaction Validation for XML Documents based on XPath

Informationssystemanalyse Lebenszyklusmodelle 3 1. Lebenszyklusmodelle sollen hauptsächlich drei Aufgaben erfüllen:

Schulinternes Curriculum für Informatik (Q2) Stand April 2015

MHP Orders on Hand / Incoming Orders Ihre Lösung zu mehr Transparenz im Vertrieb durch Auftragseingang und -bestand!

XINDICE. The Apache XML Project Name: J acqueline Langhorst blackyuriko@hotmail.de

Daten, Information, Wissen explizites und implizites Wissen Expertensysteme (Aufgaben, Aufbau, Komponenten) Diagnoseziel Klassifikation

Arbeitsgruppe Multimedia DLmeta in echten Anwendungen

Logische Modelle für OLAP. Burkhard Schäfer

Innovationsbeobachtung!

Anlegen eines Speicherbereichs mit DB, DW eleganter in Kombination mit EQU, Timer-Interrupt

RECY CLE. NAV Easy Security - Ihr schneller Weg zur sicheren Einrichtung von Benutzerrechten

6. Benutzerdefinierte Zahlenformate

Transkript:

Web Mining und Farming Shenwei Song Gliederung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme Verfeinerung der Web-Informationen Zusammenfassung

Übersicht über Web Mining und Farming Was ist Web Mining? Anwendung der Data-Mining-Technik zur automatischen Entdeckung und Extraktion der Informationen und Muster aus Web-Datenressourcen. Warum Web Mining? Auffinden von neuen Kunden oder Geschäftsmöglichkeiten Analysieren und Beobachten der Konkurrenz Bedürfnisse web-basierter Applikationen besser erfüllen Aufgaben des Web Mining Lokalisierung von Ressourcen Extraktion von Informationen Generalisierung von Mustern Analyse der Muster Übersicht über Web Mining und Farming Was ist Web Farming? Systematische Verfeinerung der web-basierten Informationen für Bussiness Intelligence Warum Web Farming? Verbesserung der Leistung der Geschäftsaktivtäten Optimierung des Workflow der Geschäftsaktivitäten Aufgabe des Web Farming Verbesserung der Data Warehouses

Übersicht über Web Mining und Farming Unterschiede zwischen Web Mining und Web Farming Schwerpunkte Arbeitsweise Web Mining Entdeckung und Extraktion der Informationen und Muster Kurzzeitig und diskontinuierlich Web Farming Nachbearbeitung der entdeckten Informationen aus Web-Daten Systematisch Langzeitig und kontinuierlich Klassifikation des Web Mining Klassifikation des Web Mining nach benutzten Datentypen: - Web Content - Daten direkt aus Web-Seiten, z.b. HTML, Multimediadateien und Graphiken - Web Structure - Hyperlink-Struktur zwischen Web-Seiten - Web Usage - Beschreibung der Nutzung von Web- Ressourcen, z.b. Log-Dateien von Proxy- Servern und Web-Servern

Web Content Mining Entdeckung nützlicher Informationen aus Web Content Zerlegung in zwei unterschiedliche Sichten Information-Retrieval-Sicht Datenbanksicht Web Content Mining Information-Retrieval-Sicht Unterstützung des Auffindens der Informationen oder der Filterung der Informationen Hauptdaten Darstellung (Hyper-)Textdokumente Ausdrücke, Beziehungen, Wortmengen Applikation: Dokument-Kategorisierung Auffinden der Muster in Texten Auffinden der Extraktionsregeln

Web Content Mining Datenbanksicht Modellierung der Daten für Netzanwendungen und Integration der Daten im Netz, um komplizierte Abfragen auszuführen Hauptdaten Darstellung Hypertext-Dokumente Beziehungen, Edge-Labeled Graph Applikation: Auffinden von frequenten Substrukturen Entdeckung von Web-Seiten-Schemata Web Structure Mining Entdeckung des Modells der Verweisstruktur des Web Hauptdaten Darstellung Linkstrukturen Applikation Graphen Generierung von Information über Unterschied und Ähnlichkeit zwischen den Web-Seiten Maß der Vollständigkeit der Web-Seiten Maß der Relevanz der Web-Seiten

Web Usage Mining Entdeckung der Zugriffsmuster Sammlung der Informationen über Benutzerverhalten Hauptdaten Darstellung Server/Browser Logs Applikation Konstruktion von Web-Seiten Marketing Benutzer-Modellierung Graphen, relationale Tabellen Web Usage Mining Beispiel der indirekten Beziehung aus Web- Usage-Daten

Wissensbasierte Wrapper-Induktion Informationsextraktion Das Wiedererkennen und die Extraktion spezifischer Datenfragmente aus Dokumentsammlungen Beispiel: Identifizierung von Datum, Ort und Temperaturwert aus Wettervoraussage Wrapper Eine Regel oder eine Prozedur zur Extraktion von Information aus einer Informationsquelle Auf Informationsquellen einer einzigen Art spezialisiert Wissensbasierte Wrapper-Induktion Kategorien der Wrapper-Generierung Manuelle Wrapper-Generierung Festlegung von Extraktionsregeln von Menschen nach einer sorgfältigen Überprüfung von Beispiel-Web-Seiten Hochpräzise Leistung, aber nicht automatisch anpassbar Wrapper-Induktion Automatische Bildung eines Wrappers durch Lernen aus Beispielseiten einer Informationsquelle Zwei Typen: Heuristische Wrapper-Induktion Wissensbasierte Wrapper-Induktion

Heuristische Wrapper-Induktion Wrapper-Induktion auf Heuristiken basierend Einsatz in den meisten traditionellen Systemen Manchmal nicht effizient, da die Heuristiken einfach und naiv sein können. Wissensbasierte Wrapper-Induktion Manuelle Generierung und Repräsentation der Domänenkenntnis Beschreibung von Terme, Konzept, und Beziehungen Erkennung semantischer Fragmente eines Dokument Definition und Anwendung der Domänenkenntnis während Wrapper-Generierung Automatische Bildung eines Wrappers durch Benutzung der Domänenkenntnis

XTROS Wissensbasiertes Informationsextraktionssystem Repräsentation der Domänenkenntnis und Wrapper mit XML Flexibilität und Modularität Portabilität und Mitbenutzbarkeit Extraktion von Informationen aus Dokumenten Übersicht über XTROS

Domänenkenntnis-Beispiel Wissensbasierter Wrapper- Generierungalgorithmus Erste Phase Konvertierung der HTML-Quelle in logische Linien Zweite Phase Bestimmung der Bedeutung der logischen Linien durch Einsatz der Domänenkenntnis Kategorisierung der logische Linien Dritte Phase Auffinden der am häufigsten benutzten Muster in Sequenz der Katalognummern

Konvertierung der HTML-Quelle in Logische Lininen Bestimmung der Bedeutung logischer Linien

Auffinden der am häufigsten benutzten Muster Algorithmus: Auffinden aller Kandidatenmuster aus Sequenz (maximale Substring) Mindesten drei Attribute Ohne duplizierte Attribute Fp: Frequenz eines Kandidatenmusters in der Sequenz Ap: Anzahl der Attribute in einem Muster Tp: Gesamte Anzahl der Attribute des Musters Tp = Fp * Ap Beispiel der am häufigsten benutzten Muster Sequenz 6012460124601246012460124 Kandidatenmuster Muster Frequenz (Fp) Anzahl der Attribute des Muster (Ap) Gesamt Anzahl der Attribute des Muster (Tp=Ap*Fp) 60124 6 30 01246 4 6 24 12460 4 6 24 24601 4 6 24 46012 4 6 24 60124 4 6 24 6012 2 6012 1 0126 1 1206 1 2601 1 0124 2 124 4 20 24 3 1

Übersicht über Web-Farming-Systeme Verfeinerung der Web-Information Entdeckung Beschaffung Strukturierung Verbreitung

Verfeinerung der Web-Information Entdeckung Lokalisierung von Individuen und Organisationen Beschaffung Sammlung und Erhaltung von identifiziertem Inhalt Strukturierung Analyse und Transformation des Inhalts in nützliche Form und Struktur Verbreitung Verpackung und Lieferung der Informationen zum entsprechenden Verbraucher Zusammenfassung Übersicht über Web Mining und Farming Web Mining Klassifikation des Web Mining Wissensbasierte Wrapper-Induktion Web Farming Übersicht über Web-Farming-Systeme Verfeinerung der Web-Informationen