Kurze Einführung in Web Data Mining Yeong Su Lee Centrum für Informations- und Sprachverarbeitung (CIS), LMU 17.10.2007 Kurze Einführung in Web Data Mining 1
Überblick Was ist Web? Kurze Geschichte von Web Charakteristiken von Web Was ist Data Mining? Was ist Web Mining? 17.10.2007 Kurze Einführung in Web Data Mining 2
Was ist Web World Wide Web ist ein Internet-basiertes Computer-Netzwerk, das den Benutzer eines Computers den Zugang zur Information auf den Fernrechnern ermöglicht. Client Anforderung Information Server Hypertext und -media Browser: Client-Programm sendet Anforderungen interpretiert HTML-Dokumente gibt den Text und Graphics aus Informationen in HTML 17.10.2007 Kurze Einführung in Web Data Mining 3
Kurze Geschichte von Web Mar. 1989: Tim Berners-Lee bei CERN (Centre European pour la Recherche Nucleaire) HyperText System 1990: HyperText Transper Protocol (HTTP), HyperText Markup Language (HTML), Universal Resource Locator (URL) Feb. 1993: Mosaic for X graphische Web Browser für UNIX, dann für Machintosh und Windows von Andreesen aus Univ. Illinois Mitte 1994: Netscape Communication von Jim Clark mit Andreesen Aug. 1995: Internet Explorer von MS 17.10.2007 Kurze Einführung in Web Data Mining 4
Internet liefert Kommunikationsnetzwerk für das funktionsfähige Web 1969: ARPANET von ARPA (Advanced Research Projects Agency) 1972: DEMO von ARPANET bei First International Conference on Computers and Communication 1973: TCP/IP (Transmission Control Protocol/Internet Protocol) von Vinton Cerf und Bob Kahn erlaubt, dass diverse Computernetzwerke miteinander vernetzt kommunizieren 1982: Internet mit TCP/IP 17.10.2007 Kurze Einführung in Web Data Mining 5
Suchmaschinen 1993: Excite an der Stanford Univ. 1994: EINet Galaxy an der Univ. Texas 1994: Yahoo! von Jerry Yang und David Filo listet ihre Liebingswebsites und bietet directory search an 1998: Google von Sergey Brin und Larry Page an der Standford Univ. 2004: Yahoo! als allgemeine Suchmaschine 2005: MSN Suchmaschine 17.10.2007 Kurze Einführung in Web Data Mining 6
World Wide Web Consortium Dez. 1994 von MIT und CERN 1. International Conference on World Wide Web (WWW) zuständig für Standardisierung der Web-Entwicklungen und Inter-Operation zwischen WWW-Produkten 17.10.2007 Kurze Einführung in Web Data Mining 7
Charakteristiken des Webs unermesslich groß und breites Spektrum alle Datentypen strukturierte Tabellen und Listen semi-strukturierte Webseiten unstrukturierte Texte Multimedia wie images, audios, und videos Informationen sind verschiedenartig Informationen sind gelinkt Informationen sind unsauber Web-Services Dynamisch Virtuelle Gesellschaft 17.10.2007 Kurze Einführung in Web Data Mining 8
Was ist Data Mining? Knowledge Discovery in Databases (KDD) Prozess des Auffindens der brauchbaren Patterns oder Wissens aus Datenquellen wie Datenbank, Texten, Webs Patterns sollen zuverlässig, brauchbar und verständlich sein Domain verstehen, Datenquellen und Ziel-Daten identifizieren 3 Haupt-Stufen der Vorgehensweise Preprocessing, Data Mining, Postprocessing Data Mining Techniken Supervised Learning Unsupervised Learning Association Rule Mining Sequential Pattern Mining 17.10.2007 Kurze Einführung in Web Data Mining 9
Was ist Web Mining? Traditionelle Data Mining verwendet strukturierte Daten wie Tabellen oder ähnliche Aufgrund der Fülle und Vielfältigkeiten der Webs entwickelt Web Mining seine eigene Algorithmen Auffinden der brauchbaren Informationen oder Wissen aus Web Hyperlink Structure Web Content Usage Data 17.10.2007 Kurze Einführung in Web Data Mining 10
IR Erschließung relevanter Dokumente Unterschiede zu IR und IE Data Mining Mustererkennung IE Herausziehen bestimmter relevanter Informationen 17.10.2007 Kurze Einführung in Web Data Mining 11
Anwendungsbereiche 17.10.2007 Kurze Einführung in Web Data Mining 12
ENDE Vielen Dank! 17.10.2007 Kurze Einführung in Web Data Mining 13