Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten



Ähnliche Dokumente
Professionelle Seminare im Bereich MS-Office

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Allgemeiner Leitfaden zum Einfügen suchmaschinenoptimierter Texte

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Installationsanleitung SSL Zertifikat

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Mitarbeiterbefragung als PE- und OE-Instrument

Sentiment Analysis (SA) Robert Bärhold & Mario Sänger Text Analytics WS 2012/13 Prof. Leser

Internet Explorer Version 6

Einen Wiederherstellungspunktes erstellen & Rechner mit Hilfe eines Wiederherstellungspunktes zu einem früheren Zeitpunkt wieder herstellen

Die Post hat eine Umfrage gemacht

Sichern der persönlichen Daten auf einem Windows Computer

Ihr Weg in die Suchmaschinen

Standard-Kontaktformular

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

proles-login. Inhalt [Dokument: L / v1.0 vom ]

BMW ConnectedDrive. connecteddrive. Freude am Fahren BMW CONNECTED DRIVE. NEUERUNGEN FÜR PERSONALISIERTE BMW CONNECTED DRIVE DIENSTE.

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

Gezielt über Folien hinweg springen

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

Universal Dashboard auf ewon Alarmübersicht auf ewon eigener HTML Seite.

Das Web als zentrales Element für die Kaufentscheidung im Einzelhandel Yahoo! Insights Juni 2010

Suchmaschinenoptimierung in Typo 3

Konfiguration VLAN's. Konfiguration VLAN's IACBOX.COM. Version Deutsch

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

YouTube: Video-Untertitel übersetzen

Um zusammenfassende Berichte zu erstellen, gehen Sie folgendermaßen vor:

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Maschinelle Übersetzung

Acht Gute Gründe für Integration und einen Content Backbone

Windows Server 2012 R2 Essentials & Hyper-V

HintergrÜnde. zur Urheberrechtsabgabe. rechnen sie mit uns.

EPOS. Kurzanleitung Modul Mailing. Logex AG IT-Solutions. Copyright (c) 2008 by Logex ag, Switzerland, all Rights reserved

Webalizer HOWTO. Stand:

SIGNATUR IN OUTLOOK 2010

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Erfahrungen mit Hartz IV- Empfängern

Kurze Anleitung zum Guthaben-Aufladen bei.

Barrierefreie Webseiten erstellen mit TYPO3

Inkrementelles Backup

Aktuell 2014 als Startseite der PK-Website auf Firefox einstellen

Microsoft Access 2013 Navigationsformular (Musterlösung)

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Abwesenheitsnotiz im Exchangeserver 2010

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

VIP-Programm. Herzlich Willkommen!

Anleitung auf SEITE 2

Pädagogik. Melanie Schewtschenko. Eingewöhnung und Übergang in die Kinderkrippe. Warum ist die Beteiligung der Eltern so wichtig?

Überprüfung der digital signierten E-Rechnung

Fragebogen: Abschlussbefragung

Informationsblatt Induktionsbeweis

Keine Disketteneinreichung ab 1. Februar 2014

ASVZweb_08/ Schreibhilfe

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

News & RSS. Einleitung: Nachrichten er-(veröffentlichen) und bereitstellen Nachrichten erstellen und bereitstellen

Hilfe zur Urlaubsplanung und Zeiterfassung

Popup Blocker/Sicherheitseinstellungen

Mitarbeiter IVR - Wozu

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Cookies Cookies -Marketing Live Chat Analytik

White Paper DocCheck Search

teischl.com Software Design & Services e.u. office@teischl.com

Anwendungsbeispiele Buchhaltung

Patch-Management. Leibniz-Akademie Hannover Wirtschaftsinformatik B. Sc. Praxisreflexion im Bereich Management im SS 2011

Dr. Kraus & Partner Ihr Angebot zu Konfliktmanagement

Der Product Activation Manager (PAM) dient dazu Software-Lizenzen anzuzeigen, zu verwalten und abzurufen.

Erstellen einer in OWA (Outlook Web App)

Flüchtlingskinder in Deutschland Eine Studie von infratest dimap im Auftrag des Deutschen Kinderhilfswerkes e.v.

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

IAWWeb PDFManager. - Kurzanleitung -

e LEARNING Kurz-Anleitung zum Erstellen eines Wikis 1. Wiki erstellen

Wie Google Webseiten bewertet. François Bry

Lernprogramm. EDS Anpassung für Administratoren. support.ebsco.com

White Paper DocCheck Search

Kurzanweisung für Google Analytics

Ihre PLM-Prozessexperten für Entwicklung und Konstruktion

Anleitung - Archivierung

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

SPIELBESCHREIBUNGEN DART RADIKAL SYSTEM

Netzwerkeinstellungen unter Mac OS X

Mobile Intranet in Unternehmen

Virtual Roundtable: Business Intelligence - Trends

Schritt für Schritt zur Krankenstandsstatistik

Anleitung OpenCms 8 Webformular Auswertung

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E


Wie richten Sie Ihr Web Paket bei Netpage24 ein

Anleitung zur Datensicherung und -rücksicherung in der VR-NetWorld Software

1 Einleitung. Lernziele. automatische Antworten bei Abwesenheit senden. Einstellungen für automatische Antworten Lerndauer. 4 Minuten.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Task: Nmap Skripte ausführen

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

:: Anleitung Hosting Server 1cloud.ch ::

Transkript:

Inhaltsverzeichnis 3 Hans-Christoph Hobohm (Hrsg.) Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten Information Science between Virtual Infrastructure and Material Lifeworlds Unter Mitarbeit von Judith Pfeffing Proceedings des 13. Internationalen Symposiums für Informationswissenschaft (ISI 2013) Potsdam, 19. bis 22. März 2013

384 Session 9: Metadaten Identifikation von Kundenrezensionen im WWW als Basis eines Crawlers für das Opinion Mining Sebastian Kastner, Thomas Mandl, Julia Maria Struß Universität Hildesheim Institut für Informationswissenschaft und Sprachtechnologie Marienburger Platz 22, D-31141 Hildesheim {kastners mandl julia.struss}@uni-hildesheim.de Zusammenfassung Diese Arbeit befasst sich mit der Klassifikation von Webseiten in solche, die Kundenrezensionen zu Produkten oder Dienstleistungen enthalten und solche, die keine enthalten. Die derart gewonnenen Rezensionen können anschließend als Input für Opinion-Mining-Systeme dienen, die sich mit der Extraktion und Klassifikation von Meinungen z. B. in der genannten Textsorte beschäftigen. Erste Evaluierungsergebnisse deuten mit einer Accuracy von 91% auf einen vielversprechenden Ansatz hin. Abstract This paper describes an approach for classifying web pages into those containing customer reviews and those not containing customer reviews. The reviews found in this way can then be used as input for opinion-mining systems, which deal with the extraction and classification of opinions in written text. A first evaluation with 91% accuracy indicates a promising approach. In: H.-C. Hobohm (Hrsg.). Informationswissenschaft zwischen virtueller Infrastruktur und materiellen Lebenswelten. Tagungsband des 13. Internationalen Symposiums für Informationswissenschaft (ISI 2013), Potsdam, 19. 22. März 2013. Glückstadt: Verlag Werner Hülsbusch, 384 389.

Identifikation von Kundenrezensionen im WWW als Basis eines Crawlers 385 1 Einleitung Viele Kunden nutzen heutzutage das Internet, um sich über Produkte und Dienstleistungen zu informieren. Insbesondere die Meinungen anderer Kunden, die über verschiedene Portale und Händlerseiten verfügbar sind, werden dazu herangezogen (vgl. Yahoo! Deutschland 2010). Aber auch für herstellende oder vertreibende Unternehmen dienen solche Kundenrezensionen als Informationsquelle (vgl. Pang/Lee 2008: 13 f.). Das Opinion Mining beschäftigt sich mit der Herausforderung der automatischen Zusammenfassung und Aufbereitung von Dokumenten hinsichtlich der darin geäußerten Meinungen. Als Textsorte werden in vielen Arbeiten Kundenrezensionen verwendet, daher wird in dieser Arbeit ein Ansatz entwickelt, der später in einem Crawler für das Sammeln dieser Art von Texten genutzt werden kann. Als Motivation für Opinion Mining Systeme wird u. a. die für viele Produkte große Anzahl verfügbarer Rezensionen genannt, die eine manuelle Erfassung sehr zeit- und somit auch kostenintensiv werden lässt (vgl. u. a. Qiu et al. 2011; Hu/Liu 2004). Viele Arbeiten in diesem Bereich vernachlässigen jedoch die Beschaffung der zu analysierenden Dokumente weitgehend und setzen diese als gegeben voraus. In diesem Aufsatz wird nun ein Ansatz vorgestellt, der diese Lücke schließen soll. Im Folgenden werden zunächst einige verwandte Arbeiten vorgestellt, bevor der Aufbau des Korpus und die durchgeführten Experimente beschrieben werden. Abschließend werden erste Evaluierungsergebnisse präsentiert und ein Ausblick auf das weitere Vorgehen gegeben. 2 Verwandte Arbeiten Nur wenige Arbeiten haben sich bisher mit der Beschaffung der Dokumente für ein Opinion-Mining-System beschäftigt. Morinaga et al. stellen Suchanfragen mit Produktnamen an Suchmaschinen und extrahieren aus den gelieferten Ergebnissen die meinungstragenden Sätze (vgl. Morinaga et al. 2002: 302). Na und Thet (2009) bedienen sich ebenfalls der Ergebnislisten von Suchmaschinen. Als Suchanfrage verwenden sie gleichermaßen den Produktnamen, fügen diesem aber jeweils den Begriff review hinzu. Für

386 Session 9: Metadaten die Erkennung von Seiten mit Produktrezensionen auf Basis der Ergebnislisten entwickeln sie einen Klassifikationsalgorithmus. Sie erzielen unter Einbeziehung von semi-automatisch erstellten Heuristiken eine Klassifikationsgenauigkeit von bis zu 89% (ebd.: 6 ff.). Ein Ansatz, der den Quelltext von Webseiten direkt nutzt, ist nicht bekannt. Ein weiterer verwandter Bereich ist die Subjektivitätsanalyse. Hier werden Dokumente oder Textstellen als subjektiv bzw. objektiv klassifiziert (vgl. u. a. Wiebe et al. 2004). Die hier vorgestellte Arbeit unterscheidet sich von jenen im Bereich der Subjektivitätsanalyse insofern, dass die Klassifikation nicht zwischen subjektiven und objektiven Dokumenten erfolgt, sondern zwischen Texten, die eine Rezensionen enthalten oder nicht. Nicht jeder subjektive Text stellt auch eine Rezension dar. 3 Korpus-Erstellung Zunächst wird mithilfe eines Webcrawlers (crawler4j 1 ) ein Korpus aus Webdokumenten zusammengestellt. Der Crawler wurde durch Programmierung an die Aufgabe angepasst und verwendet als Ausgangspunkt Reviewportale wie alatest.com, die neben eigenen Rezensionen auch Links zu Rezensionen anderer Seiten enthalten. Diese werden anschließend manuell in solche mit und ohne Rezensionen eingeteilt. Ein Dokument zählt dabei als eines mit Rezensionen, wenn mindestens eine komplette Rezensionen enthalten ist. Als Rezension gilt eine textuelle Äußerung einer Meinung zu Produkten oder Dienstleistungen (vgl. Kastner 2011: 20). Das so erstellte Korpus enthält 464 Webseiten, davon 68 mit Rezensionen. Um die Ungleichverteilung der Dokumente hinsichtlich der Anzahl der enthaltenen Rezensionen auszugleichen, wird das Korpus in einem zweiten Schritt erweitert. Es werden Suchanfragen mit den Namen von 50 Produkten an eine Suchmaschine gestellt. Dabei wurde auf Zusätze wie review verzichtet (vgl. Na/Thet 2009), damit von der Suchmaschine nicht bevorzugt Seiten mit dem entsprechenden Begriff an prominenten Stellen wie Titel oder URL zurückgegeben werden, um eine Verzerrung der Lernmenge zu vermeiden. 1 http://code.google.com/p/crawler4j/ <20.02.2013>

Identifikation von Kundenrezensionen im WWW als Basis eines Crawlers 387 Nach mehreren Durchgängen wird eine Zahl von 250 Dokumenten mit Rezensionen erreicht, die zusammen mit 250 zufällig ausgewählten Dokumenten aus der Dokumentensammlung im ersten Schritt zu einem Korpus zusammengefasst werden (vgl. Kastner 2011: 21 f.). 4 Merkmalsauswahl und Ergebnisse Im ersten Schritt erfolgt die Auswahl geeignete Merkmale für die Klassifikationsaufgabe der Dokumente in solche mit oder ohne Rezensionen. Für die Klassifikationsaufgabe wird auf Support Vector Machines (SVM) zurückgegriffen, da diese sich als gut geeignet für Textkategorisierung und die Klassifikation von Webseiten erwiesen haben (vgl. Joachims 1998: 139 ff.). Für die Merkmalsauswahl wird ein Teil des Korpus, bestehend aus 400 zufällig ausgewählten Dokumenten, genutzt. Die Ergebnisse der besten einzelnen Merkmale sowie Merkmalskombination sind in nachfolgender Tabelle dargestellt. Da das Korpus teilweise mithilfe von Suchmaschinen erstellt wurde, welche als Anchor-Text der Links zumeist den Seitentitel verwenden, ist das Ergebnis hier kritisch zu sehen, weshalb dieses Merkmal für die nachfolgenden Experimente nicht verwendet wird. Tab. 1: Ergebnisse der Merkmalsauswahl unter Verwendung von 10-Fold-Crossvalidation (links Accuracy für einzelne Merkmale, rechts für Merkmalskombinationen) (vgl. Kastner 2011: 31, 34) Merkmale Acc. Merkmale Acc. Anchor Text 89,95 URL+POS+Title+Unique Words 86,75 URL 85,42 URL+POS 86,50 Content 84,07 URL+POS+Title+Link Density 86,00 Part-of-Speech (POS) 80,75 URL+POS+Title 86,00 Meta Description 72,52 URL+POS+Title+Text Complexity 85,75 Unique Words 72,25 URL 85,42 Titel 71,27 URL+POS+Meta Description 85,25 Text Complexity 70,75 URL+Titel 84,30 Die zuvor ermittelte beste Merkmalskombination wird abschließend auf den verbliebenen 100 Dokumenten des Korpus mit einer Document Frequency von 25 und einem Cost Parameter von 500, die zuvor ebenfalls experi-

388 Session 9: Metadaten mentell ermittelt wurden, erneut getestet. Das erzielte Ergebnis mit einer Accuracy von 91% liegt dabei knapp 2%-Punkte über dem von Na und Thet (2009) erreichten Wert, verwendet im Gegensatz zu diesen jedoch nicht die Ergebnislisten von Suchmaschinen, sondern nutzt die Webseiten direkt (vgl. Kastner 2011: 35). Zukünftig soll der beschriebene Ansatz auf einer breiteren Dokumentenbasis evaluiert werden, um die Aussagekraft der Evaluierungsergebnisse zu erhöhen. Weiter ist es auch interessant, die Verwendung der Anchor-Texte als Merkmal zu untersuchen, da diese bei der Merkmalsauswahl bei isolierter Betrachtung die besten Ergebnisse liefern, jedoch aufgrund der Methode der Korpus-Erstellung in der weiteren Evaluierung nicht mit berücksichtigt wurden. Literaturverzeichnis Ganjisaffar, Y. (o. J.). crawler4j Open Source Web Crawler for Java. http://code.google.com/p/crawler4j/ <08.11.2012>. Hu, M.; Liu, B. (2004). Mining and summarizing customer reviews. In: Proc. 10th ACM SIGKDD Intl Conf. on Knowledge discovery and data mining. New York: ACM, 168 177. Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In: Proc. 10th European Conference on Machine Learning. Berlin u. a.: Springer, 137 142. Kastner, S. (2011). Klassifikation von Webdokumenten in Dokumente mit und ohne Kundenrezensionen als Basis eines Crawlers für das Opinion Mining. B.A. Thesis. Universität Hildesheim. Morinaga, S.; Yamanishi, K.; Tateishi, K.; Fukushima, T. (2002). Mining Product Reputations on the Web. In: Proc. 8th ACM SIGKDD Intl Conf. on Knowledge Discovery and Data Mining. ACM, 341 349. Na, J.; Thet, T. (2009). Effectiveness of web search results for genre and sentiment classification. In: Journal of Information Science 35 (6), 709 726. Pang, B.; Lee, L. (2008). Opinion Mining and Sentiment Analysis. In: Foundations and Trends in Information Retrieval 2 (1-2), 1 135. Qiu, G.; Liu, B.; Bu, J.; Chen, C. (2011). Opinion Word Expansion and Target Extraction through Double Propagation. In: Computational Linguistics 37 (1), 9 27.

Identifikation von Kundenrezensionen im WWW als Basis eines Crawlers 389 Wiebe, J.; Wilson, T.; Bruce, R.; Bell, M.; Martin, M. (2004). Learning Subjective Language. In: Computational Linguistics 30 (3), 277 308. Yahoo! Deutschland (2010). Neue Yahoo!-Branchenstudie zum Einzelhandel: Von Bekleidung bis Spiele, von Unterhaltungselektronik bis zum Heimwerkerbedarf Ohne Web fällt kaum eine Kaufentscheidung. München. http://yahoo.enpress.de/ pressemeldungen.aspx?p=2483 <12.11.2012>.