Worte mit Wert: So ziehen Sie Stimmungen und Bewertungen Ihrer Kunden aus Textdaten. Apteco GmbH 069/2566 9700 info@apteco.de www.apteco.

Ähnliche Dokumente
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Primzahlen und RSA-Verschlüsselung

Professionelle Seminare im Bereich MS-Office

Zeichen bei Zahlen entschlüsseln

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Handbuch Fischertechnik-Einzelteiltabelle V3.7.3

Berechnungen in Access Teil I

Die 5 besten Internet-Ressourcen für Ihren Urlaub

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Informationsblatt Induktionsbeweis

Excel Pivot-Tabellen 2010 effektiv

Durchführung der Datenübernahme nach Reisekosten 2011

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Zwischenablage (Bilder, Texte,...)

Werbemittelverwaltung

Hilfen zum Twitter-Hashtag-Marketing!

Funktionsbeschreibung. Lieferantenbewertung. von IT Consulting Kauka GmbH

! " # $ " % & Nicki Wruck worldwidewruck

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

40-Tage-Wunder- Kurs. Umarme, was Du nicht ändern kannst.

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Was meinen die Leute eigentlich mit: Grexit?

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Internet online Update (Mozilla Firefox)

Repetitionsaufgaben Wurzelgleichungen

Die Beschreibung bezieht sich auf die Version Dreamweaver 4.0. In der Version MX ist die Sitedefinition leicht geändert worden.

Einrichtung des Cisco VPN Clients (IPSEC) in Windows7

Statistische Auswertung:

Leitfaden zur ersten Nutzung der R FOM Portable-Version für Windows (Version 1.0)

Die Post hat eine Umfrage gemacht

Internet Explorer Version 6

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

Inkrementelles Backup

Backup Premium Kurzleitfaden

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

TYPO3-Zusatzkurs für

Datensicherung. Beschreibung der Datensicherung

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Pflegende Angehörige Online Ihre Plattform im Internet

Kaufkräftige Zielgruppen gewinnen

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

Internet online Update (Internet Explorer)

Windows. Workshop Internet-Explorer: Arbeiten mit Favoriten, Teil 1

YouTube: Video-Untertitel übersetzen

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Lassen Sie sich dieses sensationelle Projekt Schritt für Schritt erklären:

Suchmaschinenoptimierung (SEO) für Ärzte Fallbeispiel Google

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

Novell Client. Anleitung. zur Verfügung gestellt durch: ZID Dezentrale Systeme. Februar ZID Dezentrale Systeme

Auswertung JAM! Fragebogen: Deine Meinung ist uns wichtig!

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

Kundenbefragung als Vehikel zur Optimierung des Customer Service Feedback des Kunden nutzen zur Verbesserung der eigenen Prozesse

1 topologisches Sortieren

Kostenstellen verwalten. Tipps & Tricks

Welche Unterschiede gibt es zwischen einem CAPAund einem Audiometrie- Test?

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

Artikel Schnittstelle über CSV

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER PAPIER ARCHIVIEREN

impact ordering Info Produktkonfigurator

Task: Nmap Skripte ausführen

Datenbanken Kapitel 2

Diese Ansicht erhalten Sie nach der erfolgreichen Anmeldung bei Wordpress.

Die ersten Schritte mit. DIG-CAD 5.0 Aufmaß

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Punkt 1 bis 11: -Anmeldung bei Schlecker und 1-8 -Herunterladen der Software

Bewertung des Blattes

Berechtigungen im Kalender Anleitung für die Rechtevergabe im Outlook Kalender FHNW, Services, ICT

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Stammdaten Auftragserfassung Produktionsbearbeitung Bestellwesen Cloud Computing

Bauteilattribute als Sachdaten anzeigen

1: 9. Hamburger Gründerpreis - Kategorie Existenzgründer :00 Uhr

Berechnung der Erhöhung der Durchschnittsprämien

4. BEZIEHUNGEN ZWISCHEN TABELLEN

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

Das EDV-Cockpit mit MindManager für SharePoint

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Fotos in Tobii Communicator verwenden

Simplex-Umformung für Dummies

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Ihren Kundendienst effektiver machen

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Im Folgenden wird Ihnen an einem Beispiel erklärt, wie Sie Excel-Anlagen und Excel-Vorlagen erstellen können.

8. Berechnung der kalkulatorischen Zinsen

Animierte Fotoshow mit Fotostory 3

Wie erreiche ich was?

Webalizer HOWTO. Stand:

Mehr Geld verdienen! Lesen Sie... Peter von Karst. Ihre Leseprobe. der schlüssel zum leben. So gehen Sie konkret vor!

4 Ideen zur Verbesserung des -Marketings!

So die eigene WEB-Seite von Pinterest verifizieren lassen!

AW: AW: AW: AW: Kooperationsanfrage anwalt.de

TECHNISCHE INFORMATION LESSOR LOHN/GEHALT BEITRAGSNACHWEIS-AUSGLEICH BUCH.-BLATT MICROSOFT DYNAMICS NAV

Mit suchmaschinenoptimierten Übersetzungen erfolgreich mit fremdsprachigen Webseiten

Warum. Natural AnalyticsTM. wichtig ist

Transkript:

Worte mit Wert: So ziehen Sie Stimmungen und Bewertungen Ihrer Kunden aus Textdaten Können Sie Bedeutungen und Stimmungen aus Textdaten herausziehen, ohne dies händisch tun zu müssen? Nein? Sollten Sie aber, denn nur wenn Sie verstehen, was Ihre Kunden tatsächlich über Sie, Ihre Marke und Ihre Produkte denken, sind Sie in der Lage mit passenden Marketingaktionen zu reagieren und einen echten Wettbewerbsvorteil zu schaffen. Übersetzte Version - Original von Rob Downs, Technology Director, Apteco Ltd Apteco GmbH 069/2566 9700 info@apteco.de www.apteco.de

Bedeutungen und Stimmungen aus Texten herausziehen Durch Kommentare, Tweets und Rezensionen geben Ihre Kunden Ihnen wertvolles Feedback. Es ist wichtiger denn je, diese Informationen schnell ausfindig zu machen und zu verwerten, um Produkte und Werbebotschaften an die Bedürfnisse des Marktes anzupassen. FastStats ermöglicht schon jetzt, durch leistungsstarke Tools, die Analyse von genau solchen Textdaten. Wir arbeiten derzeit an Erweiterungen dieser Tools mit dem Ziel künftig auch Stimmungen statistisch modellieren zu können. In unserem Blog-Beitrag Was sagen Ihre Kunden nochmal? 5 Wege, wie Sie Informationen aus Tweets, Kommentaren und Rezensionen gewinnen haben wir Ihnen bereits verschiedene Herangehensweisen zur Textdaten-Analyse vorgestellt. Nun bringen wir diese Methoden von der Theorie in die Praxis und prüfen FastStats auf Herz und Nieren mit realen und teilweise nicht ganz einfachen Datensätzen. Gute und schlechte Bewertungen Idealerweise wollen wir automatisiert wissen, ob eine Bewertung gut oder schlecht ist. Da unsere Sprache sehr komplex ist, ist dies nicht ganz einfach. Dennoch, einen Versuch ist es wert. Für unsere Testzwecke haben wir Film-Bewertungen als Datengrundlage verwendet. Die Daten stammen von IMDB und wurden von Andrew L. Maas et. al für Forschungszwecke zur Verfügung gestellt. Insgesamt wurden hier fünfzigtausend Filme bewertet. Da in FastStats der Datentyp Text auf 255 Zeichen limitiert ist, haben wir ein FastStats-System aufgesetzt, dass jede Textzeile einer Rezension als einen transaktionalen Datensatz abbildet. Die Bewertungen enthalten außerdem ein Ranking von 1-9, wobei 9 die beste Bewertung darstellt. Dieses Ranking dient uns später als Gegenprobe für unsere Analyse. Typische Bewertungen sehen wie folgt aus: 2

Mit einem Ranking von gerade mal 2, handelt es sich hierbei um eine negative Bewertung. Schauen wir uns die Wörter dragged (schleppend), stinker (Enttäuschung) oder overconfident (zu selbstsicher) an, wird dieser Eindruck verstärkt. Dennoch, die Bewertung enthält auch Wörter wie winning (einnehmend), terrific (hervorragend) und better (besser), die eher, wenn man sie außerhalb des Kontextes betrachtet, positiv behaftet sind. Kurze und bündige Kommentare wären deutlich einfacher zu interpretieren. Tweets beinhalten sogar Tags, die einem offensichtliche Anhaltspunkte liefern. Auch wenn unsere Datensätze relativ schwierig auszuwerten sind, starten wir nun unsere Analyse. Word Cloud Wir beginnen mit einer Word Cloud. Die Bewertungen werden in einzelne Wörter zerlegt und je nach relativer Häufigkeit größer oder kleiner dargestellt. Im folgenden Beispiel betrachten wir ausschließlich Bewertungen mit einem Top-Ranking von 9. Diese Darstellung bringt nicht den gewünschten Erfolg: es werden lediglich allgemein gebräuchliche Wörter hervorgehoben. Über die Eigenschaften des Tools können wir diese Wörter ausschließen. Das sieht schon vielversprechender aus. Wir sehen, dass positiv behaftete Wörter in den Vordergrund rücken; dennoch allgemein gebräuchliche Wörter sind immer noch vorhanden. 3

Wenn wir die Selektion nun auf die schlechtesten Bewertungen umstellen (Rating von 1) sieht die dazugehörige Cloud erst einmal ähnlich zur vorherigen aus. Wörter wie actually (eigentlich) oder director (Direktor) erscheinen sowohl in guten, als auch in schlechten Bewertungen. Wieder können wir diese Wörter ausschließen. 4

Schauen wir uns die gleiche Analyse in einem Verzeichnisbaum an, sehen wir genau diese allgemein gebräuchlichen Wörter. Dennoch, einige dieser Wörter scheinen maßgeblich zu sein. Auch dieser Ansatz zeigt uns zwar schöne Datenvisualisierungen, führt uns aber nicht wirklich zu unserem Ziel, gute und schlechte Bewertungen voneinander zu trennen. 5

Text selektieren Selbstverständlich können wir auch direkt auf Wörter oder Sätze filtern, indem wir eine Selektion anwenden. Eine Selektion ist dann sinnvoll, wenn wir aus allen Bewertungen Datensätze mit bestimmten Hashtags, Satzteile oder Wörtern extrahieren wollen. Hier haben wir Filme selektiert, deren Bewertungen die Wörter laugh (Lacher), hilarious (lustig) oder funny (witzig) beinhalten. Eine Selektion mit Hilfe des Ausdruckseditors wäre an dieser Stelle eine flexiblere Variante, wenn die Stichwörter variabel sind. Selektionen sind häufig ein guter Anfang. Eine Fluggesellschaft könnte beispielsweise durch eine Selektion auf Wörter wie delay in Tweets, ein Gefühl für Kundenstimmungen bei Verspätungen erhalten. 6

Wörter scoren Blicken wir wieder auf unsere Film-Bewertungen, erkennen wir, dass es positiv und negativ behaftete Wörter gibt. Darum ordnen wir den Wörtern einen Score zu: Von +10 für positiv behaftete Wörter bis zu -10 für negative Assoziationen. Für jede Bewertung in unserer Datenbank kann so ein Gesamtscore berechnet werden. Eine neue Funktion in FastStats StrScore tut genau das, indem nach Bezeichnungen gesucht, ein Score zugeordnet und eine Gesamtsumme für eine Bewertung errechnet wird. Für Rezensionen heißt das: great film with a uniquely funny twist (großartiger Film mit einer einzigartig lustigen Wendung) Scores: 8 + 6 + 8 + 5 = 27 wohingegen overrated - a few laughs but so boring (Überbewertet ein paar Lacher, aber total langweilig) Scores: -5 +6-10 = -9 Diese Funktion eignet sich gut für eine einfache Stimmungsanalyse. Es ist offensichtlich, dass die Analyse ihre Grenzen hat und Ausdrücke wie schrecklich gut oder zum Lachen schlecht nicht richtig erkannt werden es sei denn, wir fügen diese separat hinzu. Diese Methode der Textanalyse ist dann effektiv, wenn uns kurze Texte mit prägnanter Sprache vorliegen und wir die Wörter kennen, die von Bedeutung sind. Beispiele sind Kurzbewertungen oder Tweets über eine eingeschränkte Produktpalette, wie ein neues Handy- oder ein neues Auto-Modell. Im obenstehenden Beispiel haben wir uns bei der Score-Zuweisung rein auf unsere Intuition verlassen. Haben wir es mit längeren und vielfältigeren Texten zu tun, ist es notwendig diese methodisch aus den Daten abzuleiten. 7

Gute Wörter, schlechte Wörter Anhand der Film-Bewertungen, die bereits ein Ranking enthalten, können wir recht einfach die Wörter herausfinden, die mit positiven oder negativen Bewertungen verknüpft sind. Im ersten Schritt selektieren wir 10.000 Bewertungen mit dem schlechtesten Ranking von 1 und 10.000 Bewertungen mit einem guten Ranking von 8 oder 9. Dann nutzen wir einen Verzeichnisbaum, um Wörter zu analysieren, die in diesen beiden Selektionen und über alle Filme hinweg vorkommen. Die erste Spalte Sum(R1) zeigt das Vorkommen eines Wortes in schlechten Bewertungen (Ranking 1), die zweite Spalte Sum(89) die Anzahl in guten (Ranking 8-9). In der ersten Zeile sehen wir das Wort nicely (nett), es erscheint 61 Mal in schlechten und 179 Mal in guten Bewertungen. Weil wir gleich große Selektionen für R1 und R89 gewählt haben, können wir einfach den Quotienten bilden, um das Chancenverhältnis zu erhalten. Die Chance, dass es sich um eine gute Bewertung handelt, verdreifacht sich, sobald das Wort nicely darin vorkommt (179/61 = 2,93). Der Verzeichnisbaum ist absteigend nach dem Chanceverhältnis sortiert. Springen wir zum Ende der Liste sehen wir Wörter wie garbage (Müll), worst (schlechtester) und waste (Abfall). Das Wort waste hat einen Wert von 0,09, wir können diesen Wert umdrehen (1/0,09 = 11,11): die Wahrscheinlichkeit, dass eine Bewertung schlecht ist, erhöht sich um den Faktor 11, wenn dieses Wort in einer Rezension zu finden ist. 8

Text-Modell erstellen Wir können diese Ergebnisse in ein Prognose-Modell für gute und schlechte Bewertungen einsetzen. Die ermittelten Werte für das Chancenverhältnis sind die Koeffizienten für eine logistische Regression. Wir haben den Verzeichnisbaum um einen Abschnitt TextModel erweitert, der diese Koeffizienten auflistet und als Datei speichert. <TextModel intercept= 0.0 > <Text word= This coefficient= -0.102382 /> <Text word= Waste coefficient= -2.422758 /> <Text word= Chilling coefficient= 0.730888 /> <Text word= Confusion coefficient= 0.432864 /> <Text word= Delight coefficient= 0.659246 /> <Text word= Host coefficient= 0.302281 /> <Text word= Succeed coefficient= 0.339507 /> <Text word= Bitter coefficient= 0.589963 /> <Text word= Treasure coefficient= 0.263585 /> <Text word= Idiotic coefficient= -1.425009 /> <Text word= Upset coefficient= -0.282567 /> <Text word= Lazy coefficient= -0.280302 /> <Text word= Seasons coefficient= -0.013072 /> <Text word= Convey coefficient= 0.205444 /> <Text word= Struggles coefficient= 0.662688 /> <Text word= Cynical coefficient= 0.444251 /> <Text word= Embarrassed coefficient= -1.203973 /> <Text word= Guessing coefficient= 0.253196 /> <Text word= Happiness coefficient= 0.551497 /> Durch das Text-Modell erhalten wir eine Liste von Wörtern und Werten, ähnlich zu der, die wir zuvor basierend auf eigenen Annahmen erstellt haben, um die StrScore-Funktion zu nutzen. Die Berechnung basiert auf den Gesamtchancen eine gute oder schlechte Bewertung zu erhalten und kann einfach kalkuliert werden. Derzeit liegen uns mehr schlechte, als gute Bewertungen vor, was für eine exakte Prognose von Vorteil ist. Für unsere Zwecke, eine neue Rezension zu bewerten, ist es hilfreich diesen Effekt außen vor zu lassen. 9

Nun erweitern wir die StrScore-Funktion, sodass wir das Text-Modell aus einer Datei auslesen können. StrScore([Text], sum, C:\FastStats\imdb\save\textmodel.xml ) Wir lassen diese Berechnung laufen, um Scores für alle Textzeilen zu erhalten. Danach summieren wir die Werte aller Transaktionsdatensätze mit dem FastStats Aggregationsassistenten auf und erhalten so eine Gesamtbewertung für einen Film. Nachfolgend sehen wir ein paar Beispiele für schlecht bewertete Filme. Vergleichen wir nun die zusammengefassten Rezensions-Scores mit der tatsächlich abgegebenen Bewertung (Spalte Ranking) wird deutlich, dass höhere Werte einen besseren Film bedeuten und andersherum. Unser Modell funktioniert also, wenn auch, wie erwartet, noch nicht perfekt. Unsere Datenquelle ist nicht einfach auszuwerten, da in Film- Bewertungen häufig auf andere bessere oder schlechtere Filme verwiesen wird. Für Rezensionen zu bestimmten Produkten oder einer Marke wird es wahrscheinlich leichter sein signifikante Ergebnisse zu erzielen. Text-Modell verbessern Schauen wir uns die falsch klassifizierten Bewertungen genauer an, wird schnell deutlich, dass ein perfekt funktionierendes Modell sowohl ein tiefgehendes Verständnis der Sprache und des Kontextes benötigen würde, als auch ein Gefühl für Humor und Sarkasmus. Wir können das Modell verbessern, indem wir verneinende Wörter wie not (nicht), no (kein) oder never (niemals) berücksichtigen. Die Verneinung verändert nicht nur oftmals die Bedeutung der Bewertung, sondern auch dessen Kennzahl. Umgekehrt können Wörter wie very (sehr), really (wirklich) oder absolutely (absolut) den Wert erhöhen. 10

Letztendlich muss dieses verbesserte Modell die Reihenfolge der Wörter in Betracht ziehen, während unser zuvor genutztes Modell sprachneutral ist. Fügen wir unserem Text-Modell solche Qualifizierungswörter zu, sieht das wie folgt aus: <Text qualifier= not coefficient= -1.0 /> <Text qualifier = very coefficient= 1.5 /> <Text qualifier = never coefficient= -1.2 /> <Text qualifier = exceptionally coefficient= 2.0 /> Zum Schluss TextModel und StrScore-Funktion, die wir für unsere Analyse genutzt haben, sind Ergebnisse unserer Forschung und Entwicklung. Wir planen diese Features in zukünftige Versionen unserer Datenanalyse-Software FastStats Discoverer zu integrieren. Wenn Sie also große Mengen an interessanten Textdaten haben oder Bewertungen, Tweets oder Kommentare analysieren möchten, freuen wir uns von Ihnen zu hören. Nicht vergessen: Text-Analyse ermöglicht Ihnen tiefe Einblicke in Diskussionen über Ihre Marke und Ihre Produkte. Die Analyse von Stimmungen, die diese Diskussionen begleiten, kann Ihre Marketing- Kampagnen beeinflussen und vorantreiben. 11

Über Apteco Das inhabergeführte Unternehmen Apteco entwickelt Software für die Analyse von Marketingdaten und die Automation von Kampagnen. Die Software FastStats von Apteco liefert Marketern zusätzliches Wissen aus ihren Daten. Zum Portfolio gehören Marketinglösungen für Kundensegmentierung, Datamining, Prognosemodelle, Kundenprofilierungen, Management für Multichannel-Kampagnen und Reporting-Funktionen. Dank des internationalen Apteco- Vertriebspartnernetzwerks laufen heute weltweit mehr als 400 FastStats -Installationen auf den Rechnern von knapp 3.500 Nutzern, davon 500 Kampagnen-Manager, verteilt über 100 Systeme. Zu den Apteco-Kunden zählen Travian Games, TUI UK, Argos, Financial Times und Unilever sowie zahlreiche weitere europäische, nordamerikanische und australische Unternehmen. www.apteco.de Kontakt Apteco GmbH Martin Clark, Geschäftsführer Telefon: 069 25 66 97 00 E-Mail: martin.clark (AT) apteco.de 12