Text Mining und CRM. Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Ähnliche Dokumente

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Lars Priebe Senior Systemberater. ORACLE Deutschland GmbH

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

Textmining Klassifikation von Texten Teil 1: Naive Bayes

Vereinfachte Ticketerfassung oxando GmbH

PDF/A: Validieren und Korrigieren

Was meinen die Leute eigentlich mit: Grexit?

Die Entwicklung eines Glossars (oder eines kontrollierten Vokabulars) für ein Unternehmen geht üblicherweise in 3 Schritten vor sich:

Erfahrungen mit Hartz IV- Empfängern

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

W-Rechnung und Statistik für Ingenieure Übung 11

Urlaubsregel in David

Thesaurusvisualisierung mit ICE-Map und SEMTINEL

SUCHMASCHINENOPTIMIERUNG FÜR DEN INTERNETAUFTRITT

Reservierungs-Assistent

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Projektmanagementsoftware: Standard vs. Individual

Schulungsunterlagen zur Version 3.3

Ihr CMS für die eigene Facebook Page - 1

Fax einrichten auf Windows XP-PC

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

FlowFact Alle Versionen

SharePoint Demonstration

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Grundlagen zur Erstellung und dem Relaunch einer Homepage. Julius Hoyer Osnabrück März 2015

Windows 7: Neue Funktionen im praktischen Einsatz - Die neue Taskleiste nutzen

Anleitung für den Zugriff auf Mitgliederdateien der AG-KiM

ALEMÃO. Text 1. Lernen, lernen, lernen

Schritt-für-Schritt-Anleitung So verschlüsseln Sie Ihr -Konto in der Software 6.0

Facebook I-Frame Tabs mit Papoo Plugin erstellen und verwalten

ACDSee 10. ACDSee 10: Fotos gruppieren und schneller durchsuchen. Was ist Gruppieren? Fotos gruppieren. Das Inhaltsverzeichnis zum Gruppieren nutzen

Die ersten Schritte mit. DIG-CAD 5.0 Aufmaß

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Digitale Leseexemplare

Acht Gute Gründe für Integration und einen Content Backbone

ARCHIV- & DOKUMENTEN- MANAGEMENT-SERVER DATEIEN ARCHIVIEREN

Anwendungsbeispiele Buchhaltung

Online-Bestellung Tageskarten für Mitglieder des FC St. Pauli, die nicht im Besitz einer Dauer- oder Saisonkarte sind.

UpToNet DMS Posteingang

Newsletter-Analyse für langzeittest.de

Matrix42. Use Case - Sicherung und Rücksicherung persönlicher Einstellungen über Personal Backup. Version September

Es ist nicht genug zu wissen, man muss es auch anwenden. Es ist nicht genug zu wollen, man muss es auch tun.

Erstellen einer PostScript-Datei unter Windows XP

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.

1. Konfiguration Outlook 2007 MAPI (mit Autodiscover).

!!!!T!!! Systems!() Multimedia Solutions

Einrichten eines HBCI- Zugangs mit Bank X 5.1

Reparaturmodus unter Office und 2013 finden

Technische Analyse der Zukunft

Telenet SocialCom. verbindet Sie mit Social Media.

Leichte-Sprache-Bilder

Interviewleitfaden - interne Kommunikation

Werkzeuge für ein innovatives Wissensmanagement. W3L AG

IMAP Backup. Das Programm zum Sichern, Synchronisieren, Rücksichern und ansehen von gesicherten Mails. Hersteller: malu-soft

Anleitung OpenCms 8 Webformular Auswertung

Was ist pcon.update? Girsberger Manual Registrierung pcon.update Service - Marketing Edition Sep Seite 1

e-books aus der EBL-Datenbank

Content Management Systeme (CMS)

PCC Outlook Integration Installationsleitfaden

Prolog basiert auf Prädikatenlogik

Deutsches Rotes Kreuz. Kopfschmerztagebuch von:

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

Lizenzierung von StarMoney 8.0 bzw. StarMoney Business 5.0 durchführen

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Serienbrieferstellung in Word mit Kunden-Datenimport aus Excel

Persönliches Adressbuch

Grundbegriffe der Informatik

3. auf Symbol klicken erstellt von Erika Völkel

-Inhalte an cobra übergeben

Oracle 9i Real Application Clusters

Sichern der persönlichen Daten auf einem Windows Computer

Hilfe zur Urlaubsplanung und Zeiterfassung

Anlegen eines DLRG Accounts

Evaluationen. Inhalt. 1. Aufbau einer Evaluation in Stud.IP

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus:

Öffnen Sie die Albelli Gestaltungssoftware

Anleitung zur Erstellung und Bearbeitung von Seiten in Typo3. Typo3. Anleitung. Wenpas Informatik

Prozessbewertung und -verbesserung nach ITIL im Kontext des betrieblichen Informationsmanagements. von Stephanie Wilke am

Inkrementelles Backup

Bauteilattribute als Sachdaten anzeigen

Die integrierte Zeiterfassung. Das innovative Softwarekonzept

YouTube: Video-Untertitel übersetzen

THEMA: "SAS STORED PROCESSES - SCHNELL GEZAUBERT" HELENE SCHMITZ

2. Word-Dokumente verwalten

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Lizenzierung von StarMoney 10 bzw. StarMoney Business 7 durchführen

Microsoft (Dynamics) CRM 2020: Wie verändern sich Markt, Eco-System und Anwendungsszenarien nach Cloud & Co?

Wollen Sie einen mühelosen Direkteinstieg zum Online Shop der ÖAG? Sie sind nur einen Klick davon entfernt!

AUTOMATISCHE -ARCHIVIERUNG. 10/07/28 BMD Systemhaus GmbH, Steyr Vervielfältigung bedarf der ausdrücklichen Genehmigung durch BMD!

Die Wirtschaftskrise aus Sicht der Kinder

Professionelle Seminare im Bereich MS-Office

ACDSee Pro 3-Tutorials: Fotos (+ Datenbank) auf einen anderen Computer bringen

SIRIUS virtual engineering GmbH

Lizenzierung von StarMoney 9.0 bzw. StarMoney Business 6.0 durchführen

Excel Pivot-Tabellen 2010 effektiv

BIA-Wissensreihe Teil 4. Mind Mapping Methode. Bildungsakademie Sigmaringen

Transkript:

Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03

Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation) hinzufügen Exzerpte erzeugen Gegensatz zu Datamining Statistische Verfahren auf hochstrukturierten Daten Page 2, Text Mining & CRM

Inhalt Methodeneinführung (6) Verschlagwortung Klassifikation Gruppierung (Clustering) Architektur von Text Mining Systemen (2) CRM und Text Mining im Kreuz Anwendungsszenarien Schlusswort Page 3, Text Mining & CRM

Grundverfahren Verschlagworten Zuordnen von Suchbegriffen oder Gruppenoberbegriffen CMS, Text Retrieval, Suchmaschinen, Inhaltsverzeichnisse Gruppieren Dokumente in Gruppen von ähnlichen einteilen. Wissensmanagement, Semantic Web Klassifizieren Einsortieren von Dokumenten in eine von N bekannten Klassen Spam, E-Commerce, Bibliotheken, Office-Kommunikation, CRM Alle komplexen Vorgehen im Textmining werden aus den drei oben zusammengesetzt. Page 4, Text Mining & CRM

E rzeugen von Inhaltsverzeichnissen Formal: Zwei Dokumente hintereinander sind wieder ein neues Dokument Aufbau einer Hierarchie mit Wörtern als Knotennamen: Wiederholtes Clustering auf immer weniger Clustern. In jedem Schritt werden die Dokumente in einem Cluster zu einem Dokument verknüpft. Danach neue Dokumente durch wiederholtes Klassifizieren top down in die Hierarchie einfügen. Die Verfahren sind beliebig mit Ontologien und Thesauri erweiterbar. Im Prinzip jedoch unüberwacht durchführbar. Page 5, Text Mining & CRM

Stochastische Modelle Alle TM Verfahren funktionieren mithilfe von Modellen Modelle werden aufgrund von relativen Häufigkeiten aus Beispieltexten ermittelt. T rainigsdaten = Beispieltexte Modell: Relative Häufigkeiten von Wörtern und Wortfolgen und daraus abgeleiteten Wörterklassen Für das Modell sind entscheidend Die Komplexität der gespeicherten Einheiten Die Trainingsdaten Page 6, Text Mining & CRM

Verschlagwortung von Dokumenten Klasse Alle Alle Dokumente Allgemeines Modell P(V alle) Testwort V Klasse Dok Genau ein Dok Modell für Dok P(V Dok) Falls P(V alle) P(V Dok), dann ist V ein Stopwort Falls P(V alle) << P(V Dok), dann ist V ein Schlagwort Page 7, Text Mining & CRM

Klassifikation von Dokumenten Klasse 1 Dok-menge 1 Pi Pa Po Modell 1 Klasse 2 Dok-menge 2 Modell 2 P1(Pi Pa Po Klasse 1) Maximum? P2(Pi Pa Po Klasse 2) Gesucht wird: Klasse_i, bei Max[ P(Klasse_i W1..Wn) ] Entspricht nach Bayes Klasse_i, bei Max[ P(W1..Wn Klasse_i) * P(Klasse_i) ] Page 8, Text Mining & CRM

Gruppierung (Clustering) von Dokumenten G1 Dok1 Dok2 Dok1 Dok2 Gruppierung 1: M1 aus G1 M2 aus G2 G2 Dok3 G3 Dok3 G4 Gruppierung 2: M3 aus G3 M4 aus G4 geschätzt geschätzt P(alle Gr1) = P(Dok1 M1) * P(Dok2 M1) * P(Dok3 M2) P(alle Gr2) = P(Dok1 M3) * P(Dok2 M4) * P(Dok3 M4) Falls P1 > P2, dann ist Gruppierung 1 bes ser als Gruppierung 2 Page 9, Text Mining & CRM

Methodenresumee 1 Bei komplexeren Modellen bleiben die Grundverfahren gleich aber es werden nicht nur Einzelwörter verwendet Alle Arten der Vorverarbeitung und Wissensanreicherung durch Regeln und Expertenwissen sind aus der Sicht der Stochastik Parameterreduktionen Durch Kombination der Grundtechniken können auch komplexe Informationsdarstellungen und Extrakte über sehr großen Dokumentenmengen vollautomatische erreicht werden.. Page 10, Text Mining & CRM

Methodenresumee 2 Komplexere Kombinationen sind derzeit noch nicht unüberwacht anwendbar. Einfache Verfahren sind in der Praxis gut unüberwacht einsetzbar. Alle Verfahren setzen die Verfügbarkeit von Massendaten bzw. T rainingsdaten voraus Page 11, Text Mining & CRM

Architektur von Text Mining SW 1 Linguistische Vorverarbeitung (Cleansing, Normalisation, diverses) Hier sind die wesentlichen Produktunterschiede... Standards:Verschlagwortung/ Klassifikation / Gruppierung Immer besser standardisiert. Am einfachsten stochastisch + Ontologie -> Höhere Strukturimplikation zusammengesetzt aus den Basismethoden: Semantik Web / Query Preprocessing Anbindung an die Anwendungen Page 12, Text Mining & CRM

CRM und Text Mining Beziehungen Text Mining Automatisierung für - Email Analyse - Allg. Kampagnenmanagement - Call Center Unterstützung -... u.ä. - Ausweitung von standardisierter DM Technik auf unstrukturierte Daten Analytisches CRM Operatives CRM Totale Integration von OCRM und ACRM Laufende Echtzeit DM Strategisches Marketing / MIS - Assistenzsysteme - Spezielle DM Methoden Page 13, Text Mining & CRM Data Mining

Architektur von Text Mining SW 2 E s gibt 3 + X spezialisierte SW Hersteller in Deutschland Die SW ist nicht fertig. TM ist immer ein komplexes Projekt. Die internen Methoden werden nicht offengelegt (sind vermutlich identisch) Unterschiede in der Unterstützung des Mining aufgrund von vorhandenen Stemmern / Wörterbüchern / Ontologien /...sonstigem a priori Wissen Schlechte Integration mit CRM Tools (Siebel, SAP, u.a.) Schlechte Integration mit Wissensmanagement SW / Methoden. Page 14, Text Mining & CRM

Anwendungen mit Standardsoftware Standardisierte Hauptanwendung sind die standardisierte Emailklassifikation und Verarbeitung Das Dokumenten-Retrieval (DMS als Wissensmanagement) Für feste Prozesse geeignet, wenn Email Dialoge mit Kunden standardisiert sind und die beteiligten Klassen grob sind. Grosse Dokumentenmengen auf einen Schlag gruppiert und nachgepflegt werden müssen. Kein Projekt ohne Customizing / Beratung möglich. Page 15, Text Mining & CRM

Explorative Anwendungen im CRM Zielgruppen explorieren Emailmenge automatisch gruppieren Durch Experten die ermittelten Gruppen analysieren Binäre Zielgruppenunterscheidungen testen Mit Klassifikation testen, ob Zielgruppen in Emails aufgrund von Wortlaut unterscheidbar sind. Monitoring von Gruppen in der Kommunikation Mit Klassifikatoren alle Emails einteilen. Zyklisch die Veränderung der Klassen testen. Page 16, Text Mining & CRM

Anwendungen im CRM One-to-One Marketing Response Management Autom. Zuordnung zu weiteren Bearbeitungsprozessen Autom. Antwortgenerierung Zielgruppenbestimmung / exploratives TM Diverse Op. Bereiche Servicebereiche / Reklamationen Call Center SW..... Diskussion... Page 17, Text Mining & CRM

Resumee Text Mining ist im CRM angekommen TM Software ist immer besser standardisiert Email / Response Anwendung steht im Vordergrund Exploratives Text Mining ist reine Beratertätigkeit Page 18, Text Mining & CRM

Modelle und Wahrscheinlichkeit von Dokumenten 1: Aus Dokumenten Modelle für Wörter und Wortfolgen schätzen. Prinzip der maximalen Wahrscheinlichkeit Bei einfachen Modellen: Relative Häufigkeiten P(DOK) wird definiert über die Wörter von DOK P(DOK) = P(W1) * P(W2) *... P(Wn) Für ein Dokument können wir ein typisches Modell schätzen DOK1 = Pi Pa Pi M(DOK1) = {P(Pi) = 2/3, P(Pa) = 1/3} DOK2 = Pa Pi Pa, M(DOK2) = {P(Pi) = 1/3, P(Pa) = 2/3} Die Wahl der Daten bestimmt die Natur des Modells M2 = M(DOK1 + DOK2) = {P(Pi) = 1/2, P(Pa) = 1/2} Page 19, Text Mining & CRM

Modelle und Wahrscheinlichkeit von Dokumenten 2 Die Bewertung von Dokumenten erfolgt geglättet PG(W) = 0,9 * P(G), falls W bekannt ist. 0,1 * 1/Wörter falls W neu ist. Geglättete Modelle generalisieren auf neue Daten: DOK3 = Pi Po {P(Pi) = 1/2, P(Pa) = 1/2} PG(DOK3) = PG(Pi) * PG(Po) = 0,45 * 0,05 = 0,025 DOK4 = Pi Pa {P(Pi) = 1/2, P(Pa) = 1/2} PG(DOK4) = PG(Pi) * PG(Pa) = 0,45 * 0,45 = 0,2025 Page 20, Text Mining & CRM