Text Mining und CRM Hans Hermann Weber Univ. Erlangen IMMD 8, den 12.09.03
Was ist Textmining Unstrukturierte Daten (Text) anreichern mit Strukturinformation: Metadaten hinzufügen Struktur (Segmentinformation) hinzufügen Exzerpte erzeugen Gegensatz zu Datamining Statistische Verfahren auf hochstrukturierten Daten Page 2, Text Mining & CRM
Inhalt Methodeneinführung (6) Verschlagwortung Klassifikation Gruppierung (Clustering) Architektur von Text Mining Systemen (2) CRM und Text Mining im Kreuz Anwendungsszenarien Schlusswort Page 3, Text Mining & CRM
Grundverfahren Verschlagworten Zuordnen von Suchbegriffen oder Gruppenoberbegriffen CMS, Text Retrieval, Suchmaschinen, Inhaltsverzeichnisse Gruppieren Dokumente in Gruppen von ähnlichen einteilen. Wissensmanagement, Semantic Web Klassifizieren Einsortieren von Dokumenten in eine von N bekannten Klassen Spam, E-Commerce, Bibliotheken, Office-Kommunikation, CRM Alle komplexen Vorgehen im Textmining werden aus den drei oben zusammengesetzt. Page 4, Text Mining & CRM
E rzeugen von Inhaltsverzeichnissen Formal: Zwei Dokumente hintereinander sind wieder ein neues Dokument Aufbau einer Hierarchie mit Wörtern als Knotennamen: Wiederholtes Clustering auf immer weniger Clustern. In jedem Schritt werden die Dokumente in einem Cluster zu einem Dokument verknüpft. Danach neue Dokumente durch wiederholtes Klassifizieren top down in die Hierarchie einfügen. Die Verfahren sind beliebig mit Ontologien und Thesauri erweiterbar. Im Prinzip jedoch unüberwacht durchführbar. Page 5, Text Mining & CRM
Stochastische Modelle Alle TM Verfahren funktionieren mithilfe von Modellen Modelle werden aufgrund von relativen Häufigkeiten aus Beispieltexten ermittelt. T rainigsdaten = Beispieltexte Modell: Relative Häufigkeiten von Wörtern und Wortfolgen und daraus abgeleiteten Wörterklassen Für das Modell sind entscheidend Die Komplexität der gespeicherten Einheiten Die Trainingsdaten Page 6, Text Mining & CRM
Verschlagwortung von Dokumenten Klasse Alle Alle Dokumente Allgemeines Modell P(V alle) Testwort V Klasse Dok Genau ein Dok Modell für Dok P(V Dok) Falls P(V alle) P(V Dok), dann ist V ein Stopwort Falls P(V alle) << P(V Dok), dann ist V ein Schlagwort Page 7, Text Mining & CRM
Klassifikation von Dokumenten Klasse 1 Dok-menge 1 Pi Pa Po Modell 1 Klasse 2 Dok-menge 2 Modell 2 P1(Pi Pa Po Klasse 1) Maximum? P2(Pi Pa Po Klasse 2) Gesucht wird: Klasse_i, bei Max[ P(Klasse_i W1..Wn) ] Entspricht nach Bayes Klasse_i, bei Max[ P(W1..Wn Klasse_i) * P(Klasse_i) ] Page 8, Text Mining & CRM
Gruppierung (Clustering) von Dokumenten G1 Dok1 Dok2 Dok1 Dok2 Gruppierung 1: M1 aus G1 M2 aus G2 G2 Dok3 G3 Dok3 G4 Gruppierung 2: M3 aus G3 M4 aus G4 geschätzt geschätzt P(alle Gr1) = P(Dok1 M1) * P(Dok2 M1) * P(Dok3 M2) P(alle Gr2) = P(Dok1 M3) * P(Dok2 M4) * P(Dok3 M4) Falls P1 > P2, dann ist Gruppierung 1 bes ser als Gruppierung 2 Page 9, Text Mining & CRM
Methodenresumee 1 Bei komplexeren Modellen bleiben die Grundverfahren gleich aber es werden nicht nur Einzelwörter verwendet Alle Arten der Vorverarbeitung und Wissensanreicherung durch Regeln und Expertenwissen sind aus der Sicht der Stochastik Parameterreduktionen Durch Kombination der Grundtechniken können auch komplexe Informationsdarstellungen und Extrakte über sehr großen Dokumentenmengen vollautomatische erreicht werden.. Page 10, Text Mining & CRM
Methodenresumee 2 Komplexere Kombinationen sind derzeit noch nicht unüberwacht anwendbar. Einfache Verfahren sind in der Praxis gut unüberwacht einsetzbar. Alle Verfahren setzen die Verfügbarkeit von Massendaten bzw. T rainingsdaten voraus Page 11, Text Mining & CRM
Architektur von Text Mining SW 1 Linguistische Vorverarbeitung (Cleansing, Normalisation, diverses) Hier sind die wesentlichen Produktunterschiede... Standards:Verschlagwortung/ Klassifikation / Gruppierung Immer besser standardisiert. Am einfachsten stochastisch + Ontologie -> Höhere Strukturimplikation zusammengesetzt aus den Basismethoden: Semantik Web / Query Preprocessing Anbindung an die Anwendungen Page 12, Text Mining & CRM
CRM und Text Mining Beziehungen Text Mining Automatisierung für - Email Analyse - Allg. Kampagnenmanagement - Call Center Unterstützung -... u.ä. - Ausweitung von standardisierter DM Technik auf unstrukturierte Daten Analytisches CRM Operatives CRM Totale Integration von OCRM und ACRM Laufende Echtzeit DM Strategisches Marketing / MIS - Assistenzsysteme - Spezielle DM Methoden Page 13, Text Mining & CRM Data Mining
Architektur von Text Mining SW 2 E s gibt 3 + X spezialisierte SW Hersteller in Deutschland Die SW ist nicht fertig. TM ist immer ein komplexes Projekt. Die internen Methoden werden nicht offengelegt (sind vermutlich identisch) Unterschiede in der Unterstützung des Mining aufgrund von vorhandenen Stemmern / Wörterbüchern / Ontologien /...sonstigem a priori Wissen Schlechte Integration mit CRM Tools (Siebel, SAP, u.a.) Schlechte Integration mit Wissensmanagement SW / Methoden. Page 14, Text Mining & CRM
Anwendungen mit Standardsoftware Standardisierte Hauptanwendung sind die standardisierte Emailklassifikation und Verarbeitung Das Dokumenten-Retrieval (DMS als Wissensmanagement) Für feste Prozesse geeignet, wenn Email Dialoge mit Kunden standardisiert sind und die beteiligten Klassen grob sind. Grosse Dokumentenmengen auf einen Schlag gruppiert und nachgepflegt werden müssen. Kein Projekt ohne Customizing / Beratung möglich. Page 15, Text Mining & CRM
Explorative Anwendungen im CRM Zielgruppen explorieren Emailmenge automatisch gruppieren Durch Experten die ermittelten Gruppen analysieren Binäre Zielgruppenunterscheidungen testen Mit Klassifikation testen, ob Zielgruppen in Emails aufgrund von Wortlaut unterscheidbar sind. Monitoring von Gruppen in der Kommunikation Mit Klassifikatoren alle Emails einteilen. Zyklisch die Veränderung der Klassen testen. Page 16, Text Mining & CRM
Anwendungen im CRM One-to-One Marketing Response Management Autom. Zuordnung zu weiteren Bearbeitungsprozessen Autom. Antwortgenerierung Zielgruppenbestimmung / exploratives TM Diverse Op. Bereiche Servicebereiche / Reklamationen Call Center SW..... Diskussion... Page 17, Text Mining & CRM
Resumee Text Mining ist im CRM angekommen TM Software ist immer besser standardisiert Email / Response Anwendung steht im Vordergrund Exploratives Text Mining ist reine Beratertätigkeit Page 18, Text Mining & CRM
Modelle und Wahrscheinlichkeit von Dokumenten 1: Aus Dokumenten Modelle für Wörter und Wortfolgen schätzen. Prinzip der maximalen Wahrscheinlichkeit Bei einfachen Modellen: Relative Häufigkeiten P(DOK) wird definiert über die Wörter von DOK P(DOK) = P(W1) * P(W2) *... P(Wn) Für ein Dokument können wir ein typisches Modell schätzen DOK1 = Pi Pa Pi M(DOK1) = {P(Pi) = 2/3, P(Pa) = 1/3} DOK2 = Pa Pi Pa, M(DOK2) = {P(Pi) = 1/3, P(Pa) = 2/3} Die Wahl der Daten bestimmt die Natur des Modells M2 = M(DOK1 + DOK2) = {P(Pi) = 1/2, P(Pa) = 1/2} Page 19, Text Mining & CRM
Modelle und Wahrscheinlichkeit von Dokumenten 2 Die Bewertung von Dokumenten erfolgt geglättet PG(W) = 0,9 * P(G), falls W bekannt ist. 0,1 * 1/Wörter falls W neu ist. Geglättete Modelle generalisieren auf neue Daten: DOK3 = Pi Po {P(Pi) = 1/2, P(Pa) = 1/2} PG(DOK3) = PG(Pi) * PG(Po) = 0,45 * 0,05 = 0,025 DOK4 = Pi Pa {P(Pi) = 1/2, P(Pa) = 1/2} PG(DOK4) = PG(Pi) * PG(Pa) = 0,45 * 0,45 = 0,2025 Page 20, Text Mining & CRM