Informationsflut bewältigen - Textmining in der Praxis



Ähnliche Dokumente
Was ist PDF? Portable Document Format, von Adobe Systems entwickelt Multiplattformfähigkeit,

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

VERWENDEN VON ADOBE DIGITAL ENTERPRISE PLATFORM DOCUMENT SERVICES CONNECTOR FÜR MICROSOFT SHAREPOINT 10.0

SHAREPOINT Unterschiede zwischen SharePoint 2010 & 2013

3. GLIEDERUNG. Aufgabe:

Tel.: Fax: Ein Text oder Programm in einem Editor schreiben und zu ClassPad übertragen.

Verwenden der Option Laufzettel

IPA FAX Dienste. Die Alternative für Faxgeräte

PCC Outlook Integration Installationsleitfaden

Nutzung des Retain-Archivs

Seriendruck mit der Codex-Software

Automatisches Beantworten von - Nachrichten mit einem Exchange Server-Konto

Vorlesung Text und Data Mining S9 Text Clustering. Hans Hermann Weber Univ. Erlangen, Informatik

Outlook Vorlagen/Templates

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen mit SQL Server-Daten

Verwenden von Adobe LiveCycle ES3 Connector für Microsoft SharePoint

Anleitung zum Extranet-Portal des BBZ Solothurn-Grenchen

Seriendruck mit der Codex-Software

KONFIGURATION OUTLOOK ANYWHERE

GEORG.NET Anbindung an Ihr ACTIVE-DIRECTORY

Durch Drücken des Buttons Bestätigen (siehe Punkt 2) wird Ihre an Ihr Outlookpostfach weiterleiten.

E-TIME ADVANCED Dokumentation zum Vorgehen bei der elektronischen Zeiterfassung. Geben Sie folgende Internetadresse ein:

Das neue Tech Data Software Download Portal

Einrichten eines Exchange-Kontos mit Outlook 2010

User Manual Data 24. Login und Layout

Einfache und effiziente Zusammenarbeit in der Cloud. EASY-PM Office Add-Ins Handbuch

Einrichten einer Verbindung zwischen BlackBerry Endgerät und Exchange Postfach

Database Exchange Manager. Infinqa IT Solutions GmbH, Berlin Stralauer Allee Berlin Tel.:+49(0) Fax.:+49(0)

Fax einrichten auf Windows XP-PC

e-books aus der EBL-Datenbank

Überprüfung der digital signierten E-Rechnung

MSXFORUM - Exchange Server 2003 > Konfiguration Sender ID (Absendererkennu...

Anwendungsbeispiele Buchhaltung

Business Intelligence in NRW

12. Dokumente Speichern und Drucken

MSXFORUM - Exchange Server 2003 > Exchange 2003 Filter

Prof. Dr.-Ing. Rainer Schmidt 1

CdsComXL. Excel add-in für Bearbeitung und Auswertung der CDS-daten. ComXL-020/D, Spur Spur Spur Spur

Inhaltverzeichnis 1 Einführung Zugang zu den Unifr Servern Zugang zu den Druckern Nützliche Links... 6

Angaben zu einem Kontakt...1 So können Sie einen Kontakt erfassen...4 Was Sie mit einem Kontakt tun können...7

Neuerungen in ReviPS Version 12g

Bedienungsanleitung CAD-KAS Reklamationserfassung. Einen neuen Datensatz anlegen. Klicken Sie auf das + Symbol, um einen neuen Datensatz anzulegen.

BlackBerry Internet Service Einrichtung. auf

DFBnet Spielbericht online Spielberechtigungslisten erstellen

VDW Statistik Portal Häufig gestellte Fragen. Version 1.2 ( Katharina Düngfelder & Markus A. Litters) Vorwort

FAQ Häufig gestellte Fragen

Big, Bigger, CRM: Warum Sie auch im Kundenmanagement eine Big-Data-Strategie brauchen

YouTube: Video-Untertitel übersetzen

Weiterleitung einrichten für eine GMX- -Adresse

Anlegen eines SendAs/RecieveAs Benutzer unter Exchange 2003, 2007 und 2010

Einrichten des Elektronischen Postfachs

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

TeamSphere. Die Geo-Wissensdatenbank. Entwickelt von

1. Einschränkung für Mac-User ohne Office Dokumente hochladen, teilen und bearbeiten

Neugestaltung Homepage

teischl.com Software Design & Services e.u. office@teischl.com

Anleitung zur Erstellung eines PDF/A1b-konformen Dokuments aus einer PDF-Datei

Bedienungsanleitung für den SecureCourier

Importdatei EGID/EDID mit Excel erstellen und bearbeiten

Einrichtungsanleitungen Hosted Exchange 2013

1. Adressen für den Serienversand (Briefe Katalogdruck Werbung/Anfrage ) auswählen. Die Auswahl kann gespeichert werden.

Erstellen von Mailboxen

Delegieren von Terminen, Jobs oder Notizen aus dem Kalenderlayout auf Seite 111

Datensicherung und Wiederherstellung

TechNote: Exchange Journaling aktivieren

Wichtige Information zur Verwendung von CS-TING Version 9 für Microsoft Word 2000 (und höher)

itacom GmbH Oschatz Bahnhofstraße 6 IT and Communication Fax-to-PDF for DavidMX.doc Solution Datasheet Seite 1 von 5 Datenblatt

Turtle Charts mit der ViFlow Turtle Schablone (VTS) erstellen

Office 365 ProPlus für Studierende

Der Navigationsbereich

RightsLink der Frankfurter Buchmesse Dokumentation

Anleitung zur Mailumstellung Entourage

MAPS.ME. Benutzerhandbuch!

Schritt 1: Verwenden von Excel zum Erstellen von Verbindungen zu SQL Server Analysis Services-Daten

ClubWebMan Veranstaltungskalender

Übersicht... 2 Dateiupload... 3 Administratorfunktionen... 4

Windows 10. Vortrag am Fleckenherbst Bürgertreff Neuhausen.

Stornierungsbedingungen und weitere Voraussetzungen

CONVEMA DFÜ-Einrichtung unter Windows XP

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

A361 Web-Server. IKT-Standard. Ausgabedatum: Version: Ersetzt: Genehmigt durch: Informatiksteuerungsorgan Bund, am

Rechnung Angebot Zeiterfassung

atcsv2ctm Ein Tool für die Foldergenerierung mittels Excel/CSV in einem CONTROL-M Umfeld

Über uns. HostByYou Unternehmergesellschaft (haftungsbeschränkt), Ostrastasse 1, Meerbusch, Tel , Fax.

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

Kopieren, drucken, scannen

Bitte vor dem Gebrauch von CD Title Catcher unbedingt lesen. Überblick über CD Title Catcher... S. 2

Outlook 2013 Ablauf des Einrichtens in Outlook, um s zu signieren und/ oder verschlüsseln zu können

CM Studio.DMS-SERVER 2012

Adami CRM - Outlook Replikation User Dokumentation

Lernprogramm "Veröffentlichen von WMS- Services"

How- to. E- Mail- Marketing How- to. Subdomain anlegen. Ihr Kontakt zur Inxmail Academy

Pädagogische Hochschule Thurgau. Lehre Weiterbildung Forschung

Software Lösungen von masventa

Predictive Modeling Markup Language. Thomas Morandell

Newsletter mit diesem Informationsschreiben möchten wir Sie auf den Versionswechsel von 3.6 auf 3.7 aufmerksam machen.

7 SharePoint Online und Office Web Apps verwenden

Der Einsatz von Open-Source-Produkten im Unternehmen, dargestellt am Beispiel von OpenOffice

Transkript:

Informationsflut bewältigen - Textmining in der Praxis Christiane Theusinger Business Unit Data Mining & CRM Solutions SAS Deutschland Ulrich Reincke Manager Business Data Mining Solutions SAS Deutschland

Problemstellung Ist Riesige Datenmengen in operativen Systemen Datenhaltung in meist relationalen Strukturen Erfolgreiche Analysen der Daten durch Data Mining auf der Basis von vorstrukturierten Informationen (Merkmale) Problem Viele Informationen liegen in unstrukturierter Form vor, zum Beispiel in Texten: Dokumente, e-mails, Gebrauchsanweisungen, voice-mails etc. Diese Informationen müssen für eine ganzheitliche Sicht aus diesen Daten gewonnen werden können!

Text Mining ist... das Aufdecken und Verwenden des Wissens, dass in einer Sammlung von Dokumenten als Ganzes existiert. Dabei werden die Dokumente als Summe der in Ihnen vorkommenden Worte behandelt. Es handelt sich somit um eine semantische Dokumentenanalyse Text Mining ist nicht... Suchen von Text-Strings Information Retrival Spracherkennung Sprachverarbeitung

Text Mining Anwendungen Automatische Klassifikation von Dokumenten Automatisches Filtern von E-mails Einstufung von Dokumenten in verschiedene Kategorien Clusterung Intelligente Suche in großen Dokumente-Datenbanken - Patente - Abstracts aus Bibliografischen Katalogen, z.b. Medline - Patienten- und Behandlungsakten in Krankenhäusern Vorhersage Kostenprognose basierend auf Call Center Log Kategorisierung von Hotline-Anrufen

Schritte des Text Mining Texte einlesen Datenvorverarbeitung Dimensionsreduktion (Singulärwert Zerlegung) Text Mining Einsatz verschiedener Verfahren (u.a. Clustering, Neuronale Netze, Regression) Hinzufügen weiterer Variablen zu den Ergebnissen

Datenvorverarbeitung 1: Einlesen der Texte Adobe Portable Document Format (PDF) 1.1 to 4.0 Applix Asterix Applix Asterix Applix Spread sheet 10 Corel Presentations 7.0, 8.0 Corel Quattro Pro for windows 7.0, 8.0 Document Content Architecture (DCA)-RTF sc23-0758-1 Framemaker Interchange Format (MIF) 5.5 HTML All IBM DisplayWrite 1.0, 1.1 Lotus 1-2-3 2, 3, 4, 96, 97, R9 Lotus AMI pro 2.0, 3.0 Lotus Freelance 96, 97, R9 Lotus Word pro 96, 97, R9 Microsoft Excel 3, 4, 5, 97, 98, 2000 Microsoft PowerPoint 4.0, 95, 97 Microsoft Rich Text Format All Microsoft Word 1.x, 2.0, 6.0, 7.0, 8.0, 95, 97, 2000 Microsoft Word for DOS 2.2 to 5.0 Microsoft Word for MAC 4.x, 5.x, 6.x, 98 Microsoft Works 1.0, 2.0, 3.0, 4.0 WordPerfect for DOS 5.0, 6.0 WordPerfect for MAC 2.0, 3.0 WordPerfect for Windows 7.0 XYWrite 4.12

Datenvorverarbeitung 2: Abgleich mit bekannten Mustern und Synonymen (z.b. Personennamen, Firmennamen wie SAS Institute, SAS, SAS Institute Inc. und SAS Institute GmbH ) Reduktion der Wortmorphologie z.b esse und isst Eliminierung von irrelevanten Wörtern Durch Benutzergesteuerte Stop Listen Erstellen einer Häufigkeitstabelle der Ausdrücke Am Ende wird ein Dokument repräsentiert als die Summe der darin enthaltenen Worte

Ziel: Business Case e-mail-klassifikation Automatische Klassifikation von e-mails, um eine automatische Vorverarbeitung zu erreichen Benefits: Schnelle Reaktionszeiten Ressourceneinsparung Prozessautomatisierbarkeit Umsetzung: Einlesen der e-mails Anwendung eines Modells, das aufgrund des Inhaltes der e-mail klassifiziert (nicht rein auf Schlüsselwörtern basierend) Weiterleiten der e-mail zur entsprechenden Stelle / Abteilung

Einfache Import Funktion mit dem Enterprise Guide Wähle Exchange server icon Einlesen der E-Mails in SAS Wähle eine Mailbox

Generiert einen strukturierten SAS Datensatz

Attribute des E-Mail Data Set Sender und Empfänger Attirbute Zeit Attribute Attachments, Priorität etc. Body enthält den text

Prozessflussdiagramm

Ergebnisse Textparsing

Ergebnisse Entscheidungsbaum ohne Textinformationen

Vergleich beider Ansätze Mit Textmining Ohne Textmining

Zusammenfassung Wie beim richtigen Data Mining benötigt man für ein Text Mining Projekt eine sehr aufwendige Datenvorverarbeitung ( 70-90% der Zeit) Mit der SAS Text Mining Lösung können Sie vom Einlesen über Reduktion bis hin zum Klassifizieren und Erstellen eines grafischen Output den ganzen Text Mining Prozess abbilden und mit der SAS Internet Technologie sogar weltweit zur Verfüung stellen Text Mining kann Ihnen das übergreifende und verdeckte Wissen erschließen, dass sich in großen Dokumente-Sammlungen verbirgt, die kein Mensch allein Lesen kann oder will.