Seite 1 ITyX Gruppe 2013

Größe: px

Ab Seite anzeigen:

Download "Seite 1 ITyX Gruppe 2013"

Christin Pohl
vor 7 Jahren
Abrufe

1 Seite 1

2 Track 1: Input Management Posteingang mit bunten Dokumenten (Papier, , Web & Social Media) Dr. Melanie Knapp, Maren Prox Seite 2

3 Gliederung des Workshops Textanalyse in Theorie und Praxis Impulsvortrag: Das Big Picture der Textanalyse Beispielszenario: Beschwerdemanagement Boxenstopp 1: Text Klassifikation Übung: Klassifizieren von Eingangspost Boxenstopp 2: Text Extraktion Übung: Extraktion von Kundendaten Boxenstopp 3: Text Validierung Übung: Validierung und Anreicherung von Kundendaten Seite 3

4 Das Big Picture der Textanalyse Was bewegt die Kunden? Angeblich drei mal Lieferung verpasst ohne ein Schreiben Anschrift konnte nicht gefunden werden Paket wird nicht ausgeliefert, sondern in Nachbars Garten gelegt Seite 4

5 Das Big Picture der Textanalyse Verschiedene Ansätze der Datenanalyse Seite 5

6 Das Big Picture der Textanalyse Verschiedene Ansätze der Datenanalyse Text Mining [ ] ist ein Bündel von Analyseverfahren, die die [ ] Entdeckung von Bedeutungsstrukturen aus un- oder schwachstrukturierten Textdaten ermöglichen soll. Mit statistischen und linguistischen Mitteln erschließt Text-Mining-Software aus Texten Strukturen, die die Benutzer in die Lage versetzen sollen, Kerninformationen aus den verarbeiteten Texten schnell zu erschließen. Text-Mining-Systeme liefern im Optimalfall Informationen, von denen Benutzer zuvor nicht wussten, dass sie existieren. (Wikipedia, ) Typische Herausforderungen:! Klassifikation! Zuweisung einer Kategorie auf Basis des gesamten Dokuments.! Informationsextraktion! Erkennung relevanter (struktureller bzw. semantischer) Informationen innerhalb eines Dokuments. Seite 6

7 Das Big Picture der Textanalyse Was erschwert die Analyse natürlicher Sprache? Umgangssprache Wir sind SOO Stolz was du geschafft hast! vollkrass :-) endlich wird #berlusconi eingebungat Komposita Donaudampfschifffartskapitän Gottseibeiuns Schadstofffreiheit Redensarten Schwein haben kalte Füße kriegen Gesicht verlieren das Handtuch werfen Neologismen Spinoff, Menschenmaterial Servicepoint, Entsorgungspark Politesse, Islamophobie Weltwissen Eva und Susi sind Schwestern. Eva und Susi sind Mütter. Ausgefallenen Namen Einstürzende Neubauten sangen Der Silver Mist fuhr gegen... Seite 7

8 Das Big Picture der Textanalyse Text Mining schafft Raum für wichtigere Aufgaben oder befreit sie im Alltag von (lästigen) Routine-Aufgaben? GOETHE INTERNET TEXT MINING Dokumente finden Lesen Verstehen Zusammenführen Agieren Seite 8

9 Das Big Picture der Textanalyse Wie erhält man die gewünschten Informationen? Traditioneller regelbasierter Ansatz erfordert menschliche Spezialisten, um das benötigte Wissen zu spezifizieren und zu formalisieren.! Manuelles "Wissens-Engineering" ist schwierig, zeitaufwändig und fehleranfällig.! Regel haben vielfältige Ausnahmen.! Manuell entwickelte Regelwerke haben begrenzte Fähigkeiten und sind nicht robust (empfindlich gegen kleine Änderungen). Seite 9

10 Das Big Picture der Textanalyse Maschinelles Lernen! Trainingsmenge: Eine Sammlung von Dokumenten, welche schon mit den gewünschten Labeln annotiert wurden, z.b. Klassenname.! Maschinelles Lernen: Verwendet Methoden der Statistik, um die relevante Information automatisch aus der Trainingsmenge zu extrahieren! Training! Anwendung des Modells auf ein neues Dokument: Prognostiziert gewünschte Annotationen! Prognose!"#$%$%&'() *+%&+),-.+//) %+0+') 1-20*+%3) Prognose Training 1-20*+%3)4) 5%%-3#6-%) Seite 10

11 Beispielszenario: Beschwerdemanagement Datenbeschaffung Ziel: Aufbau eines Beispielszenarios, in dem eingehende Beschwerden kategorisiert und die Kundendaten extrahiert sowie validiert werden Vorbereitungsschritte:! Auswahl eines Unternehmens! Contex crawlt Beschwerden des Unternehmens Seite 11

12 Boxenstop 1: Text Klassifikation Gliederung der Übungseinheit Übungsschritte:! Erstellen einer Trainingsmenge! Trainieren eines Modells! Interpretation der Performanz des Modells! Produktiveinsatz des Modells Seite 12

13 Boxenstop 1: Text Klassifikation Ist das eine Beschwerde? Ihr Fahrer in unserem Gebiet ist unverantwortlich. Kein Zustellversuch, keine Nachricht. Der legt unser Paket einfach in Nachbars Garten, die Nachbarin hat es nach Tagen dort per Zufall gefunden. Das ist wirklich das Allerletzte! Es ist unglaublich. Erst konnte ilogistics meine/ unsere Adresse nicht finden, nun kommen gar keine Pakete mehr an und gehen immer weiter an den Absender zurück. Dies ist zum dritten Mal passiert. Seite 13

14 Übung Erstellen einer Trainingsmenge Checkliste Trainingsmenge! keine Duplikate in verschiedenen Kategorien! keine mehrsprachigen Dokumente! keine handschriftlichen Dokumente! keine falsche Klassenzuordnung! gut abgrenzbare Klassen! gute Repräsentativität der Produktivdaten Seite 14

15 Boxenstop 1: Text Klassifikation Warum sollte man Textklassifikatoren trainieren?! Manuelle Klassifikation ist teuer und skaliert nicht gut.! Manuell konstruierte Klassifikationsregeln haben oft keine ausreichende Genauigkeit.! Synonyme, viele äquivalente Formulierungen! Manchmal ist kein Experte verfügbar.! Trainingsdaten sind oft billig Seite 15

16 Boxenstop 1: Text Klassifikation Gliederung der Übungseinheit Übungsschritte:! Erstellen einer Trainingsmenge! Trainieren eines Modells! Interpretation der Performanz des Modells! Produktiveinsatz des Modells Seite 16

17 Boxenstop 1: Text Klassifikation Repräsentation der Dokumente im Bag-of-Word Modell Repräsentation eines Textes als Vektor mit Wortfrequenzen in einem n -dimensionalen Vektorraum x x 2 Bundeskanzler Schalke BSE nach die... = x 1 Seite 17

18 Boxenstop 1: Text Klassifikation Mathematische Beschreibung der Klassifikationsaufgabe Aufgabe: Lerne Kategorien aus Daten Eingabe: x i =(x i,1,, x i,100 ), x j : Wort j in Text i Ausgabe: y i ={yes,no} e.g. Sport / kein Sport Funktion: y i =f(x i,1,, x i,100 ) x 1 x 2 x 3 Sport nein Auto - - nein - Geld - nein Auto Geld - nein - - Spieler j a Auto - Spieler j a - Geld Spieler j a Auto Geld Spieler? Seite 18

19 Boxenstop 1: Text Klassifikation Klassifikation: Support Vector Machine Dokumente der Zielklasse Dokumente der alternativen Klasse Kategorie 2 Kategorie 1 Abstand zur Ebene = Reliability Seite 19

20 Boxenstop 1: Text Klassifikation Gliederung der Übungseinheit Übungsschritte:! Erstellen einer Trainingsmenge! Trainieren eines Modells! Interpretation der Performanz des Modells! Produktiveinsatz des Modells Seite 20

21 Boxenstop 1: Text Klassifikation Gütekriterien eines Modells 3 False Negatives (Beschwerden falsch als Kündigung klassifiziert) 5 True Positives (Beschwerden korrekt als Beschwerden klassifiziert) Klasse (Prognose) Beschwerde Kündigung Auftrag Beschwerde Klasse (Original) Kündigung Auftrag False Positives (Kündigungen falsch als Beschwerden klassifiziert) 17 True Negatives (alle übrigen Kategorien korrekt als nicht Beschwerde klassifiziert) Seite 21

22 Boxenstop 1: Text Klassifikation Performanzmaße für ein Modell Klasse (Prognose) Beschwerde Kündigung Auftrag Fehlende Ergebnisse Klasse (Original) Beschwerde Kündigung Auftrag Recall BESCHWERDE = = 0,63 Precision BESCHWERDE = = 0,71 Unerwartete Ergebnisse Seite 22

23 Boxenstop 1: Text Klassifikation Gliederung der Übungseinheit Übungsschritte:! Erstellen einer Trainingsmenge! Trainieren eines Modells! Interpretation der Performanz des Modells! Produktiveinsatz des Modells Seite 23

24 Demo Trainieren eines Modells in Contex Seite 24

25 Boxenstopp 2: Text Extraktion Gliederung der Übungseinheit Übungsschritte:! Konfigurieren der Information Extraktion! Extrahieren von Kundendaten! Weiterverarbeitung von extrahieren Informationen Seite 25

26 Boxenstopp 2: Text Extraktion Extraktion von Informationen Kundennummer Vorname Nachname 7"8#''0%&) 5%#/9'+) :+$3+";+"#"<+$30%&) Seite 26

27 Boxenstopp 2: Text Extraktion Extraktion von Information Steuer-ID Antragsteller Semi-strukturiert Unstrukturiert Absender Kd.Nr. Datum Seite 27

28 Boxenstopp 2: Text Extraktion Extraktion von unstrukturierten Informationen Beispiel Reclabox! Name! Sendungsnummer! Datum! Wettbewerber Seite 28

29 Boxenstopp 2: Text Extraktion Verwendung von Information Extraktion Künstliche Intelligenz! Große Vision der KI: Erfasse die Bedeutungen in natürlicher Sprache! Neue Fortschritte in maschinellem Lernen und Linguistik Wirtschaft! Erfasse Daten und Informationen in unstrukturierten Texten! Kosteneffektive Verarbeitung von Informationen Seite 29

30 Demo Extraktion mit Contex (unstrukturiert und semistrukturiert) Seite 30

31 Boxenstopp 3: Text Validierung Gliederung der Übungseinheit Übungsschritte:! Rechtschreibprüfung und unscharfe Suche! Anreichern von extrahieren Informationen mit Stammdaten! Übergabe von angereicherte Informationen aus Mediatrix an Drittsysteme Seite 31

32 Demo Validieren und Anreichern im Verarbeitungsprozess Seite 32

Ähnliche Dokumente

OMNICHANNEL CAPTURE PLATFORM OCP

OMNICHANNEL CAPTURE PLATFORM OCP EINE LÖSUNG FÜR ALLE QUELLEN UND FORMATE POSTEINGANG INTELLIGENT AUTOMATISIEREN DIGITALE EINGANGSPOST AUTOMATISCH VERARBEITEN Täglich werden im INPUT MANAGEMENT Ihres Unternehmens