Text Mining - Wissensrohstoff Text

Größe: px

Ab Seite anzeigen:

Download "Text Mining - Wissensrohstoff Text"

Michaela Fuhrmann
vor 8 Jahren
Abrufe

1 Text Mining - Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik

2 Grundlagen und Begriff 2

3 Informatik und ihre Anwendungen Wissenschaftliches Rechnen 70er 80er Datenbanken, Digitalisierung von Geschäftsprozessen (Wirtschaftsinformatik) Digitalisierung von elektrotechnischen Anwendungen, Beginn der Textverarbeitung, SGML 90er seit 2000 Digitalisierung von analogen Medien, Vernetzung von verteilten Ressourcen: http, HTML, XML Internet basierte Dienste, Wissensmanagement 3

4 Digitalisierungsprojekte Bochum, 4. Februar

5 Das große Aber der Digitalisierung What do you do with a million books? (Gregory Crane, DL Magazine 2006) Wer soll das alles lesen? Wie können die Inhalte genutzt werden? Wie können die Ergebnisse ins Netz zurückfliessen? Bochum, 4. Februar

6 Definition Process of deriving high-quality information from text (Feldman & Sanger 2006) Text mining [is] "distant reading" i.e. opposed to "close reading (ttasovac on twitter, Jul. 5th 2010) Im weiteren Sinne: Technologie für die automatische Strukturierung und Transformierung von (meist sehr großen) Textkollektionen Bochum, 4. Februar

7 Text Mining (Begriff): Inhaltlich orientierter Zugriff auf unstrukturierte Daten Zugriffsergebnis bekannt Zugriffsergebnis nicht bekannt Strukturierte Daten Unstrukturierte Daten Datenabfrage Datenbank-Systeme Inhaltsabfrage Dokumentenmanagement-Systeme Datenanfrage Suchmaschinen, Data Mining Inhaltsanfrage Text Mining Werkzeuge 7

8 Text Mining Voraussetzung: Text ist digitaler Wissensrohstoff Wissensbasierte/ Regelbasierte Ansätze problematisch zu große Menge an Textdaten flexible Strukturen erforderlich Zeit, Geld und Repräsentationsformalismen beschränken die Codierung von Wissen Text Mining Forschungsbereich zwischen Information Retrieval und linguistischer Informatik 8

9 Text als Grundlage der Wissensverarbeitung Einige Arbeitshypothesen Wissen wird hauptsächlich durch (digitalen) Text vermittelt (Wissensgesellschaft) digitaler Text dient als Codierung von Wissen digitaler Text ist in sehr grossen Mengen verfügbar Text kann als digitaler Wissensrohstoff wiederverwendet werden (vgl. translation memories) semantische Relationen können unter Verwendung vorhandener Ressourcen (z.b. Lexika, Mark-ups u.a. Wissensquellen) automatisch extrahiert werden 9

10 Aufgaben des Text-Mining Erweitertes Text-Retrieval Finden von Definitionen, Erläuterungen, Referenzen, Zitaten ggf. mehrsprachig Unterstützung der explorativen Suche Inhaltsanalyse Extrahieren von Eigennamen und Fachterminologie Finden von fachspezifischen Schlüsselbegriffen Entdecken latenter semantischer Gemeinsamkeiten Berechnung semantischer Relationen zwischen Entitäten Clustern und Klassifizieren von Termen, Entitäten und Dokumenten Entdecken von interessanten Konzepten und Trends 10

11 Anwendungsbereiche des Text-Mining Konzeptbasierte Suche bzw. Finden ähnlicher Texte (Dokumente, Definitionen, Produktbeschreibungen...) WWW, Intranet, Portale Dokumenten-Management-Systeme, e/i/m-commerce Call Center, CRM Netzoptimierung und -verwaltung (Communities) Plagiatserkennung, Zitationsspuren, Text Reuse Dokumentenklassifikation und Clustering Archivierung und Suche Workflow-Optimierung ( s, Geschäftsvorfälle,...) Informationsstrukturierung und extraktion Aufbau von Ontologien Wissensakquisition Opinion Mining und Sentiment Analysis Trend und Topic Detection 11

12 Beispiele 12

13 Text Classification elektra.digicol.de

14 Text Classification: Use assign new stories to person in charge personal profile distribute to responsible person find scientific articles belonging to a topic find patents for a specific problem class

15 Similarity Search

Similarity Search http://citeseer.ist.psu.

16 Similarity Search Back links: find follow-up work Reconstruct discourse Measure impact Search by co-citation, context of reference Search contributions by author, etc.

17 Text Clustering Cluster search results Extract cluster labels Hierachical clusters

18 Text Clustering: Grafical Representation Cluster web sites Arrange by similarity

19 Taxonomies Hierachical organization of concepts Domains: patents, computer science, medical science Tasks Assignment of phrases to taxonomy concepts Automatic generation of taxonomies

20 Question Answering

21 Information Extraction Identify Names Locations Institutions Points in time, dates Amounts of money

22 Product Recommendations

23 Verfahren und ihre Voraussetzungen 23

24 Verfahren Stringbasierte Verfahren Editierdistanz und Alignment für N-Gramme (Buchstaben, Wortformen, Phrasen) Text Reuse und Zitationsgraphen Musterbasierte Verfahren Patterns, bootstrapping NER, Informations- und Relationsextraktion Inhaltsanalysen Topic Modelle und latent semantic analysis Machine learning (clustering, classification) Kookkurrenzbasiertes Text Mining Graphbasierte Verfahren Hybride Verfahren Anwendungsspezifische Kombinationen aus o.g. Verfahren 24

25 Voraussetzung Datenaufbereitung 1. Preprocessing: Säubern, LangID, Verweise, Filter: Zerlegung, Markup, Metadaten, Analysis of text Dokumente 3. Verarbeitung: - Indexierung - Muster basierte Verfahren - statistische Verfahren Ergebnisdatenbanken Vorstellungsvortrag GESIS dummy

26 Texte und Textparameter Text hat Struktur Wörter und ihre Reihenfolge nicht zufällig Satzfolge nicht zufällig Text hat Autor(en) Text hat Adressat(en) Text hat Entstehungskontext Text entsteht in einem Medium Entstehungskontext hat Zeit- und Raumkoordinaten Bezug zu Konzept der Fachsprachen und Sprachregister Rekonstruktion einzelner Textparameter interessante Fragestellung fürs Text Mining Modul Linguistische Informatik 26

27 Textstruktur und Termhierarchie: Algorithmen in C++ (Sedgwick) Inhalt Algorithmen in c++ Grundlagen... Sortieren Suchen Elementare Sortierverfahren Quicksort Grundalgorithmus Leistungsmerkmale ACM Hierarchy ACM CCS Theory of Computation Analysis of Algorithms and Problem Complexity Nonnumerical Algorithms and Problems Sorting and Searching Quicksort Pivot element

28 Textparameter finden ihren Niederschlag in Textmerkmalen N-Gram Frequenzen und Signifikanzen Kookkurrenzen getypte N-Gramme und Kookkurrenzen relative Häufigkeiten von (getypten) N-Grammen und Kookkurrenzen (z. B. relativer Anteil von Stopwörtern, Nomina oder Mehrworttermen) Ähnlichkeiten von N-Gramme und Kookkurrenzen (z. B. Editierdistanzen, Dice, ) Muster von (getypten) N-Gramme mit oder ohne Wildcards Veränderungen von Textmerkmalen über die Zeit Modul Linguistische Informatik 28

29 Patterns nach Winograd Patterns 1. einfache oder literal patterns 2. open patterns (Nutzung von Wildcards) 3. variable patterns (Nutzung von Variablen u. Lexika) 4. Satzstruktur Patterns - semantisch - syntaktisch (LFG) Vergleiche Ausdrücke (gemäß eines Ähnlichkeitsmaßes) und matche (abgleichen) in Bezug auf Constraints Modul Linguistische Informatik 29

30 Weitere Textmerkmale In der Literatur finden sich zahlreiche Beschreibungsparameter für Texte, die Einfluss auf die zu verarbeitenden Features haben, z.b. Entropy, Concentration, Dispersion, Repetition, Predictability, Grammaticality, Sentence Length, Spelling Accuracy u.v.m. (vgl. Testilova 1992, Semino & Short 2004, Jockers et. al. 2011, Schierle 2011) Modul Linguistische Informatik 30

31 Beispiel für Textmerkmale [Schierle 2011, S. 35] Modul Linguistische Informatik 31

32 Textmerkmale sind zentral fürs maschinelle Lernen im Text Mining Modul Linguistische Informatik 32

33 Abschließendes Beispiel Einfluss von Textmerkmalen auf die Qualität einer Sachgebietsklassifikation Naiver Bayes scher Klassifikator mit Unigrammen auf Filmempfehlungen: ~ 70% ['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog'] Selbe Anwendungsdomäne, aber mit den top most informative features: ~ 93% Modul Linguistische Informatik 33

34 Literatur Heyer, G., Quasthoff, U., Wittig, Th., Text Mining Wissensrohstoff Text, W3L Verlag: Bochum 2006 Manning, C., Schütze, H., Foundations of Statistical Language Processing, MIT Press: Cambridge (Mass.) 1999 Witten, I., Frank, E., Data Mining: Practical Machine Learning Tools and Techniques with JAVA Implementations, Morgan Kaufman: San Francisco

Ähnliche Dokumente

Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de

Text Mining Wissensrohstoff Text Gerhard Heyer Universität Leipzig heyer@informatik.uni-leipzig.de Institut für Informatik Grundlagen und Begriff 2 Informatik und ihre Anwendungen 1940-1960 Wissenschaftliches