Textmining Matthias Stöckl

Größe: px

Ab Seite anzeigen:

Download "Textmining Matthias Stöckl"

Florian Pfaff
vor 5 Jahren
Abrufe

1 Textmining Matthias Stöckl

2 1. Einführung und Grundlagen 1. Einführung und Grundlagen Definition : Informationen, die sprachlich gegeben sind explizit zu machen um sie maschinell zu erschließen. Teilgebiet von Data-Mining Schürfen statt surfen Dokument: Sinneinheit aus Text

3 1. Einführung und Grundlagen Metadaten: Eigenschaften eines Dokumentes zentrale Bedeutung» Fokusierung deskriptive Metadaten (Entstehungskontext, Format, rechtlicher Aspekt) semantische Metadaten (Schlüsselwörter, Zusammenfassungen)

4 !. Einführung und Grundlagen Ablauf eines Textminingprogrammes: Entfernen aller Satzzeichen Sortieren aller Wörter nach Häufigkeit Extrembereiche abschneiden Wort-Zahl-Paarbildung» Textmuster

5 1. Einführung und Grundlagen Bild 1 : Modell eines Textminigprogramms (Hightechreport 1/2002)

6 1. Einführung und Grundlagen jedes Dokument entspricht Vektor in N-dim Raum Vergleich durch Winkelberechnung (Distanzmaß = cos á) Vorteil : automatische Normalisierung (Werte 0 1)

7 2. Erschließung des Dokumenteninhaltes 2. Erschließung des Dokumenteninhaltes Schlüsselwortextraktion wichtigste Wörter und Wortfolgen werden extrahiert (Namen, Abkürzungen, Wertbeträge,...) auf einzelne Dokumente und Kollektionen anwendbar Textzusammenfassung Extraktion der wichtigsten Sätze

8 2. Erschließung des Dokumenteninhaltes Wortbasiertes Verfahren Häufigkeit der Wörter > 1 Überschriften erhalten besonders hohen Wert Strukturbasiertes Verfahren Satzwichtigkeit abhängig vom Paragraphenanfang Finale Sätze erhalten höhere Wertigkeit

9 3. Strukturermittlung in Dokumentenkollektionen 3. Strukturermittlung in Dokumentenkollektionen Clustering : Dokumentenunterteilung in Gruppen Im Cluster Dokumente max. ähnlich, außerhalb max. unähnlich. Ähnlichkeit durch : gemeinsame Schlüsselwörteranzahl lexikalische Affinitäten Quellenangaben Zwei Verfahren : Hierarchisches Clustering verschachtelte Datenmenge, Dendrogrammstruktur

10 3. Strukturermittlung in Dokumentenkollektionen Bild 2 :Dendrogramm (Konrad Harald S. 16) Nichthierarchisches Clustering Top down : Clusteranzahl und Genauigkeitsfestlegung Ähnlichkeitsschwellwert» neuer Cluster flache Struktur mit Ähnlichkeitsbeziehungen

11 4. Klassifikation von Dokumenteninhalten 4. Klassifikation von Dokumenteninhalten Kategorienzuweisung erfolgt in zwei Phasen

12 4. Klassifikation von Dokumenteninhalten Nearest-Neighbour-Verfahren Vergleich mit bereits kategorisierten Dokumenten Vorteil : kurze Trainingsphase, gut bei schlechter Kategoriendarstellung Nachteil : Lange Kategorisierungsphase

13 4. Klassifikation von Dokumenteninhalten Zentroidvektorverfahren Vektoraufbau in der Trainingsphase, vergleich mit anderen Vektoren in Kategorisierungsphase Vorteil : Wenig Trainingsdokumente nötig Nachteil : schlechte Zuordnungsqualität bei hoher Kategorienanzahl

14 4. Klassifikation von Dokumenteninhalten Support-Vektor-Maschinen ebenfalls Vektorbasiert Formberechnung in positive und negative Trainingsdokumente Vergleich der Formen Neue Dokumente werden in Distanzabhängigkeit zu den Vektoren zugeordnet

15 4. Klassifikation von Dokumenteninhalten Entscheidungsbaumverfahren Baumstruktur durch wahr / falsch Fragen Vorteil : effizient in hohen Dimensionen Nachteil : Overfitting

16 4. Klassifikation von Dokumenteninhalten Bayesisches Verfahren Modellerzeugung, vergleich mit Trainingsdokumenten Klassifikation durch Kategorie deren Modell das Dokument hätte erzeugen können

17 6. Einsatzgebiete von Textmining 5. Einsatzgebiete von Textmining Qualitätsmanagement Customer-Relationship-Management Patentanalyse Klassifikation von Zeitungsartikeln

18 6. Textmining vs. Textverstehen 6. Textmining vs. Textverstehen Mensch / Maschine Maschinen werden Texte nie verstehen Fähigkeit über Text zu diskutieren Fähigkeit Schlüsse zu ziehen

19 Literaturverzeichnis : Buisiness Intelligence, Dez. 2001, Hildebrand Knut Dynamischer Keyword-Relevanzfilter und Ähnlichkeitsmaß von Dokumentenmittels Keywords, Konrad Harald, TU Graz Schürfen statt surfen, Hightechreport 1/2002 Textretrival und Textmining, Weiss Ludwig

Ähnliche Dokumente

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl

Universität ulm. Seminar Data Mining. Seminararbeit über Text Mining. Matthias Stöckl Universität ulm Seminar Data Mining Seminararbeit über Text Mining Matthias Stöckl 1 Inhaltsverzeichnis: 1. Einführung 2. Grundlagen 3. Erschließung des Dokumenteninhaltes 3.1. Schlüsselwortextraktion