Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag



Ähnliche Dokumente
Stefan Kundelov. Balanced Scorecard. Anwendung in der stationären Altenpflege. Diplomica Verlag

Qualitätsmanagementsysteme im Gesundheitswesen

Alina Schneider. Erfolg in Data-Warehouse-Projekten. Eine praxisnahe Analyse von Erfolgsfaktoren und -kriterien. Diplomica Verlag

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Lukas Hechl. Bilanzrechtliche Probleme des Jahresabschlusses einer GmbH & Co KG. Diplomica Verlag

Lisa Fritz. Bildungscontrolling. Ein wichtiger Bereich der Personalentwicklung. Diplomica Verlag

Erik Hüttenberger. Der Sportverein als Marke. Mit Markenmanagement Vereinsprobleme bekämpfen. Diplomica Verlag

TomR.Koch. Lean Six Sigma. Die Automobilindustrie im Wandel. Diplomica Verlag

Alternatives Energiekonzept zur Stromversorgung am Bahnübergang

Wissensmanagement in der humanitären Logistik

IT-basierte Kennzahlenanalyse im Versicherungswesen

Modernes Talent-Management

Change Management in der öffentlichen Verwaltung

Commitment von High Potentials

Strategisches Innovationsmanagement

Christoph Merte Marktstrategien im Mobile Banking Smartphones als neuer Absatzkanal der Finanzindustrie

Mobile Marketingkampagnen

Inflation als Bedrohung für die Kapitalanlage

Markenwahrnehmung am Point-of-Sale

Prozessoptimierung in der Einzelteilproduktion

Jan Siebert. Konzernrechnungslegung. Die Regelung nach HGB und IFRS. Diplomica Verlag

Netzwerkorientiertes Supply Chain Controlling und Risikomanagement

Persönliche Beratung

Social Media der neue Trend in der Personalbeschaffung

Die Bedeutung der Hausbankbeziehung für Finanzierungen im Mittelstand Schwerpunkt: Unternehmensgründung und Unternehmensnachfolge

Marcel Haritz. E-Recruiting. Effiziente Ansätze zur Beschaffung von Hochschulabsolventen für Traineeprogramme. Diplomica Verlag

Bachelorarbeit. Going Public. Eine mögliche Exit-Strategie von Venture Capital-Gesellschaften. Christoph Schreitl. Bachelor + Master Publishing

Erfolgsfaktoren von Customer Relationship Management Strategien

Bachelorarbeit. Private Altersvorsorge. Beurteilung ausgewählter Anlageformen. Michael Roth. Bachelor + Master Publishing

Usability Untersuchung eines Internetauftrittes nach DIN EN ISO 9241 Am Praxisbeispiel der Firma MAFI Transport-Systeme GmbH

Oliver Schulz. Determinanten der erfolgreichen Weiterempfehlung in Social Media. Eine empirische Untersuchung am Beispiel Facebook.

Cross-border Mergers & Acquisitions in China

New Public Management

Christoph Thiemann. Die Reaktivierung von Herpesviren in der Mundhöhle. Subklinische Reaktivierungen von HSV-1 und EBV.

Supply Chain Management

Christian Kremer. Kennzahlensysteme für Social Media Marketing. Ein strategischer Ansatz zur Erfolgsmessung. Diplomica Verlag

Due Diligence als Instrument des Akquisitionscontrollings

Bachelorarbeit. Einkommensteuerrechtliche Behandlung von Verlusten aus Termingeschäften bei Gewerbetreibenden

Strategische Führungskräfteentwicklung

Bachelorarbeit. Grundlagen im Dienstleistungsunternehmen. Mit Qualitätsmanagement und Kundenorientierung zum Erfolg. Tobias Müller

Erfolg mit langfristiger Aktienanlage

Handbuch Kundenmanagement

TomR.Koch. Lean Six Sigma. Die Automobilindustrie im Wandel. Diplomica Verlag

Ein Orientierungssystem für Menschen mit Sehbehinderung auf Java ME

Mitarbeitermotivation der Arbeitsgeneration 50+

Bachelorarbeit. Die erfolgreichsten Anlagestrategien der Portfoliomanager. Ein Wegweiser durch den Dschungel des Asset Managements.

Unternehmen im Wandel des Outsourcing

Requirement Management Systeme

Mehrstufiges Marketing in Unternehmensnetzwerken

Management des Liquiditätsrisikos in Banken

X.systems.press ist eine praxisorientierte Reihe zur Entwicklung und Administration von Betriebssystemen, Netzwerken und Datenbanken.

Vermarktung der FIFA Frauen-Weltmeisterschaft 2011

Bachelorarbeit. Die Kosten ineffizienter Anlagestrategien. am Beispiel deutscher Bundesschatzbriefe. Johannes Jasper. Bachelor + Master Publishing

David Seidel. Reifegrad. Der prioritätsspezifische Index. Effektives Management für eine bessere Potentialausschöpfung.

Daniel Mauch. Entwicklung eines benutzerorientierten Segmentiersystems für biomedizinische Bilder. disserta Verlag

Masterarbeit. Führungsinstrumente im Ehrenamt. Anforderungen und Möglichkeiten. Lars Meyer. Bachelor + Master Publishing

Diplomarbeit. Berufsbild Coach. Hilfestellungen und Tipps zur Ausbildung und Curriculumgestaltung. Christa Schmolmüller. Bachelor + Master Publishing

Professionelle Musikproduktion vs. Freeware Homerecording

Auslegung einer Kombikühlzelle für Kühlung und Tiefkühlung mit Wärmerückgewinnung

Bewertungskriterien in der Venture Capital Finanzierung

Spannungsfeld Projektmanagement in der öffentlichen Verwaltung

Leasingverträge. Stefan Vogt. Ist der Right-of-Use-Ansatz der IFRS eine Alternative für die handels- und steuerrechtliche Leasingbilanzierung?

Potentiale und Grenzen des E-Business bei komplexen Produkten im B2B-Bereich

Björn Jakob. Verwertung und Verteilung von Tantiemen aus digitaler Distribution. Untersuchung der Verteilungsstruktur der GEMA.

Patrick Opaterny. RFID im Krankenhaus. Wie verändert der Einsatz von RFID den Krankenhaus-Alltag? Diplomica Verlag

Rettungsdienst am Limit: Gesundheit von Einsatzkräften im Rettungsdienst (GERD )

Anja Nikodem. Wirtschaften in der Armut. Eine Analyse ökonomischer Strategien in Mexiko Stadt. Diplomica Verlag

Energierecht. Betriebsaufnahmegenehmigung nach 4 EnWG. Anwendbarkeit der Regelung, Vereinbarkeit mit Europarecht, Vorschlag einer Neuregelung

Planung eines Videoüberwachungssystems

Bachelorarbeit. Printanzeigen und visuelle Kommunikation Analyse von ausgewählten Printanzeigen des Automobilherstellers Porsche im Zeitverlauf

Die finanzielle Sanierung von Unternehmen

Natalja Michel. Finanzierungsmöglichkeiten für KMU unter Berücksichtigung steuerlicher Aspekte. Diplomica Verlag

Cause Related Marketing

Öffentliche Unternehmen

Diplomarbeit. Fair Trade und Corporate Social Responsibility. Josefine Becker. Zusammenhänge und Hintergründe. Bachelor + Master Publishing

Diplomarbeit. Leitfaden für Betriebliches Gesundheitsmanagement. Hinweise und Arbeitsvorlagen für eine erfolgreiche Umsetzung.

Bachelorarbeit. Qualitätsmanagement nach DIN EN ISO 9001 in der Arztpraxis. Auswirkungen auf die ärztliche Profession. Lisa Fänder

ISBN: Herstellung: Diplomica Verlag GmbH, Hamburg, 2011

Open Source und Workflow im Unternehmen

Bachelorarbeit. Rückstellungen nach HGB und IFRS bilanzieren. Eine vergleichende Analyse der Auswirkungen des BilMoG auf Ansatz, Bewertung und Ausweis

Bürgerhaushalt im Kräftedreieck Politik-Verwaltung-Bürgerschaft

Die Unternehmergesellschaft

Nachhaltiges Gebäudemanagement

Christina Janning. Change Management. Möglichkeiten der Kommunikation zur Reduzierung innerbetrieblicher Widerstände. Diplomarbeit

Das kollektive Arbeitsrecht in der Post-Merger-Integration

Bachelorarbeit. Brennpunkt Gemeinsame Agrarpolitik. Die GAP der EU im Spannungsfeld zwischen ökonomischer Ineffizienz und Interessen der Agrarlobby?

K.-H. Bichler Das urologische Gutachten

Dimitrios Lianos. Marketing. gestern heute morgen. und seine Bedeutung für Nonprofit-Organisationen. Diplomica Verlag

Asma Braham. Islamic Banking. Moralische und ökonomische Grundsätze. Erfolgsaussichten in Deutschland. Diplomica Verlag

Ina Middeldorf. Personalbindung. im demografischen Wandel. Die entscheidende Rolle der Mitarbeiterbindung für den Unternehmenserfolg.

Facility Management im Gesundheitswesen

Nachhaltige Investments

Diplomarbeit. Betriebswirtschaftliche Potentiale vom Medizintourismus. Jutta Markus. Diplom.de. Patienten aus den GUS-Staaten in deutschen Kliniken

Diplomarbeit. Franchisesysteme im Zeichen der Globalisierung. Chancen und Risiken. Helmut Grass. Bachelor + Master Publishing

IT-basierte Kennzahlenanalyse im Versicherungswesen

Erfolgsfaktoren des Working Capital Managements

Die Bedeutung der Marken- und Servicepolitik für eine erfolgreiche Kundenbindung

Bachelorarbeit. Latente Steuern nach dem BilMoG. Das neue HGB im Vergleich zum HGB a.f. und den IFRS. Jens Michael Neumann

Lern- und Wissensmanagement unter Einsatz von Web 2.0-Anwendungen

Compliance-Management

Transkript:

Christian Zietzsch / Norman Zänker Text Mining und dessen Implementierung Diplomica Verlag

Christian Zietzsch, Norman Zänker Text Mining und dessen Implementierung ISBN: 978-3-8428-0970-3 Herstellung: Diplomica Verlag GmbH, Hamburg, 2011 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht vollständig ausgeschlossen werden und der Verlag, die Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen. Diplomica Verlag GmbH http://www.diplomica-verlag.de, Hamburg 2011

Inhaltsverzeichnis 7 Inhaltsverzeichnis 1 Einleitung 10 1.1 Zielsetzung... 11 1.2 Aufbau der Arbeit... 11 2 Grundlagen 12 2.1 Was ist Text Mining?... 12 2.2 Aufbau und Struktur von Text... 13 2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse... 15 2.3.1 Die Linguistik und ihre Ebenen... 15 2.3.2 Syntagmatische und Paradigmatische Relationen... 20 2.3.3 Semantische Relationen... 24 3 Text Mining-Prozess 27 3.1 Unterschied Text Mining und Data Mining... 28 3.2 Dokumentsuche... 29 3.2.1 Information Retrieval... 29 3.2.2 Aufbau und Funktion eines Information Retrieval Systems... 30 3.3 Dokumentaufbereitung... 32 3.3.1 Textressourcen... 32 3.3.2 Aufbau eines Analysekorpus... 32 3.3.2.1 Satzsegmentierung... 34 3.3.2.2 Wortsegmentierung... 35 3.4 Text Mining - Statistische Analysemethoden... 37 3.4.1 Zipfsches Gesetz... 37 3.4.2 Dierenzanalyse... 37 3.4.3 Part-of-SpeechTagging... 39 3.4.3.1 Regelbasierte Tagger... 39 3.4.3.2 Stochastische Tagger... 41 3.4.3.3 Regelbasierte Tagger vs. Stochastische Tagger...... 47 3.4.4 Kookkurrenzanalyse.... 47 3.5 Text Mining - Clusteranalyse... 51 3.5.1 Nicht-hierarchische Verfahren... 51 3.5.2 Hierarchische Verfahren... 53 3.5.3 Fuzzy-Clusteranalyse... 54 3.5.4 Dokumentähnlichkeit... 55 3.5.5 Anwendungsbeispiel... 58 3.6 Text Mining - Musteranalyse... 60 3.6.1 Reguläre Ausdrücke... 60 3.6.2 Syntaktische Muster... 62 4 Text Mining-Prozess anhand des Zalazar Text Miner 64 4.1 Programmaufbau... 65

Inhaltsverzeichnis 8 4.2 Dokumentaufbereitung... 67 4.2.1 Formatierung des zu analysierenden Textdokuments... 67 4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung 68 4.3 Dokumentanalyse... 75 4.3.1 Part-of-Speech Tagging... 75 4.3.2 Dierenzanalyse... 78 4.3.3 Musteranalyse...... 79 4.4 Ergebnisevaluation... 81 4.5 Handhabung des Zalazar Text Miner... 82 4.5.1 Önen einer neuen Mail... 83 4.5.2 Durchführen der Textanalyse...... 84 4.5.3 Speichern der Ergebnisse... 85 4.5.4 Laden der Ergebnisse einer bereits analysierten Mail... 86 5 Schlusswort 87 Literatur 89

Abbildungsverzeichnis 9 Abbildungsverzeichnis 1 Überblick: Aufbau eines Textes (vgl. G. Heyer [5])... 15 2 Prozess des Text Mining... 27 3 Vergleich Text Mining- unddata Mining Prozess... 28 4 Aufbau eines IR-Systems (vgl. T. Gottron [2])... 30 5 Aufbau eines Hidden-Markov-Modells... 42 6 Komplettes Gitter für The design of the car is great. (in Anlehnung an K. Haenelt [4]).... 44 7 Reduziertes Gitter für The design of the car is great. mithilfe des Viterbi- Algorithmus (in Anlehnung an K. Haenelt [4]).... 46 8 Wortnetz der Wortform technology (vgl. Uni-Leipzig, Projekt Wortschatz [12]).... 50 9 Clustering mit k-means (vgl. G. Heyer [5])... 52 10 Hierarchische Verfahren: agglomerativ (Links), divisiv (Rechts)... 53 11 Schmetterlingsproblem (vgl. S. Grossmann [3])... 54 12 Verfahren zur Ähnlichkeitsbestimmung zweier Cluster: single-link (Links), complete-link (Mitte), group-average (Rechts)... 58 13 Beispiel: Clustering thematisch ähnlicher Dokumente...... 59 14 Schematischer Aufbau des Zalazar Text Miner... 65 15 Klassendiagramm des Zalazar Text Miner... 66 16 Analysekorpus des Zalazar Text Miner... 69 17 Hauptfenster des Zalazar Text Miner... 82 18 Filedialog zum Önen einer Mail... 83 19 Analysefenster des Zalazar Text Miner... 84 20 Filedialog zum Speichern der gewonnenen Ergebnisse... 85 21 Filedialog zum Laden bereits gespeicherter Analyseergebnisse... 86 Tabellenverzeichnis 1 Linguistische Ebenen undihre Teildisziplinen (vgl. G. Heyer [5])... 19 2 Häugkeitssortierte Liste des Romans Tom Sawyer (vgl. B. Homann [6]) 37 3 Hidden-Markov-Matrix für den Satz The design of the car is great (Matrizenanordnung: A-Π-B)... 42 4 Beispiele für Signikanzwerte der Kookkurrenz zweier Wortformen (vgl. G. Heyer [5])...... 50 5 Term-Dokument-Matrix (vgl. G. Heyer [5])... 56 6 Dokument-Dokument-Matrix (vgl. G. Heyer [5])... 57 7 Dokument-Dokument-Matrix (Beispiel)... 59 8 Auszug aus dem Penn Treebank Tagset... 76 9 Softwarelösungen zur Informationsextraktion..... 87