Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl



Ähnliche Dokumente
Midas Metadata yield by Data Analysis

Whitepaper Bio-Mode. Quelle:

Supervised Learning Algorithmus für Stellenanzeigenklassifikation und Jobdeskriptoren Gewinnung

Notationen zur Prozessmodellierung

Information Retrieval. Peter Kolb

Text-Mining: Einführung

Exposé zur Safari-Studie 2002: Der Mensch in IT-Projekten Tools und Methoden für den Projekterfolg durch Nutzerakzeptanz

IR Seminar SoSe 2012 Martin Leinberger

ANALYSIEREN VON SOCIAL MEDIA AKTIVITÄTEN

Wie Forschende mit Web 2.0 ihren Alltag bewältigen Ergebnisse der bundesweiten Science 2.0 Studie

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Volltextsuche und Text Mining

Domain-independent. independent Duplicate Detection. Vortrag von Marko Pilop & Jens Kleine. SE Data Cleansing

Interdisziplinäre fachdidaktische Übung: Sprache und Modelle. SS 2015: Grossmann, Jenko

Vorstellung des Diplomarbeitsthemas. dawn. (direction. anticipation in web-navigation. navigation) Sebastian Stober 12.

Linguistische Informatik

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Christian Zietzsch / Norman Zänker. Text Mining. und dessen Implementierung. Diplomica Verlag

Der χ2-test Der χ2-test

EXTRAKTION UND KLASSIFIKATION VON BEWERTETEN PRODUKTFEATURES AUF WEBSEITEN

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2004 Termin:

STUDIE: Psychologische Verfahren der externen Personalauswahl aus Sicht der Bewerber

Förderantragberatung. SWOT-Analyse. und Projektbegleitung Gerhard Noack. Einführung. in die. SWOT-Analyse. Zukunftswerkstatt Materialien

Projektgruppe. Clustering und Fingerprinting zur Erkennung von Ähnlichkeiten

Neue Erkenntnisse aus unstrukturierten Daten gewinnen

ABSCHNITT I EINLEITUNG

Screenshot Xinoah Jens Forker Xinoah 2009

BibSpider Eine neue Recherchemethode für Schlagwort- und Titelsuche

Einheitlicher Ansprechpartner 2.0 / Suchtechnologie und Chatbots. Berlin,

Clustern: Voraussetzungen

Frequent Itemset Mining + Association Rule Mining

Seminararbeit. Jan Dennis Bartels. Text Mining. Fakultät Technik und Informatik Studiendepartment Informatik

CyMON - SDMS. Warum SDMS? Semantisches Dokumenten Management System

25 Jahre Erfahrung. Sie kommunizieren multilingual? Wir haben die Prozesse.

Projektdokumentation Gesichtserkennung per Eigengesichtsanalyse

NI-TDM-Datenformat. Komfortables Arbeiten mit TDM-Dateien in LabVIEW

Digital Signage Lösung aus einer Hand

Metadaten in CLARIN-D

Kurze Einführung in Web Data Mining

Worteinbettung als semantisches Feature in der argumentativen Analyse

Semantic Web: Das Web der nächsten Generation

Ablaufschema beim Testen

Professionelle Konversions- Analyse und -Optimierung

Eine Grafik genauer beschreiben

Wie fit ist Ihr KMUnternehmen?

Sprachstatistik: Das Zipf sche Gesetz

Informationsextraktion. Christoph Wiewiorski Patrick Hommers

Quellen des Neuen Die Integration von Ressourcen zur schulischen und universitären Bildung in die CLARIN-D-Infrastruktur

Projektgruppe. FG Engels. Enthält eine zusätzliche Folie. Fabian Christ, Benjamin Nagel, Henning Wachsmuth. Anmeldung bis 28.

TOYOTA I_SITE Mehr als Flottenmanagement

Automatisierte Verfahren für die Themenanalyse nachrichtenorientierter Textquellen

DWH Automatisierung mit Data Vault 2.0

Welche Textklassifikationen gibt es und was sind ihre spezifischen Merkmale?

Semiautomatische Erschließung von Psychologie-Information

Automatische Klassifikation: Stand der Technik und Veränderungen im Berufsbild des Dokumentars. Automatische Klassifikation:

Identifizierung einer unbekannten Verbindung durch Röntgen- Pulverbeugung mit Hilfe einer Datenbank für Pulverdiffraktogramme

Abb. 1 Tastatur und USB-Stick mit Fingerabdruckerkennung

fragfinn Prüfpraxis Spiele fragfinn e.v. Beuthstraße Berlin info@fragfinn.de Tel Fax

Identifizieren und Extrahieren von Musikveranstaltungen aus dem Web

Semiautomatische Erschließung von Psychologie-Information

Vektormodelle. Universität zu Köln HS: Systeme der maschinellen Sprachverarbeitung Prof. Dr. J. Rolshoven Referentin: Alena Geduldig

Kompendium semantische Netze

Web Mining und Farming

Extraktion der Tabellen aus XML-Dokumenten und Erkennung deren Semantik. Exposé zur Bachelorarbeit

Kompetenzraster Deutsch 7/8

Werbung in Social Media

Recommender-System für Projektkollaborationen basierend auf wissenschaftlichen Publikationen und Patenten

Anreize und finanzielles Entscheidungsverhalten

Process Communication Model

Data Science Marktforschung

SHARE_Personas Stimulierungsprojekt FFG Programm Benefit 5. Aussschreibung. Bernhard Wöckl Mai 2010

NOW YOU KNOW [ONTOS TM WHITE PAPER SERIES] Intelligentes Information Mining durch Ontologie [YVES BRENNWALD, ONTOS INTERNATIONAL AG]

Britannica Academic Edition

Profiling Linked Open Data with ProLOD. LiDDM: A Data Mining System for Linked Data

Bitte an das Labor weiterleiten Wichtige Produktinformation. WICHTIGER PRODUKT-SICHERHEITS- UND KORREKTURHINWEIS VITEK MS System: Einschränkungen

Die Branche im Überblick Wer gehört dazu?

Die Personenbeschreibung im Fremdsprachenunterricht

Betriebswirtschaftliche Schwerpunkte der Unternehmensgründung I

Die SWOT-Analyse als Instrument zur Produktimplementierung im Gesundheitstourismus

Implementierung: Dokumentclustering

Servicestelle für Übersetzung Campus International. Das neue Wörterbuch der Universität Mannheim. Die Anmeldung

Praktikum Textmining

III. Ergebnisteil CD8 CD4. III.1. Separation von CD4 + und CD8 + T-Lymphozyten aus peripherem Blut

Hochdeutscherwerb an Schweizer Schulen. Eine linguistische Analyse von vier mündlichen Erstklässlererzählungen

Analytisches CRM in der Automobilindustrie

Constraint-basierte Planung und Optimierung von Prüfungsterminen mithilfe einer graphischen Benutzeroberfläche

Reporting Lösungen für APEX wähle Deine Waffen weise

Reisebewertungsportale und Konsumentenverhalten

Vorlesung Maschinelles Lernen

Fakultät für Mathematik, Informatik und Physik

T = {t 1,..., t n } sei die Menge der Terme. D = {d 1,..., d m } sei die Menge der Dokumente.

Semestralklausur zur Vorlesung. Web Mining. Prof. J. Fürnkranz Technische Universität Darmstadt Sommersemester 2008 Termin: 4. 7.

VO Sprachtechnologien, Informations- und Wissensmanagement

Gliederung. 1. Einleitung (1) 1. Einleitung (2) On detecting differences between groups

Wo sind meine Anforderungen?

Grundlagen und Definitionen

Fachpresse Statistik (die Unvollendete)

2. Datenvorverarbeitung

Was ist Statistik? Wozu dienen statistische Methoden?

Transkript:

Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die Entwicklung neuer Wortkombinationen zu entwickeln. Novelty dient zur Erkennung bisher nicht bekannter Information. Basis für den Algorithmus ist ein Sprachkorpus der neue Daten mit vorhanden vergleicht und durch konvertierte Ähnlichkeitsberechnungen und Kookkurrenzanalysen, Aussagen über die Novelty der Dokumente liefert. Dieser Algorithmus beruht auf linguistischen Strukturen der Sprachwissenschaft, welche mithilfe von statistischen Analysen den Maschinen die Möglichkeit bieten, aus Zeichenfolgen, Inhalt zu extrahieren und zu interpretieren. Signifikante Kookkurrenzen sind Wortkombinationen, die in direktem Bezug zueinander stehen. Durch die Analyse dieser Kookkurrenzen und den Tools des Novelty Mining, die auf Neuheiten im Text Mining beruhen, kann der Computer auf Trendwortkombinationen schließen. Die erhebliche Internetpräsenz des Tourismussektors, laut Buhalis (2008), und die Verbreitung von Trendsportarten über das Internet, laut Geisler (2003, S. 21-27), verlangen nach einem Werkzeug zur Analyse der Daten um den Entwicklungen Schritt zu halten. Da Text Mining diese Fragestellung, laut Heyer, Quasthoff, & Wittig (2008), in Verbindung mit Novelty Mining lösen kann, ergibt sich folgende Forschungsfrage, die die Ansätze von Buhalis und Geisler verbindet: Wie kann ich zuverlässig aus einer Menge an touristischen Websites bei Sportarten Trends herauslesen? Trendsportarten sind eine wachsende und sich verändernde Bewegungskultur die den Akteuren Spielraum überlässt, individuelle Entwicklungen zu kreieren und die Trendsportart weiterzuentwickeln (Lamprecht & Stamm, 1998, S. 375). Der offensichtlich gesteigerte Bedarf nach Formen der Selbstinszenierung und nach Differenzierung wird durch das ökonomische System in der Entwicklung und Vermarktung der Trendsportarten erkannt, verstärkt und kanalisiert (Schwier, 2000, S. 49). Das Internet dient dabei als Vermittler und Verbreiter der neuesten Trends. Dabei sind viele Benutzer ihrer eigenen Kreativität überlassen und können sich im Rahmen ihrer technischen Fertigkeiten selbst inszenieren. 1

Text Mining Mit dem Terminus Text Mining (TM) werden computergestützte Verfahren für die semantische Analyse von Texten bezeichnet, welche die automatische bzw. semiautomatische Strukturierung von Texten, insbesondere sehr großen Mengen von Texten, unterstützen (Witschel, 2004, S. 35). Im Unterschied zur allgemeinen Websuche wird beim TM nach unbekannter Information gesucht, die durch das Ansammeln von enormen Textmengen gefunden werden sollte. Dabei werden die Texte durch statistische und musterbasierte Verfahren strukturiert um neue und relevante Informationen zu extrahieren. Die musterbasierten Verfahren basieren auf vorher definierten Mustern, die bei den untersuchten Texten entdeckt werden sollten. Im Gegensatz dazu basieren die statistischen Verfahren auf sprachstatistische Gesetzmäßigkeiten, wie Häufigkeiten und Vergleiche aus standardisierten Sprachdatenbanken (Heyer, Quasthoff, & Wittig, 2008, S. 1-18). Wissensverarbeitung Der Vergleich der zu analysierenden Daten mit einem Standardsprachkorpus, dient der Textklassifizierung. Dadurch können an der Häufigkeit der einzelnen Wörter, Abweichungen von den Standardtextressourcen festgestellt werden. Das Signifikanzmaß dient zur Textklassifizierung und berechnet die Wichtigkeit der einzelnen Wörter für den Korpus in dem Häufigkeitsklassen verglichen und Verfahren der Termwichtigkeit angewendet werden. Als Textressourcen zur Standardsprache gibt es Internetdatenbanken die geeignet sind und unentgeltlich genutzt werden können. Das Projekt Deutscher Wortschatz von der Universität Leipzig, das Institut für deutsche Sprache und die European Language Resource Association bieten Textsammlungen für statistische und clusterbasierte Analysen in der deutschen Sprache an. Um aus den unstrukturierten Texten Informationen zu erhalten müssen zuerst Gemeinsamkeiten und Unregelmäßigkeiten gefunden werden. Häufige gemeinsame Auftreten mit anderen Wörtern oder satzweise oder paragraphweise Auffälligkeiten sollten dabei entdeckt werden. Diese reinen Häufigkeitsanalysen dienen hauptsächlich der Bedeutungsanalyse der Wörter und ihre Verwendung statistisch darzustellen um die Dokumente zu klassifizieren. Bei der Trendsportanalyse liegt der Fokus auf die Identifizierung von Nomen. Nomen lassen sich im Deutschen durch die Großschreibung erkennen und sind weniger komplex als Verben in ihrer Deklination. Dennoch muss bei der Pluralbildung ein Stemmingverfahren 2

angewandt werden um die gleichen Terme in nicht deklinierter Grundform gemeinsam zu listen. Cluster Analyse Die Cluster Analyse dient zur Textklassifikation und vergleicht die Häufigkeit der vorkommenden Wörter der Texte mittels eines Ähnlichkeitskoeffizienten. Im ersten Schritt sollten die charakteristischen Wörter identifiziert werden und diese danach mittels Dokumentvektoren einem statistischen Verfahren unterziehen. Damit können einzelne Dokumente verglichen werden und festgestellt werden, welche inhaltlichen Schwerpunkte sie thematisieren. Der Algorithmus basiert auf Nennungen der Terme und unterscheidet nicht auf semantische Bedeutungen. Diese Methodik bevorzugt die Analyse beliebiger Texte und großer Textmengen, jedoch erschwert sie eine inhaltlich korrekte Analyse und dies sollte immer mit Bedacht in die Ergebnisse einbezogen werden. Die Cluster Analyse sollte nur die geeigneten Texte identifizieren und somit den Speicherbedarf und den Zeitaufwand optimieren. Zur Trendsportidentifikation verwendet werden Wikipedia Beiträge von den von Schwier (2000, S. 76) aufgelisteten Trendsportarten sowie von dem Term Trendsport als Dokumentvorlagen. Bei einer signifikanten Ähnlichkeit werden wir das Dokument unseren Novelty Mining Algorithmus unterziehen und zuerst signifikante Kookkurrenzen identifizieren. Kookkurrenzanalyse Semantische Zusammenhänge können laut Heyer, Quasthoff, & Wittig (2008) durch die Verwendung von Termen erkannt werden. Kookkurrenz bezeichnet das gemeinsame Auftreten zweier Wortformen in einem Textabschnitt. Wortformen die statistisch auffällig gemeinsam auftreten, bezeichnet man als signifikante Kookkurrenzen. Dabei unterscheidet man zwischen Nachbarschaftskookkurrenzen und Satzkookkurrenzen. Nachbarschaftskookkurrenzen sind Termini die direkt nebeneinander auftreten und Satzkookkurrenzen sind in den gleichen Sätzen enthalten sind. Ein weiterer Aspekt der Kookkurrenzanalyse ist die Identifizierung von Kohyponymen durch die Kookkurrenzen zweiter Ordnung. Die Kookkurrenzen zweiter Ordnung sind Wortformen die signifikant häufig in Kookkurrenzprofilen erster Ordnung enthalten sind. (Heyer, Quasthoff, & Wittig, 2008, S. 163) Dabei werden Terme aufgelistet die ähnliche Kookkurrenzprofile erster Ordnung haben. Daher bieten Trendsportarten eine gute Basis Kookkurrenzprofile zweiter Ordnung zu vergleichen um neue Trendsportarten zu entdecken. Die identifizierten Terme aus der Kookkurrenzanalyse erster Ordnung werden im Novelty Verfahren weiter überprüft. 3

Novelty Mining Die Verwendung von Social Media und Blogs haben in den letzten Jahren einen wesentlichen Beitrag zur außerordentlichen Steigerung der Datenmengen im Internet getragen. Bei diesen unstrukturierten Daten sammeln sich viele überflüssige und für ein bestimmtes Thema nicht relevante Daten an. Novelty Mining filtert die relevanten Daten heraus und definiert den Anteil der Daten der neu ist und nach aktuellem Wissensstand noch nicht im Vergleichskorpus aufscheint. Novelty Mining basiert auf zwei Phasen, zuerst bestimmt man die zum Thema relevanten Sätze, welche beispielswiese in einem Clustering Verfahren herausgefiltert werden. In der zweiten Phase wird in der relevanten Datenmenge nach neuer Information gesucht. In den Novelty Mining Publikationen wird die zweite Phase genauer definiert, da in der ersten Phase Verfahren aus dem Information Retrieval eingesetzt werden. Die Verfahren in der zweiten Phase stammen zumeist aus der Ähnlichkeitsmessung und werden dann konvertiert in eine Unähnlichkeit, welche als Novelty die vorher nicht bekannten Inhalte erkennen sollte. Novelty Mining basiert immer auf der satzweisen Erkennung und dem Vergleich mit den in der Datenbank vorhandenen Sätzen. Da die Kookkurrenzanalyse einzelne Terme identifiziert hat und die Trendsportanalyse sich vorwiegend auf die Erkennung von neuen Trendsportarten, somit Termen, fokussiert, müssen die Novelty Verfahren in abgeänderter Weise für den Trendsportalgorithmus angewendet werden. Der Algorithmus versucht einzelne Terme als novel zu erkennen und daher sollte der Sprachkorpus auf diese Wörter und deren Verwendung überprüft werden. Dabei könnte man die bisherige Verwendung sehr gut mit den Kookkurrenzen kontrollieren und dabei den Vergleich zu der bisherigen Verwendung und der aktuellen Verwendung anstellen. Falls der Term in der Datenbank noch nicht verwendet worden ist, sollte durch die Kookkurrenzanalyse zweiter Ordnung zumindest eine ähnliche sprachliche Verwendung wie andere Trendsportarten sichergestellt sein. Die davon nicht betroffenen Terme können nicht im Novelty Algorithmus berechnet werden, da dieser auf das in der Datenbank vorhandene Wissen aufbaut. Im Novelty Algorithmus überprüft man die vorher identifizierten Terme aus der Kookkurrenzanalyse erster Ordnung. Terme die in ihrer Verwendung im Dokument sich eindeutig von der Datenbank unterscheiden und wesentliche Trendsportidentifikatoren in den Kookkurrenzen haben sollten ausgewählt werden. Wiki Die ausgewerteten Terme sollten abschließend mittels Wikipedia einer Kontrolle unterzogen werden. Diese Begriffe können auf der Website www.wikipedia.org durchführen und bei 4

einem Eintrag sollten die Begriffe verworfen werden. Trendsportarten sollten demnach nur identifiziert werden, wenn keine Einträge auf Wikipedia vorhanden sind. Conclusio Dieser Algorithmus und die Umsetzung auf Trendsportarten leistet zwar eine semantische Kontrolle der Verwendung in doppelter Hinsicht, sowohl im Clustering als auch in der Kookkurrenzüberprüfung, jedoch sind Begriffe, die nicht in der Datenbank enthaltenen sind, nicht zu kontrollieren. Diese Problematik verringert die Validität des Novelty Mining und außerdem ist das Novelty Mining in seinen bisherigen Anwendungen noch nicht zuverlässig um eine große Menge an Daten zu überprüfen. Diese Verfahren sollten zuerst auf kleinen Beispielsätzen überprüft werden und später in ihrer Umsetzung auf den spezifischen Bereich umgesetzt werden. Ein wesentlicher Einflussfaktor auf die Ergebnisse begründet der zugrunde liegende Sprachkorpus. Der Korpus das Projekt Deutscher Wortschatz ist nicht ausreichend spezialisiert im Bereich Trendsport, da die Inhalte sich aus Zeitungsberichten sammeln und nicht im Social Web oder auf Websites nach Daten suchen. Die gesuchten Trendsportarten stammen laut Schwier (2000) von Individuen und werden erst in späteren Phasen in Zeitungen veröffentlicht. Der Korpus sollte als Grundlage speziell auf das Anwendungsgebiet ausgerichtet sein und dem Anwender eine umfassende Satzdatenbank zur Verfügung stellen. Der Erfolg der Analyse hängt stark von der Größe und dem Inhalt des Sprachkorpus ab, da die Analyse aussagekräftiger wird umso mehr Information als Vergleichsparameter herangezogen werden kann. Die Novelty Analyse basiert auf satzweise und dokumentweise Vergleiche und muss für eine Trendsporterkennung so verändert werden, dass auch wenn das zu identifizierende Term nicht bekannt ist, es noch immer als novel und relevant für Trendsportarten erkannt werden kann. Der definierte Algorithmus basiert somit auf Kookkurrenzanalysen zweiter Ordnung die zuverlässig in der Verwendung eines Terms in einem Themenbereich ist. Durch die Textklassifizierung ist bereits gewährleistet, dass ein identifiziertes Nomen inhaltlich korrekt zugeordnet ist. 5