Kurfzassung Deutsch. Poier Lorenz. MMag. Wilhelm Loibl

Kurfzassung Deutsch Novelty Mining Algorithmus zur Trendsporterkennung Poier Lorenz MMag. Wilhelm Loibl Einleitung Diese Arbeit versucht ein Instrument für die Erkennung von Trends im Tourismus durch die Entwicklung neuer Wortkombinationen zu entwickeln. Novelty dient zur Erkennung bisher nicht bekannter Information. Basis für den Algorithmus ist ein Sprachkorpus der neue Daten mit vorhanden vergleicht und durch konvertierte Ähnlichkeitsberechnungen und Kookkurrenzanalysen, Aussagen über die Novelty der Dokumente liefert. Dieser Algorithmus beruht auf linguistischen Strukturen der Sprachwissenschaft, welche mithilfe von statistischen Analysen den Maschinen die Möglichkeit bieten, aus Zeichenfolgen, Inhalt zu extrahieren und zu interpretieren. Signifikante Kookkurrenzen sind Wortkombinationen, die in direktem Bezug zueinander stehen. Durch die Analyse dieser Kookkurrenzen und den Tools des Novelty Mining, die auf Neuheiten im Text Mining beruhen, kann der Computer auf Trendwortkombinationen schließen. Die erhebliche Internetpräsenz des Tourismussektors, laut Buhalis (2008), und die Verbreitung von Trendsportarten über das Internet, laut Geisler (2003, S. 21-27), verlangen nach einem Werkzeug zur Analyse der Daten um den Entwicklungen Schritt zu halten. Da Text Mining diese Fragestellung, laut Heyer, Quasthoff, & Wittig (2008), in Verbindung mit Novelty Mining lösen kann, ergibt sich folgende Forschungsfrage, die die Ansätze von Buhalis und Geisler verbindet: Wie kann ich zuverlässig aus einer Menge an touristischen Websites bei Sportarten Trends herauslesen? Trendsportarten sind eine wachsende und sich verändernde Bewegungskultur die den Akteuren Spielraum überlässt, individuelle Entwicklungen zu kreieren und die Trendsportart weiterzuentwickeln (Lamprecht & Stamm, 1998, S. 375). Der offensichtlich gesteigerte Bedarf nach Formen der Selbstinszenierung und nach Differenzierung wird durch das ökonomische System in der Entwicklung und Vermarktung der Trendsportarten erkannt, verstärkt und kanalisiert (Schwier, 2000, S. 49). Das Internet dient dabei als Vermittler und Verbreiter der neuesten Trends. Dabei sind viele Benutzer ihrer eigenen Kreativität überlassen und können sich im Rahmen ihrer technischen Fertigkeiten selbst inszenieren. 1

Text Mining Mit dem Terminus Text Mining (TM) werden computergestützte Verfahren für die semantische Analyse von Texten bezeichnet, welche die automatische bzw. semiautomatische Strukturierung von Texten, insbesondere sehr großen Mengen von Texten, unterstützen (Witschel, 2004, S. 35). Im Unterschied zur allgemeinen Websuche wird beim TM nach unbekannter Information gesucht, die durch das Ansammeln von enormen Textmengen gefunden werden sollte. Dabei werden die Texte durch statistische und musterbasierte Verfahren strukturiert um neue und relevante Informationen zu extrahieren. Die musterbasierten Verfahren basieren auf vorher definierten Mustern, die bei den untersuchten Texten entdeckt werden sollten. Im Gegensatz dazu basieren die statistischen Verfahren auf sprachstatistische Gesetzmäßigkeiten, wie Häufigkeiten und Vergleiche aus standardisierten Sprachdatenbanken (Heyer, Quasthoff, & Wittig, 2008, S. 1-18). Wissensverarbeitung Der Vergleich der zu analysierenden Daten mit einem Standardsprachkorpus, dient der Textklassifizierung. Dadurch können an der Häufigkeit der einzelnen Wörter, Abweichungen von den Standardtextressourcen festgestellt werden. Das Signifikanzmaß dient zur Textklassifizierung und berechnet die Wichtigkeit der einzelnen Wörter für den Korpus in dem Häufigkeitsklassen verglichen und Verfahren der Termwichtigkeit angewendet werden. Als Textressourcen zur Standardsprache gibt es Internetdatenbanken die geeignet sind und unentgeltlich genutzt werden können. Das Projekt Deutscher Wortschatz von der Universität Leipzig, das Institut für deutsche Sprache und die European Language Resource Association bieten Textsammlungen für statistische und clusterbasierte Analysen in der deutschen Sprache an. Um aus den unstrukturierten Texten Informationen zu erhalten müssen zuerst Gemeinsamkeiten und Unregelmäßigkeiten gefunden werden. Häufige gemeinsame Auftreten mit anderen Wörtern oder satzweise oder paragraphweise Auffälligkeiten sollten dabei entdeckt werden. Diese reinen Häufigkeitsanalysen dienen hauptsächlich der Bedeutungsanalyse der Wörter und ihre Verwendung statistisch darzustellen um die Dokumente zu klassifizieren. Bei der Trendsportanalyse liegt der Fokus auf die Identifizierung von Nomen. Nomen lassen sich im Deutschen durch die Großschreibung erkennen und sind weniger komplex als Verben in ihrer Deklination. Dennoch muss bei der Pluralbildung ein Stemmingverfahren 2

angewandt werden um die gleichen Terme in nicht deklinierter Grundform gemeinsam zu listen. Cluster Analyse Die Cluster Analyse dient zur Textklassifikation und vergleicht die Häufigkeit der vorkommenden Wörter der Texte mittels eines Ähnlichkeitskoeffizienten. Im ersten Schritt sollten die charakteristischen Wörter identifiziert werden und diese danach mittels Dokumentvektoren einem statistischen Verfahren unterziehen. Damit können einzelne Dokumente verglichen werden und festgestellt werden, welche inhaltlichen Schwerpunkte sie thematisieren. Der Algorithmus basiert auf Nennungen der Terme und unterscheidet nicht auf semantische Bedeutungen. Diese Methodik bevorzugt die Analyse beliebiger Texte und großer Textmengen, jedoch erschwert sie eine inhaltlich korrekte Analyse und dies sollte immer mit Bedacht in die Ergebnisse einbezogen werden. Die Cluster Analyse sollte nur die geeigneten Texte identifizieren und somit den Speicherbedarf und den Zeitaufwand optimieren. Zur Trendsportidentifikation verwendet werden Wikipedia Beiträge von den von Schwier (2000, S. 76) aufgelisteten Trendsportarten sowie von dem Term Trendsport als Dokumentvorlagen. Bei einer signifikanten Ähnlichkeit werden wir das Dokument unseren Novelty Mining Algorithmus unterziehen und zuerst signifikante Kookkurrenzen identifizieren. Kookkurrenzanalyse Semantische Zusammenhänge können laut Heyer, Quasthoff, & Wittig (2008) durch die Verwendung von Termen erkannt werden. Kookkurrenz bezeichnet das gemeinsame Auftreten zweier Wortformen in einem Textabschnitt. Wortformen die statistisch auffällig gemeinsam auftreten, bezeichnet man als signifikante Kookkurrenzen. Dabei unterscheidet man zwischen Nachbarschaftskookkurrenzen und Satzkookkurrenzen. Nachbarschaftskookkurrenzen sind Termini die direkt nebeneinander auftreten und Satzkookkurrenzen sind in den gleichen Sätzen enthalten sind. Ein weiterer Aspekt der Kookkurrenzanalyse ist die Identifizierung von Kohyponymen durch die Kookkurrenzen zweiter Ordnung. Die Kookkurrenzen zweiter Ordnung sind Wortformen die signifikant häufig in Kookkurrenzprofilen erster Ordnung enthalten sind. (Heyer, Quasthoff, & Wittig, 2008, S. 163) Dabei werden Terme aufgelistet die ähnliche Kookkurrenzprofile erster Ordnung haben. Daher bieten Trendsportarten eine gute Basis Kookkurrenzprofile zweiter Ordnung zu vergleichen um neue Trendsportarten zu entdecken. Die identifizierten Terme aus der Kookkurrenzanalyse erster Ordnung werden im Novelty Verfahren weiter überprüft. 3

Novelty Mining Die Verwendung von Social Media und Blogs haben in den letzten Jahren einen wesentlichen Beitrag zur außerordentlichen Steigerung der Datenmengen im Internet getragen. Bei diesen unstrukturierten Daten sammeln sich viele überflüssige und für ein bestimmtes Thema nicht relevante Daten an. Novelty Mining filtert die relevanten Daten heraus und definiert den Anteil der Daten der neu ist und nach aktuellem Wissensstand noch nicht im Vergleichskorpus aufscheint. Novelty Mining basiert auf zwei Phasen, zuerst bestimmt man die zum Thema relevanten Sätze, welche beispielswiese in einem Clustering Verfahren herausgefiltert werden. In der zweiten Phase wird in der relevanten Datenmenge nach neuer Information gesucht. In den Novelty Mining Publikationen wird die zweite Phase genauer definiert, da in der ersten Phase Verfahren aus dem Information Retrieval eingesetzt werden. Die Verfahren in der zweiten Phase stammen zumeist aus der Ähnlichkeitsmessung und werden dann konvertiert in eine Unähnlichkeit, welche als Novelty die vorher nicht bekannten Inhalte erkennen sollte. Novelty Mining basiert immer auf der satzweisen Erkennung und dem Vergleich mit den in der Datenbank vorhandenen Sätzen. Da die Kookkurrenzanalyse einzelne Terme identifiziert hat und die Trendsportanalyse sich vorwiegend auf die Erkennung von neuen Trendsportarten, somit Termen, fokussiert, müssen die Novelty Verfahren in abgeänderter Weise für den Trendsportalgorithmus angewendet werden. Der Algorithmus versucht einzelne Terme als novel zu erkennen und daher sollte der Sprachkorpus auf diese Wörter und deren Verwendung überprüft werden. Dabei könnte man die bisherige Verwendung sehr gut mit den Kookkurrenzen kontrollieren und dabei den Vergleich zu der bisherigen Verwendung und der aktuellen Verwendung anstellen. Falls der Term in der Datenbank noch nicht verwendet worden ist, sollte durch die Kookkurrenzanalyse zweiter Ordnung zumindest eine ähnliche sprachliche Verwendung wie andere Trendsportarten sichergestellt sein. Die davon nicht betroffenen Terme können nicht im Novelty Algorithmus berechnet werden, da dieser auf das in der Datenbank vorhandene Wissen aufbaut. Im Novelty Algorithmus überprüft man die vorher identifizierten Terme aus der Kookkurrenzanalyse erster Ordnung. Terme die in ihrer Verwendung im Dokument sich eindeutig von der Datenbank unterscheiden und wesentliche Trendsportidentifikatoren in den Kookkurrenzen haben sollten ausgewählt werden. Wiki Die ausgewerteten Terme sollten abschließend mittels Wikipedia einer Kontrolle unterzogen werden. Diese Begriffe können auf der Website www.wikipedia.org durchführen und bei 4

einem Eintrag sollten die Begriffe verworfen werden. Trendsportarten sollten demnach nur identifiziert werden, wenn keine Einträge auf Wikipedia vorhanden sind. Conclusio Dieser Algorithmus und die Umsetzung auf Trendsportarten leistet zwar eine semantische Kontrolle der Verwendung in doppelter Hinsicht, sowohl im Clustering als auch in der Kookkurrenzüberprüfung, jedoch sind Begriffe, die nicht in der Datenbank enthaltenen sind, nicht zu kontrollieren. Diese Problematik verringert die Validität des Novelty Mining und außerdem ist das Novelty Mining in seinen bisherigen Anwendungen noch nicht zuverlässig um eine große Menge an Daten zu überprüfen. Diese Verfahren sollten zuerst auf kleinen Beispielsätzen überprüft werden und später in ihrer Umsetzung auf den spezifischen Bereich umgesetzt werden. Ein wesentlicher Einflussfaktor auf die Ergebnisse begründet der zugrunde liegende Sprachkorpus. Der Korpus das Projekt Deutscher Wortschatz ist nicht ausreichend spezialisiert im Bereich Trendsport, da die Inhalte sich aus Zeitungsberichten sammeln und nicht im Social Web oder auf Websites nach Daten suchen. Die gesuchten Trendsportarten stammen laut Schwier (2000) von Individuen und werden erst in späteren Phasen in Zeitungen veröffentlicht. Der Korpus sollte als Grundlage speziell auf das Anwendungsgebiet ausgerichtet sein und dem Anwender eine umfassende Satzdatenbank zur Verfügung stellen. Der Erfolg der Analyse hängt stark von der Größe und dem Inhalt des Sprachkorpus ab, da die Analyse aussagekräftiger wird umso mehr Information als Vergleichsparameter herangezogen werden kann. Die Novelty Analyse basiert auf satzweise und dokumentweise Vergleiche und muss für eine Trendsporterkennung so verändert werden, dass auch wenn das zu identifizierende Term nicht bekannt ist, es noch immer als novel und relevant für Trendsportarten erkannt werden kann. Der definierte Algorithmus basiert somit auf Kookkurrenzanalysen zweiter Ordnung die zuverlässig in der Verwendung eines Terms in einem Themenbereich ist. Durch die Textklassifizierung ist bereits gewährleistet, dass ein identifiziertes Nomen inhaltlich korrekt zugeordnet ist. 5