Data- und Textmining in touristischen Blogs und Foren Ein Hilfsmittel bei der touristischen Produktentwicklung Dr. Klemens Waldhör klemens.waldhoer@kremsresearch.at 4. Data Mining Konferenz 2008
Inhalt Social Web, Travel 2.0 und Tourismus Warum Text Mining im Tourismus? Österreich in Travel 2.0 TravelBlog.org HolidayCheck NÖ Card Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 2
Social Web (2.0) -> Travel 2.0 Virtual Communities (VC) ebay Blogs Foren Bewertungssysteme Wikis YouTube/My Video 2nd Life XING, Facebook Second Life Second Life Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 3
Bedeutung von Weblogs Offene Systeme Glaubwürdigkeit Herstellerneutral vs. herstellereigene Blogs/Foren Repräsentativität Kleine Anzahl von Bloggern schreibt die meisten Inhalte Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 4
Touristischer Blog Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 5
Forum/Bewertungsplattform Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 6
Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 7
Bedeutung Travel 2.0 29 Mio Deutsche Web als Reiseinfoquelle, 15 Mio Online gebucht ~40% der Onliner halten Bewertungsplattformen für glaubwürdig Werden durch Berichte anderer beeinflusst (42%!) Quelle: Web 2.0 im Tourismus, E-Tourismus Tag 2007 Österreich Werbung / Markus Gratzer, http://www.anetnetwork.at/portal/index.php?option=com_docman&task= doc_download&gid=368&itemid=53&lang=de Technorati Reise (1,2 Mio) + Österreich ~ 7000 Treffer Hotel (1,2 Mio) + Österreich - ~ 7000 Treffer Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 8
Verwendung Social Web 2.0 für Österreichurlaub Quelle: Web 2.0 im Internet Onlinebefragung unter deutschen Österreich-Urlaubern, Österreich Werbung Research & Development / Tourismusforschung, http://www.austriatourism.com/media/89 98/2007E_Web20_summary.pdf Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 9
etourismus Wertschöpfungskette Vor der Reise Während der Reise Nach der Reise Kundensicht Information Reservierung/ Buchung Anreise Infos vor Ort Verpflegung Unterkunft Transport Activitäten/ Animation Unterhaltung Abreise Reisenachbereitung Unternehmenssicht Buchungsplattfor m, Navi, Virtual Communities Lovo, IQ Mobile, Infoterminals, Einbuchautomat, Virtual Communities Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 10
Fragestellungen für TOs TO = Tourismusorganisation Welchen Einfluss haben diese Berichte auf die Leser = potentielle Gäste? Wie reagiert der Gast bei Diskrepanz Bericht Wirklichkeit? Wem wird die Schuld zugeschoben? Wie kommt man in Blogs/Foren? Wie und wo wird eine touristische Destination/Unternehmen erwähnt, diskutiert? Wie kann man mit moderatem Zeitaufwand die Inhalte der Blogs/Foren lesen? Wer kontrolliert die Blogs? Wie reagiert man auf positive / negative Äußerungen in Blogs und Foren? Mehrsprachigkeit Konkurrenzbeobachtung Wer ist Schuld an negativen Bewertungen und Berichten? Welche Schlüsse zieht man aus diesen Informationsquellen? Qualitätssicherungsmaßnamen Trenderkennung Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 11
Methoden Text-Klassifikation Zuordnung von Texten (Dokumenten) zu bestimmten Kategorien z.b. Hotel OrangeWings, Restaurant Roter Bär, Destination Weinviertel Urlaub Österreich Textzusammenfassung Extraktion der relevanten Teile eines Textes oder Dokuments Abstract Sentiment Analysis Gefühle, Einstellungen, Ziele, Fragen, Anforderungen aus einem Text extrahieren Mir persönlich ist die neue deutsche Küche zu langweilig. Der grüne Veltliner schmeckt sauer. Beurteilungen, Meinungen etc. Woher kommen die 4 Sterne? Das Personal war inkompetent Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 12
Ziele Entwicklung eines Prototypen Automatische Extraktion von relevanten Inhalten aus dem Web (Blogs, Evaluationsplattformen) Automatische Meta Tagging Einheitliches Format Semi-Automatische Auswertung Konkordanzen, KWIC Tiefere linguistische und semantische Analyse des Textes Darauf aufbauend Berichte erstellen Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 13
Datenformat Warum? Vereinfachung der statistischen und Konkordanzanalysen Einfachere Anwendung von linguistischen Technologien (Parsern etc.) Service unabhängig! Ermöglicht Vergleich zwischen verschiedenen Anbietern Basiert auf XLIFF 1.1 (OASIS, 2003) Standard in Lokalisierungsindustrie Technische Dokumentation Erweiterbar Zusätzliche Metadaten URL, Autor, tags, Produkt, Zielgruppen, Linguistische Eigenschaften Semantische Eigenschaften Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 14
Meta Tagging <note>title=tolles Hotel in schöner Lage,wir kommen wieder!</note> <blog:blog-info site="holidaycheck.de" type="blog-posting" last-modified="2008-01-01t00:00:00+01:00"> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/age/51-55">51-55</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/booked/internet">internet</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/children/keine">keine</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/company/paar">paar</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/duration/3-5+tage">3-5 Tage</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/motive/wintersporturlaub">wintersporturlaub</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/origin/deutschland">deutschland</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/recommend/ja">ja</blog:category> <blog:category uri="http://bloganalyser.kremsresearch.at/tags/traveldate/april 2007">April 2007</blog:category> <blog:category uri="http://www.holidaycheck.de/hotel-reiseinformationen_hotel+mozart-hid_63047.html">hotel Mozart</blog:category> <blog:category uri="http://www.holidaycheck.de/kontinente-reiseinformationen_europa-kid_1.html">europa</blog:category> <blog:category uri="http://www.holidaycheck.de/laender-reiseinformationen_oesterreichlid_146.html">österreich</blog:category> <blog:category uri="http://www.holidaycheck.de/regioall-reiseinformationen_tirol-rid_440.html">tirol</blog:category> <blog:category uri="http://www.holidaycheck.de/region-reiseinformationen_ried-oid_7598.html">ried</blog:category> <blog:author uri="http://www.holidaycheck.de/#">kathrin</blog:author> Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 15
Anwendungsarchitektur Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 16
Beispielanalysen Datenbasis mit Bezug auf Österreich Travelblog.org 892 Einträge (~550.000 Worte) NÖ-Card 274 Einträge (~ 7.500 Wörter ) Holidaycheck.de 4.450 Einträge (~ 1.4 Mio Worte) Datenbasis mit Bezug auf Northern Territories Australia 889 Einträge (~ 700.000 Worte) Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 17
Beispielanalyse Hotel 1 Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 18
Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 19
Beispielanalyse individuelles Hotel Hotelbewertungen 0,80 0,60 0,40 Bewertung 0,20 0,00-0,20 1 2 3 4 5 6 7 8-0,40-0,60 Blogger Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 20
Beispielanalyse Hotel 2 Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 21
Beispiel Markierung <trans-unit id="t24"> <source>das Frühstück war ok, aber ein wenig Abwechslung würde nicht schaden.</source> <target><mrk mtype="term" blog:pos="art">das</mrk><mrk mtype="term" blog:pos="nn">frühstück</mrk><mrk mtype="term" blog:pos="vafin">war</mrk><mrk mtype="term" blog:pos="adv">ok,</mrk><mrk mtype="term" blog:pos="adv">aber</mrk><mrk mtype="term" blog:pos="art">ein</mrk><mrk mtype="term" blog:pos="pidat">wenig</mrk><mrk mtype="term" blog:pos="nn">abwechslung</mrk><mrk mtype="term" blog:pos="adv">würde</mrk><mrk mtype="term" blog:pos="adjd">nicht</mrk><mrk mtype="term" blog:pos="adjd">schaden.</mrk></target> <blog:semantic> <blog:semantic-entry product="frühstück" category="food" relationship="war" evaluationterm="ok, aber ein wenig Abwechslung würde nicht schaden." evaluationvalue= -0.2" /> <blog:semantic-entry product="abwechslung" category="behavior" evaluationvalue="0.2" /></blog:semantic> </trans-unit> Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 22
Analyse Travelblog.org Österreich* Gründung 2002 Aktuell ca. 35.000 Blogger Interessensgemeinschaft Reiseerlebnisse Portal unabhängiger Blogger 188 Einträge Über Österreich Zwischen 01. Juni 2005 und 31. Mai 2006 114 Blogger 50.00% 45.00% 40.00% 35.00% 30.00% 25.00% 20.00% 15.00% 10.00% 5.00% 0.00% USA Australien Canada Europa Neuseeland Rest (*) Diplomarbeit Anita Wenger, 2007: Analysis of travel blogger s characteristics and Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 23 their communication about Austria as a tourism destination, Betreuer Dr. Waldhör
Touristische Resultate Veröffentlichung während der Reise Österreich ein Ziel auf Europa-Tour 51% Ankunft per Bahn Meist besprochene Destinationen = Städte 48% Wien 29% Salzburg Meist besprochene Sehenswürdigkeiten Stadtzentrum Wien Salzburger Altstadt Festung Hohensalzburg Schloss Schönbrunn Aspekt Kultur 1. Mozart 2. Sound of Music 3. Music 4. Concert 5. Maria Aspekt Sektoren 1. Train 2. Tour 3. Room 4. Hostel 5. Bus 6. Beer Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 24
Travelblog.org Nennungen Orte Häufigkeit Travelblog Nennungen Ortsnamen 2500 2000 1500 1000 500 0 wien salzburg Musik ~ 750 Mozart, mountain ~ 600 Sound of music ~ 360 österreich innsbruck worth graz Absolute Häufigkeit Dateihäufigkeit wien 2247 500 salzburg 1263 269 österreich 979 441 innsbruck 235 80 worth 132 103 graz 92 27 linz 90 39 hallstatt 81 20 wolfgang 57 25 michael 55 18 melk 55 14 mauthausen 44 12 zell 40 18 mondsee 36 19 linz hallstatt wolfgang michael melk mauthausen zell mondsee zell am see gertraud Ort zell am see 33 13 gertraud 33 1 salzach 32 26 tirol 32 20 werfen 31 10 zillertal 26 4 anton 25 10 neustadt 25 8 wiener neustadt 24 8 villach 23 4 steiermark 22 15 salzkammergut 20 13 itter 20 7 salzach tirol werfen zillertal anton neustadt wiener neustadt villach steiermark salzkammergut itter Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 25
Einfache Adjektiv Analyse Holidaycheck - 4450 Einträge Time Series Power 10,00 Negative vs. positiv verwendete Adjektive 8,00 Stärke 6,00 4,00 meanpower 2,00 0,00-2,00 Zeit Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 26
Einfache Adjektiv Analyse Holidaycheck - 4450 Einträge Power distribution 6,00 5,00 4,00 Stärke 3,00 2,00 1,00 meanpower 0,00-1,00-2,00 - + Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 27
Holidaycheck Vergleich - Tirol - Wien NÖ - Hotels Tirol 120 100 Wien 80 70 60 60 Niederösterreich archive entry 50 30 40 40 25 archive 20 30 20 entry 0 20 15 archive entry 10 10 0 5 0 Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 28
Absolute Zahlen Tirol Wien NÖ 94 17 111 97 0 97 71 6 77 69 0 69 57 12 69 25 39 64 41 19 60 51 8 59 26 30 56 57 9 66 40 11 51 30 6 36 29 13 42 29 6 35 23 9 32 23 8 31 22 4 26 21 17 38 11 17 28 23 2 25 14 9 23 11 1 12 6 6 12 10 0 10 5 5 10 9 0 9 6 3 9 Aktuell Archiviert Summe Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 29
NÖ Card Forum Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 30
NÖ Card - Ortsnennungen Häufigkeit 25 20 15 10 NÖ Card Nennungen Ortsnamen geras 20 11 wien 17 11 waidhofen 17 9 orth 10 6 gutenstein 9 6 eckartsau 8 4 ybbs 7 7 neustadt 7 5 berg 6 5 retz 6 5 haag 6 4 kloster 5 4 mürzzuschlag 5 4 peter 5 3 semmering 5 3 baden 4 3 schwarzenba ch 4 3 zwettl 4 3 miesenbach 4 2 5 0 geras wien waidhofen orth gutenstein Absolute Häufigkeit Dateihäufigkeit eckartsau ybbs neustadt berg retz Orte haag kloster mürzzuschlag peter semmering baden schwarzenbach zwettl miesenbach Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 31
NÖ Card 20. häufigsten Begriffe Die 20 wichtigsten bedeutungstragenden Begriffe 80 70 60 50 40 30 Absolute Häufigkeit Dateihäufigkeit Häufigkeit 20 10 0 führung card museum nö ausstellung kinder nö card interessant ausflug besuch schloss empfehlenswert empfehlenswert zug sehenswert personal schön kindern erlebnis empfehlen Begriff Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 32
Resümee Blogs und VVs sind interessante und wertvolle Informationsquellen für den Touristiker Einfache Konkordanzanalysen zeigen bereits interessante Ergebnisse Semiautomatische Analyse ist ein Muss durch die große Anzahl von Blogs etc. Automatisierung ist möglich Gewichtung muss fachbereichsspezifisch eingestellt werden Eine Humaninterpretation ist aber auf jeden Fall erforderlich Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 33
Weitere Informationen 2nd Conference Blogs in Tourism, 08.09.2008, Krems http://www.kremsresearch.at/de/conference_blogs.php Waldhör, K. (Ed.) (2007). Proceedings of the First International Conference on Blogs in Tourism. Schriftenreihe Krems Research, Band 3. Krems: Krems Research Forschungsgesellschaft. http://www.kremsresearch.at/de/studien.php Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 34
Kontakt Krems Research Forschungsgesellschaft mbh A-3500 Krems Tel: 02732 72177 20 Fax: 02732 721 77 21 info@kremsresearch.at www.kremsresearch.at Dr. Klemens Waldhör T: +43 (0)2732/72177-22 F: +43 (0)2732/72177-21 klemens.waldhoer@kremsresearch.at Dr. Klemens Waldhör, Krems Research, 4. Data Mining Konferenz 2008 35