ecrm Web Mining & Clickstream Analysis



Ähnliche Dokumente
DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

'Customer Relationship Management'

INHALTSVERZEICHNIS Allgemeine Beschreibung... 3 Verwendung der Webseite... 4 Abbildungsverzeichnis... 12

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Premium Service für Suchmaschineneintrag - - Wir bringen Sie nach ganz vorne! -

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Handbuch ECDL 2003 Professional Modul 2: Tabellenkalkulation Vorlagen benutzen und ändern

Guide DynDNS und Portforwarding

Erfolgreiche Webseiten: Zur Notwendigkeit die eigene(n) Zielgruppe(n) zu kennen und zu verstehen!

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze


Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Webhost Unix Statistik

Nach der Anmeldung im Backend Bereich landen Sie im Kontrollzentrum, welches so aussieht:

Windows 10 > Fragen über Fragen

.htaccess HOWTO. zum Schutz von Dateien und Verzeichnissen mittels Passwortabfrage

Registrierung im Portal (Personenförderung)

Professionelle Seminare im Bereich MS-Office

FTP-Server einrichten mit automatischem Datenupload für

Webalizer HOWTO. Stand:

PK-Website: Besuche & Seitenaufrufe 2010 und 2011

Step by Step Webserver unter Windows Server von Christian Bartl

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

News & RSS. Einleitung: Nachrichten er-(veröffentlichen) und bereitstellen Nachrichten erstellen und bereitstellen

Übersicht Die Übersicht zeigt die Zusammenfassung der wichtigsten Daten.

Wie funktioniert das WWW? Sicher im WWW

Monatstreff für Menschen ab 50 Temporäre Dateien / Browserverlauf löschen / Cookies

Ihr Weg in die Suchmaschinen

Outlook Web App 2010 Kurzanleitung

Urlaubsregel in David

Der große VideoClip- Wettbewerb von Media Markt.

Anleitung über den Umgang mit Schildern

Treckerverein Monschauer Land e.v.

Warum Sie jetzt kein Onlinemarketing brauchen! Ab wann ist Onlinemarketing. So finden Sie heraus, wann Ihre Website bereit ist optimiert zu werden

Dokumentation IBIS Monitor

Benutzerhandbuch. Leitfaden zur Benutzung der Anwendung für sicheren Dateitransfer.

Anleitung TYPO3 Version 4.0

Internationales Altkatholisches Laienforum

Kurzanleitung RACE APP

Optimieren Sie Ihre n2n Webseite

Leichte-Sprache-Bilder

Handbuch für Gründer. Daniela Richter, Marco Habschick. Stand: Verbundpartner:

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser


Umgang mit der Software ebuddy Ändern von IP Adresse, Firmware und erstellen von Backups von ewon Geräten.

Begreifen Cookies. Inhalt. Cookie Grundlagen Ihre Privatsphäre MS: Internet Explorer Google: Chrome Mozilla: Firefox...

OP-LOG

-Inhalte an cobra übergeben

COMPUTER MULTIMEDIA SERVICE

In diesem Tutorial lernen Sie, wie Sie einen Termin erfassen und verschiedene Einstellungen zu einem Termin vornehmen können.

Online Schulung Anmerkungen zur Durchführung

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Konfiguration VLAN's. Konfiguration VLAN's IACBOX.COM. Version Deutsch

proles-login. Inhalt [Dokument: L / v1.0 vom ]

Registrierung als webkess-benutzer

Version smarter mobile(zu finden unter Einstellungen, Siehe Bild) : Gerät/Typ(z.B. Panasonic Toughbook, Ipad Air, Handy Samsung S1):

Um ein solches Dokument zu erzeugen, muss eine Serienbriefvorlage in Word erstellt werden, das auf die von BüroWARE erstellte Datei zugreift.


Über die Internetseite Hier werden unter Download/aktuelle Versionen die verschiedenen Module als zip-dateien bereitgestellt.

Elexis-BlueEvidence-Connector

D i e n s t e D r i t t e r a u f We b s i t e s

Hilfe zur Urlaubsplanung und Zeiterfassung

von: Oktay Arslan Kathrin Steiner Tamara Hänggi Marco Schweizer GIB-Liestal Mühlemattstrasse Liestal ATG

Sich einen eigenen Blog anzulegen, ist gar nicht so schwer. Es gibt verschiedene Anbieter. ist einer davon.

Wie richten Sie Ihr Web Paket bei Netpage24 ein

ICS-Addin. Benutzerhandbuch. Version: 1.0

2. Die eigenen Benutzerdaten aus orgamax müssen bekannt sein

Erstellung botoptimierter Partnerlinks

Zeichen bei Zahlen entschlüsseln

Anleitung für die Registrierung und das Einstellen von Angeboten

Bereich METIS (Texte im Internet) Zählmarkenrecherche

2. Psychologische Fragen. Nicht genannt.

Primzahlen und RSA-Verschlüsselung

Ihrer Kunden, auf die vorderen Suchmaschinenplätze zu bringen. Das hatten Sie sich

Erste Hilfe. «/IE Cache & Cookies» Logout, alte Seiten erscheinen, Erfasstes verschwindet?

Inhalt. 1 Einleitung AUTOMATISCHE DATENSICHERUNG AUF EINEN CLOUDSPEICHER

Anbindung des eibport an das Internet

Konfiguration eines DNS-Servers

S TAND N OVEMBE R 2012 HANDBUCH DUDLE.ELK-WUE.DE T E R M I N A B S P R A C H E N I N D E R L A N D E S K I R C H E

Inkrementelles Backup

Übersicht... 2 Dateiupload... 3 Administratorfunktionen... 4

Anleitung mtan (SMS-Authentisierung) mit SSLVPN.TG.CH

Zwischenablage (Bilder, Texte,...)

Partitionieren in Vista und Windows 7/8

Der Schutz Ihrer personenbezogenen Daten ist für die NFON AG ein zentrales Anliegen.

icloud nicht neu, aber doch irgendwie anders

Hilfedatei der Oden$-Börse Stand Juni 2014

Das Handbuch zu KNetAttach. Orville Bennett Übersetzung: Thomas Bögel

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

crm-now/ps Webforms Webdesigner Handbuch Erste Ausgabe

Drägerware.ZMS/FLORIX Hessen

Netzwerk einrichten unter Windows

4 Ideen zur Verbesserung des -Marketings!

Datenbanken Kapitel 2

Individuelle Formulare

Persönliche Zukunftsplanung mit Menschen, denen nicht zugetraut wird, dass sie für sich selbst sprechen können Von Susanne Göbel und Josef Ströbl

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

Persönliches Adressbuch

Verwendung des IDS Backup Systems unter Windows 2000

Transkript:

Universität Fribourg Research Group Information Systems Prof. Dr. Andreas Meier Seminar zum Thema ecrm & Clickstream Analysis Emanuel Stoll Fribourg, SS 05 Mottastr.13 21. April 2005 3005 Bern emanuel.stoll@unifr.ch

Inhaltsverzeichnis Inhaltsverzeichnis... I 1 II Abbildungsverzeichnis... 2 Abkürzungsverzeichnis... 2 1 Einleitung... 1 2 Gewinnung und Auswertung von Kundendaten... 2 2.1 deskriptive Auswertungsverfahren... 2 2.2 automatische Mustererkennungsverfahren... 3 3... 3 3.1 Ablauf der Analyse... 5 3.2 Datenbasis des... 5 3.2.1 Server Logfiles... 5 3.2.2 Cookies... 7 3.2.3 Zusatzinformationen... 7 3.3 Aufbereitung der Daten... 8 3.4 Integration der Daten... 9 3.5 Mustersuche in den Daten... 9 3.5.1 Clusteranalyse... 10 3.5.2 Assoziationsanalyse... 10 3.5.3 Sequenzanalyse (Pfadanalyse)... 11 3.5.4 Klassifikationsanalyse (Segmentierung)... 11 3.5.5 Vorhersageanalyse... 12 3.6 Umsetzung der Erkenntnisse... 12 3.6.1 Web Controlling... 12 3.6.2 Website Optimierung... 12 3.6.3 Personalisierung... 13 4 Aspekte des Datenschutzes... 13 5 Möglichkeiten und Grenzen des... 14 Literaturverzeichnis... 16 I

Abbildungsverzeichnis Abbildung 2-1 : Ablauf einer Analyse...3 Abbildung 3-1 : Bereiche des...4 Abbildung 3-2 : Prozess...5 Abbildung 3-3 : Felder des Common Logfile Format...6 Abkürzungsverzeichnis ecrm CRM CLF IP ecustomer Relationship Management Customer Relationship Management Common Logfile Format Internet Protokoll Nummer II

1 Einleitung Das hohe Potential von ecrm im E-Commerce liegt in den vielfältigen Möglichkeiten der individuellen und multimedialen Interaktion mit den einzelnen Kunden. Die Grundlage, um dieses Potential nutzen zu können, ist das Wissen über die Kunden. Mehr als in allen anderen Medien besteht im Internet die Möglichkeit, aus dem Informations- und dem Kaufverhalten des Kunden oder des Websitebesuchers, auf dessen Interessen und Wünsche zu schliessen. Mit diesen Informationen können individuelle Inhalte, Angebote und ein persönlicher Dialog mit dem Kunden entwickelt werden. Daneben lassen sich auch Schwachstellen von E-Commerce Angeboten aufdecken und Verbesserungspotentiale ermitteln. Um dies möglich zu machen, ist die Analyse des Kundenverhaltens im Internet nötig. Das Datenanalyseverfahren liefert dabei viele hilfreiche Informationen. Begriffserklärung stammt vom Begriff Data Mining ab. Dieser Begriff nimmt Bezug auf den Bergbau (Mining), wo enorme Gesteinsmengen abgebaut werden, um daraus dann beispielsweise Edelmetall zu fördern. Entsprechend geht es beim Data Mining darum, aus grossen Datenmengen mit anspruchsvollen, automatisierten Methoden, ohne nennenswerte steuernde Eingriffe und ohne vorherige Hypothesendefinierung durch den Marktforscher, die bedeutsamen und handlungsrelevanten Informationen zu identifizieren. 1 Beim werden die Techniken des Data Mining auf Datenmaterial übertragen, das im Zusammenhang mit Prozessen im Internet gesammelt wird. Im Text wir im Zusammenhang mit E-Commerce Angeboten von Webseiten (z.b. die Webseite buch.html) gesprochen, wobei eine einzelne Seite gemeint ist. Wenn hingegen von einer Website die Rede ist, so ist ein ganzes E-Commerce Angebot, also verschiedene, miteinander zusammenhängende Webseiten gemeint. (z.b. die Website www.amazon.de) 1 Vgl. Homburg, Ch.; Krohmer, H. (2003), S.332 1

2 Gewinnung und Auswertung von Kundendaten Um das für die Kundenorientierung notwendige Wissen über den Kunden und dessen Bedürfnisse zu gewinnen, müssen Daten gesammelt und richtig ausgewertet werden. Dies gilt im konventionellen CRM ebenso wie im ecrm. Wegen der im Internet jedenfalls vordergründigen Anonymität, fällt ein persönlicher Kontakt zwischen Kunde und Anbieter aus. Im ecrm müssen daher etwas andere Methoden zur Datenbeschaffung angewendet werden. Die Datenbeschaffung wird durch die automatische Aufzeichnung aller Bewegungen der Online-Kunden eines Internet Angebotes etwas erleichtert. In so genannten Logfiles, wird jeder Seitenaufruf eines Besuchers vom Server protokolliert. Weitere Methoden zur Datengewinnung werden im Kapitel 3.2 vorgestellt. Trotz der sehr vielen Daten die durch die automatische Aufzeichnung anfallen, ist es oftmals für die Betreiber von E-Commerce Angeboten nicht leicht, brauchbare Informationen über die Eigenschaften ihrer Online-Kunden und auch über die Wirkung ihres E-Commerce Angebots zu erhalten. Wie es dennoch möglich ist, an Informationen über die Zusammensetzung der Besucher, die Wirkung von Online-Werbung, die Bewertung einzelner Seiteninhalte oder auch über das Online-Kaufverhalten der Kunden zu gelangen, soll dieses Kapitel aufzeigen. 2.1 deskriptive Auswertungsverfahren Herkömmliche, deskriptive Statistiken sind nur beschränkt dazu geeignet, Informationen über die Website-Nutzung und über den Website-Nutzer zu liefern. Die Ergebnisse einer Logfile-Analyse geben erste Anhaltspunkte zur Nutzung einer Website. Diese können Hinweise zur Verbesserung einer Seitenstruktur oder auch zur besseren Positionierung wichtiger Seiteninhalte geben. Sie liefern aber keine Informationen über individuelle Verhaltensweisen und über die Interessen der Website-Nutzer. Deskriptive Verfahren sind auch nicht in der Lage, selbständig Muster in den Nutzungsdaten aufzufinden. Doch gerade diese Muster im Verhalten der Kunden können aber helfen, im vordergründig anonymen Internet wichtige Informationen zu finden. Daher werden automatische Mustererkennungsverfahren (Verfahren des Data Mining) auf 2

Internetdaten angewendet, um tiefer gehende Informationen über die Besucher einer Website zu erhalten. 2 3 2.2 automatische Mustererkennungsverfahren Die Mustererkennung wird meist durch spezielle Data Mining Software 4 erledigt, die es heute mit verschiedenen Fähigkeitsschwerpunkten zu kaufen gibt. Wobei einzelne Anbieter auch spezialisierte Software 5 anbieten, die neben der Mustersuche auch die Datenauswahl, die Aufbereitung und auch die Integration übernehmen. Datenauswahl Daten - Daten - Mustersuche Interpretation aufbereitung integration Abbildung 2-1 : Ablauf einer Analyse 6 Wie Abb. 2-1 zeigt, werden setzt die Mustersuche, also das eigentliche, erst gegen Ende der Analyse, nach einer Phase von verschiednen Vorund Aufbereitungsvorgängen ein. 3 Wie in der Einleitung angetönt, versteht man unter die Anwendung von Verfahren des Data Mining auf Datensammlungen aus dem Internet. lässt sich in drei Analyseverfahren aufteilen 7 : Web Content Mining befasst sich mit der Analyse des Website Inhalts. Eine Zielsetzung ist, die Suche nach Informationen innerhalb einer Website zu vereinfachen. Eine Aufgabe ist es, Online-Dokumente zu Gruppieren und zu 2 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S. 272 3 Vgl. Englbrecht, A. / Hippner, H. / Wilde, K.D. (2004), S.427-429 4 Siehe z.b. SPSS Clementine unter: http://www.spss.com/clementine/ oder Insightful Miner 3 unter: http://www.insightful.com/products/iminer/default.asp 5 Hierzu gibt es eine Studie, die 26 Tools untereinander vergleicht. Siehe dazu: http://www-winfo.ku-eichstaett.de/crm/wm.php?phpsessid=29b2dd89f88615a16dfac5628f41f992 6 Hippner, H. / Merzenich, M. / Wilde, K.D. (2002), S.90 7 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.273-274 3

Klassifizieren oder auch das Auffinden dieser Dokumente mit Hilfe von Suchbegriffen zu erleichtern. Web Structure Mining befasst sich mit der Anordnung einzelner Elemente innerhalb einer Website(intra-page structure information) und auch mit der Verknüpfung verschiedener Seiten untereinander(inter-page structure information). Wichtig sind die Verweise von einer Webseite auf eine andere, meist inhaltlich verwandte Webseite mit Hilfe von Hyperlinks. Diese beiden Bereiche des werden hauptsächlich in der Phase der Datenaufbereitung(siehe Abb. 2-1 und Kap.3.3) eingesetzt. Damit können Webseiten inhaltlich klassifiziert werden, was besonders bei umfangreichen Websites von grosser Bedeutung ist, da für die weitere Analyse Gruppen von inhaltlich ähnlichen Webseiten gebildet werden können. Auch die Struktur der Website und die Anordnung der einzelnen Webseiten kann so aufgezeigt werden, was das Nachvollzeihen des Bewegungsverhaltens der Nutzer ermöglicht. Web Usage Mining beschäftigt sich mit dem Verhalten der Internet Nutzer. Hierbei werden Data Mining Verfahren auf die Logfiles des Webservers angewandt, um Verhaltensmuster und Interessen der Nutzer aufzudecken. Wenn sich die Analyse auf die Logfiles beschränkt, so spricht man von Web Log Mining, werden aber weitere Datenquellen(z.B. Registrierungsdaten, Formularangaben, Kaufhistorie ) mit in die Analyse einbezogen, so spricht man von Integrated Web Usage Mining. 8 Web Structure Mining Web Content Mining Web Usage Mining nur Logfile Web Log Daten Mining Abbildung 3-1 : Bereiche des 9 Integrated Web Usage Mining + zusätzliche Datenquellen In den folgenden Kapitel ist unter dem Bereich immer die Ausprägung Web Usage Mining gemeint. 8 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.274 9 Vgl. ebenda S.274 4

3.1 Ablauf der Analyse In diesem Kapitel wird der Ablauf der Analyse aufgezeigt. Das eigentliche, die Phase der Mustersuche und Interpretation erfolgt gegen den Schluss des in Abb. 3-2 gezeigten Ablaufs. Datenerhebung Daten - bereinigung Nutzer- und Session -ID Datenintegration Mustersuche Musterinterpretation Anwendung der Ergebnisse rohe Logfiles reine Logfiles Sessions Berücksichtigung der Datenschutzgesetze Assoziationsanalyse Webcontrolling Sequenzanalyse Zusatzinformationen Name Adresse Alter Datenbasis Klassifikation (Segmentierung) Vorhersageanalyse Website Optimierung Personalisierung Abbildung 3-2 : Prozess 10 Vorher müssen die Daten aufbereitet, bereinigt, wenn möglich ergänzt und vervollständigt werden, um am Ende aussagekräftige Resultate zu erhalten, die dann auch Angewendet werden können. 3.2 Datenbasis des Wie in Abb. 3-2 ersichtlich ist, steht am Anfang des Prozesses, die Erhebung der Internet-Nutzerdaten, die dann schlussendlich in die Analyse einfliessen sollen. Neben den reinen Internetdaten können auch weitere vorhandene Datensätze integriert werden, um eine umfassendere Analyse zu ermöglichen. Beim Einsatz und der Auswertung von personenbezogenen Daten sind aber immer die Grundsätze des Datenschutzes zu berücksichtigen. 11 Siehe dazu auch Kap. 4. 3.2.1 Server Logfiles Als erste Datenquelle des Prozesses, sind die vom Webserver generierten Logfiles zu nennen. Es sind Textdateien, in denen automatisch Abläufe 10 Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.275 11 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.275 5

der Rechnertätigkeit aufgezeichnet werden. In den Logfiles des Webservers wird die Kommunikation des Servers mit dem Internet protokolliert. Es lassen sich unter anderem ermitteln, von welchem Rechner wie lange auf bestimmte Inhalte zugegriffen wurde, welcher Browser dabei eingesetzt wurde und ob bei der Datenübertragung Fehler aufgetreten sind. Bei der Auswertung der Logfiles lässt sich auch der Weg des Besuchers beim Navigieren durch die Website, der so genannte Clickstream, ermitteln. 12 Das Logfile wird in einem Standartformat, dem Common Logfile Format(CLF) aufgezeichnet. Abb. 3-3 zeigt den Inhalt eines CLF. Feldname Bedeutung des Feldinhaltes Host IP-Adresse des zugreifenden Servers Ident Identifikation (falls vorhanden, sonst Bindestrich) Authuser Authentifizierter Benutzername (falls erforderlich, sonst Bindestrich) Date Datum und Uhrzeit des Zugriffs im Format dd/mm/yyyy:hh:mm:ss Time-zone Abweichung von der Greenwich Mean Time (GTM) Request Methode, Dokument und Protokoll des Zugriffs Status Antwortstatus als Codenummer (z.b. 200= Seite erfolgreich übertragen ) Bytes Gesamtzahl der übertragenen Bytes Ein Expanded Common-Logfile-Format (ECLF) enthält zusätzlich folgende Felder: Referrer URL der Seite, die den Link zur angefragten Seite enthielt Agent Name und Versionsnummer des anfragenden Browsers Abbildung 3-3 : Felder des Common Logfile Format 13 Ein typischer Eintrag im CLF sieht folgendermassen aus: 123.456.78.9 - - [1/Apr/2005:07:20:20-0500] GET kauf.html http/1.0 200 3060 index.html Mozilla Firefox/5.0 (Win XP) In diesem Eintrag ist die Anfrage eines Besuchers zu erkennen, der über die IP- Adresse 123.456.78.9 am 1.April 2005 um 7:20:20 auf die Seite kauf.html zugriffen hat. Die Datenübertragung verlief erfolgreich (Statuscode200). Es wurden 3060 Bytes übertragen. Der Besucher verfolgte einen Link von der Seite index.html und benutzte dabei den Browser Mozilla Firefox/5.0 in Verbindung mit Windows XP. Die Logfiles lassen sich aber nicht immer so ohne weiteres für den Prozess einsetzen. Sie enthalten in rohem Zustand sehr viele Einträge, die den wahren Verkehr einer Website stark verfälscht wiedergeben. Um zu umfassenderen und genaueren Daten zu kommen, werden oft Cookies verwendet. 12 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2002), S.91-93 13 Hippner, H. / Merzenich, M. / Wilde, K.D. (2002), S.92 6

3.2.2 Cookies Ein Cookie ist eine kleine Textdatei, die vom Webserver an den Browser übertragen wird. Das Cookie wird vom Browser gespeichert. Dabei kann es nur für die Dauer eines Websitebesuchs oder auch über längere Zeit aktiv belieben. In einem Cookie können kurze Informationen von einem Kontakt zum Webserver bis zum nächsten Kontakt mit diesem Webserver zwischengespeichert werden. So lässt sich beispielsweise ein Besucher der zum wiederholten Mal auf eine Website zugreift identifizieren. Dies wird beispielsweise für E-Commerce Angebote mit Einkaufskörben angewendet, wo ein Besucher auf mehreren Webseiten Artikel markiert die er gerne kaufen möchte und denn Kaufvorgang erst ein paar Tage später abschliessen will, ohne nochmals alle Artikel markieren zu müssen. Die beim Kaufvorgang vergebenen Cookies helfen dabei dem Browser, sich zu merken, welche Artikel markiert wurden. 14 3.2.3 Zusatzinformationen Neben der grundlegenden Informationsbasis aus den Internet- Nutzungsdateien(Logfiles, Cookies ) kann man die Ergebnisse der Analyse erheblich verbessern, wenn weitere Informationsquellen eingebunden werden. Je nach Gegenstand der Untersuchung und in Abhängigkeit der Datenverfügbarkeit, können Transaktionsdaten, Kundestammdaten, Kampagneninformationen oder auch Benutzerdaten mit eingebaut werden. 15 Benutzerdaten mit persönlichen Informationen, Eigenschaften und Präferenzen werden beispielsweise bei Anmelde- und Registriervorgängen über Onlineformulare generiert. Diese Informationen lassen sich technisch ohne weiteres mit den Logfiledaten zusammenbringen. Somit lässt sich auch eine Verbindung von onlineund offline Angeboten und auch vom Online- mit dem Offline-Marketing realisieren. 14 Informationen zu Cookies u.a. unter: http://www.uni-muenster.de/www/sicherheitcookies.html, abgerufen am 7.4.05 15 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.280-281 7

Logfiles Cookies Session-ID Transaktionsdaten (Kauf, Bestellung ) Datenbasis Benutzerdaten aus Registrierungsformularen Kampagneninformationen (Banner, emails ) sozio-demographische Daten Abbildung 3-4 : mögliche Datenquellen des Web Usage Mining 16 Kundenstammdaten (wenn bereits vorhanden) 3.3 Aufbereitung der Daten Die durch die Logfiles gesammelte Datenmenge ist enorm gross und beinhaltet auch viele irreführende und nutzlose Angaben. Erst einmal geht es nun darum, alle Einträge die nicht durch eigentliche Websitenutzer generiert wurden, zu identifizieren und zu eliminieren. Dies sind Websiteaufrufe, die durch Suchmaschinen oder auch durch den Abruf einzelner Webseitenbestanteile wie Bilder, generiert worden sind. Verfälscht werden die Logfiles auch durch Cach- Mechanismen der Browser und der Internetprovider. Dabei werden häufig aufgerufene Webseiten auf der Festplatte des Nutzers oder auch auf dem Proxiserver des Providers zwischengespeichert. Dies verfälscht den Clickstream des Nutzers, der Webseitenzugriff wird unter Umständen durch das Logfile auch gar nicht registriert. Das kann aber relativ einfach, mit einem aufgezwungenen Neuladen der Seite umgangen werden. Mit den bereinigten Daten kann nun die Identifikation der einzelnen Besucher beginnen, um dem Ziel des näher zu kommen und die Anonymität der Besucher aufzulösen. Die Identifikation der Nutzer erfolgt über die IP-Adresse. Diese lässt sich aber wegen durch die Provider vergebenen, oft dynamischen IP-Adressen, nicht immer einem konkreten Nutzer zuordnen. Es kann sein, dass sich hinter einer IP-Adresse mehrere Nutzer verbergen oder aber, dass ein und derselbe Nutzer unter verschiedenen Malen mit verschiednen IP-Adressen auf eine Website zugreift. Dieses Problem kann mit der Betrachtung der Benutzen Browser umgangen werden. Greift die gleiche IP- Adresse mit verschiedenen Browsern auf die Website zu, so handelt es sich 16 Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.281 8

möglicherweise um zwei unterschiedliche Nutzer. Eine weitere Möglichkeit ist der Einsatz von Cookies. Da diese aber vom Nutzer unterdrückt werden können, garantieren auch sie nicht einen totalen Erfolg. Diesen kann man nur mit einer Identifikation über eine Registrierung herbeiführen, wo sich der Nutzer freiwillig und hoffentlich auch richtig zu erkennen gibt. Nur wenn eine IP-Adresse eindeutig identifiziert ist, lassen sich auch Clickstreams, also zusammenhängende Pfade, einzelner Nutzer ermitteln. 17 3.4 Integration der Daten Wie schon in Kapitel 3.2.3 erwähnt, lassen sich die bis zu diesem Zeitpunkt des Web Mining Ablaufs ermittelten Daten erheblich verbessern, wenn zusätzliche Informationsquellen eingebunden werden. Beim Zusammenbringen von Daten verschiedenster Quellen, darf aber nie der Datenschutz vergessen werden. 3.5 Mustersuche in den Daten Nach dem Aufbereiten der Daten und der Integration zusätzlicher Informationen, kommen die Methoden 18 des Data Mining zum Einsatz. Für das Gebiet des Web Usag Mining, bieten sich neben weiteren Methoden, vor allem die Methoden der Cluster-, der Assoziations- und der Sequenzanalyse an. Bei der Wahl der Methode müssen verschiedene Kriterien beachtet werden. So spielen die Approximations- und die Prognosegenauigkeit, die Generalisierungsfähigkeit und auch die Interpretierbarkeit möglicher Resultate eine zentrale Rolle. Daneben sind die Anwendungsprämissen und auch die Robustheit der Methoden und natürlich auch die Verfügbarkeit der Methoden zu beachten. 17 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.282-286 18 umfassende Informationen zu den Data Mining Methoden findet sich unter: http://www.kueichstaett.de/fakultaeten/wwf/lehrstuehle/wi/lehre/dm_v/hf_sections/content/vorlesung%20 Data%20Mining%20im%20Marketing%20-%20SS%202005.pdf, abgerufen am 7.4.05 9

3.5.1 Clusteranalyse Die Clusteranalyse versucht die Nutzer anhand von Ähnlichkeiten in Klassen oder Gruppen einzuordnen, die intern möglichst homogen und extern möglichst heterogen sind. Die Zuordnung passiert schrittweise. Die Anzahl und die Eigenschaften der Gruppen sind zu Beginn der Clusteranalyse noch nicht bekannt. Die Eigenschaften der Gruppen können erst nach er Clusterbildung, durch eine geschickte Interpretation anhand von Gruppenmittelwerten der Segmentierungsmerkmale und weiterer 19 20 Eigenschaften ermittelt werden. 3.5.2 Assoziationsanalyse Mit der Assoziationsanalyse 21 sollen mittels statistischer Zusammenhangsanalyse quantifizierte Regeln entdeckt und abgeleitet werden. Die Gültigkeit der Regeln kann durch die Signifikanz ermittelt werden. Als Resultat einer Assoziationsanalyse kann beispielsweise die Erkenntnis stehen, wenn ein Kunde ein bestimmtes Buch kauft, er dann mit einer Wahrscheinlichkeit von 62% auch ein zweites, anderes Buch kauft. Die Assoziationsanalyse generiert also wenn-dann Aussagen. Somit lassen sich Vorschläge für die Kunden generieren oder es lassen sich Warenkorbanalysen erstellen. 22 An der Stelle von real existierenden Webseiten, lassen sich auch virtuelle Seiten generieren um weitere interessante Zusammenhangsanalysen machen zu können. Als virtuelle Seiten bieten sich an: Besuchermerkmale o Kontakthistorie o Kaufhistorie Sitzungs- und Transaktionsmerkmale o Startzeitpunkt o Dauer o Verweildauer pro Seite o Erfolgreicher Abschluss 19 Vgl. Ceyp, M.H. (2002), S.116 20 Vgl. Homburg, Ch.; Krohmer, H. (2003), S.313-327 21 umfassende Informationen dazu finden sich unter: http://www.kueichstaett.de/fakultaeten/wwf/lehrstuehle/wi/lehre/dm_v/hf_sections/content/dm%205.pdf 22 Vgl. Ceyp, M.H. (2002), S.116-117 10

o Abbruch Seitenmerkmale o Seitentyp (Katalog-, Informations-, Bestell-, Service- oder Newsseite) o Themengruppen Somit können auch Aussagen gemachte werden, wie: wenn Abbruch, dann war der Besucher zu 73% auch auf der Seite zahlungsarten.html. Die Interpretation dieser Aussage muss der Marktforscher allerdings dann selber bewerkstelligen. Sie muss nicht eindeutig sein und ist unter umständen recht schwierig zu machen. 3.5.3 Sequenzanalyse (Pfadanalyse) Die Sequenzanalyse stellt eine Weiterentwicklung der Assoziationsanalyse dar. Hier wird versucht, typische Aneinanderreihungen zu finden. Dabei wird die zeitliche Reihenfolge der aufgezeichneten Aktionen berücksichtigt. Ein Beispiel ist die Analyse des Clickstream um daraus häufige Pfade innerhalb einer Website zu finden. Dies ermöglicht es dann, die Struktur und die Navigation der Website dem Nutzerverhalten anzupassen, verschiedene Nutzertypen zu beschreiben und somit auch eine online Personalisierung, also eine dynamische Gestaltung der Webseiten anhand des Clickstreams, zu ermöglichen. 23 3.5.4 Klassifikationsanalyse (Segmentierung) Bei der Klassifikationsanalyse werden meist Entscheidungsbaumverfahren, künstliche neuronale Netze oder Methoden der logistischen Regression angewendet. Mit diesen Verfahren werden Schritt für Schritt die ursprünglichen Daten in immer kleinere, homogenere Teilmengen aufgeteilt. Dabei wird untersucht welches Merkmal zu der bestmöglichen Klassifikation der Daten in Bezug auf die Zielgrösse führt. Mit der Klassifikationsanalyse können auch Website-Nutzer identifiziert werden, die mit einem bestimmten Ziel, beispielsweise dem Produktkauf, auf die Website stossen. Zu diesem Zweck sucht ein Klassifikationsverfahren gewisse 23 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.287 11

Webseitenaufrufe, Clickstreams und Nutzermerkmale, anhand derer Website-Nutzer dann in die Klassen der Käufer und die der Nicht-Käufer eingeteilt werden. 24 3.5.5 Vorhersageanalyse Die Vorhersageanalyse, auch Prognose genannt, ermöglicht die Berechnung stetiger Werte. In einem E-Commerce Angebot lässt sich beispielsweise über eine Regressionsanalyse mit einer gewissen Vorhersagegenauigkeit ein durchschnittlicher Bestellwert ableiten. 25 3.6 Umsetzung der Erkenntnisse Als Betreiber deiner Website wünscht man sich die Möglichkeit, den Erfolg seines Webangebots festzustellen, zu messen und in Kennzahlen festzuhalten. Unter dem Stichwort e-metrik 26 wird in letzter Zeit versucht, dem Controlling des E-Business messbare und informative Zahlen zur Verfügung zu stellen. 27 3.6.1 Web Controlling Mit den aus gewonnen Informationen, können erste Kennzahlen wie die Besucherfrequenz, die Loyalität der Webkunden oder auch der Umsatz pro Webkunde gewonnen werden. Diese liefern erste objektive Anhaltspunkte für Erfolgsmessung einer Website. Auch Entscheide bezüglich Ausbauschritte des Webangebots und auch bezüglich der Durchführung von Marketingmassnahmen können auf Anhaltspunkte aus dem Web Controlling abgestützt werden. 28 3.6.2 Website Optimierung Mit den Informationen kann die Konfiguration der Website und auch die Werbeplatzierung optimiert werden. Dabei kann die Seitenstruktur an häufigen Bewegungspfaden, Clickstreams, ausgerichtet werden, um die Navigation durch die 24 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.291 25 Vgl. Ceyp, M.H. (2002), S.116 26 Informationen zu e-metrik u.a. unter: http://www.mathematik.uniulm.de/sai/ss03/inetsem/src/seitzarbeit.pdf 27 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.291-293 28 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.292 12

Website zu erleichtern. Mit der Information woher die Besucher auf die eigene Website kommen, lassen sich Möglichkeiten strategischer Partnerschaften mit anderen Websites erkennen. Auch die Wirksamkeit von Suchmaschineneinträgen und von Bannerwerbung lässt sich so ermitteln und optimieren. 29 3.6.3 Personalisierung Mit den durch gewonnen Informationen lässt sich das Verhalten der Onlinebesucher dokumentieren und analysieren. Kunden können segmentiert, klassifiziert und beispielsweise mit Kaufwahrscheinlichkeiten bewertet werden. Mit diesen Informationen lassen sich zielgruppenspezifische Marketingkampagnen, kundespezifische e-mail Interaktionen oder auch personalisierte Website Inhalte generieren. 30 Erfahrungen aus der Marktforschung zeigen aber, dass Ergebnisse aus dem Web Mining nicht urteilslos angenommen werden dürfen. Sie müssen durch die Durchführenden kritische hinterfragt und richtig interpretiert werden. 31 4 Aspekte des Datenschutzes Im Rahmen des werden potentiell personenbezogene Daten genutzt. Daher ist es nötig, die entsprechenden Gesetze des Datenschutzes zu beachten. Dabei ist die Verwendung anonymer Nutzungsprofile zulässig. Wenn man diese mit vorhandenen personenbezogenen Daten kombiniert, ist aber Vorsicht geboten. Auch daher wird die Nutzung und Auswertung anonymer Daten immer wichtiger, da auf diese Weise wertvolle Informationen gewonnen werden können ohne mit dem Datenschutzgesetz in Konflikt zu geraten. Aus rechtlichen und aber auch aus ethischen Gründen ist es richtig, Nutzer einer Website über die Datenerhebung zu informieren und gegebenenfalls auch das Einverständnis zur Nutzung der Daten 32 33 einzuholen. 29 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.292 30 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.292-923 31 Vgl. Homburg, Ch.; Krohmer, H. (2003), S.332 32 Vgl. Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.282 13

5 Möglichkeiten und Grenzen des Dank den Erkenntnissen aus dem lässt sich eine Website optimieren und ausbauen, so dass sie möglichst genau den Bedürfnissen, den Ansprüchen und Interessen der Nutzer entspricht. Sie können umfassender und auch persönlicher angesprochen und bedient werden. Dank den relativ zuverlässigen Informationen, können die Erfolgsfaktoren ermittelt und jedenfalls teilweise auch gesteuert werden. Die mit gefundenen Erkenntnisse, lassen sich auch im Marketingbereich einsetzten. Gerade bei Werbekampagnen im Internet steht man so nicht mehr einer anonymen Menge von Nutzern gegenüber, sonder kann diese mindestens teilweise charakterisieren. Dabei bleibt der Nutzen nicht nur auf den Internet-Bereich des Unternehmens beschränkt. Dank umfassenderen Informationen ist auch auf der Offlienebene ein besserer Dialog möglich. Um sich aber wirklich ein umfassendes Bild der Nutzer eines Website-Angebots machen zu können, müssen die Nutzer auch etwas von ihrer Anonymität preisgeben und sich freiwillig zu erkennen geben. Sie müssen bereit sein, sich zu registrieren und persönliche Daten mitzuteilen. Ohne diese Daten, ist die Zuordnung von Präferenzen zu einzelnen Personen schwierig und führt zu unscharfen Erkenntnissen. Um die Nutzer soweit zu bringen, die Anonymität aufzugeben und persönliche Daten preiszugeben, muss eine Vertrauensbasis geschaffen werden. Dem Nutzer muss klar sein, dass seine Daten auch ihm gehören, dass sie vor dem Zugriff Dritter geschützt werden und auch welchen Gegenwert er für seine persönlichen Angaben erhält. Es fragt sich auch, wie viel Personalisierung Internetkunden wirklich wollen und wann diese als zu aufdringlich und zu untransparent wahrgenommen wird. Im deutschsprachigen Raum sind nur wenige Informationen über den Einsatz und den Erfolg von Projekten in der Praxis zu finden. In einer Umfrage 34 der Katholischen Universität Eichstätt-Ingolstadt wurde ermittelt, dass momentan das Generieren von Kundeninformationen und auch die Personalisierung von Websites als die beiden Ziele des Einsatzes in der Praxis von deutschen 33 Gesetze und Kommentare zum Datenschutz in der Schweiz findet man unter: http://www.edsb.ch/d/gesetz/schweiz/index.htm 34 Teile der Umfrage finden sich in Hippner, H. / Merzenich, M. / Wilde, K.D. (2004), S.293-294 14

Unternehmen sind. Auch die zielgruppengerechte Platzierung von Inhalten und, die Verwendung der Informationen zur Erfolgskontrolle, zur Dokumentation und zur strategischen Planung werden als Einsatzgrund genannt. 35 Weiter gilt es zu beachten, dass mit den vorgestellten Analysen nur Informationen über Nutzer gesammelt werden können. Es werden nur Personen erfasst, die schon mindestens einmal auf die Website gelangt sind. Potentielle Besucher die auch einmal Kunde werden könnten, die aber aus irgendwelchen Gründen noch nicht auf das Webangebot gestossen sind, werden nicht erfasst. Dabei kann es sein, dass sie wegen Zugangsbarrieren des Webangebots aussen vor bleiben müssen. Daher ist also wichtig, neben guten Methoden, auch auf eine gute Zugänglichkeit und eine hohe Benutzerfreundlichkeit des Webangebots zu achten um nicht Kunden auszusperren. 35 Vgl. Gentsch, P. (2002) 15

Literaturverzeichnis Ceyp, M.H. (2002): Potentiale des für das Dialog Marketing. In: Schögel, M. / Schmidt, I: ECRM, symposium 2002, S. 105-125 Englbrecht, A. / Hippner, H. / Wilde, K.D. (2004): ecrm Konzeptionelle Grundlagen und Instrumente zur Unterstützung der Kundenprozesse im Internet. In: Wilde, K.D. / Hippner, H. (Hrsg.): IT-Systeme im CRM - Aufbau und Potenziale, Gabler, Wiesbaden, S. 268-295 Gentsch, P. (2002): Kundengewinnung und bindung im Internet: Möglichkeiten und Grenzen des analytischen CRM. In: Schögel, M. / Schmidt, I: ECRM, symposium 2002, S. 105-125 Hippner, H. / Merzenich, M. / Wilde, K.D. (2002): im E-CRM. In: Schögel, M. / Schmidt, I.: ECRM, symposium 2002, S.87-104 Hippner, H. / Merzenich, M. / Wilde, K.D. (2004): - Grundlagen und Einsatzpotentiale im ecrm. In: Wilde, K.D. / Hippner, H. (Hrsg.): IT-Systeme im CRM - Aufbau und Potenziale, Gabler, Wiesbaden, S. 268-295 Homburg, Ch.; Krohmer, H. (2003): Marketingmanagement. Gabler, Wiesbaden, 1. Aufl. 16