Data Mining im e-commerce am Beispiel der Deutschen Bahn AG



Ähnliche Dokumente
Anleitung über den Umgang mit Schildern

Senioren ans Netz. schreiben kurze Texte. Lektion 9 in Themen aktuell 2, nach Übung 7

In 8 Schritten zum OnlineTicket

Verarbeitung von ZV-Dateien im Internetbanking. Inhalt. 1. Datei einlesen Datei anzeigen, ändern, löschen Auftrag ausführen...

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Abi-Retter-Strategien: Texterörterung. Das komplette Material finden Sie hier:

Info zum Zusammenhang von Auflösung und Genauigkeit

Shopz Zugang Neuanmeldung

MdtTax Programm. Programm Dokumentation. Datenbank Schnittstelle. Das Hauptmenü. Die Bedienung des Programms geht über das Hauptmenü.

ÖBB Businesscard. Im Ticketshop. Registrierung, Anmeldung, Buchung. tickets.oebb.at

Grundkenntnisse am PC Das Internet

Bahn-Tix Kurze Wege zur Fahrkarte

Mobile Intranet in Unternehmen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Erfahrungen mit Hartz IV- Empfängern

Benutzung der LS-Miniscanner

Alltag mit dem Android Smartphone

Elexis-BlueEvidence-Connector

Der Jazz Veranstaltungskalender für Deutschland, Österreich und die Schweiz

Aber zuerst: Was versteht man unter Stromverbrauch im Standby-Modus (Leerlaufverlust)?

Dann zahlt die Regierung einen Teil der Kosten oder alle Kosten für den Dolmetscher.

Speicher in der Cloud

Barcodedatei importieren

Handbuch zur Anlage von Turnieren auf der NÖEV-Homepage

Generelle Info s zur elektronischen Stecktafel der Tennisabteilung

Nachts in der Stadt. Andrea Behnke: Wenn es Nacht wird Persen Verlag

WERKZEUG KUNDENGRUPPEN BILDEN

Wir machen neue Politik für Baden-Württemberg

Professionelle Seminare im Bereich MS-Office

Was ist das Budget für Arbeit?

ecaros2 - Accountmanager

Stammdatenanlage über den Einrichtungsassistenten

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Gezielt über Folien hinweg springen

RailMaster Neues mit Version 7.00.p27.07 zum

Örtliche Angebots- und Teilhabeplanung im Landkreis Weilheim-Schongau

Anbindung des eibport an das Internet

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

GEVITAS Farben-Reaktionstest

Benutzerhandbuch - Elterliche Kontrolle

Programmentwicklungen, Webseitenerstellung, Zeiterfassung, Zutrittskontrolle

Technical Note 0606 ewon

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Professionelle Seminare im Bereich MS-Office

Leichte-Sprache-Bilder

Konfiguration der tiptel Yeastar MyPBX IP-Telefonanlagen mit Peoplefone Business SIP Trunk

Mobiler. Vernetzter. Emotionaler. Wie SBG auf die Entwicklung des Internets reagiert

1. TEIL (3 5 Fragen) Freizeit, Unterhaltung 2,5 Min.

Zahlen auf einen Blick

Teaser-Bilder erstellen mit GIMP. Bildbearbeitung mit GIMP 1

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

BENUTZERHANDBUCH für. Inhaltsverzeichnis. 1. Anmeldung. 2. Rangliste ansehen. 3. Platzreservierung. 4. Forderungen anzeigen

Buchhaltung mit WISO EÜR & Kasse 2011

Berechnung der Erhöhung der Durchschnittsprämien

Ist Fernsehen schädlich für die eigene Meinung oder fördert es unabhängig zu denken?

teischl.com Software Design & Services e.u. office@teischl.com

Wenn nicht alle alles mitbekommen sollen: Surfspuren vollständig beseitigen

Handbuch ECDL 2003 Professional Modul 3: Kommunikation Kalender freigeben und andere Kalender aufrufen

NODELOCKED LIZENZ generieren (ab ST4)

II. Daten sichern und wiederherstellen 1. Daten sichern

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Der Task-Manager

Leittexte für Ausbilderinnen und Ausbilder in den IT-Berufen. Band 2: Die neuen IT-Prüfungen

Mind Mapping am PC. für Präsentationen, Vorträge, Selbstmanagement. von Isolde Kommer, Helmut Reinke. 1. Auflage. Hanser München 1999

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Elternzeit Was ist das?

Information zum Projekt. Mitwirkung von Menschen mit Demenz in ihrem Stadtteil oder Quartier

BEDIENUNGSANLEITUNG ZUR TENNISPLATZRESERVIERUNG MIT DEM ONLINE BUCHUNGSSYSTEM VON EBUSY LITE

Welche Bereiche gibt es auf der Internetseite vom Bundes-Aufsichtsamt für Flugsicherung?

MORE Profile. Pass- und Lizenzverwaltungssystem. Stand: MORE Projects GmbH

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Anleitung SEPA-Lastschriften mit VR-NetWorld Software 5

Dokumentation zur Versendung der Statistik Daten

Webalizer HOWTO. Stand:

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Anleitung zum Erstellen eines Freihaltetermins

Inbetriebnahme einer Fritzbox-Fon an einem DSLmobil Anschluss Konfiguration einer PPPOE-Einwahl (DSLmobil per Funk)

Informationsblatt Induktionsbeweis

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Arbeitsmarkteffekte von Umschulungen im Bereich der Altenpflege

1 Mathematische Grundlagen

Arbeitshilfen Messecontrolling Wie geht denn das?

Lehrer: Einschreibemethoden

Schuldenbarometer 1. Q. 2009

Dokumentation zeitgesteuerter -Versand mit Attachments. zum Projekt. Deutsche Gesellschaft für Zahn-, Mund- und Kieferheilkunde

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

Leseprobe. Bruno Augustoni. Professionell präsentieren. ISBN (Buch): ISBN (E-Book):

Wie Sie mit Mastern arbeiten

Das Seminar ist eine Prüfungsleistung für Bachelor und Masterstudierende der Informatik!

Windows 98 / Windows NT mit NCP WAN Miniport-Treiber 23. Oktober 1998

Internationales Altkatholisches Laienforum

Einfügen von Bildern innerhalb eines Beitrages

Handbuch. NAFI Online-Spezial. Kunden- / Datenverwaltung. 1. Auflage. (Stand: )

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Anleitung SEPA-Lastschriften mit VR- NetWorld Software 5

Erfahrungsbericht. Ich erkläre mich mit der Veröffentlichung meines Erfahrungsberichtes (ohne

SMS-Tool. Seite 1 von 8

Insiderwissen Hintergrund

Kapitel 4 Die Datenbank Kuchenbestellung Seite 1

Monatstreff für Menschen ab 50 Temporäre Dateien / Browserverlauf löschen / Cookies

Vorgehensweise bei Lastschriftverfahren

)XQNWLRQVWDVWH8PEXFKHQ

Transkript:

Fellowship Data Mining im e-commerce am Beispiel der Deutschen Bahn AG Katja Steuernagel Universität Kaiserslautern Momentan: GIP AG Göttelmannstraße 17 55130 Mainz katja@katja-steuernagel.de Zusammenfassung Die Deutsche Bahn AG bietet einen Großteil ihrer Fahrkarten bereits im Internet zum Kauf an. Die vorliegende Diplomarbeit versucht, diese Käufer zu klassifizieren und weitergehende Aussagen über den Verlauf der Verkaufstransaktion zu treffen. Dabei kommen Methoden der Sequenz- und Clusteranalyse sowie Neuronale Netze und Entscheidungsbaumverfahren zum Einsatz. Keywords: Web Mining, Clusteranalyse, Sequenzanalyse, SAS WebHound, SAS Enterprise Miner. 1 Problemstellung Die Deutsche Bahn AG bietet einen Großteil ihrer Fahrkarten bereits im Internet zum Kauf an. Diese Möglichkeit wird jedoch nur von einem geringen Prozentsatz der Besucher der Webseiten genutzt. Diese Diplomarbeit beschäftigt sich mit der Frage, wie man die Käufer bzw. Nicht-Käufer charakterisieren kann und welche Aussagen über den Verlauf der Verkaufstransaktion zu treffen sind. Es wird untersucht, welche Pfade die Benutzer auf den Webseiten genommen haben und welche davon besonders häufig zu einem erfolgreichen Ende oder auch einem Abbruch führten. 273

K. Steuernagel Mit Hilfe dieser gewonnenen Erkenntnisse und weiterer Daten zu den gekauften Fahrkarten wird dann versucht, eine Einteilung der Besucher in Segmente vorzunehmen. 2 Vorhandene Daten Zur Analyse werden aus dem Webangebot der Deutschen Bahn AG zwei Transaktionen herausgegriffen und miteinander verglichen. Dies ist zum Einen das Angebot Surf&Rail. Dabei handelt es sich um ausschließlich im Internet buchbare Fahrkarte zu speziellen Konditionen. Zum Anderen werden Daten aus dem Fahrkartenshop zur Analyse herangezogen. Hier kann man beliebige Fahrkarten zum Normalpreis (keine Sonder- und Pauschalangebote) der Deutschen Bahn AG erwerben. Bei beiden Transaktionen sind Daten zu folgenden Bereichen aus dem Januar und Februar 2002 vorhanden: Start- und Zielpunkt der Reise, Datum Gebuchte Zugnummer, Klasse, Sitzplatz (Großraum, Abteil usw.), Besonderheiten (Handyzone, Ruhezone), Nichtraucher- oder Raucherbereich Datum und Uhrzeit der Buchung, IP-Adresse und User Agent des Surfers (nicht) erfolgreiches Ende der Buchung Anzahl der gemeinsam buchenden Personen, bei Surf&Rail auch Vorhandensein einer Bahncard Verweildauer auf den einzelnen Webseiten, Ein- und Ausstiegsseiten Diese Angaben reichen für ein erfolgreiches Data Mining wohl noch nicht aus und werden deshalb durch weitere Daten aufbereitet. Dazu gehören beispielsweise: Bundesland und Einwohnerzahl des Start- bzw. Zielortes Zur benutzten Zugnummer gehöriger Zugtyp (ICE, IC usw.) Wochentage der benutzten Daten Per DNS-Reverse-Lookup aus der IP-Adresse ermittelte Angaben (Surfer surft über den Zugang eines Providers, einer Universität o.ä.) Problematisch ist vor allem die große Anzahl der möglichen Ausprägungen eines Attributes. So können bei der Deutschen Bahn AG Fahrkarten zu etwa 6000 verschiedenen Bahnhöfen innerhalb Deutschlands gekauft werden. Diese 274

Fellowship Angabe des Start- und Zielbahnhofs in eine für das Data Mining verwendbare Größe zu transformieren ist beispielsweise eine Aufgabe, die bewältigt werden muss. Leider kann aufgrund des Fehlens von eindeutigen Identifikationsmerkmalen (Cookies, CGI-Parameter etc.) der Benutzer nur während der Session verfolgt werden. Eine sessionübergreifende Wiedererkennung bereits bekannter Benutzer ist damit nicht möglich. 3 Datenanalyse Zur Einlesen der Logdaten im Extended Log File Format wird der SAS Web- Hound 4.0 verwendet. Die Logs im serverspezifischen Format werden mittels eigener Perl-Skripten eingelesen und danach in Base SAS mit den bereits eingelesenen Logdaten verknüpft. Mit dem SAS WebHound 4.0 wird außerdem noch die Untersuchung der Benutzerpfade durchgeführt. Für das eigentliche Data Mining kommt der SAS Enterprise Miner zum Einsatz. 4 Erste Ergebnisse Ein Vergleich der angebotenen und nachgefragten Surf&Rail -Verbindungen ergab folgendes Bild: Abbildung 1: Vergleich von Angebot und Nachfrage der Verbindungen bei Surf&Rail 275

K. Steuernagel Man kann leicht erkennen, daß es einen relativ linearen Zusammenhang zwischen den angebotenen und benutzten Zugverbindungen gibt. Nur einige Ausreißer wie beispielsweise Dortmund und Augsburg mit einer relativ guten Nachfrage bei einem schlechten Angebot sowie Kiel und Bielefeld mit einer relativ schlechten Nachfrage bei einem guten Angebot sind vorhanden. Weiterhin konnten mit dem SAS WebHound die Benutzerpfade visualisiert werden, wie dies beispielhaft in der untenstehenden Grafik gezeigt wird: Abbildung 2: Visualisierung der Benutzerpfade Dabei ist deutlich zu sehen, daß ein Großteil der Besucher des Webangebotes sehr lange in den Angeboten blättern muß, um die passende Verbindung zu finden. Allerdings erreicht ein sehr großer Anteil der Surfer die Buchung eines Tickets. Weiterhin wurde eine erste Einteilung der Käufer der Surf&Rail -Fahrkarten in Cluster durchgeführt. Dies führte zu folgendem Ergebnis: Abbildung 3: Erstes Ergebnis einer Clusteranalyse der Käufer 276

Fellowship Bei dieser Analyse wurden 7 Cluster gefunden, die eine Einteilung der Käufer ermöglichen. Dabei steht beispielsweise ein Cluster für die allein reisenden Kunden, die nur wenige Tage unterwegs sind und vorzugsweise den ICE benutzen. In einem anderen Cluster finden sich dann Gruppenreisende, die meist übers Wochenende wegfahren und auf keinen bestimmten Zugtyp festgelegt sind. Diese Clusterung ist aber noch zu verbessern, da nicht alle möglichen Attribute der Käufer berücksichtig wurden. Eine Einbeziehung weiterer Daten und eigener Algorithmen sollte obiges Ergebnis noch verbessern. 5 Ausblick Die Diplomarbeit befindet sich momentan noch in der Startphase. Deshalb werden in nächster Zukunft noch weitere Ergebnisse dazukommen. Spätestens ab Juli 2002 werden diese auch in der schriftlichen Ausarbeitung auf meiner Webseite (http://www.katja-steuernagel.de) verfügbar sein. Aufgrund einiger Probleme mit dem Webdesign der Deutschen Bahn AG könnte eine leichte Veränderung des Aufbaus der Buchungsdialoge ein deutlich besseres Data Mining ermöglichen. Eine bessere Verfolgbarkeit der Benutzerpfade sollte dann eine bessere Segmentierung des Kundenverhaltens ermöglichen. Literatur [1] Pitkow, J. (1997). In search of reliable usage data on the WWW. In: Sixth International World Wide Web Conference. pages 451-463. Santa Clara, CA [2] Hippner, H., Küsters, U., Meyer, M. und Wilde, K. (2001). Handbuch Data Mining im Marketing. Vieweg Verlag. Braunschweig/Wiesbaden [3] Enterprise Miner: www.sas.com/offices/europe/germany/solutions/customer.html [4] Webhound: www.sas.com/offices/europe/germany/solutions/ e-intelligence.html [5] Jäger, B., Wodny, M. und Rudolph, P.E. (2001). Clusteranalyse mit Binärdaten. Vortrag KSFE 2001. Universität Hohenheim. 277